본문 바로가기
노코딩AI/AI설명

microsoft visual chatgpt 출시 및 colab 사용법 가이드

by 노마드랩스 2023. 3. 15.
728x90
반응형

Microsoft 연구원들은 최근 ChatGPT의 기능과 안정적 확산과 같은 시각적 기반 모델을 결합하는 것을 목표로 하는 논문을 발표했습니다. 'Visual ChatGPT'라고 불리는 이 아키텍처는 텍스트-대-이미지 생성과 자연어 생성 사이의 간극을 메우고자 합니다.

AIM이 예측한 대로, 이것이 텍스트-이미지 알고리즘이 나아갈 길인 것 같습니다. 이 접근 방식은 ChatGPT와 같은 LLM의 강점과 이미지 생성 기능을 결합하여 두 플랫폼의 단점을 모두 커버하는 포괄적인 패키지를 제공합니다. 매개변수 기반 이미지 생성 모델에 자연어 처리를 도입함으로써 보다 유기적인 방식으로 AI와 상호 작용할 수 있습니다. 

Visual ChatGPT는 어떻게 작동하나요?

간단히 말해, Visual ChatGPT는 ChatGPT 기술에 이미지 공유 기능을 추가한 것입니다. 이 기능은 '프롬프트 매니저'를 사용하여 Stable Diffusion, ControlNet, BLIP 및 ChatGPT 자체와 같은 다양한 시각적 기반 모델 간에 정보를 공유함으로써 이루어집니다.

프롬프트 관리자는 ChatGPT와 이러한 VFM 간의 인터페이스를 통해 출력을 원활하게 처리합니다. 예를 들어 레스토랑의 주방을 생각해 보세요. ChatGPT가 고객의 주문을 받는 웨이터와 같다면, VFM은 주방에서 요리를 만드는 셰프와 같습니다. 프롬프트 매니저는 주방 매니저의 역할을 맡아 웨이터와 셰프 사이에서 주문과 음식을 전달합니다.

 

프롬프트 매니저가 아키텍처에서 작동하는 방식에 대한 순서도. (출처: Microsoft Research)


따라서 프롬프트 매니저에는 추론 형식과 같은 일부 로직이 포함되어 있어 ChatGPT가 필요한 출력을 제공하기 위해 도구(예: VFM)를 사용해야 하는지 여부를 결정하는 데 도움이 됩니다. 또한 PM은 출력 이미지를 미세 조정하는 데 사용되는 반복적인 추론도 처리합니다. 또한 ChatGPT 출력의 파일 이름을 관리하고 이미지 파일 이름을 추적하는 등의 특정 관리 작업도 처리합니다.  

프롬프트 관리자는 언어가 아닌 모든 유형의 쿼리에 응답하기 위해 ChatGPT가 호출하는 것이므로 실제로 이 시스템의 핵심입니다. 프롬프트 관리자는 사용자를 대신하여 일련의 맞춤형 프롬프트를 통해 필요한 출력으로 ChatGPT를 이동시킵니다. 그 결과, 프롬프트 관리자를 통해 VFM의 기능을 호출하는 대신 환각에 의존하지 않는 훨씬 더 유능한 ChatGPT 버전이 탄생했습니다.

Visual ChatGPT는 그 자체로도 훌륭하지만, 더 흥미로운 선례를 남겼습니다. LLM과 시각적 모델의 강력한 기능을 결합하는 것이 가능할까요? 그리고 이것이 AGI를 향한 첫걸음 중 하나가 될 수 있을까요? 저는 시작되었다고 봅니다. 아직 갈길은 멀어보이지만, 재밌네요.

 

반응형

데모 영상

출처: https://github.com/microsoft/visual-chatgpt

 

Colab으로 실습해보기

 

아래는 visual ChatGPT Colab 실습 링크입니다.

 

https://colab.research.google.com/drive/11BtP3h-w0dZjA-X8JsS9_eo8OeGYvxXB

 

VisualChatGPT

Colaboratory notebook

colab.research.google.com

 

Colab은 사용할 줄 안다고 가정하고 말씀드릴게요.

 

각 행마다 왼쪽에 > 이런 재생 버튼을 눌러주기만 하시면 실행이 됩니다.

그리고 4번에는 본인의 OPENAI_API_KEY를 입력해주세요.

 

OPENAI_API_KEY 옆에 본인의 API KEY를 입력해주세요

 

 

API 발급 할 수 있는 사이트 링크 아래에 공유드립니다.

 

https://openai.com/blog/openai-api

 

OpenAI API

We’re releasing an API for accessing new AI models developed by OpenAI.

openai.com

 

작동 결과를 한번 보겠습니다.

뭐야 잘 안되네...라고 하려다가

이미지를 보고 정확하게 색깔하고 줄무늬까지 맞추네요.

여러분도 한번 해보세요

 

텍스트-이미지 변환의 얼굴 바꾸기

텍스트-대-이미지 모델의 작동 방식에는 근본적인 문제가 있는데, 바로 언어적 맥락에 대한 이해가 부족하다는 점입니다. 제너레이티브 AI 모델의 관계적 이해를 탐구한 한 논문에서 연구자들은 이러한 모델이 특정 사물의 물리적 관계를 '이해'하지 못한다는 사실을 발견했습니다.

예를 들어, 이 모델은 '그릇을 만지는 아이'에 대한 이미지를 생성할 수 있었지만 '이구아나를 만지는 원숭이'에 대한 이미지는 생성하지 못했습니다. 이는 후자의 시나리오에 대한 학습 데이터에 충분한 정보가 없기 때문에 부적절한 응답으로 이어지기 때문입니다. 이러한 텍스트-이미지 모델의 한계를 극복하기 위해 AI 위스퍼러 또는 프롬프트 엔지니어링이라는 새로운 직업이 등장했습니다. 

AI 모델이 인간을 '이해'하도록 만드는 과정은 아직 미지의 영역으로, 신예 AI 아티스트들이 서서히 그 영역을 개척해 나가고 있습니다. 그렇기 때문에 'PromptHero'와 같이 텍스트-이미지 변환 알고리즘을 위한 프롬프트 저장소가 있는 웹사이트가 존재하며, 의미 없어 보이는 단어 수프가 멋진 AI 이미지를 제공할 수 있는 이유이기도 합니다. 아래 예시를 살펴보세요. 

 

좋은 AI 아트에는 매우 구체적인 프롬프트가 필요합니다. (출처: PromptHero)

 

이 이미지에서 볼 수 있듯이 텍스트-이미지 모델에서 견고한 결과물을 얻으려면 무엇을 프롬프트할지에 대한 포괄적인 지식 기반이 필요합니다. 완성된 이미지에서 특정 특성을 피하기 위해 네거티브 프롬프트도 사용됩니다. Microsoft의 프롬프트 관리자가 취하고 있는 방향을 보면 잠재력은 무궁무진합니다.

GitHub 페이지에 제공된 예제를 보면 사용자가 모델에 정보를 전달하기 위해 복잡한 프롬프트에 관여할 필요가 없다는 것을 알 수 있습니다. 사용자는 모델에서 원하는 것을 자연어로 입력하기만 하면 됩니다. 예를 들어, 사용자는 고양이 이미지를 생성한 후 ChatGPT에 고양이를 개로 바꾸라고 요청합니다. 복잡한 프롬프트 없이 이미지가 생성되고 사용자는 색상을 변경하는 등 반복적으로 이미지를 변경할 수 있습니다. 

Visual ChatGPT와 같은 도구는 텍스트-이미지 모델에 대한 진입 장벽을 낮출 수 있을 뿐만 아니라 다양한 AI 도구에 상호 운용성을 추가하는 데에도 사용할 수 있습니다. 이전에는 LLM과 T2I 모델이 사일로에 존재했지만 프롬프트 매니저와 같은 기술을 통해 이러한 최첨단 모델의 기능을 증폭시킬 수 있습니다.

 

2023.04.03 - [노코딩AI/Stable Diffusion] - 스테이블 디퓨전 Web UI Colab으로 5분 안에 설치하는 방법

 

스테이블 디퓨전 Web UI Colab으로 5분 안에 설치하는 방법

GPU 없는 노트북으로 WebUI를 구현하는 방법에 대해 알려드리겠습니다. 구글에 Automatic1111이라고 검색하면 스테이블 디퓨전 Web UI가 나옵니다. 접속하시면 아래와 같은 화면이 나오실 건데요. Install

nomadlabs.tistory.com

 

728x90
반응형

댓글