인공지능 발전의 궁극적인 목표는 강인공지능의 개발입니다. AGI(Artificial General Intelligence)라고도 불리는 강인공지능은 약인공지능과 대비되는 개념입니다. 약인공지능은 주어진 업무를 수행하는 데 집중한 알고리즘인 반면 강인공지능은 사람과 같은 지성을 가진 인공지능으로서, 사람이 수행할 수 있는 업무의 모든 부분을 담당할 수 있습니다.
딥러닝의 빠른 발전을 통해 약인공지능이라고 불릴만한 알고리즘은 많이 개발되어왔으나, 강인공지능은 개발은 커녕 그 개념초자 아직 모호합니다. 강인공지능의 발전에 따른 윤리/철학적인 문제에 대한 논의가 아직 충분하지 않고, 많은 기업들은 강인공지능의 개발을 마케팅 수단의 일환으로 사용하기도 합니다.
그러나, 지난 3월 마이크로소프트가 GPT-4가 AGI의 불씨라는 주장을 담은 논문을 arxiv에 제기했습니다. 대규모 언어 모델인 GPT-4가 다양한 분야를 학습하고 수행할 수 있는 디딤돌이 된다는 주장입니다. 실제로 ChatGPT 는 전문적인 지식이 필요한 의학/법학/프로그래밍 등의 분야에서 수준급의 실력을 보여왔습니다.
이번에 나온 HuggingGPT는 ChatGPT를 AGI로 만들고자 하는 논문입니다. HuggingGPT는 다양한 AI 모델을 오픈소스로 공유할 수 있는 커뮤니티인 HuggingFace와 ChatGPT의 합성어입니다. HuggingFace의 AI 모델과 ChatGPT의 시너지를 통해 복잡한 AI 작업을 해결할 수 있을 것으로 기대됩니다.
논문에서는 대규모 언어모델인 ChatGPT가 기존 AI 모델을 관리하는 컨트롤러로 작동합니다. ChatGPT가 응답을 받아 작업계획을 수립하고, HuggingFace의 다양한 AI 모델의 설명에 따라 하위 작업을 실행시킵니다. ChatGPT는 AI 작업의 결과에 따라 응답을 요약하고 보여줍니다. HuggingGPT가 풀 수 있는 작업들은 비전, 음성, 언어 등 매우 방대하며, 성능 또한 인상적입니다.
위 그림은 HuggingGPT의 구조를 나타냅니다. 받은 질문은 “이 그림이 무엇인고 얼마나 많은 물체가 있는 지 설명해줘”입니다. ChatGPT는 작업을 계획하여 AI 모델(비전, VQA 등)을 선택합니다. 선택된 모델을 HuggingFace에서 실행시키고 결과를 받아 요약하여 보여줍니다.
다른 실험 예시들은 더욱 놀랍습니다.
질문: “example.jpg에 있는 소년과 같은 포즈를 취하고 있는 여자 아이가 책을 읽고 있는 이미지를 생성해줘, 그리고 그 이미지를 너의 목소리로 요약해줘’
위 예시에서 사용된 AI 모델들은 아래와 같습니다.
- Image classification
- Object Detection
- Pose estimation
- Text-to-image
- Image captioning
- Text-to-speech
다른 예시에서 사용된 질문들 또한 놀라울 정도로 매우 복잡한데 모두 적절한 AI 모델을 찾아서 수행해주었습니다.
모델의 구조 자체는 ChatGPT와 HuggingFace를 결합한 것이 거의 전부이지만, ChatGPT를 사용하고 다양하고 매우 복잡한 문제를 풀 수 있다는 실마리를 제공하였다는 점에서 강인공지능이 일부로 나마 구현이 된 것처럼 보입니다. 하지만, 강인공지능을 구현하기 위해서는 뇌와 같이 모든 모델이 하나의 DNN내에서 작동되어야 하지 않을까라는 개인적인 생각이 듭니다.
참고
https://arxiv.org/pdf/2303.17580v2.pdf
https://namu.wiki/w/%EC%9D%B8%EA%B3%B5%20%EC%9D%BC%EB%B0%98%20%EC%A7%80%EB%8A%A5
https://namu.wiki/w/%EA%B0%95%EC%9D%B8%EA%B3%B5%EC%A7%80%EB%8A%A5
'인공지능' 카테고리의 다른 글
Zero-1-to-3: Zero-shot One Image to 3D Object 리뷰 (0) | 2023.03.23 |
---|