인공지능

Zero-1-to-3: Zero-shot One Image to 3D Object 리뷰

DevHell 2023. 3. 23. 10:29

ChatGPT 요약

Zero-1-to-3는 하나의 RGB 이미지만을 가지고 객체의 카메라 시점을 변경하는 프레임워크를 소개합니다. 이 프레임워크는 자연 이미지에 대한 대규모 확산 모델이 학습한 기하학적 우선순위를 활용하여 이런 제한된 상황에서 새로운 뷰를 생성합니다. 합성 데이터셋을 사용하여 조건부 확산 모델을 학습시키고 상대적인 카메라 시점을 조절하는 컨트롤을 배우기 때문에 지정된 카메라 변환 하에서 동일한 객체의 새로운 이미지를 생성할 수 있습니다. 실제 데이터셋과 인상파 회화와 같은 외부 데이터셋에서도 잘 일반화되며 이 방법은 하나의 이미지로 3D 재구성을 수행하는 작업에도 사용할 수 있습니다. 정성적, 정량적 실험 결과, 인터넷 규모의 사전 학습을 활용하여 우리의 방법은 최첨단 단일 뷰 3D 재구성 및 새로운 뷰 합성 모델을 크게 능가합니다.

 

대표 Figure를 먼저 살펴보자

어떤 물체 사진을 찍은 이미지를 인풋으로 넣어주면 다른 각도에서 찍은 것 같은 이미지를 만들어내는 혁신적인 기술이다.

사실 어떤 물체의 뒷모습을 예상하는 것은 ill-posed 문제로서 정확한 해답이 존재할 수 없는 문제이다.

하지만 이 논문 속 모델은  stable-diffusion 을 이용하여 다양한 각도에서 찍은 사진들을 학습함으로써 가장 그럴듯한 이미지를 합성해 낸다.

 

논문에서는 위 그림과 같이 RGB 이미지 한장과 카메라의 위치 파라미터 R, T를 함께 넣어 Latent Diffusion Model을 학습시켰다고 한다.

 

하나의 각도 뿐만 아니라 다양한 각도에서 찍은 이미지를 모두 합성해낼 수 있고, 이를 통해 3D Reconstruction에도 활용될 수 있다.

 

이 기술이 상용화되고 실시간 가속이 가능해진다면,

VR, AR 등 3D 기술이 필요한 분야에 혁명이 오지 않을 까 생각해본다.

3D 모델을 만드는 것은 2D에 그림을 그리는 것만큼 쉬워질 것이고,

그에 따라 VR에 필요한 3D 디자인 생태계가 더욱 활성화 될 것이다.

 

기존에 2D로 보던 영화도 3D 로 재탄생 시킬 수 있을 것으로 기대된다.(scene to video)

그래픽스 분야에 인공지능이 적용될 날이 머지 않은 것 같다.