본문 바로가기
재영군의IT세상

구글 비디오포엣 AI 비디오 생성기: 무엇이며 어떻게 작동하는가?

by 재영군 2024. 3. 13.
반응형

2023년 중반 구글이 팜2와 제미니 언어 모델을 발표했을 때, 이 거대 검색 기업은 자사의 AI가 다모드(multimodal)임을 강조했습니다. 이는 AI가 텍스트, 이미지, 오디오, 심지어 비디오까지 생성할 수 있다는 것을 의미했습니다. 전통적으로 챗지피티의 GPT-4와 같은 언어 모델은 텍스트 재현에만 뛰어났습니다. 그러나 구글의 최신 비디오포엣 모델은 텍스트 기반 프롬프트를 AI가 생성한 비디오로 변환할 수 있어 이러한 개념에 도전하고 있습니다.

 

구글은 비디오를 생성할 수 있는 AI를 발표한 최초의 기술 대기업이 되었습니다. 그리고 이전의 시도와는 달리 구글은 미묘한 움직임뿐만 아니라 많은 움직임이 있는 장면도 생성할 수 있다고 말합니다. 그렇다면 비디오포엣의 마법은 무엇이며, 그것은 무엇을 할 수 있을까요? 여기에 여러분이 알아야 할 모든 것이 있습니다.

구글 비디오포엣이란?

구글 비디오포엣은 텍스트 기반 프롬프트에서 비디오를 생성할 수 있는 실험적인 대형 언어 모델입니다. "로봇 고양이가 스파게티를 먹는" 것과 같이 터무니없는 가상의 장면을 묘사하더라도 몇 초 안에 볼 수 있는 비디오가 준비됩니다. 미드저니나 달리3와 같은 AI 이미지 생성기를 사용해 본 적이 있다면 비디오포엣에서 무엇을 기대해야 하는지 이미 알고 있을 것입니다.

 

AI 이미지 생성기와 마찬가지로 비디오포엣은 기존 비디오 콘텐츠에서도 편집을 수행할 수 있습니다. 예를 들어 비디오 프레임의 일부를 잘라내고 AI에게 상상력으로 그 공백을 채우도록 요청할 수도 있습니다.

 

구글은 런웨이와 같은 AI 비디오 생성에 주력하는 스타트업에 투자했지만, 비디오포엣은 구글 내부의 노력 덕분에 탄생했습니다. 비디오포엣 기술 논문에는 구글 리서치에서 31명의 연구원이 참여했습니다.

 

반응형

 

구글 비디오포엣은 어떻게 작동하는가?

앞서 언급한 논문에서 구글 연구진은 비디오포엣이 기존의 텍스트-이미지 및 텍스트-비디오 생성기와 다르다고 설명했습니다. 예를 들어 미드저니와 달리 비디오포엣은 랜덤 노이즈에서 이미지를 생성하기 위해 디퓨전 모델을 사용하지 않습니다. 이러한 접근 방식은 개별 이미지에는 잘 작동하지만 모델이 시간이 지남에 따른 움직임과 일관성을 고려해야 하는 비디오에는 적합하지 않습니다.

 

구글의 비디오포엣은 기본적으로 대규모 언어 모델입니다. 이는 단어가 문장을 형성하기 위해 어떻게 결합하는지 예측할 수 있는 챗지피티와 구글 바드에 동력을 공급하는 기술과 동일한 기술을 기반으로 한다는 것을 의미합니다. 비디오포엣은 텍스트뿐만 아니라 비디오 및 오디오 청크도 예측할 수 있어 이 개념을 한 단계 더 발전시켰습니다.

 

비디오포엣은 텍스트 대신 비디오를 생성하는 대규모 언어 모델입니다.

 

비디오포엣은 이미지, 비디오 프레임, 오디오 클립을 토큰이라고 불리는 공통 언어로 번역하는 특수한 사전 훈련 과정이 필요했습니다. 간단히 말해, 이 모델은 훈련 데이터에서 다양한 모드를 해석하는 방법을 학습했습니다. 구글은 10억 개의 이미지-텍스트 쌍과 2억 7천만 개의 공개 비디오 샘플을 사용하여 비디오포엣을 훈련했다고 밝혔습니다. 궁극적으로 비디오포엣은 기존의 LLM 모델이 텍스트 토큰을 예측하는 것처럼 비디오 토큰을 예측할 수 있게 되었습니다.

 

비디오포엣은 텍스트-비디오 생성을 넘어 다양한 작업을 수행할 수 있는 견고한 기반을 갖추고 있습니다. 예를 들어 기존 비디오에 스타일을 적용하거나, 배경 효과 추가와 같은 편집을 수행하거나, 필터를 사용하여 기존 비디오의 모양을 변경하거나, 기존 비디오의 움직이는 객체의 움직임을 변경할 수 있습니다. 구글은 후자를 너구리가 다양한 스타일로 춤을 추는 것으로 보여주었습니다.

비디오포엣 vs 라이벌 AI 비디오 생성기: 차이점은 무엇인가요?

구글의 비디오포엣은 텍스트를 비디오로 변환하기 위해 디퓨전 모델에 의존하는 대부분의 라이벌과 다릅니다. 하지만 최초는 아닙니다. 작년에 소수의 구글 브레인 연구원들이 페나키를 발표했습니다. 마찬가지로 메타의 메이크-어-비디오 프로젝트는 사전에 비디오-텍스트 쌍을 훈련하지 않고도 다양한 비디오를 생성하여 AI 커뮤니티에 큰 반향을 일으켰습니다. 그러나 두 모델 모두 공개적으로 출시되지 않았습니다.

 

따라서 우리가 비디오 생성 모델에 접근할 수 없기 때문에, 우리는 구글이 비디오포엣에 대해 제공한 정보에만 의존할 수 있습니다. 이를 염두에 두고 논문 저자는 "많은 경우 현재 선도적인 모델조차도 작은 움직임을 생성하거나 더 큰 움직임을 생성할 때 눈에 띄는 아티팩트가 나타납니다."라고 주장합니다. 반면 비디오포엣은 더 많은 움직임을 처리할 수 있습니다.

 

비디오포엣은 경쟁 모델보다 더 긴 비디오를 생성하고 움직임을 더 우아하게 처리할 수 있습니다.

 

구글은 또한 비디오포엣이 경쟁 모델보다 더 긴 비디오를 생성할 수 있다고 말합니다. 초기에는 2초 비디오만 가능하지만 8~10초의 비디오에서도 맥락을 유지할 수 있습니다. 이는 그리 많지 않게 들릴 수 있지만 그 시간 동안 장면이 얼마나 많이 변할 수 있는지를 고려하면 인상적입니다. 그럼에도 불구하고 구글의 예시 비디오는 전문적인 비디오나 영화 제작에 사용되는 초당 24프레임 또는 30프레임 기준에 훨씬 못 미치는 수십 개의 프레임만 포함되어 있습니다.

구글 비디오포엣 가용성: 무료인가요?

구글은 비디오포엣의 강점을 보여주기 위해 수십 개의 예제 비디오를 게시했지만 공개 출시를 발표하지는 않았습니다. 즉, 우리가 비디오포엣을 사용할 수 있는 시기가 언제인지, 사용할 수 있는지 여부는 알 수 없습니다.

 

구글은 아직 비디오포엣에 대한 제품이나 출시 날짜를 발표하지 않았습니다.

 

가격에 관해서는 구독을 통해서만 이용할 수 있는 미드저니와 같은 AI 이미지 생성기의 힌트를 받아들여야 할 수도 있습니다. 실제로 AI가 생성한 이미지와 비디오는 계산적으로 비용이 많이 들기 때문에 모든 사람에게 접근을 개방하는 것은 구글에게도 실현 가능하지 않을 수 있습니다. OpenAI의 ChatGPT와 같은 파괴적인 출시가 구글의 손을 강제로 움직이게 할 때까지 기다려야 할 것입니다. 그때까지는 그저 옆에서 지켜보며 기다려야 할 것입니다.

 

반응형
교차형 무한