텍스트 프롬프트 기반 ‘1분 길이 비디오’, “아직은 시범적 사용”
기존 텍스트-비디오 모델보다 성능 우수, 한층 ‘복잡한 영상’ 제작
‘동영상 제작, 웹디자인, 크리에이트 산업에 근본적 변화 예고’

오픈AI가 공개한, 텍스트 입력으로 만든 영상 [오픈AI 홈페이지 캡처]
오픈AI가 공개한, 텍스트 입력으로 만든 영상 [오픈AI 홈페이지 캡처]

[중소기업투데이 이상영 기자] 오픈AI가 지난 16일 텍스트 프롬프트를 기반으로 1분 길이의 비디오를 생성할 수 있는 소프트웨어를 출시, 텍스트-비디오 전환 AI기술 경쟁이 본격화되고 있다.

‘소라(Sora)’라고 불리는 이 소프트웨어는 아직은 일반 대중에게 보급되진 않고 있다. AI 비디오를 악용하거나 유해한 AI콘텐츠에 사용되는 것을 방지하고, 이를 식별하는 오픈AI의 ‘레드팀’만이 이를 시범적으로 사용하고 있다. 또 AI콘텐츠를 악용할 우려가 없다고 판단, 선정한 극소수의 시청각 아티스트와 디자이너에게만 시험삼아 제공되고 있다.

오픈AI 블로그에 따르면 ‘소라’는 자연어 텍스트 프롬프트에서 사실적이거나, 만화처럼 움직이는 이미지를 생성할 수 있는 새로운 텍스트-비디오 전환 모델이다. 현재는 시중에 출시하기 전에 사내 보안 연구팀이 그 부작용이나 위험을 평가하고 있다. “악용 위험을 최소화하면서도 창의적인 작업에 가장 잘 최적화될 수 있는 방법에 대한 피드백을 모색하는 단계”라는 오픈AI의 설명이다.

런웨이, 플리키, 애플 등도 개발

텍스트-비디오 모델은 ‘소라’가 처음은 아니다. 이미 성능 차이는 있을지언정 이와 유사한 모델이 개발, 출시된 바 있다. AI 소프트웨어 개발사 런웨이(Runway)가 이미 기업용 텍스트-비디오 AI 생성 모델인 ‘Gen 2’를 선보였다. 또 동종업체인 플리키(Fliki)도 소셜 미디어 내레이션을 위한 음성 동기화(Text to Video) 모델을 통해 일단 제한된 범위에서나마 영상을 만들 수 있게 했다.

지난 8일에는 Apple 연구원들이 일정한 틀의 애니메이션 이미지를 생성할 수 있는 대규모 언어 모델인 ‘Keyframer’에 대한 논문을 공개, 역시 텍스트-비디오 모델 개발을 예고했다. 이번에 더욱 성능이 뛰어난 ‘소라’가 출시되면서, 생성AI를 기반으로 한 텍스트-비디오 모델 경쟁이 본격화될 조짐이다.

또한 이런 추세는 기존 웹디자인, 동영상 제작 등의 산업에도 큰 영향을 끼칠 전망이다. 그 때문에 향후 모든 동영상 기법에 이같은 텍스트-비디오 AI모델이 접목되면서, 크리에이트 산업 전반의 지형 변화를 가져올 것이란 전망이다.

시장분석기관 가트너는 이 제품 개발 소식에 ““미디어 및 엔터테인먼트는 이러한 모델을 가장 빨리 접목할 수 있는 산업이 될 것”이라며 ““기술기업(테크)이나 일반 기업을 막론하고 마케팅, 디자인과 같은 비즈니스 기능도 이를 활용할 ‘얼리 어댑터’가 될 수 있다.”고 내다봤다.

소셜미디어 콘텐츠 홍보, 비즈니스 PT 등에 유용

로이터통신에 따르면 일단 ‘소라(Sora)’는 여러 캐릭터, 특정 유형의 동작, 피사체와 배경의 정확한 세부 정보로 복잡한 장면을 생성할 수 있다. 또 단일 비디오 내에서 여러 장면을 만들 수 있다. 오픈AI는 “‘소라’는 텍스트 프롬프트에서 비디오를 생성하는 것 외에도 정지 이미지에 애니메이션을 적용할 수 있다”고 로이터통신에 밝혔다. 또 “촬영한 비디오에 안정적으로 콘텐츠를 추가하거나 편집할 수 있다.”고도 했다.

‘소라’는 또 콘텐츠와 함께 제공되는 비디오를 생성하거나, 소셜 미디어에서 콘텐츠나 제품을 홍보하거나, 비즈니스 프레젠테이션에서 요점만을 요약하는데 매우 요긴하게 쓰일 것으로 보인다.

기술매체 ‘테크리퍼블릭’은 “전문 비디오 제작자의 창의적인 정신을 대체해서는 안 되지만, Sora를 사용하면 분명 콘텐츠를 더 빠르고 쉽게 만들 수 있다”면서 “오픈AI는 결국 ‘소라’를 챗GPT 엔터프라이즈(기업용) 구독에 통합할 가능성이 크다”고 예상했다.

‘소라’의 기반이 된 비디오 생성 소프트웨어는 오픈AI의 챗GPT 챗봇 기술을 바탕으로 한다. 이메일 작성, 코드 제작, 시(詩) 작성 기능 등 범용 AGI를 지향하는 챗GPT 기술을 응용한 것이다.

‘소라’는 개발 과정에서 일단 프롬프트를 기반으로 갖가지 미완성 이미지를 점차 이해 가능한 이미지로 다듬어가는 ‘변환기 아키텍처’를 사용한 것이다. 오픈AI의 이미지 생성 모델 ‘DALL-E’나, GPT 모델을 생성하기 위해 수행한 기왕의 연구 성과, 특히 ‘DALL-E’의 이미지 복원 기술이 고성능 텍스트-이미지 모델인 ‘소라’를 개발해낸 동력이 되었다.

오픈AI는 또 AI 개발 콘텐츠로 인한 부작용을 최소화하기 위해 (AI가 만든 영상임을) 식별하는 기능도 부여할 예정이다. 즉, “특정 동영상이 ‘소라’에 의해 생성되었는지 식별하기 위해 메타데이터를 삽입한 워터마크를 개발, 장착할 것”이라고 밝혔다.

저작권자 © 중소기업투데이 무단전재 및 재배포 금지