[AI가 어디까지 적용될까?]
ChatGPT는 이제 우리의 일상이 되었어요. 학생들은 과제 작성에, 직장인들은 업무 자동화에, 개발자들은 코딩에 ChatGPT를 활용하고 있죠. 2024년 1월 기준, ChatGPT의 일평균 방문자 수는 1억 명을 넘어섰고, 매일 전 세계에서 1억 건 이상의 질문이 쏟아지고 있다고 해요. 2024년 7월 기준으로 전 세계적으로 9억 8,700만 명이 AI 챗봇을 사용하고 있다고 하죠.

이렇게 AI가 일상에 성공적으로 활용되면서, 이제는 더 창의적인 영역으로 그 활용 범위를 넓히고 있어요. 특히 이미지, 영상, 음악 등 콘텐츠 제작 분야에서 가능성을 보여주고 있죠. 지금부터 콘텐츠 창작 분야에서 AI가 어떻게 활용되고 있는지, 그리고 어떤 혁신적인 도구들이 등장했는지 자세히 살펴보려 해요.
AI는 이제 이미지, 영상, 음악 등 다양한 형태의 콘텐츠를 제작할 수 있으며, 심지어 AI 감독이 연출한 영화까지 등장하고 있죠. 예를 들어, 할리우드에서는 스타워즈 시리즈의 대사로 유명한 “I am your father”라는 대사를 AI 음성 기술로 재현했어요. Respeecher라는 스타트업이 루카스필름으로부터 권리를 넘겨받아 제임스 얼 존스의 목소리를 AI로 재현하는 데 성공한 것이죠.

[요즘 이런 툴이 있대요]
Midjourney, DALLE, Stable Diffusion 등 AI 이미지 생성 서비스는 너무나 잘 알려져 있기 때문에 비교적 덜 알려진 창작 도구들을 소개해 드릴게요.
Suno는 텍스트만으로 음악을 만들어내는 서비스예요. 사용자가 “집중할 때 듣기 좋은 잔잔한 로파이 음악”이라고 입력하면, AI가 이에 맞는 음악을 생성하죠. K-POP, 힙합, 재즈, 클래식 등 다양한 장르를 지원하며, 한국어 프롬프트도 가능해요.

Suno에는 음악 편집과 조합 기능이 있는데요. 생성된 음악을 편집하거나 여러 트랙을 결합할 수 있는 기능을 제공하여, 사용자가 자신의 음악을 더욱 개인화할 수 있도록 돕죠. 최근에는 Kits.ai와 통합하여 AI로 생성된 보컬의 품질을 향상시켰어요. 일반인의 귀로 들으면 실제로 제작된 음원이라고 느낄 정도로 자연스러운 음원이 제작되더라고요.

Hedra도 소개해 드리고 싶은데요. Character-2라는 최신 비디오 생성 모델을 탑재한 이 도구는 정적인 이미지에 생동감을 불어넣는 기술을 제공해요. 사용자가 이미지를 업로드하고 간단한 지시문을 입력하면, AI가 자연스러운 표정과 움직임을 만들어내죠. “반짝이게 장식된 판타지 여사제의 클로즈업 샷”이라고 입력하면 아래와 같은 말하는 영상이 나오는 거예요.

특히 ReferenceNet과 FrameEncoding 기술을 활용해 원본 이미지의 정체성을 유지하면서도 자연스러운 움직임을 구현할 수 있다고 해요. 일반인의 사진이나 그림을 적용해도 말하는 영상으로 제작될 수 있죠. NVIDIA의 Audio2Face와 같은 다른 시스템들과 비교했을 때, 감정의 미묘함을 더 잘 포착한다는 평가를 받고 있어요. 음성 클로닝 기능도 훌륭해요. 사용자가 오디오 파일을 업로드하거나 AI를 통해 음악을 생성하고, 텍스트를 음성으로 변환하는 기능도 제공합니다.

세 번째로 OpusClip을 소개할게요. 긴 영상을 짧은 소셜 미디어용 클립, 즉 쇼츠나 릴스로 자동 변환해 주는 도구예요. 출시 7개월 만에 연 매출 130억, 500만 명의 사용자를 모은 스타트업으로, 현재 Billboard.com과 같은 큰 미디어 기업들도 활용하고 있죠. 풀영상을 넣으면 AI가 영상의 하이라이트를 자동으로 추출하고, 여기에 적절한 자막과 배경 영상을 더해 틱톡이나 인스타그램에 최적화된 콘텐츠를 만들어내요. 1시간짜리 영상을 올리기만 하면 쇼츠 20개를 뽑아주는 거예요.

OpusClip만의 특별한 기능들도 있어요. ‘ClipAnything’ 기능은 97% 이상의 정확도로 자동 자막을 생성하며, 사용자가 원하는 장면을 자연어로 설명하면 AI가 해당 장면을 인식하고 클립을 생성해요. 특히 멀티모달 AI 분석이 인상적인데요. 비디오의 시각적 요소, 행동, 감정, 오디오 및 대화를 종합적으로 분석해 해당 순간을 이해하고 클립을 생성할 수 있어요.

OpusClip 안에 있는 AI Virality Score 기능은 만들어진 쇼츠의 바이럴 가능성을 평가하는 점수를 제공합니다. 이 점수는 수천 개의 바이럴 비디오를 분석한 결과를 기반으로, 어떤 클립이 더 많은 조회수를 얻을 수 있을지 예측해 준다고 해요.

마지막으로 Veo 2에 관해서도 소개할게요. Google DeepMind에서 개발한 차세대 AI 영상 생성 모델인데요. 최대 4K 해상도(4096 x 2160)의 영상을 생성할 수 있고, 현실적인 물리적 움직임과 카메라 각도 조절이 가능하죠. 특히 OpenAI의 Sora와 비교했을 때, Veo 2는 3배 빠른 속도로 영상을 생성할 수 있고, 파도가 친다거나, 먼지가 흩날리거나, 햇빛이 쏟아지는 등 더 정교한 현실 세계의 물리적 움직임 표현이 가능하다는 평가를 받고 있어요. 이런 현실적인 장면을 만들 수도 있고, 비현실적인 장면도 연출할 수 있죠. Veo 2의 독특한 점은 디지털 워터마킹 기술이에요. AI 생성 콘텐츠를 식별하기 위해 SynthID 디지털 워터마크 기술이 내장되어 있어, 딥페이크 증가에 대응할 수 있는 기능도 갖추고 있다고 해요. 또한 다양한 렌즈 효과와 영화적 기법을 활용할 수 있어 창의적인 영상 제작이 가능해요.


[잘 쓰려면 어떻게 해야 할까?]
아주 다양한 도구들을 소개해 드렸는데요. 지금 AI는 매일 매일 새로운 서비스가 출시되고, 매일 ‘현존 최고’의 기술이 갱신되고 있는 영역이라 전부 배우거나 잘 쓸 수는 없다고 생각해요. 2024년 기준 AI를 기반으로하는 기업이 이렇게 많았다고 하는데요. 이 중 10%도 모르는 것 같네요.

그래도 잘 쓸 수 있는 방법을 AI에게 추천받아 왔습니다. 먼저 AI 도구가 어떻게 작동하는지, 그리고 원하는 결과물을 얻기 위해 어떤 프롬프트를 입력해야 하는지 이해하는 게 중요해요. 앞서 Veo2로 만든 초현실적인 영상의 경우 사용한 프롬프트가 정말 길어요. 어떤 구도로, 어떤 인물이, 어떤 표정과 동작으로, 어떤 분위기에 있는지를 전부 프롬프트로 작성했어요. 내가 상상하는 것, 내가 원하는 의도를 ‘설명’할 수 있는 능력이 필요하겠죠.

통합적 사고력이 필요해요. 여러 AI 도구를 효과적으로 조합하여 시너지를 만들어내는 능력이 중요하죠. 예를 들어, Hedra로 캐릭터 영상을 만들고, Suno로 배경음악을 제작한 뒤, OpusClip으로 최종 편집해 볼 수 있겠죠. 업무용 AI 툴에서도 자료는 Perplexity로 찾고, 개요는 chatGPT로 쓰고, 글은 Claude로 쓰는 사용자들도 많더라고요. 각각의 도구가 가진 장점을 잘 조합하면, 훨씬 더 풍성한 결과물을 만들어낼 수 있습니다.
AI는 이제 단순한 보조 도구를 넘어 창작의 동반자로 자리 잡고 있어요. 실제로 많은 기업과 크리에이터들이 AI를 활용해 콘텐츠 제작의 효율성을 높이고 있죠. 물론 AI의 발전이 가져오는 도전도 분명히 존재해요. 생성형 AI의 저작권 문제나 보안, 데이터 윤리 문제는 여전히 뜨거운 논쟁거리이고, AI 의존도가 높아지는 것에 대한 우려의 목소리도 있습니다.
미래에는 AI가 더욱 발전하여 지금은 상상하기 어려운 새로운 형태의 콘텐츠가 등장할 것 같은데요. 앞으로 어떤 형태로 발전해 나갈지, AI로 어떤 결과물이 나오게 될지 몹시 궁금합니다. 그래도 가장 중요한 것은 AI를 어떻게 활용할지에 대한 우리의 선택이죠. 어떤 이야기를 전달하고, 어떤 가치를 담아낼지는 여전히 우리의 몫이니까요.