다음 내용이 궁금하다면?
불편하시다면 뒤로 가기를 눌러주세요
[※ 편집자 주 = 한국국제교류재단(KF)의 지난해 발표에 따르면 세계 한류 팬은 약 2억2천500만명에 육박한다고 합니다. 또한 시간과 공간의 제약을 초월해 지구 반대편과 동시에 소통하는 '디지털 실크로드' 시대도 열리고 있습니다. 바야흐로 '한류 4.0'의 시대입니다. 연합뉴스 동포·다문화부 K컬처팀은 독자 여러분께 새로운 시선으로 한국 문화와 K컬처를 바라보는 데 도움이 되고자 전문가 칼럼 시리즈를 준비했습니다. 시리즈는 매주 게재하며 영문 한류 뉴스 사이트 K 바이브에서도 영문으로 보실 수 있습니다.]

[본인 제공]
◇ 영화 문법의 신기술, 감독의 감각 설계가 관건
2025년, 생성형 AI는 더 이상 단일 감각을 다루는 도구가 아니다. 텍스트에서 이미지, 음성, 영상으로 이어지던 단선적 발전이 이제 '시청각 통합 생성'이라는 새로운 국면으로 접어들었다.
오픈 AI(OpenAI)의 소라(Sora) 2처럼 영상과 소리를 동시에, 하나의 프롬프트로 만들어내는 모델이 등장하면서 영화 제작의 기본 단위 자체가 흔들리고 있다. 과거 AI 영상은 '놀랍지만 텅 빈' 결과물로 비판받았는데, 그 이유는 간단했다.
소리가 없었기 때문이다.
화면은 정교해도 감정의 밀도, 공간의 깊이, 사건의 인과가 전달되지 않았다. 이제 그 공백이 소리를 만들어내는 AI로 메워지며, 감독들은 '무엇을 보이게 할까'에서 '어떤 감각을 느끼게 할까'로 질문을 바꿔야 하는 시점이다.
지난 10년 AI의 여정은 '모달리티'(Modality)별 개척이었다. 스테이블 디퓨전(Stable Diffusion)과 미드저니(Midjourney)는 이미지를, 일레븐 랩스(ElevenLabs)는 음성을, 수노(Suno)는 음악을, 런웨이(Runway)는 짧은 영상을 만들어냈다. 많은 창작자는 이 조각들을 수동으로 맞추며 완성도를 높여야 했다.
하지만 지난해와 올해 등장한 통합형 시청각 생성 모델은 출발점부터 다르다. 처음부터 '사건'(event)을 시각·청각이 합쳐진 하나의 감각 단위로 학습한다. 컵이 떨어지는 장면이라면, 화면 속의 움직임과 동시에 '어떤 공간에서, 어떤 재질의 컵이, 어떤 타이밍과 반향으로 소리를 내는지'를 하나의 원인-결과 구조로 추론하는 방식이다.
이 전환이 중요한 이유는, 영화의 기본 단위가 '프레임'에서 '감각적 사건'으로 옮겨가고 있기 때문이다. 이제 프롬프트를 짤 때도 '장면 설명 + 사운드 설명'이 아니라, '어떤 사건이 어떤 감정과 공간감으로 느껴져야 하는가?'를 한 번에 설계해야 한다.
전통적 영화 미학에서 소리는 늘 영상과 동등하거나 그 이상으로 중요했다. 관객은 화면을 볼 때 동시에 소리로 아래와 같은 정보를 해석한다.
먼저, 공간 깊이와 크기를 해석해 소리의 잔향과 울림, 음색을 다룬다. 그런 다음 거리감과 위치를 알아보고 볼륨, 스테레오/서라운드 스피커 배치까지 신경을 써야 한다.
중요한 요소 중 하나가 재질감이다. 금속, 유리, 나무, 천 등의 충돌음 차이는 화면에서 느껴지는 재질감이 필수다. 스토리상 사건 간 인과관계도 빼놓을 수 없다. 먼 곳의 폭발이나 곧 등장할 위험을 예고하기 때문이다.
또한 감정적 톤을 빼놓을 수 없다. 불협화음과, 저역의 웅웅거림, 고역의 날카로움 등이 모두 감정의 영역인데 소리를 통해 톤을 이끌어낸다. 그러다 보면 화면 밖 세계(off-screen)의 존재감도 소리로 드러난다. 보이지 않는 인물, 도시, 자연 등이 그렇게 표현된다.
기존의 '영상만 생성하는 AI'가 몇 초 안에 텅 비게 느껴졌던 이유는, 이 감각적 층위가 빠져 있었기 때문이다. 그래서 통합 생성 AI를 쓴다는 것은, '영상에 소리가 붙었다'가 아니라, 애초에 장면을 설계하는 사고방식을 감각 중심으로 바꿔야 한다는 뜻이다.
필자의 경우 이러한 요소들을 염두에 두고 AI로 영상을 만들 때, 소리와 관련한 몇 가지 설정을 미리 정의해 놓는다.
감정 라인을 설정할 때는 이 시퀀스가 전달해야 할 단일 감정 혹은 감정의 변화를 먼저 설정한다. 예를 들면 불안이 해소되고, 고조된 상황이 폭발하는 형태로 말이다.
공간 유형 역시 폐쇄/개방, 자연/도시, 친밀/낯섦 등 감정과 연동된 공간성으로 소리를 표현한다.
청각 정보를 우선순위에 두기 때문에 대사 중심 장면인지, 폴리(Foley:스튜디오 효과음) 중심인지, 환경음/음악이 지배적인지 등을 고려한다.
이걸 먼저 잡아두고, 프롬프트를 '무엇을 보이게 할지'가 아니라 '무엇을 느끼게 할지' 기준으로 작성하면 결과물이 훨씬 통일된 결을 갖게 된다. (2편에서 계속)
이은준 미디어아티스트·인공지능 영상 전문가
▲ 경일대 사진영상학부 교수
<정리 : 이세영 기자>
seva@yna.co.kr
Copyright 연합뉴스 All rights reserved. 무단 전재 및 재배포 금지.
인기상품 확인하고 계속 읽어보세요!
원치 않을 경우 뒤로가기를 눌러주세요.
