[K-VIBE] 정광복의 K-자율주행 도전기…딥러닝과 파운데이션 모델의 진화

다음 내용이 궁금하다면?

불편하시다면 뒤로 가기를 눌러주세요

[※ 편집자 주 = 한국국제교류재단(KF)의 지난해 발표에 따르면 세계 한류 팬은 약 2억2천500만명에 육박한다고 합니다. 또한 시간과 공간의 제약을 초월해 지구 반대편과 동시에 소통하는 '디지털 실크로드' 시대도 열리고 있습니다. 바야흐로 '한류 4.0'의 시대입니다. 연합뉴스 동포·다문화부 K컬처팀은 독자 여러분께 새로운 시선으로 한국 문화를 바라보는 데 도움이 되고자 전문가 칼럼 시리즈를 준비했습니다. 시리즈는 주간으로 게재하며 K컬처팀 영문 한류 뉴스 사이트 K바이브에서도 영문으로 보실 수 있습니다.]

2010년대, 인공지능(AI) 연구는 딥러닝의 발달로 새로운 전기를 맞았다. 2012년 이미지넷 대회에서 등장한 '알렉스넷'(AlexNet)은 컴퓨터가 이미지를 뛰어난 정확도로 인식하도록 만들며 AI 분야의 패러다임을 바꿨다.

초기 딥러닝은 이미지, 음성 등 개별 데이터를 처리하는 데 강점을 보였고, 자연어처리도 제한된 범위에서만 구현됐다. 2017년 구글의 연구진이 발표한 '트랜스포머'(Transformer) 구조는 AI가 데이터 간의 관계와 맥락을 동시에 이해하도록 설계해, 이후 인공지능의 발전 속도를 혁명적으로 끌어올렸다.

이 기술은 이후에 나온 버트(BERT, Bidirectional Encoder Representations from Transformers, 2018년 구글에서 개발한 자연어 처리 딥러닝 모델), GPT-2, GPT-3 등 초대형 언어 모델에 확산했고, '스케일링 법칙'에 따라 모델의 크기를 키울수록 탁월한 성능 향상이 가능하다는 사실이 밝혀졌다.

2021년 스탠퍼드 대학은 '파운데이션 모델'(Foundation Model)이라는 개념을 최초로 정의했다. 이것은 대용량 데이터로 선행 학습을 거친 뒤, 여러 분야에 활용될 수 있도록 설계된 거대 AI다. GPT-4, 달리(DALL-E) 등 오늘날 세계적인 언어, 영상 생성형 AI가 모두 이 패러다임의 산물이다.

2022~2025년에는 이미지, 소리, 영상, 텍스트 등 다양한 정보를 한꺼번에 다루는 '멀티모달'(Multi-modal) 파운데이션 모델로 발전하며, 기술의 응용 범위와 능력이 비약적으로 확대되고 있다.

◇ 모듈식 자율주행의 한계와 패러다임 전환

자율주행차 분야에서 파운데이션 모델은 이미지 인식 소프트웨어의 기능만을 하는 게 아니다. 전통적인 자율주행 시스템은 센서(카메라, 라이다, 레이더 등), 인지, 예측, 주행계획, 제어 등 단계별 모듈을 별도로 구축했다.

이 방식은 단계와 부품이 많아질수록 정보 손실과 오작동 위험이 늘고, 예기치 못한 복잡한 도심 환경에서는 누적된 미세오차가 치명적 안전 문제로 이어진다. 규칙·경험 기반의 설계 탓에 예외 상황이나 지리적 확장성 문제가 늘 반복적으로 나타났다.

이러한 계층화 구조의 한계를 해결하기 위해 테슬라, 구글 웨이모, 현대차, 화웨이 등 글로벌 선두 기업들은 2024~2025년부터 파운데이션 모델 기반 'E2E'(End-to-End) 자율주행 시스템 개발에 박차를 가하고 있다. 파운데이션 모델은 운전 데이터, 시뮬레이션, 다양한 센서 정보를 통합해 스스로 학습하며, 인간이 일일이 규칙을 입력하지 않아도 미지의 도로와 상황에 빠르게 적응한다.

모델은 데이터 수집과 시뮬레이션 반복 경험을 통해 확장성, 비용 효율성, 환경 적응성을 동시에 획득한다.

◇ 파운데이션 모델의 실제 역할과 작동 원리

파운데이션 모델은 도로의 사물을 인식(자동차, 보행자, 신호 등), 주변 움직임을 예측(위치·속도 변화 및 행동 패턴 분석), 그 데이터로 현재와 미래의 환경을 일관적으로 파악한다. 트랜스포머 기반 아키텍처와 영상·텍스트·센서 융합모델(Multi-modal Transformer)은 여러 초(秒)에 걸친 연속 정보를 해석하면서 '어떤 상황이 중요한가', '무엇을 봐야 하는가'를 판단한다.

최근에는 3D 뉴럴 필드(NeRF, Neural Radiance Fields, 3D 장면을 생성하고 렌더링하기 위한 신경망 기반의 컴퓨터 비전 기술로 2D 이미지를 즉시 3D로 바꿔줌)로 공간을 재구성하고, 시뮬레이션 기반 강화학습 기법으로 현실과 가상 환경을 모두 학습한다.

미래 예측 능력이 핵심으로 부상했다. 차량·보행자·도심 상황의 변화, 날씨(폭우, 안개, 폭설), 돌발환경(공사, 응급차)에까지 빠르게 적응해야 하기 때문이다.

이런 모델은 관찰만을 하는 데 그치지 않는다. 인지와 예측에서 도출한 정보를 바탕으로 조향, 속도·감속, 차선 변경·정지 등 실제 제어(운전 행위)까지 '하나의 거대한 신경망'이 통합적으로 담당한다.

테슬라의 'FSD'(Full Self-Driving, 완전자율주행모드), 웨이모의 'End-to-End 동작' 정책, 화웨이의 'General Decision Model' 등이 대표적이다.

마치 GPT가 문맥에 따라 다음 단어를 자동 선택하듯, 자율주행 파운데이션 모델은 '다음 행동', 즉 실시간 움직임 결정을 함축적으로 계산한다. 운전자의 직접 입력이나 정해진 규칙 대신, 데이터와 경험 기반 '실행적 추론'을 구현하는 셈이다. 이 과정에서는 시뮬레이터 기반의 대규모 주행 데이터 학습 및 '테스트 타임 적용' 방식의 실시간 미세조정도 적용된다.

이는 지역·환경·계절에 관계없이 자율주행차의 확장성과 안전성을 높이는 데 중요한 기술적 자산이다.

◇ 2025년, 파운데이션 모델의 가치와 한계

2025년 현재, 미국·중국·한국 등 주요국에서는 레벨3(조건부 자율주행) 상용화가 현실이 됐으며, 샌프란시스코·피닉스·상하이 등에서는 레벨4(완전 자율형 로보택시 서비스)가 운행되고 있다. 세계적으로 자율주행차의 80% 이상이 E2E 및 파운데이션 모델 탐색, 다국어 멀티모달 이해, 'V2X'(Vehicle-to-Everything, 차량이 주변의 다른 차량, 인프라, 보행자, 네트워크 등과 무선 통신으로 정보를 교환하는 기술) 통신 기반 AI 시스템을 도입 중이다.

동시에 안전성 검증, 악천후 환경, 윤리·책임 소재·법제도, 데이터 편향성, 인공지능 해석 성향 등 여러 과제도 남아 있다. 엔비디아·웨이모·테슬라 등은 '롱테일 현상(희귀케이스 대응)', '실시간 에이전트 협업', 'AI와 클라우드 연동' 등 해결책을 고도화하는 중이다.

전문가들은 향후 5~10년 이내에 센서·AI·IT 인프라의 융합고도화와 함께, 파운데이션 모델 기반 자율주행이 산업 교통, 물류, 공유 차량, 로보택시, 도시 인프라를 혁명적으로 변화시킬 것이라 내다본다. 다만, 완전한 자율주행(레벨5)은 2030년대 중후반 이후로 전망한다.

파운데이션 모델은 자율주행차의 두뇌이자, 데이터·규칙·책임을 통합하는 뉴 패러다임의 인공지능이다. 미래 교통 시스템의 안전과 혁신, 그리고 인간·도시와 기계가 공존하는 새로운 연결의 질서를 완성하는 기술적·사회적 고리임은 분명하다.

정광복 자율주행기술개발혁신사업단(KADIF) 단장

▲ 도시공학박사(연세대). ▲ 교통공학 전문가·스마트시티사업단 사무국장 역임. ▲ 연세대 강사·인천대 겸임교수 역임. ▲ 서울시 자율주행차시범운행지구 운영위원. ▲ 한국도로공사 고속도로자율주행 자문위원. ▲ ITS 아시아 태평양총회 조직위 위원.

<정리 : 이세영 기자>

seva@yna.co.kr

부산신항 배후단지에 고모텍 김해공장 확장 이전 '우주 비밀에 한 걸음 더' 세계 최고 민감도로 액시온

인기상품 확인하고 계속 읽어보세요!

원치 않을 경우 뒤로가기를 눌러주세요.