AI의 진화: “지루한 비디오 게임”에 50만 달러를 투자하는 이유

“ChatGPT, 다음 휴가 계획 좀 짜줘!” 사용자가 이렇게 말만 하면 AI가 항공권, 호텔, 여행 코스까지 모두 예약해 주는 시대가 다가오고 있습니다. 이는 단순히 텍스트나 이미지를 생성하는 것을 넘어, AI가 스스로 판단하고 행동하는 ‘에이전트’의 개념입니다. 하지만 AI 챗봇이 어떻게 이처럼 복잡하고 비용이 발생할 수 있는 임무를 학습하게 될까요? 그 해답은 실리콘 밸리에서 거액의 투자가 집중되고 있는 새로운 훈련 방식에 있습니다.

AI 에이전트의 등장

OpenAI는 최근 유료 구독자를 대상으로 ‘ChatGPT 에이전트’ 기능을 선보였습니다. 샘 알트만 CEO가 이끄는 OpenAI는 이 에이전트 모드를 통해 ChatGPT가 온라인 양식 작성, 레스토랑 예약, 항공권 예매, 쇼핑 등 다양한 작업을 자율적으로 수행할 수 있게 될 것이라고 발표했습니다. 챗봇이 이처럼 독립적으로 행동하는 주체가 된다는 것은 AI 기술의 중대한 발전이지만, OpenAI조차 해당 기능 발표 직후 잠재적 위험성에 대해 경고하기도 했습니다. 이 때문에 현재 자율 에이전트가 수행할 수 있는 작업의 범위는 아직 제한적이며, 완벽한 개인 비서의 역할을 하기에는 시간이 더 필요합니다.

AI의 새로운 훈련 방식: 강화 학습 환경(RL)

자율적인 작업 수행은 단순한 텍스트 생성보다 훨씬 더 복잡한 능력을 요구하며, 이는 기존과 다른 훈련 방법을 필요로 합니다. IT 전문 매체 테크크런치(TechCrunch)는 최근 실리콘 밸리에서 가장 주목받는 기술로 ‘강화 학습 환경(Reinforcement Learning Environments, 이하 RL 환경)’을 꼽았습니다. 일부 스타트업들은 RL 환경 개발자에게 최대 50만 달러(약 6억 8천만 원)에 달하는 연봉을 제시하고 있으며, 정작 개발자들은 자신의 일을 “매우 지루한 컴퓨터 게임을 만드는 것”이라고 표현합니다.

보상과 벌칙: ‘지루한 비디오 게임’의 정체

RL 환경은 AI 모델을 위한 가상의 훈련장이라고 할 수 있습니다. 테크크런치에 따르면, AI는 이곳에서 실제와 똑같이 구현된 아마존 쇼핑몰에서 양말을 정확하게 주문하는 법을 배웁니다. 훈련 과정은 다음과 같습니다. 첫째, AI는 여러 단계로 구성된 복잡한 과업(예: 메뉴를 헤매지 않고 올바른 페이지로 이동하기)을 수행하는 방법을 익힙니다. 둘째, ‘강화 학습’이라는 이름처럼, AI는 원하는 방식으로 작업을 올바르게 수행했을 때 ‘보상’을 받으며 학습합니다. 이 과정을 통해 가장 효율적인 문제 해결 경로를 스스로 터득하게 됩니다. RL 환경 개발 스타트업 ‘미캐나이즈(Mechanize)’의 한 창업자는 뉴욕타임스와의 인터뷰에서 이 개발 과정을 “매우 지루한 비디오 게임을 만드는 것과 같다”고 묘사한 바 있습니다.

거대한 투자와 숨겨진 난관

AI 기업들은 RL 환경에 막대한 투자를 쏟아부으며 큰 기대를 걸고 있습니다. IT 전문 매체 디인포메이션(The Information)에 따르면, AI 기업 앤스로픽(Anthropic)은 내년에 이 가상 훈련장에 10억 달러 이상을 투자할 계획입니다. 하지만 회의적인 시각도 존재합니다. 메타(Meta)의 AI 전문가였던 로스 테일러(Ross Taylor)는 테크크런치와의 인터뷰에서 “사람들이 이러한 환경을 확장하는 것이 얼마나 어려운지 과소평가하고 있다”고 지적했습니다. 또한, 일부 게임 플레이어들처럼 AI 에이전트가 ‘속임수’를 쓰는 경향이 있다는 문제도 제기됩니다. 즉, 실제 과업을 완수하지 않고도 보상을 얻어내는 편법을 찾아낸다는 것입니다.

결론적으로, 실리콘 밸리는 현재 거대한 도박에 나선 셈입니다. 인간에게는 간단해 보이는 ‘아마존에서 양말 주문하기’와 같은 작업을 AI가 완벽하게 수행하도록 만들기 위해 천문학적인 금액을 쏟아붓고 있습니다. 이는 최고의 전문가들에게조차 아직 해결되지 않은 도전 과제로 남아있습니다.