요즈음, 제가 가장 많이 하는 고민이 있는데요, 바로 ‘AI는 과연 언제쯤 나를 대체할 수 있을까?’ 입니다. 이 고민을 갑자기 하게 된 것은 아니지만, 최근 발표된 Google의 Gemini를 보면서 생각이 한층 더 강해졌습니다. 이전에는 AI가 아무리 발전해도 한계가 있지 않을까 했는데 (비록 일정 부분 편집되긴 하였지만) Gemini 영상을 보면서 기계가 인간처럼 여러 감각을 동시에 받아들이고, 이해하고, 활용할 수 있게 되었다고 느꼈기 때문입니다.
Hands-on with Gemini: Interacting with multimodal AI
Gemini로 간단하게 포문을 열어봤는데, 최근 AI Scene 내 화제의 키워드는 단연코 멀티모달(Multi-modal) AI입니다. 기존 AI 모델은 text-to-image, speech-to-text 등 input과 output의 형태가 정해져 있습니다. 반면 멀티모달 AI는 더 복잡하고, 다양한 관점을 요구하는 정보도 이해하고 처리할 수 있는 AI로, 말 그대로 anything-to-anything에 가깝습니다. 텍스트, 음성, 이미지, 영상 등 여러 종류의 데이터를 동시에 처리할 수 있거든요. 이전에는 단일 채널로만 정보를 수용할 수 있었다면, 멀티모달 AI는 사람이 오감을 사용하여 정보를 수용하는 것처럼 다양한 채널의 모달리티를 동시에 이해하고 사용할 수 있습니다. 그렇기에 훨씬 더 인간과 가깝게 사고하고 결과를 만들어 내는 수준에 이르게 된 거죠. AI가 드디어 더 자연스러운, 인간과 유사한 소통을 할 수 있게 되었습니다.
<이미지 1> 인간이 갖고 있는 오감을 AI도?
멀티모달 이전의 AI 모델은 어떤 정보가 들어왔을 때 이를 복합적으로 해석하는 능력이 부족했습니다. 왜냐하면 시각이면 시각, 청각이면 청각 등 한 가지 정보만 해석하는 유니모달이었기 때문입니다. 이와 반대로 멀티모달 AI는 음성에서 오는 정보와 내용 측면에서 오는 정보를 분리해 복합적으로 사고할 수 있기 때문에 내용을 유추하고 그에 걸맞은 반응을 보일 수도 있습니다.
아주 100% 유사하진 않지만, 예를 들자면 강아지들이 사람의 말을 이해하는 것에 유니모달을 비유해볼게요. 강아지들은 주인이 어떤 말을 했을 때, 주인의 언어를 실제로 이해한다기보다는 말의 속도, 음의 높이 등을 통해서 의미를 파악합니다. 주인이 기분 좋은 목소리로 ‘어느 못된 강아지가 똥을 침대에 쌌어! 혼나볼래?’라고 말하면, 강아지들은 말의 의미를 알아 듣기 보다는 주인이 기분 좋은 상태구나 하는 정도로만 받아들입니다. 반대로 화난 목소리로 ‘산책하러 갈 강아지’라고 하면 주인이 화가 난 줄 알고 눈치를 보게 되죠.
멀티모달 AI가 등장하면서 사람들의 삶은 한층 더 풍요로운 정보의 바다에서 헤엄칠 수 있게 되었습니다. 예를 들어, 기존에는 존재하는 LLM에 ‘해외여행에서 사용할 수 있는 실전 표현을 알려줘’라고 하면 텍스트로만 알려주거나, 혹은 해당 내용이 포함된 링크를 전달하는 방식으로 질문에 대한 답을 했습니다. 기본적으로 text가 메인인 형태의 답을 얻을 수가 있었던 거죠. 하지만 멀티모달 AI가 등장하면서, 같은 질문에 대해 즉석에서 관련 영상을 불러와 유용한 표현이 나오는 장면을 포인트하고, 발음을 알려주고, 어떤 내용이 들어가 있는지를 요약하는 등 여러 형태로 답안을 얻을 수 있습니다.
멀티모달 AI가 발달하게 되면 우리 일상 속의 인공지능은 한층 더 자연스러운 현상이 될 것으로 생각합니다. 가령 ChatGPT를 생각해보면, 우리가 어떤 질문을 ChatGPT에게 하기 위해서는 타자를 쳐야합니다. 그리고 ChatGPT는 우리가 요청한 질문(프롬프트)에 대한 답안을 제공하는 것을 우선으로 하며, 그 이상으로 나아가 우리에게 어떤 결과를 돌려주는 데는 한계를 보입니다. 아직 스스로가 질문에 대한 ‘맥락’을 정확하게 파악하고, 우리가 원하는 것 이상으로 ‘제안’하는 것은 되지 않죠.
<이미지 2>
다만 멀티모달 AI가 활성화 된다면 사용자가 있는 상황을 단순 시각 정보뿐만 아니라 청각 정보를 활용해서 복합적으로 이해할 수 있고, 더 다양한 제안을 할 수 있습니다. 예를 들면 사용자가 화상 미팅 프로그램을 켰을 때, 일정 시간 이상 말하는 소리나 키보드를 타이핑하는 소리, 마우스를 딸깍거리는 소리, 숨소리가 들리지 않고 방문이 닫히는 소리가 들린다면 자리 비움 상태로 인식하고, 자동으로 화상 미팅을 녹화하면서 음성 인식으로 텍스트를 받아 적고, 주요 요점을 요약하고, 자리 비운 사이 진행되는 일정 공유 등을 자동으로 달력에 저장할 수도 있죠.
혹은 ADHD를 보유한 사람의 집중력 향상을 위해 eye tracking 기술을 통해 그 사람의 시선이 어디로 가는지 관찰하는 경우를 생각해볼게요. 이 때 시선이 한 곳에 너무 오래 집중된다거나 계속해서 움직인다면, 이 때 주의를 환기할 수 있는 음악을 틀어주고 다른 활동을 제안하거나 집중 시간을 기록해 집중력 향상에 도움을 줄 수 있습니다.
<이미지 3>
또는 의료 분야에서도 환자의 상태를 확인하는 데도 쓰일 수 있습니다. 병원 인력들이 환자의 상황을 일일이 확인해야 하는 상황, 가장 중요한 변수는 인력 부족과 인력의 숙련도 차이입니다. 연차 혹은 숙련도에 따라 같은 상황을 서로 다르게 해석할 수 있는 여지가 있기에 정확도가 중요한 의료 분야에서는 이 부분에 대한 갭을 없애는 것이 중요합니다. 만약 기관지에 문제가 생긴 환자가 있다고 가정할 때, 환자의 들숨과 날숨 기록, 기침 횟수, 그중 심각한 기침이 어느 정도의 비중이었으며, 약 처방 혹은 수술 후 어떤 변화를 보였는지 등을 정량적 청각 정보로 체크하고 시각 정보로 변환해 의료진들이 다른 처방을 내릴 때 제안할 수 있다면 약의 효능, 수술 혹은 처방 이후 환자의 예후를 더 정확하게 진단할 수 있습니다.
이렇게 멀티모달 AI가 다양한 유형의 데이터를 인풋과 아웃풋으로 활용하는 만큼, 각 데이터를 정확하게 해석하고 활용하는 기술을 갖추는 것은 멀티모달 AI 성공에 필연적입니다. 그런 부분에 있어 Cochl이 가진 Sound AI Foundation model은 멀티모달 AI가 인간과 한층 더 가깝게 발전하는 데 있어 높은 가용성과 정확도를 선보이고 있습니다.
Cochl의 Sound AI 모델은 ‘Creating ears for artificial intelligence’라는 비전에 걸맞게 사람처럼 동시에 여러 오디오 정보를 이해하고 처리할 수 있는 능력을 갖추고 있습니다. 이는 멀티모달 AI를 개발하는 데 필수적인 거대언어모델(LLM)에 인간과 같은 수준의 청각을 제공할 수 있으며, 기존 AI 모델보다 더 명확하고 똑똑한 판단과 제안을 할 수 있는 AI로써 활용이 가능하게 합니다.
특히나 실제로 미리 지정된 소리가 발생했을 때 이를 인식하고, 인식된 결과를 다양한 형태로 선보이는 post action 기능이 탑재되어 있고, Sound AI foundation model은 API와 SDK 형태로 제공될 수 있기에 원하는 형태로 쉽게 customize 할 수 있다는 장점이 있습니다.
멀티모달 AI의 등장으로 AI는 점점 더 우리의 삶에 밀착해 함께 살아가고 있습니다. 물론 아직은 영화 아이언맨에 나오는 토니 스타크가 만든 AI 비서인 자비스 정도의 수준에는 미치지 못하지만, 분명한 것은 우리 인간의 삶의 접근성을 높여주고 새로운 미래 가능성을 제시할 수 있다는 점입니다.
인간을 닮은 AI에 대한 접근은 이처럼 여러 측면에서 기대되는 부분이 있으나, 동시에 윤리적인 고민과 기술적인 도전들도 함께 고려해야 합니다. 그리고 사용자 경험 측면에서도 어떻게 AI가 더 여러 정보를 바탕으로 자연스럽게 상호작용할 수 있는지에 대해서도 충분한 고민이 필요하고요.
여러분은 인간을 닮은 AI, 어떻게 생각하시나요?
<이미지 출처>