실생활에서 화자 인식 기술 사용하기

‘소리 인식 기술’이라고 하면 어떤 생각이 드시나요? 아직은 낯선 단어인 것 같아요. 그렇다면 ‘하이 빅스비!’, ‘헤이 구글!’, ‘시리야~’같은 음성 명령어는요? 소리 인식 기술은 낯설지만 우리의 삶과 크게 멀리 있지 않고, 위에 말한것 처럼 여러 디지털 기기와 함께 유용하게 사용되고 있습니다. 가령 저는 오늘 하루만해도 ‘하이 빅스비!’라는 말로 빅스비를 소환해 알람을 끄고, ‘헤이 구글’이라는 말로 구글홈미니를 호출해 음악을 들었어요. 오늘의 이야기를 하기에 앞서 여러분이 조금 더 소리 인식 기술과 친해질 수 있도록 짧게 설명해드릴게요.

•

Speaker Identification (화자 식별)

화자 식별이란 여러 사람 중에서 특정한 화자를 찾아내는 기술입니다. 어떤 음성 데이터가 주어졌을 때, 이 음성이 누구의 것인지, 누가 말하고 있는지를 여러 등록된 화자 중에서 알아내는 것입니다. 예를 들어 A/B/C/D가 대화를 나누고 있을 때 A가 말하고 있는 건지, B가 말하고 있는 건지 알아낼 수 있죠.

•

Speaker Verification (화자 검증)

화자 검증이란 등록된 화자가 본인이 맞는지 아닌지 확인하는 기술입니다. “지금 말하는 사람이 A가 맞나?”라고 진짜 본인이 맞는지를 인증하는 과정이라고 볼 수 있습니다. 위에서 말했던 제 목소리로 빅스비나 구글 등의 음성 비서를 활용하는 데는 Speaker verification 기술이 적용되었다고 볼 수 있습니다. “이 목소리가 우리 주인님의 목소리야!”를 확인해, 주인인 경우만 반응하는 것이죠. 우리가 처음 사용자 목소리를 등록하면서, 음성 비서들이 우리의 음성 특징을 학습하기 때문에 다른 사람들의 무분별한 호출을 거절할 수 있습니다.

이처럼 매우 활용도가 높은 화자 인식 기술이 우리 실생활에 어떻게 사용될 수 있을까요?

Case 1: 팀 미팅 기록하기

모두가 잘 알고 있겠지만, 팀 미팅에서 참석자들이 어떤 내용을 말했는지를 정리해서 앞으로 어떤 일들을 해야할지 액션 아이템을 정하고, 타임라인을 설정하는 것은 중요합니다. 하지만 이는 한 사람이 모두 맡아서 기록하기에는 방대한 양일 수도 있고, 혹은 잘못 작성된 부분이 있을 수도 있습니다. 이 때 화자 인식 기술을 활용한다면 미팅 참석자별 발언을 정확히 정리해 필요한 정보를 쉽게 확인할 수 있습니다.

팀원들이 모두 사전에 음성을 등록한 후, 녹음된 미팅 파일을 업로드 하여 발언자별 대화 내용을 텍스트로 변환한다면 합의점으로 도출된 부분이 무엇이고, 각자가 그 목표를 이루기 위해 어떤 일들을 해야하는지를 더욱 정확하게 정리할 수 있습니다.

Case 2: 신원 확인 및 출입 권한 관리

(출처 - 영화 ‘월요일이 사라졌다’ 스틸컷)

스파이가 나오는 영화에서 종종 보게 되는 장면이 있습니다. 비밀 임무를 수행하는 스파이가 위장 신분을 유지하며 적진에 잠입하기 위해, 지문을 덧대거나 홍채 인식을 피하려고 렌즈를 착용하는 모습 등 말이에요. 이러한 다양한 생체 측정 방식이 오늘날 신원 확인과 출입 권한 관리의 주요 수단이 된 지금, 화자 인식 기술도 보안을 높일 수 있는 요소로 주목받고 있습니다.

화자 인식 기술은 단순히 ‘열려라 참깨!’만 말하면 누구든 동굴 안으로 들어갈 수 있었던 알리바바와 40인의 도적 시대에서 벗어났습니다. 현재 말하고 있는 사람이 접근 권한이 있는 사람인지, 등록된 인물 중 누구인지 등의 신원 확인과, 등록된 암호와 일치하는 구호를 말하는지를 종합적으로 확인할 수 있는 방식을 통해 보안 수준을 한층 강화할 수 있습니다.

Case 3: 영업관리 내용 녹취

(이미지 출처: Pixabay)

고객과의 대화 속에서 중요한 인사이트를 발견하고, 최우선의 가치를 전달할 수 있는 전략적 결정을 내리는 것은 영업 관리의 핵심 포인트입니다. CS 담당자들은 고객과의 대화를 복기하며 고객 대응 스크립트를 개선할 수 있습니다. 또한, 통화에서 놓친 부분이나 개선이 필요한 점을 파악해 더 높은 고객 만족도를 위한 다양한 시도를 할 수 있고요.

자주 묻는 질문들은 정리해 FAQ로 만들어 홈페이지에 업데이트 할 수 있고, 이를 통해 상품 구매 과정에서 고객이 어떤 부분에 관심이 있는지 빠르게 파악할 수 있습니다. 나아가, 같은 질문에 대해 일정한 수준의 대응이 이루어지는지, 보이스 톤과 매너가 일관되는지를 확인하여 CS 대응 퀄리티도 높일 수 있습니다.

Case 4: 보이스피싱 DB 생성

(이미지 출처: ‘악마의 전화’ 통쾌하게 때려잡는 영화 ‘보이스’, “피싱, 피해자 잘못이 아닙니다”, 경향 신문)

우리 주변에서 보이스피싱은 여전히 빈번하게 발생하는 문제입니다. 금융감독원에서 발표한 2023년 보이스피싱 피해현황에 따르면, 피해액은 1,965억으로 전년대비 514억원 증가했습니다. 피해자들이 보이스피싱 전화를 받았을 때 남는 유일한 단서는 무엇일까요? 바로 보이스피싱범의 ‘목소리’일지도 모릅니다. 만약 그들의 목소리 데이터를 모아 DB로 관리할 수 있다면, 의심스러운 정황이 포착되었을 때 범인을 검거할 수 있는 유력한 단서를 제공할 수 있을 것입니다.

보이스피싱 범죄자들은 같은 패턴으로 여러 명에게 전화를 걸어 사람들을 속이기 때문에, 같은 인물의 목소리를 확보할 기회가 오히려 많을 수 있습니다. 또한 AI를 활용하여 그들이 자주 사용하는 특정 단어나 문장 패턴을 인식할 수 있게 된다면, 의심되는 통화에 대한 경고를 발동해 보이스피싱 범죄로부터 잠재적 피해자를 보호할 수 있습니다. 이렇게 보이스피싱범의 목소리 DB가 구축된다면, 신속한 수사와 예방 조치를 통해 피해를 최소화할 수도 있고요.

실제로 영국 이동통신사 O2에서 최근 보이스피싱 방지용 AI인 Daisy를 발표했습니다. Daisy는 다른 무고한 피해자가 발생하지 않도록 하는 것을 목표로 할머니처럼 가족, 취미 등 여러 주제를 오가며 수다를 떨어 최대한 보이스피싱범의 전화를 오래 끌어 줍니다. 만약 Daisy와 같은 AI와 함께 사용될 수 있다면, 전화 속에서 들려오는 보이스피싱 범죄자들의 목소리 데이터를 충분히 수집할 수 있겠죠?

Cochl은 여러분의 일상생활 속에서 소리 인식 기술의 효율을 더욱 높여주고자 합니다. 여러분에게 필요한 정보를 더 편리하게 제공하기 위해 기존의 환경음 인식 AI 기술에 이어 새롭게 Speaker Recognition 기능을 추가했습니다.

Cochl에서 제공하는 Speaker Recognition 기능은 직관적인 Voice tag 등록을 통해 손쉽게 화자를 인식할 수 있도록 도와줍니다. 대화의 주요 내용을 텍스트로 변환하고, 각 발화에 대한 세부 정보도 함께 제공합니다. 이러한 정보를 통해 여러분이 놓친 인사이트를 발견할 수 있습니다. 현재 Cochl.Sense Dashboard에서 사용해볼 수 있으니, 여러분의 삶을 얼마나 편하게 만들어 줄 수 있는지 직접 한 번 확인해보세요