Search

Cochl.Sense: 범용 모델을 넘어 개인화된 Sound AI로

Sound AI는 다양한 상황에서 널리 활용되고 있습니다. Cochl이 개발한 Cochl.Sense의 경우 113개의 소리를 인식할 수 있으며, 스마트홈, 보안, 헬스케어, 자동차 등 여러 산업군에서 사용되고 있습니다. Cochl은 지속적으로 인식할 수 있는 소리의 범위를 넓혀가고 있지만, 많은 사용자는 각자의 목적과 상황에 맞춘 ‘나만의 소리’ 또한 인식하고 싶다는 피드백을 꾸준히 전달해 왔습니다.
이런 요구를 해결하기 위해 Cochl.Sense Edge SDK에 custom sound 기능이 신규 도입되었습니다. Custom sound 기능을 통해 사용자는 원하는 소리를 직접 등록하고, 기존 Edge SDK 환경에서 사용하던 방식과 동일한 방식으로 이를 활용할 수 있습니다.

 언제 custom sound를 사용하면 좋을까요?

Custom sound의 경우 일반 모델에는 없는 특수한 음향 환경이나 사용자에게만 중요한 소리를 인식하고 싶을 때 강력한 무기가 될 수 있습니다.
새로운 클래스 등록: Cochl.Sense가 기존 제공하는 113개 클래스에는 없는 독특한 악기 소리나 기계별 동작 음을 개별적으로 추가하고 싶을 때 custom sound를 등록할 수 있습니다.
사용자 환경에 맞춘 튜닝: 특정 알림음, 혹은 잡음 환경에서 최적화된 성능을 원할 때 사용할 수 있습니다.

 왜 custom sound를 사용해야 할까요?

Cochl.Sense가 제공하는 custom sound의 경우, 기존 유사한 기능을 제공해 왔던 다른 서비스 대비 강력한 2가지 강점이 존재합니다.
 효과적인 학습 프레임워크
일반적으로 청각 데이터를 학습시키는 것은 시각 데이터보다 더 많은 리소스를 필요로 합니다. 특히나 새로운 소리 클래스를 학습시키기 위해서는 대량의 데이터와 오랜 학습 시간이 요구됩니다. 하지만 custom sound는 최소 100개 이상의 샘플 또는 2분 이상의 레이블 데이터만으로도 학습할 수 있습니다.
이는 Cochl.Sense 모델이 이미 대용량 범용 소리 데이터 셋과 최신 기법으로 학습 외에 풍부한 소리 이해 능력을 보유하고 있기 때문입니다. Custom sound 학습은 해당 백본 모델을 기반으로 새로운 대상 소리에 적응시키는 방식으로 진행되어, 적은 데이터로도 효과적이고 빠른 학습이 가능합니다.
또한 Custom sound는 녹음된 환경의 잡음까지 함께 학습에 반영해, 실제 환경에서 발생하는 잡음 속에서도 사용자가 원하는 소리만을 명확히 구분할 수 있는 강력한 성능을 보여줍니다.
 통합된 활용성
Custom sound는 별도의 모델을 필요로 하지 않습니다. 학습이 끝난 custom sound 클래스는 기존 Cochl이 제공한 113개 클래스와 동일하게 작동하며, Edge SDK 프로젝트에서도 동일한 방식으로 적용됩니다. 따라서 사용자는 기본 제공 클래스 외에 자신만의 클래스를 손쉽게 확장할 수 있습니다.
이 통합은 Cochl.Sense의 백본 모델과 custom sound 모듈이 병합된 구조이기에 가능하며, custom sound는 독립적인 모듈 형태로 구성되며 기존 인식 모듈과도 쉽게 통합됩니다. 따라서 사용자는 새로운 소리를 추가하거나 삭제할 때, 전체 시스템을 재학습 시킬 필요 없이 연결된 모듈만 교체하면 된다는 편리성이 있습니다.

 Custom sound가 나아가야 할 길

Cochl.Sense가 제공하는 기본 클래스는 사전에 정의된 범위와 충분한 데이터 수집 과정을 거쳐 학습됩니다. 또한 각 버전 업데이트 전 실제 사용 및 성능 평가를 통해 클래스의 인식 결과가 의도한 바와 일치하는지를 검수하는 과정을 통과해야 합니다. 반면 custom sound는 사용자가 제공한 데이터에 전적으로 의존하기 때문에, 클래스 정의가 상대적으로 모호해질 수 있는 한계점이 존재합니다.
잘못된 레이블링: 여러 소리가 함께 레이블에 포함될 경우, 포함된 소리 전체가 custom sound라고 인식되어 학습될 수 있음
불충분한 negative 데이터: 특정 알람음을 의도했더라도, 충분한 negative data(각 클래스에 해당하지 않는 데이터)가 제공되지 않으면, 모델이 일반적인 알람음까지 custom sound로 확대해석 할 수 있음
녹음 특성의 오해: 특정 장비·거리에서 녹음된 특성이 클래스의 특성으로 잘못 학습되어, 그 외 방식으로 녹음된 알람은 custom sound로 인식되지 않을 수 있음
다만 이러한 한계는 사용자가 충분히 다양한 positive 데이터(각 클래스에 해당하는 데이터)와 의도에 맞지 않는 negative 데이터를 함께 제공함으로써 충분히 개선할 수 있습니다. 또한 이러한 특성을 이해한 상태에서 활용 시나리오를 구성한다면, custom sound의 기능을 극대화해서 사용할 수 있습니다.
Custom sound는 Cochl.Sense의 범용적인 소리 인식 능력과 사용자의 개인화된 요구 사이의 틈을 메워줍니다. 대규모 데이터 셋과 학습 기법으로 학습된 Cochl.Sense 모델을 토대로 적은 데이터로도 높은 성능을 달성할 수 있으며, 실제 환경의 잡음을 반영해 현장에서도 안정적인 결과를 제공합니다.
궁극적으로 custom sound 기능은 사용자에게 자신의 환경에 꼭 필요한 소리를 추가하고 활용할 수 있는 자유를 제공합니다. 이는 Sound AI가 사용자가 주도적으로 정의하고 활용하는 ‘agentic AI’로 발전할 중요한 가능성을 시사합니다.