Prompt-driven Target Speech Diarization
2. Target Speech Diarization
2.1 Task Formulation
두 가지 핵심 개념인 "semantic attribute"와 "semantic value"가 소개
-
"Semantic attribute"는 음성을 분할하는 기준을 제공
-
"Semantic value"는 이러한 속성과 연계된 특정 이벤트에 해당
- 예를 들어, 전통적인 speaker diarization
- "semantic attribute"은 speaker identity
- "semantic value"는 특정 스피커의 ID
-
입/출력
- 입력: 오디오와 "semantic value" 정보
- 출력: 특정 "semantic value"에 해당하는 오디오 영역
- 예를 들어,
- 'gender'라는 "semantic attribute" 하에서 "semantic value"가 'female'이라면,
- 시스템은 여성이 말하는 모든 부분을 표시
-
네 가지 타입의 "semantic attributes"
- T - Timestamped speaker identity:
- Timestamp를 사용하여 개별 스피커를 식별
- 전통적인 방법이 미리 등록된 스피커 임베딩에 의존하는 반면, 이 접근법은 실제 환경에서 더 유연
- G - Gender:
- 남성과 여성, 두 가지 값이 있는 간단한 속성
- 시스템은 성별 특정 음성 영역을 표시
- N - Speaker counter:
- 이 속성은 각 프레임에서 동시에 말하는 스피커의 수를 계산
- 값은 비음성, 단일 스피커 음성, 중첩된 음성 세 가지
- K - Keynote speaker:
- 오디오 세그먼트에서 가장 많이 말하는 사람을 식별하는데 중점
- 이는 회의와 같은 실제 시나리오에서 특히 유용
<aside>
💡 논문은 이러한 "semantic attributes"와 "semantic values"를 사용함으로써, 사용자들이 오디오에서 특정 음성 세그먼트를 더 정확하고 유연하게 식별할 수 있다고 강조
이는 다양한 실용적 응용 분야가 존재
</aside>
2.2 Proposed framework: Prompt-driven Target Speech Diarization (PTSD)
- target speech diarization 작업을 해결하기 위해 설계된 아키텍처를 소개
- 이 프레임워크는 Prompt-driven의 접근법을 사용하며, 각 "semantic value"는 프롬프트 벡터 $p \in R^{1 \times D}$ 로 모델링
- 이 디자인은 시스템이 다양하고 유연하게 동작할 수 있도록 함
- 오디오 입력은 $X$로 표현되고,
- 각 "semantic value"에 해당하는 target 이벤트 영역은 이진 시퀀스 $y \in \{0, 1\}^{1 \times T}$
- 여기서 $T$는 오디오 프레임의 수
- 시퀀스에서 1은 타겟 이벤트가 존재함을 나타내고, 0은 그 이벤트가 없음을 나타냄