中國科學院聲學研究所語音與智能信息處理實驗室團隊參加了IEEE信號處理協會和信號處理領域頂級會議EUSIPCO 2024聯合舉辦的個性化聲學信號處理挑戰賽(LAP Challenge:Listener Acoustic Personalization Challenge),在“面向數據集融合的HRTF標準化方法(HRTF normalization for merging different HRTF datasets)”任務中斬獲冠軍。

近年來,個性化頭相關傳遞函數 (Head-Related Transfer Function, HRTF) 在提升混合現實中雙耳音頻的聽覺定位和沉浸感方面展現了潛力。然而,受試者個性化生理結構的準確獲取、HRTF的高效仿真以及用戶體驗的有效驗證等相關問題,尚未形成一個國際公認的評估標準。
LAP Challenge是由IEEE信號處理協會和歐洲學術聯合組織SONICOM共同發起的面向個性化空間音頻信號處理的挑戰賽,其組織機構包含了英國帝國理工學院、法國索邦大學等眾多知名高校和Dreamwaves、USound等空間音頻領域的頭部企業。該挑戰賽致力于提供一個讓研究人員探索空間音頻領域難題、推動沉浸式音頻處理技術進步的平臺,并為個性化空間音頻的標準化指標開發做出貢獻。
2024年首屆LAP挑戰賽聚焦于HRTF建模的空間采樣和數據標準化。空間采樣關注從稀疏測量集重構高空間分辨率的HRTF數據集;數據標準化著眼于將來自不同實驗室對不同受試者測量的HRTF數據進行標準化,其目標是補償由不同測量設置(如設備和環境)引入的差異,確保 HRTF數據不存在與聽感無關的數據集特征。
中國科學院聲學研究所語音與智能信息處理實驗室的李軍鋒研究員、姚鼎鼎副研究員帶領博士研究生趙佳樂、邱澤林、王成仲組成的團隊參加了此次比賽,并在“面向數據集融合的HRTF標準化方法(HRTF normalization for merging different HRTF datasets)”任務中取得第一名的成績。
在本次挑戰賽中,本團隊提出一個基于神經網絡的HRTF數據集融合方法。由于HRTF測量存在測量流程復雜、成本高、時間長的缺點,單個HRTF數據集難以為基于機器學習的HRTF建模方法提供足夠的受試者數據,進而使得模型對未知受試者的泛化性存在不足。同時,由于目前不同實驗室的HRTF數據集存在測量設備、后處理方法等方面的差異,使得不同HRTF數據集難以直接融合使用。因此,本團隊提出基于聽覺定位模型的損失函數設計,使得所提神經網絡可被利用于處理HRTF幅度譜中與聽覺定位無關的數據集特征,進而使不同數據集的HRTF數據可以融合使用。該任務中使用不同數據集間HRTF的分類準確率作為排名指標,分類準確率越低表示去除數據集測量特征的效果越好。本次挑戰賽一共吸引了來自包括倫敦帝國理工學院、柏林工業大學、東京都立大學等著名高校和工業界研究機構的11支參賽隊伍,所提方法于官方評估中獲得了第一名,其分類準確率為26.94%,顯著優于其它參賽隊伍。

所提方法已在今年8月EUSIPCO 2024的學術會議中與國際同行進行了分享、討論。



