在當前基于深度神經網絡模型的單通道和多通道語音增強算法研究中,通常著重于設計合理的網絡拓撲結構以盡可能提升降噪算法的性能,往往忽略了對深度神經網絡模型自身結構設計合理性與可解釋性的探索。因此在大部分現有工作中,科研人員們在結構設計和參數確定等方面經驗較豐富,但這些工作缺乏數學理論的指導和支撐。
對此,中國科學院聲學研究所噪聲與音頻聲學實驗室鄭成詩研究員和李曉東研究員研究團隊提出了基于泰勒級數展開形式的單通道與多通道語音增強算法,將單通道場景中的幅度-相位解耦與多通道場景中的空間-譜域解耦重新建模并通過泰勒級數展開進行分解,使得網絡結構具有類似泰勒展開的數學形式。相關研究成果在線發表于學術期刊IEEE/ACM Transactions on Audio, Speech, and Language Processing(中國科學院期刊分區聲學一區,IF:5.4)和Information Fusion(中國科學院期刊分區計算機一區top,IF:18.6)。兩篇論文的通信作者均為中國科學院聲學研究所鄭成詩研究員,第一作者均為其指導的博士研究生李安冬,主要作者還包括李曉東研究員、余果宸、劉文哲、范存航副教授等。
研究人員對單通道降噪問題進行重新建模,將降噪處理表示為幅度域濾波與復數域映射疊加的形式,對多通道降噪問題建模表示為波束域濾波與譜域殘留噪聲消除的形式;進一步引入泰勒展開的數學形式來重新設計模型結構,通過將其中潛在不穩定數值操作替換為穩定的可學習模塊,使得模型可采用端到端的形式進行訓練和學習,有效提升了算法的性能和可解釋性。

圖1 基于波束域多通道算法框圖(圖/中國科學院聲學研究所)

圖2 不同時刻算法估計的波束域濾波系數與波束圖可視化(圖/中國科學院聲學研究所)
實驗結果表明,相比于當前的主流基線方法,這種新算法在單通道場景與多通道場景下均達到了現有最優的性能,同時由于其具有泰勒展開的結構,在結構設計層面具有良好的可解釋性,有助于研究人員更好理解基于神經網絡的降噪算法的內在處理機制。
本研究得到國家自然科學基金(No.61571435)和國家重點研發計劃項目(No.2021YFB3201702)資助。
關鍵詞:
語音增強;單通道;多通道;泰勒級數展開
參考文獻:
LI Andong; YU Guochen; ZHENG Chengshi*; LIU Wenzhe; LI Xiaodong. A General Unfolding Speech Enhancement Method Motivated by Taylor’s Theorem. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2023. (in Press)
LI Andong; YU Guochen; XU Zhongweiyang; FAN Cunhang; LI Xiaodong; ZHENG Chengshi*. TaBE: Decoupling spatial and spectral processing with Taylor’s unfolding method in the beamspace domain for multi-channel speech enhancement. Information Fusion, 2023, 101976. DOI: 10.1016/j.inffus.2023.101976.
論文鏈接:
https://ieeexplore.ieee.org/document/10246357
https://www.sciencedirect.com/science/article/pii/S1566253523002920

