
想象一下,你正在機場(chǎng)和朋友通電話(huà)。你周?chē)泻芏嗳嗽诮徽,飛機在起飛/降落,數十個(gè)行李箱的滾輪滾過(guò)瓷磚地板,可能還有幾個(gè)嬰兒在哭鬧。而電話(huà)那頭的朋友,在一家熱鬧的餐廳。你的朋友需要應對自己的環(huán)境噪音:餐具和盤(pán)子叮當作響,食客們聊得起勁,餐廳播放著(zhù)背景音樂(lè ),可能還有一些嬰兒在哭鬧。而在電話(huà)的兩端,你們聽(tīng)到的都是平靜而清晰的話(huà)語(yǔ),而不是含混不清的聲音。
這都得益于噪音抑制和主動(dòng)降噪 (ANC)。這兩項功能近來(lái)在音頻產(chǎn)品中很常見(jiàn),但它們不僅是流行詞而已。這兩項技術(shù)有助于以不同的重要方式減輕噪音的影響。本文將解釋二者的區別,同時(shí)更深入地探討其中的噪音抑制技術(shù)。
噪音抑制
來(lái)看看上述情景的第一部分:你在嘈雜的環(huán)境中對著(zhù)麥克風(fēng)講話(huà)。

在此示例中,汽車(chē)在發(fā)出持續的背景噪音。這就是所謂的穩態(tài)噪聲,它會(huì )呈現我們關(guān)注的語(yǔ)音信號里面并不存在的周期性特性?照{、飛機、汽車(chē)發(fā)動(dòng)機和風(fēng)扇的聲音都是穩態(tài)噪聲的例子。但是,嬰兒的哭聲并不是持續的,這種聲音有一個(gè)很恰當的名字:非穩態(tài)噪聲。這類(lèi)噪聲的其他示例包括哈士奇的吠叫、電鉆或錘子工作的聲音、敲擊鍵盤(pán)的咔嗒聲或餐廳中銀制餐具碰撞的叮當聲。這些噪音發(fā)生得很突然,同時(shí)存在的時(shí)間很短暫。
麥克風(fēng)會(huì )捕捉這兩種類(lèi)型的噪音;在不做任何處理的情況下,會(huì )產(chǎn)生同樣嘈雜的輸出,蓋過(guò)你期望傳遞的語(yǔ)音信息。圖的左半部分顯示了這種情況。但是,通過(guò)噪音抑制處理,可以消除背景噪音以便傳輸(而且僅傳輸)你的聲音。
主動(dòng)降噪
現在,你清晰的聲音已經(jīng)通過(guò)無(wú)線(xiàn)電傳輸給你的朋友,但這不代表對方就能清晰的接收你的信息。這時(shí)就需要主動(dòng)降噪。

像之前一樣,有穩態(tài)和非穩態(tài)噪聲會(huì )影響傳入耳塞的聲音。與之前處理掉噪音的情況不同,主動(dòng)降噪的目標是完全抵消外部噪音。麥克風(fēng)捕捉傳入的聲音,生成外部噪音的反向信號,并通過(guò)將反向信號疊加到入耳的聲波中盡可能的抵消外部噪聲。概括性地說(shuō),這在概念上類(lèi)似于將 +5 和 -5 這兩個(gè)數字相加得到 0。
在硬件中,基于上述的這種基本原則,可以通過(guò)兩種主要方式應用主動(dòng)降噪。一種是前饋式 ANC,即在可聽(tīng)設備外使用麥克風(fēng);另一種是反饋式 ANC,即在更靠近耳朵的可聽(tīng)設備內使用麥克風(fēng)。
前饋式 ANC 位于耳朵以外,所以對噪音更敏感。它可以在噪音傳向可聽(tīng)設備時(shí)清晰地捕捉到噪音。然后,它可以處理該噪音并輸出其相位抵消信號。這使其能夠隔離特定的聲音,尤其是中頻聲音。這包括我們在本帖前面部分提到的穩態(tài)聲音,但也包括語(yǔ)音。但是,前饋式 ANC 位于設備外部,因此更容易受到外部噪音的影響,例如風(fēng)聲或耳塞在兜帽內側不斷摩擦的聲音(這絕對不是經(jīng)驗之談)。
反饋式 ANC 不受亂動(dòng)的兜帽影響,因為它在可聽(tīng)設備內部,能抵抗其他各類(lèi)偶然干擾。這種隔音效果很好,但成功傳入耳塞的較高頻聲音則較難抵消。同樣,內部反饋麥克風(fēng)需要區分播放的音樂(lè )和噪音。而且,因為其反饋更靠近耳朵,它還需要更快地處理此信息,才能保持與前饋設置相同的延遲。
最后,還有混合主動(dòng)降噪 - 你猜對了,這種方法就是結合前饋和反饋式 ANC,以功耗和硬件為代價(jià),實(shí)現兩方面的最佳效果。
深入了解噪音抑制
了解噪音抑制(抑制說(shuō)話(huà)人環(huán)境噪音以便遠端聽(tīng)話(huà)人聽(tīng)清)與主動(dòng)降噪(抵消聽(tīng)話(huà)人自身的環(huán)境噪音)的基本區別后,讓我們重點(diǎn)關(guān)注如何實(shí)現噪音抑制。
一種方法是使用多個(gè)麥克風(fēng)抑制數據。從多個(gè)位置收集數據,設備會(huì )獲得相似(但仍有區別)的信號?拷f(shuō)話(huà)人口部的麥克風(fēng)接收到的語(yǔ)音信號明顯比次要麥克風(fēng)強。兩個(gè)麥克風(fēng)會(huì )接收到相近信號強度的非語(yǔ)音背景音。將較強語(yǔ)音麥克風(fēng)和次要麥克風(fēng)收集到的聲音信息相減,剩下的大部分就是語(yǔ)音信息。麥克風(fēng)之間的距離越大,較近和較遠的麥克風(fēng)之間的信號差就越大,也就越容易使用這種簡(jiǎn)單算法抑制噪音。但是,當你不說(shuō)話(huà)時(shí),或預期語(yǔ)音數據隨時(shí)間變化時(shí)(例如當你走路或跑步,手機不斷搖晃時(shí)),此方法的效果會(huì )下降。多麥克風(fēng)噪音抑制當然是可靠的,但額外的硬件和處理存在缺點(diǎn)。
那么,如果只有一個(gè)麥克風(fēng),又會(huì )怎么樣呢?如果不使用額外聲源進(jìn)行驗證/比較,單麥克風(fēng)解決方案將依賴(lài)于理解接收到的噪音特性并將其濾除。這又與此前提到的穩態(tài)和非穩態(tài)噪聲定義有關(guān)。穩態(tài)噪聲可以通過(guò) DSP 算法有效濾除,非穩態(tài)噪聲帶來(lái)了一個(gè)挑戰,但深度神經(jīng)網(wǎng)絡(luò ) (DNN) 可以幫助解決問(wèn)題。
此方法需要一個(gè)用于訓練網(wǎng)絡(luò )的數據集。該數據集由不同的(穩態(tài)和非穩態(tài))噪聲以及清晰的語(yǔ)音組成,創(chuàng )造出合成的嘈雜語(yǔ)音模式。將該數據集作為輸入饋送給 DNN,并以清晰的語(yǔ)音作為輸出。這將創(chuàng )建一個(gè)神經(jīng)網(wǎng)絡(luò )模型,它會(huì )消除噪音,僅輸出清晰的語(yǔ)音。
即使使用經(jīng)訓練的 DNN,仍有一些挑戰和指標需要考慮。如果要以低延遲實(shí)時(shí)運行,就需要很強的處理能力或較小的 DNN。DNN 中的參數越多,其運行速度越慢。音頻采樣率對聲音抑制有類(lèi)似的影響。較高的采樣率意味著(zhù) DNN 需要處理更多參數,但連帶地會(huì )獲得更優(yōu)質(zhì)的輸出。為實(shí)現實(shí)時(shí)噪音抑制,窄帶語(yǔ)音通信是理想之選。
這種處理全部都是密集型任務(wù),云計算非常擅長(cháng)完成這類(lèi)任務(wù),但這種方法會(huì )顯著(zhù)增加延遲?紤]到人類(lèi)可以可靠地分辨大約 108 毫秒以上的延遲,云計算處理帶來(lái)的延額外遲顯然不是理想的結果。但是,在邊緣運行 DNN 需要進(jìn)行一些巧妙的調整。CEVA 始終致力于完善我們的聲音和語(yǔ)音處理能力。這包括經(jīng)過(guò)實(shí)際驗證的語(yǔ)音清晰度和命令識別算法 - 通過(guò)這些算法,即使在邊緣也能提供明確的通信和語(yǔ)音控制。歡迎聯(lián)系我們,親自聆聽(tīng)。 |