麥克風陣列的語音信號處理技術
熟悉人工智能的朋友一定明白,語音交互對于人機對話交互的重要意義,而一個完整的語音交互涉及到人的語音、語義,機器的麥克風、處理器、核心算法等多個部分,是一項看似簡單,實則復雜的龐大工程!當然這是以小編的粗淺理解寫成的總結,技術講解咱還得靠大牛!
陣列麥克風對人工智能的意義
1.空間選擇性:通過電掃陣列等空間定位技術可以獲取聲源的有效位置,智能設備在獲取精準的聲源位置信息,讓我們的語音更加智能,通過算法獲取高品質的語音信號質量。
2.麥克風陣列可以自動檢測聲源位置,跟蹤說話人,同時可以獲取多聲源和跟蹤移動聲源的優勢,無論你走到任何位置,智能設備都會對你的位置方向進行語音增強。
3.陣列麥克風增加了空域處理,對多信號空時頻三維的處理彌補單信號在噪聲抑制,回聲抑制,混響抑制,聲源定位,語音分離方面的不足,讓我們的智能設備在復雜的環境中都可以獲取高質量的語音信號,提供更好的智能語音體驗。
麥克風陣列技術的技術難點
傳統的陣列信號處理技術直接應用到麥克風陣列處理系統中往往效果不理想,其原因在于麥克風陣列處理有不同的處理特點:
1.陣列模型的建立
麥克風主要應用處理語音信號,拾音范圍有限,且多用于近場模型,使得常規的陣列處理方法如雷達,聲吶等平面波遠場模型不再適用,在近場模型中,需要更加精準的球面波,需要考慮傳播路徑不同引起的幅度衰減不同。
2.寬帶信號處理
通常的陣列信號處理多為窄帶,即不同陣元在接受時延與相位差主要體現在載波頻率,而語音信號未經過調制也沒有載波,且高低頻之比較大,不同陣元的相位延時與聲源本身的特性關系很大—頻率密切相關,使得傳統的陣列信號處理方法不再完全適用。
3.非平穩信號處理
傳統陣列處理中,多為平穩信號,而麥克風陣列的處理信號多是非平穩信號,或者短時平穩信號,因此麥克風陣列一般對信號做短時頻域處理,每個頻域均對應一個相位差,將寬帶信號在頻域上分成多個子帶,每個子帶做窄帶處理,再合并成寬帶譜。
4.混響
聲音傳播受空間影響較大,由于空間反射,衍射,麥克風收到的信號除了直達信號以外,還有多徑信號疊加,使得信號被干擾,即為混響。在室內環境中,受房間邊界或者障礙物衍射,反射導致聲音延續,極大程度的影響語音的可懂度。
聲源定位
聲源定位技術在人工智能領域應用廣泛,利用麥克風陣列來形成空間笛卡爾坐標系,根據不同的線性陣列,平面陣列和空間陣列,來確定聲源在空間中的位置。智能設備首先可以對聲源的位置做進一步的語音增強,當智能設備獲取你的位置信息可以結合其他的傳感器進行進一步的智能體驗,比如機器人會聽到你的呼喚走到你的身邊,視頻設備會聚焦鎖定說話人等等。了解聲源定位技術之前,我們需要了解近場模型和遠場模型。
陣列技術的未來發展
麥克風陣列技術相對于單麥克風系統有很多優點,已成為語音增強及語音信號處理的重要部分。語音增強和聲源定位已經成為陣列技術中不可缺少的部分,在視頻會議,智能機器人,助聽器,智能家電,通信,智能玩具,車載領域都需要聲源定位和語音增強。各種信號處理技術,陣列信號處理技術都陸續結合到麥克風陣列的語音處理系統當中,并逐漸得到算法改進和進一步的廣泛應用。在復雜的噪聲環境,混響環境,聲學環境下,強大的硬件處理能力也使得復雜算法實時處理語音增強成為了可能。在未來,語音和圖像的緊密結合會成為人工智能領域的新的突破口,在人工智能的風口浪尖,是誰能將語音識別,語音理解,陣列信號處理,遠場語音,圖像識別,人臉識別,虹膜識別,聲紋識別的技術巧妙并有機的結合在一起,并將技術的本質和與人為本的宗旨完美的結合,讓我們拭目以待。