24小時(shí)聯(lián)系電話(huà):18217114652、13661815404
中文
- 您當前的位置:
- 首頁(yè)>
- 電子資訊>
- 技術(shù)專(zhuān)題>
- 語(yǔ)音控制系統中的功耗...
技術(shù)專(zhuān)題
語(yǔ)音控制系統中的功耗降低
語(yǔ)音控制系統中的功耗降低
僅使用語(yǔ)音來(lái)控制機器的能力已成為許多商業(yè)和消費者系統中的流行功能。但是語(yǔ)音控制的問(wèn)題在于設備必須始終處于監聽(tīng)狀態(tài),這意味著(zhù)必須始終為其供電。不過(guò),新的選擇正在不斷涌現,它們可以幫助設計人員減少語(yǔ)音激活設計的功耗。
使機器對口頭命令做出適當響應是一個(gè)巨大的處理挑戰。它要求系統首先有一個(gè)麥克風(fēng)來(lái)拾取聲音,一個(gè)數字轉換器將聲音轉換成處理器可以使用的東西,然后進(jìn)行大量的數字信號處理以從聲音中提取語(yǔ)音信息。涉及的處理量將取決于需要識別的命令字的數量。詞匯量有限的系統可以使用圖1中所示的結構進(jìn)行本地處理,以進(jìn)行單詞發(fā)現,而需要自然語(yǔ)音理解的系統可以使用云計算資源進(jìn)行進(jìn)一步處理。
圖1典型的語(yǔ)音控制系統必須不斷處理聲音以尋找命令字
不幸的是,大多數時(shí)候沒(méi)有語(yǔ)音發(fā)生,并且浪費了處理和消耗的功率。通過(guò)要求用戶(hù)首先按下按鈕等來(lái)啟動(dòng)語(yǔ)音處理,可以避免浪費。但是,如果僅通過(guò)語(yǔ)音激活系統,則必須始終捕獲并處理聲音,以免丟失命令。這對于電池供電的應用特別引起關(guān)注,因為語(yǔ)音處理的“始終在線(xiàn)”性質(zhì)可能會(huì )消耗大量電池。
為了減少浪費的精力并節省功率,語(yǔ)音處理系統通常會(huì )使用“喚醒”字進(jìn)行激活。這種方法所需的功率較小,因為在大多數情況下,語(yǔ)音處理只需要能夠識別單個(gè)特定單詞,而不是其全部功能詞匯。因此,該系統可以在偵聽(tīng)喚醒字的同時(shí)運行更簡(jiǎn)單,耗電更少的處理算法,從而暫停整個(gè)語(yǔ)音處理工作,直到檢測到喚醒字為止。
為了追求這種方法,業(yè)界已經(jīng)投入大量精力來(lái)開(kāi)發(fā)需要最小功率的喚醒單詞引擎。通常,這些引擎只能識別幾個(gè)單詞,從而為用戶(hù)提供可能的喚醒選項的選擇。但是,某些引擎可以識別足夠多的單詞,以提供有限形式的語(yǔ)音控制,從而提供多個(gè)命令。但是,對于更復雜的語(yǔ)音控制,喚醒詞引擎的目的只是為了及時(shí)激活功能更強大,更耗電的處理,以接收和解釋將跟隨喚醒詞的語(yǔ)音命令。
這些喚醒詞引擎在不斷發(fā)展。最近的一項介紹是將Retune的VoiceSpot單詞斑點(diǎn)算法與CEVA的低功耗DSP系列配對。該組合可以執行波束成形和聲學(xué)回聲消除,以提高在存在噪聲的情況下單詞識別以及喚醒單詞識別的可靠性。該算法的總內存占用量不到80 KB,主要針對較小的,由電池供電的應用,例如耳塞,智能手表和運動(dòng)相機。
另一個(gè)最新的介紹將Cyberon的CSpotter算法與瑞薩的RA6系列微控制器結合使用。該算法使用基于音素的建模,支持30多種語(yǔ)言。它可以用作喚醒引擎或使用多個(gè)不同的命令集提供本地語(yǔ)音控制。該處理器為數字麥克風(fēng)提供I 2 S(IC間聲音)接口,從而無(wú)需ADC。
兩種方法盡管已將語(yǔ)音識別任務(wù)減至最少,但仍依靠數字信號處理來(lái)進(jìn)行喚醒詞識別。這為始終接通的電源需求設置了下限,這在電池供電的應用中可能仍然很麻煩。但是,還有另一種技術(shù)可以為始終在線(xiàn)的喚醒字識別節省更多功率。
模擬機器學(xué)習技術(shù)是關(guān)鍵。RAMP(可重配置模擬模塊化處理器)芯片,首先將聲音識別為語(yǔ)音,然后再?lài)L試確定語(yǔ)音是否在說(shuō)喚醒詞。RAMP芯片允許系統執行的操作是,在執行任何語(yǔ)音處理之前,先確定所檢測到的聲音實(shí)際上是語(yǔ)音。如圖2所示,這種預先確定甚至可以使喚醒單詞引擎在沒(méi)有人講話(huà)時(shí)也保持休眠狀態(tài)。
圖2通過(guò)首先確定聲音是否是語(yǔ)音,RAMP芯片允許語(yǔ)音處理安全地忽略其他類(lèi)型的聲音。
該芯片使用模擬神經(jīng)網(wǎng)絡(luò )來(lái)實(shí)現這一目標,該模擬神經(jīng)網(wǎng)絡(luò )經(jīng)過(guò)訓練可以將人的聲音與其他聲音區分開(kāi),然后向聲音處理系統發(fā)送激活信號,以確定聲音是否在說(shuō)喚醒詞。為了確保語(yǔ)音處理具有完整的語(yǔ)音模式,芯片將在預卷式緩存中緩存500毫秒的捕獲聲音。當芯片將聲音識別為語(yǔ)音時(shí),它會(huì )將傳入的聲音(從前滾動(dòng)數據開(kāi)始)定向到語(yǔ)音處理系統以進(jìn)行解釋。
這種方法允許語(yǔ)音控制系統僅使RAMP芯片持續供電。每當沒(méi)有人講話(huà)時(shí),語(yǔ)音處理硬件(包括喚醒詞引擎)就可以保持休眠狀態(tài)。在大多數情況下,沒(méi)有語(yǔ)音的時(shí)間段表示系統運行的大部分時(shí)間。與喚醒字檢測所需的典型數十毫安電流相比,RAMP芯片和主機微控制器僅需要約25μA的電流。因此,與始終在線(xiàn)的喚醒字檢測相比,忽略靜音和非語(yǔ)音聲音的能力可以節省大量功率。
語(yǔ)音控制中的這種降低功率的創(chuàng )新很可能會(huì )繼續發(fā)生,從而將語(yǔ)音激活操作的潛力擴展到從線(xiàn)路供電到電池供電設計的應用中。無(wú)論通過(guò)語(yǔ)音控制給定設備是一個(gè)好主意,無(wú)論其電源如何,它都已成為一種實(shí)用的選擇。