設為主頁(yè)  加入收藏
 
·I2S數字功放IC/內置DSP音頻算法功放芯片  ·馬達驅動(dòng)IC  ·2.1聲道單芯片D類(lèi)功放IC  ·內置DC/DC升壓模塊的D類(lèi)功放IC  ·鋰電充電管理IC/快充IC  ·無(wú)線(xiàn)遙控方案  ·直流無(wú)刷電機驅動(dòng)芯片
當前位置:首頁(yè)->方案設計
使用交互式人工智能(CAI)實(shí)現語(yǔ)音轉錄成本降低高達90%
文章來(lái)源:永阜康科技 更新時(shí)間:2022/9/16 9:27:00
在線(xiàn)咨詢(xún):
給我發(fā)消息
張代明 3003290139
給我發(fā)消息
小鄢 2850985542
給我發(fā)消息
李湘寧 2850985550
13713728695
 

交互式人工智能(CAI)簡(jiǎn)介

什么是交互式人工智能(AI)?

交互式人工智能(CAI)使用機器學(xué)習(ML)的子集深度學(xué)習(DL),通過(guò)機器實(shí)現語(yǔ)音識別、自然語(yǔ)言處理和文本到語(yǔ)音的自動(dòng)化。CAI流程通常用三個(gè)關(guān)鍵的功能模塊來(lái)描述:

1 語(yǔ)音轉文本(STT),也稱(chēng)為自動(dòng)語(yǔ)音識別(ASR)
2 自然語(yǔ)言處理(NLP)
3 文本轉語(yǔ)音(TTS)或語(yǔ)音合成


圖1:交互式AI構建模塊

本篇白皮書(shū)詳細介紹了自動(dòng)語(yǔ)音識別(ASR)的應用場(chǎng)景,以及Achronix如何在實(shí)現ASR解決方案的同時(shí)將相關(guān)成本降低高達90%。

細分市場(chǎng)和應用場(chǎng)景

僅在美國就有超過(guò)1.1億個(gè)虛擬助手在發(fā)揮作用[1],大多數人對使用CAI服務(wù)都很熟悉。主要示例包括移動(dòng)設備上的語(yǔ)音助手,例如蘋(píng)果的Siri或亞馬遜的Alexa;筆記本電腦上的語(yǔ)音搜索助手,例如微軟的Cortana;自動(dòng)呼叫中心應答助理;以及支持語(yǔ)音功能的設備,例如智能音箱、電視和汽車(chē)等。

支持這些CAI服務(wù)的深度學(xué)習算法可以在本地電子設備上進(jìn)行處理,或者聚集在云中進(jìn)行遠程大規模處理。支持數百萬(wàn)用戶(hù)交互的大規模部署是一個(gè)巨大的計算處理挑戰,超大規模的提供商已經(jīng)通過(guò)開(kāi)發(fā)專(zhuān)用的芯片和設備來(lái)處理這些服務(wù)。

現在,大多數小型企業(yè)都可以使用亞馬遜、IBM、微軟和谷歌等公司提供的云API,輕松地將語(yǔ)音接口添加到他們的產(chǎn)品中。然而,當這些工作負載的規模增加時(shí)(本白皮書(shū)后面將介紹一個(gè)具體的示例),使用這些云API的成本將會(huì )變得過(guò)高,迫使企業(yè)尋求其他解決方案。此外,許多企業(yè)運營(yíng)對數據安全性有更高的要求,因此需要將解決方案必須保留在企業(yè)的數據安全范圍內。

企業(yè)級CAI解決方案可用于以下應用場(chǎng)景:

• 自動(dòng)呼叫中心
• 語(yǔ)音和視頻通信平臺
• 健康和醫療服務(wù)
• 金融和銀行服務(wù)
• 零售和售貨販賣(mài)設備

詳細介紹ASR處理過(guò)程

ASR是CAI流程的第一步,在這里語(yǔ)音被轉錄為文本。一旦文本可用,就可以使用自然語(yǔ)言處理(NLP)算法以多種方式對其進(jìn)行處理。NLP包括關(guān)鍵內容識別、情感分析、索引、語(yǔ)境化內容和分析。在端到端的交互式AI算法中,語(yǔ)音合成用于生成自然的語(yǔ)音響應。

最先進(jìn)的ASR算法是通過(guò)端到端的深度學(xué)習來(lái)實(shí)現。不同于卷積神經(jīng)網(wǎng)絡(luò )(CNN),遞歸神經(jīng)網(wǎng)絡(luò )(RNN)在語(yǔ)音識別中很常見(jiàn)。正如來(lái)自TechTarget [10]的David Petersson在《CNN與RNN:它們有何不同?》文章中提到:RNN更適合處理時(shí)間數據,與ASR應用非常適配;赗NN的模型需要較高的計算能力和存儲帶寬來(lái)處理神經(jīng)網(wǎng)絡(luò )模型,并滿(mǎn)足交互式系統所需的嚴格的延遲目標。當實(shí)時(shí)或自動(dòng)響應太慢時(shí),它們會(huì )顯得遲緩和不自然。通常只有犧牲處理效率才能實(shí)現低延遲,這會(huì )增加成本,并且對于實(shí)際部署來(lái)說(shuō)會(huì )變得過(guò)于龐大。

Achronix與采用現場(chǎng)可編程邏輯門(mén)陣列(FPGA)進(jìn)行AI推理的專(zhuān)業(yè)技術(shù)公司Myrtle.ai展開(kāi)合作。Myrtle.ai利用其MAU推理加速引擎在FPGA上實(shí)現基于RNN的高性能網(wǎng)絡(luò )。該設計已集成到Achronix Speedster®7t AC7t1500 FPGA器件中,可以利用Speedster7t架構的關(guān)鍵架構優(yōu)勢(將在本白皮書(shū)后面進(jìn)行探討),大幅提高實(shí)時(shí)ASR神經(jīng)網(wǎng)絡(luò )的加速處理,從而與服務(wù)器級中央處理器(CPU)相比,可處理的實(shí)時(shí)數據流(RTS)的數量增加2500%。

數據加速器:如何實(shí)現資源的合理平衡分配

數據加速器可以卸載通常由主CPU執行的計算、網(wǎng)絡(luò )和/或存儲處理工作負載,從而可以顯著(zhù)減少服務(wù)器的占用空間。本白皮書(shū)介紹了用一臺服務(wù)器和一個(gè)Achronix基于A(yíng)SR的加速卡可取代多達25臺服務(wù)器。這種架構大大降低了工作負載成本、功耗和延遲,同時(shí)提高了工作負載吞吐量。然而,只有在硬件得到有效使用并且部署具有成本效益的情況下,使用數據加速硬件來(lái)實(shí)現高性能和低延遲才有意義。

ASR模型對現代數據加速器來(lái)說(shuō)是一種挑戰,通常需要手動(dòng)調整以實(shí)現比平臺主要性能規格的個(gè)位數效率更高的性能。實(shí)時(shí)ASR工作負載需要高存儲帶寬以及高性能計算。這些大型神經(jīng)網(wǎng)絡(luò )所需的數據通常存儲在加速卡上的DDR存儲器中。將數據從外部存儲器傳輸到計算平臺是該工作負載中的性能瓶頸,特別是在進(jìn)行實(shí)時(shí)部署的時(shí)候。

圖形處理器(GPU)架構是基于數據并行模型,較小的批處理量(batch size)會(huì )導致GPU加速硬件的利用率較低,從而導致成本增加和效率降低。硬件加速解決方案數據表(以TOPS即每秒萬(wàn)億次操作為單位進(jìn)行衡量)中的性能數據并不能總是很好地表示實(shí)際性能,因為許多硬件加速器件由于與器件架構相關(guān)的瓶頸而未得到充分利用。這些數據以TOPS為單位,強調了加速器計算引擎的處理能力,但忽略了關(guān)鍵因素,例如外部存儲器的批處理量、速度和規模,以及在外部存儲器和加速器計算引擎之間傳輸數據的能力。對于A(yíng)SR工作負載,關(guān)注存儲帶寬和在加速器內高效地傳輸數據為加速器性能和效率的實(shí)現提供了更強有力的指導。

加速器必須具有更大的外部存儲規模和非常高的帶寬。當今的高端加速器通常使用高性能的外部存儲器,存儲規模達8-16 GB,運行速度可高達4 Tbps。它還必須能夠將這些數據傳輸到計算平臺而不會(huì )影響性能。然而,無(wú)論如何去實(shí)現高速存儲和計算引擎之間的數據通道,它幾乎在所有情況下都是系統性能的瓶頸,特別是在實(shí)時(shí)ASR這樣的低延遲應用中。

FPGA設計旨在存儲和計算之間提供最佳的數據路由通道,從而為這些工作負載提供一個(gè)出色的加速平臺。

Achronix解決方案與其他FPGA解決方案的對比

在機器學(xué)習(ML)加速領(lǐng)域中,已有FPGA架構宣稱(chēng)其推理速度可高達150 TOPS。然而在實(shí)際應用中,尤其是在那些對延遲敏感的應用(如ASR)中,由于無(wú)法在計算平臺和外部存儲器之間高效地傳輸數據,所以這些FPGA遠不能達到其聲稱(chēng)的最高推理速度。由于數據從外部存儲器傳輸到FPGA器件中的計算引擎時(shí)出現了瓶頸,從而造成了這種性能上的損失。Achronix Speedster7t架構在計算引擎、高速存儲接口和數據傳輸之間取得了良好的平衡,使Speedster7t FPGA器件能夠為實(shí)時(shí)、低延遲的ASR工作負載提供高性能,可實(shí)現最高TOPS速率的64%等級。


圖2:Speedster7t器件的計算、存儲和數據傳輸能力

Speedster7t架構如何實(shí)現更高的計算效率

在Speedster7t上搭載的機器學(xué)習處理器(MLP)是一種優(yōu)化的矩陣/向量乘法模塊,能夠在單個(gè)時(shí)鐘周期內進(jìn)行32次乘法和1次累加,是計算引擎架構的基礎。AC7t1500器件中的Block RAM(BRAM)與2560個(gè)MLP實(shí)例都處于同一位置,這意味著(zhù)更低的延遲和更高的吞吐量。

借助于這些關(guān)鍵的架構單元,Myrtle.ai的MAU低延遲、高吞吐量的ML推理引擎已集成到Speedster7t FPGA器件中。

在構建最佳的ASR解決方案時(shí),集成了之前提到的來(lái)自Myrtle.ai的MAU推理引擎,使用了2560個(gè)MLP中的2000個(gè)。由于MLP是一個(gè)硬模塊,它可以運行在比FPGA邏輯陣列本身更高的時(shí)鐘速率上。


圖3:機器學(xué)習處理器

在A(yíng)C7t1500器件中使用了8個(gè)GDDR6存儲控制器,它們總共可提供高達4 Tbps的雙向帶寬。如上所述,強大的計算引擎和大容量、高帶寬的存儲依賴(lài)于高速、低延遲和確定性的數據傳輸,以提供低延遲ASR應用所需的實(shí)時(shí)結果。

隨后這些數據進(jìn)入到Speedster7t的二維片上網(wǎng)絡(luò )(2D NoC)。該二維片上網(wǎng)絡(luò )是Speedster7t架構中的另一種硬結構,時(shí)鐘頻率高達2 GHz,可與所有I/O、內部硬模塊和FPGA邏輯陣列本身互連。憑借20 Tbps的總帶寬,2D NoC提供了最高的吞吐量,并通過(guò)適當的實(shí)現方式,可以在外部GDDR6存儲器和支持MLP的計算引擎之間提供最具確定性的、低延遲的數據傳輸。


圖4:總帶寬為20 Tbps的2D NoC

與其他競爭性廠(chǎng)商的解決方案不同,2D NoC消除了Speedster7t ASR解決方案在存儲器和計算引擎之間的任何瓶頸,在這些非常低的批處理速率下,硬件加速器的利用率達到最佳狀態(tài)。

將所有這些功能放在一個(gè)roofline圖中,就可以清楚地說(shuō)明Achronix Speedster7t器件在低延遲ASR應用中相對于其他競爭性FPGA解決方案的優(yōu)勢。該roofline圖使用了由每個(gè)制造商公布的經(jīng)過(guò)驗證的TOPS數據,展示了這些器件在實(shí)際應用中可以達到的效果。

下圖顯示了一個(gè)有效TOPS的roofline模型,它使用了Achronix為微基準(GEMV和MLP)和測試而構建的子集,以及公司A [4] [5]和公司B(基于架構)發(fā)布的數據。橙色的豎線(xiàn)表示批處理量為8毫秒和80毫秒音頻模塊的最佳操作點(diǎn),用于低延遲、實(shí)時(shí)ASR數據流應用。在這個(gè)最佳操作點(diǎn)上,Achronix的有效TOPS比公司A提高了44%,比公司B的解決方案提高了260%。


圖5:有效TOPS的Roofline模型

在一年內實(shí)現ASR處理成本降低高達90%的目標

大多數ASR解決方案由Google、Amazon、Microsoft Azure和Oracle等大型云服務(wù)提供商提供。隨著(zhù)運營(yíng)規模的擴大,以及這些產(chǎn)品在市場(chǎng)上取得的成功,在這些云API基礎上構建產(chǎn)品的服務(wù)提供商面臨著(zhù)越來(lái)越高的成本壓力。較大規模的ASR提供商公開(kāi)宣傳成本從每分鐘0.01美元到0.025美元不等[6]、[7]、[8]、[9]。行業(yè)報告顯示,呼叫中心的平均呼叫時(shí)間約為5分鐘?紤]一個(gè)大型企業(yè)數據或呼叫中心服務(wù)公司每天要處理50,000通電話(huà),每通電話(huà)5分鐘。按照上述費率計算,ASR處理成本將是每天1,500至6,000美元或每年50萬(wàn)至200萬(wàn)美元。Achronix和Myrtle.ai的解決方案可以集成在一個(gè)加速卡上支持處理4000個(gè)RTS,每天可以處理超過(guò)一百萬(wàn)次的呼叫。

有許多因素會(huì )決定獨立ASR設備的成本。在這個(gè)特定示例中,假設Achronix ASR加速解決方案是通過(guò)基于FPGA的PCIe卡提供,并集成到基于x86架構的2U服務(wù)器中。該設備從系統集成商那里出售,價(jià)格可能為50,000美元,而每年運行服務(wù)器的成本可能是這個(gè)成本的兩倍。這樣一來(lái),本地ASR設備第一年的費用就達到了10萬(wàn)美元。將這種本地解決方案與云API服務(wù)進(jìn)行比較,終端用戶(hù)可以在第一年節省5到20倍的費用。

表1:Achronix ASR解決方案與云API服務(wù)的對比總結

1.高度緊湊的系統使企業(yè)能夠隨著(zhù)其業(yè)務(wù)的增加而擴展,而無(wú)需依賴(lài)日益昂貴的ASR云API,也無(wú)需構建龐大的數據中心基礎設施來(lái)提供本地解決方案。

總結

CAI中的ASR功能要求RNN機器學(xué)習算法具有低延遲、高吞吐量的計算,這對現代AI加速器提出了挑戰。聲稱(chēng)推理速度高達150 TOPS的FPGA硬件加速器在大型計算引擎和高速存儲器之間傳輸數據時(shí)會(huì )遇到瓶頸,這些瓶頸可能導致硬件利用率低至5%。Achronix和Myrtle.ai攜手推出一個(gè)ASR平臺,該平臺由一個(gè)200W、x16 PCIe Gen4加速卡和相關(guān)軟件組成,可以同時(shí)支持多達4000個(gè)RTS,每24小時(shí)可以處理多達100萬(wàn)個(gè)、時(shí)長(cháng)5分鐘的轉錄文件。將單臺x86服務(wù)器上的PCIe加速卡與云ASR服務(wù)的成本相比,第一年的資本支出(CAPEX)和運營(yíng)成本(OPEX)就可以降低高達90%。

 
 
 
    您可能對以下產(chǎn)品感興趣  
產(chǎn)品型號 功能介紹 兼容型號 封裝形式 工作電壓 備注
HT97180 2X125mW/4.2V/32Ω SGM4917/MAX97220 QFN-16 1.65V-4.8V 1.6V超低工作電壓、無(wú)POP聲、免電容差分輸入125mW立體聲G類(lèi)耳機放大IC
 
 
    相關(guān)產(chǎn)品  
 
 
·藍牙音箱的音頻功放/升壓/充電管
·單節鋰電內置升壓音頻功放IC選型
·HT7179 12V升24V內置
·5V USB輸入、三節鋰電升壓型
·網(wǎng)絡(luò )主播聲卡專(zhuān)用耳機放大IC-H
 
M12269 河北發(fā)電機組 HT366 ACM8629 HT338 

業(yè)務(wù)洽談:手機:13713728695(微信同號)   QQ:3003207580  EMAIL:panbo@szczkjgs.com   聯(lián)系人:潘波

地址:深圳市寶安西鄉航城大道航城創(chuàng )新創(chuàng )業(yè)園A5棟307/309

版權所有:深圳市永阜康科技有限公司  備案號:粵ICP備17113496號

在线亚洲人成电影_中文有码国产精品欧美激情_免费大片一级a一级久久三_av天堂东京热无码专区