国产一区飘飘网_AI芯片產(chǎn)業(yè)生態(tài)梳理 >>深圳市永阜康電子有限公司

·I2S數字功放IC/內置DSP音頻算法功放芯片 ·馬達驅動(dòng)IC ·2.1聲道單芯片D類(lèi)功放IC ·內置DC/DC升壓模塊的D類(lèi)功放IC ·鋰電充電管理IC/快充IC ·無(wú)線(xiàn)遙控方案 ·直流無(wú)刷電機驅動(dòng)芯片

當前位置：首頁(yè)->方案設計

AI芯片產(chǎn)業(yè)生態(tài)梳理

文章來(lái)源：永阜康科技更新時(shí)間：2017/9/26 13:02:00

在線(xiàn)咨詢(xún)：

張代明 3003290139

小鄢 2850985542

李湘寧 2850985550

13713728695

AI芯片作為產(chǎn)業(yè)核心，也是技術(shù)要求和附加值最高的環(huán)節，在A(yíng)I產(chǎn)業(yè)鏈中的產(chǎn)業(yè)價(jià)值和戰略地位遠遠大于應用層創(chuàng )新。騰訊發(fā)布的《中美兩國人工智能產(chǎn)業(yè)發(fā)展全面解讀》報告顯示，基礎層的處理器/芯片企業(yè)數量來(lái)看，中國有14家，美國33家。本文將對這一領(lǐng)域產(chǎn)業(yè)生態(tài)做一個(gè)簡(jiǎn)單梳理。

AI芯片分類(lèi)

從功能來(lái)看，可以分為T(mén)raining(訓練)和Inference(推理)兩個(gè)環(huán)節。

Training環(huán)節通常需要通過(guò)大量的數據輸入，或采取增強學(xué)習等非監督學(xué)習方法，訓練出一個(gè)復雜的深度神經(jīng)網(wǎng)絡(luò )模型。訓練過(guò)程由于涉及海量的訓練數據和復雜的深度神經(jīng)網(wǎng)絡(luò )結構，運算量巨大，需要龐大的計算規模，對于處理器的計算能力、精度、可擴展性等性能要求很高。目前在訓練環(huán)節主要使用NVIDIA的GPU集群來(lái)完成，Google自主研發(fā)的ASIC芯片TPU2.0也支持訓練環(huán)節的深度網(wǎng)絡(luò )加速。

Inference環(huán)節指利用訓練好的模型，使用新的數據去“推理”出各種結論，如視頻監控設備通過(guò)后臺的深度神經(jīng)網(wǎng)絡(luò )模型，判斷一張抓拍到的人臉是否屬于黑名單。雖然Inference的計算量相比Training少很多，但仍然涉及大量的矩陣運算。在推理環(huán)節，GPU、FPGA和ASIC都有很多應用價(jià)值。

從應用場(chǎng)景來(lái)看，可以分成“Cloud/DataCenter(云端)”和“Device/Embedded(設備端)”兩大類(lèi)。

在深度學(xué)習的Training階段，由于對數據量及運算量需求巨大，單一處理器幾乎不可能獨立完成一個(gè)模型的訓練過(guò)程，因此，Training環(huán)節目前只能在云端實(shí)現，在設備端做Training目前還不是很明確的需求。

在Inference階段，由于目前訓練出來(lái)的深度神經(jīng)網(wǎng)絡(luò )模型大多仍非常復雜，其推理過(guò)程仍然是計算密集型和存儲密集型的，若部署到資源有限的終端用戶(hù)設備上難度很大，因此，云端推理目前在人工智能應用中需求更為明顯。GPU、FPGA、ASIC(Google TPU1.0/2.0)等都已應用于云端Inference環(huán)境。在設備端Inference領(lǐng)域，由于智能終端數量龐大且需求差異較大，如ADAS、VR等設備對實(shí)時(shí)性要求很高，推理過(guò)程不能交由云端完成，要求終端設備本身需要具備足夠的推理計算能力，因此一些低功耗、低延遲、低成本的專(zhuān)用芯片也會(huì )有很大的市場(chǎng)需求。

按照上述兩種分類(lèi)，我們得出AI芯片分類(lèi)象限如下圖所示。

除了按照功能場(chǎng)景劃分外，AI芯片從技術(shù)架構發(fā)展來(lái)看，大致也可以分為四個(gè)類(lèi)型：

通用類(lèi)芯片，代表如GPU、FPGA；
基于FPGA的半定制化芯片，代表如深鑒科技DPU、百度XPU等；
全定制化ASIC芯片，代表如TPU、寒武紀 Cambricon-1A等；
類(lèi)腦計算芯片，代表如IBM TrueNorth、westwell、高通Zeroth等。

AI芯片產(chǎn)業(yè)生態(tài)

從上述分類(lèi)象限來(lái)看，目前AI芯片的市場(chǎng)需求主要是三類(lèi)：

面向于各大人工智能企業(yè)及實(shí)驗室研發(fā)階段的Training需求(主要是云端，設備端Training需求尚不明確)；
Inference On Cloud，Face++、出門(mén)問(wèn)問(wèn)、Siri等主流人工智能應用均通過(guò)云端提供服務(wù)；
Inference On Device，面向智能手機、智能攝像頭、機器人/無(wú)人機、自動(dòng)駕駛、VR等設備的設備端推理市場(chǎng)，需要高度定制化、低功耗的AI芯片產(chǎn)品。如華為麒麟970搭載了“神經(jīng)網(wǎng)絡(luò )處理單元(NPU，實(shí)際為寒武紀的IP)”、蘋(píng)果A11搭載了“神經(jīng)網(wǎng)絡(luò )引擎(Neural Engine)”。

（一）Training訓練

2007年以前，人工智能研究受限于當時(shí)算法、數據等因素，對于芯片并沒(méi)有特別強烈的需求，通用的CPU芯片即可提供足夠的計算能力。Andrew Ng和Jeff Dean打造的Google Brain項目，使用包含16000個(gè)CPU核的并行計算平臺，訓練超過(guò)10億個(gè)神經(jīng)元的深度神經(jīng)網(wǎng)絡(luò )。但CPU的串行結構并不適用于深度學(xué)習所需的海量數據運算需求，用CPU做深度學(xué)習訓練效率很低，在早期使用深度學(xué)習算法進(jìn)行語(yǔ)音識別的模型中，擁有429個(gè)神經(jīng)元的輸入層，整個(gè)網(wǎng)絡(luò )擁有156M個(gè)參數，訓練時(shí)間超過(guò)75天。

與CPU少量的邏輯運算單元相比，GPU整個(gè)就是一個(gè)龐大的計算矩陣，GPU具有數以千計的計算核心、可實(shí)現10-100倍應用吞吐量，而且它還支持對深度學(xué)習至關(guān)重要的并行計算能力，可以比傳統處理器更加快速，大大加快了訓練過(guò)程。

從上圖對比來(lái)看，在內部結構上，CPU中70%晶體管都是用來(lái)構建Cache(高速緩沖存儲器)和一部分控制單元，負責邏輯運算的部分(ALU模塊)并不多，指令執行是一條接一條的串行過(guò)程。GPU 由并行計算單元和控制單元以及存儲單元構成，擁有大量的核(多達幾千個(gè))和大量的高速內存，擅長(cháng)做類(lèi)似圖像處理的并行計算，以矩陣的分布式形式來(lái)實(shí)現計算。同CPU不同的是，GPU的計算單元明顯增多，特別適合大規模并行計算。

在人工智能的通用計算GPU市場(chǎng)，NVIDIA現在一家獨大。2010年NVIDIA就開(kāi)始布局人工智能產(chǎn)品，2014年發(fā)布了新一代PASCAL GPU芯片架構，這是NVIDIA的第五代GPU架構，也是首個(gè)為深度學(xué)習而設計的GPU，它支持所有主流的深度學(xué)習計算框架。2016年上半年，NVIDIA又針對神經(jīng)網(wǎng)絡(luò )訓練過(guò)程推出了基于PASCAL架構的TESLA P100芯片以及相應的超級計算機DGX-1。DGX-1包含TESLA P100 GPU加速器，采用NVLINK互聯(lián)技術(shù)，軟件堆棧包含主要深度學(xué)習框架、深度學(xué)習SDK、DIGITS GPU訓練系統、驅動(dòng)程序和CUDA，能夠快速設計深度神經(jīng)網(wǎng)絡(luò )(DNN)，擁有高達170TFLOPS的半精度浮點(diǎn)運算能力，相當于250臺傳統服務(wù)器，可以將深度學(xué)習的訓練速度加快75倍，將CPU性能提升56倍。

Training市場(chǎng)目前能與NVIDIA競爭的就是Google。今年5月份Google發(fā)布了TPU 2.0，TPU(TensorProcessing Unit)是Google研發(fā)的一款針對深度學(xué)習加速的ASIC芯片，第一代TPU僅能用于推理，而目前發(fā)布的TPU 2.0既可以用于訓練神經(jīng)網(wǎng)絡(luò )，又可以用于推理。據介紹，TPU2.0包括了四個(gè)芯片，每秒可處理180萬(wàn)億次浮點(diǎn)運算。Google還找到一種方法，使用新的計算機網(wǎng)絡(luò )將64個(gè)TPU組合到一起，升級為所謂的TPU Pods，可提供大約11500萬(wàn)億次浮點(diǎn)運算能力。Google表示，公司新的深度學(xué)習翻譯模型如果在32塊性能最好的GPU上訓練，需要一整天的時(shí)間，而八分之一個(gè)TPU Pod就能在6個(gè)小時(shí)內完成同樣的任務(wù)。目前Google 并不直接出售TPU芯片，而是結合其開(kāi)源深度學(xué)習框架TensorFlow為AI開(kāi)發(fā)者提供TPU云加速的服務(wù)，以此發(fā)展TPU2的應用和生態(tài)，比如TPU2同時(shí)發(fā)布的TensorFlow Research Cloud (TFRC) 。

上述兩家以外，傳統CPU/GPU廠(chǎng)家Intel和AMD也在努力進(jìn)入這Training市場(chǎng)，如Intel推出的Xeon Phi+Nervana方案，AMD的下一代VEGA架構GPU芯片等，但從目前市場(chǎng)進(jìn)展來(lái)看很難對NVIDIA構成威脅。初創(chuàng )公司中，Graphcore 的IPU處理器(IntelligenceProcessing Unit)據介紹也同時(shí)支持Training和Inference。該IPU采用同構多核架構，有超過(guò)1000個(gè)獨立的處理器；支持All-to-All的核間通信，采用BulkSynchronous Parallel的同步計算模型；采用大量片上Memory，不直接連接DRAM。

總之，對于云端的Training(也包括Inference)系統來(lái)說(shuō)，業(yè)界比較一致的觀(guān)點(diǎn)是競爭的核心不是在單一芯片的層面，而是整個(gè)軟硬件生態(tài)的搭建。NVIDIA的CUDA+GPU、Google的TensorFlow+TPU2.0，巨頭的競爭也才剛剛開(kāi)始。

（二）Inference On Cloud云端推理

相對于Training市場(chǎng)上NVIDIA的一家獨大，Inference市場(chǎng)競爭則更為分散。若像業(yè)界所說(shuō)的深度學(xué)習市場(chǎng)占比(Training占5%，Inference占95%)，Inference市場(chǎng)競爭必然會(huì )更為激烈。

在云端推理環(huán)節，雖然GPU仍有應用，但并不是最優(yōu)選擇，更多的是采用異構計算方案(CPU/GPU +FPGA/ASIC)來(lái)完成云端推理任務(wù)。FPGA領(lǐng)域，四大廠(chǎng)商(Xilinx/Altera/Lattice/Microsemi)中的Xilinx和Altera（被Intel收購）在云端加速領(lǐng)域優(yōu)勢明顯。Altera在2015年12月被Intel收購，隨后推出了Xeon+FPGA的云端方案，同時(shí)與Azure、騰訊云、阿里云等均有合作；Xilinx則與IBM、百度云、AWS、騰訊云合作較深入，另外Xilinx還戰略投資了國內AI芯片初創(chuàng )公司深鑒科技。目前來(lái)看，云端加速領(lǐng)域其他FPGA廠(chǎng)商與Xilinx和Altera還有很大差距。

ASIC領(lǐng)域，應用于云端推理的商用AI芯片目前主要是Google的TPU1.0/2.0。其中，TPU1.0僅用于Datacenter Inference應用。它的核心是由65,536個(gè)8-bit MAC組成的矩陣乘法單元，峰值可以達到92 TeraOps/second(TOPS)。有一個(gè)很大的片上存儲器，一共28 MiB。它可以支持MLP，CNN和LSTM這些常見(jiàn)的神經(jīng)網(wǎng)絡(luò )，并且支持TensorFLow框架。它的平均性能(TOPS)可以達到CPU和GPU的15到30倍，能耗效率(TOPS/W)能到30到80倍。如果使用GPU的DDR5 memory，這兩個(gè)數值可以達到大約GPU的70倍和CPU的200倍。TPU 2.0既用于訓練，也用于推理，上一節已經(jīng)做過(guò)介紹。

國內AI芯片公司寒武紀科技據報道也在自主研發(fā)云端高性能AI芯片，目前與科大訊飛、曙光等均有合作，但目前還沒(méi)有詳細的產(chǎn)品介紹。

（三）Inference On Device設備端推理

設備端推理的應用場(chǎng)景更為多樣化，智能手機、ADAS、智能攝像頭、語(yǔ)音交互、VR/AR等設備需求各異，需要更為定制化、低功耗、低成本的嵌入式解決方案，這就給了創(chuàng )業(yè)公司更多機會(huì )，市場(chǎng)競爭生態(tài)也會(huì )更加多樣化。

1）智能手機

華為9月初發(fā)布的麒麟970 AI芯片就搭載了神經(jīng)網(wǎng)絡(luò )處理器NPU(寒武紀IP)。麒麟970采用了TSMC 10nm工藝制程，擁有55億個(gè)晶體管，功耗相比上一代芯片降低20%。CPU架構方面為4核A73+4核A53組成8核心，能耗同比上一代芯片得到20%的提升；GPU方面采用了12核Mali G72 MP12GPU，在圖形處理以及能效兩項關(guān)鍵指標方面分別提升20%和50%；NPU采用HiAI移動(dòng)計算架構，在FP16下提供的運算性能可以達到1.92 TFLOPs，相比四個(gè)Cortex-A73核心，處理同樣的AI任務(wù)，有大約50倍能效和25倍性能優(yōu)勢。

蘋(píng)果最新發(fā)布的A11仿生芯片也搭載了神經(jīng)網(wǎng)絡(luò )單元。據介紹，A11仿生芯片有43億個(gè)晶體管，采用TSMC 10納米FinFET工藝制程。CPU采用了六核心設計，由2個(gè)高性能核心與4個(gè)高能效核心組成。相比A10 Fusion，其中兩個(gè)性能核心的速度提升了25%，四個(gè)能效核心的速度提升了70%；GPU采用了蘋(píng)果自主設計的三核心 GPU 圖形處理單元，圖形處理速度與上一代相比最高提升可達 30% 之多；神經(jīng)網(wǎng)絡(luò )引擎NPU采用雙核設計，每秒運算次數最高可達 6000 億次，主要用于勝任機器學(xué)習任務(wù)，能夠識別人物、地點(diǎn)和物體等，能夠分擔 CPU 和 GPU 的任務(wù)，大幅提升芯片的運算效率。

另外，高通從 2014 年開(kāi)始也公開(kāi)了NPU的研發(fā)，并且在最新兩代驍龍 8xx 芯片上都有所體現，例如驍龍 835 就集成了“驍龍神經(jīng)處理引擎軟件框架”，提供對定制神經(jīng)網(wǎng)絡(luò )層的支持，OEM 廠(chǎng)商和軟件開(kāi)發(fā)商都可以基于此打造自己的神經(jīng)網(wǎng)絡(luò )單元。ARM在今年所發(fā)布的 Cortex-A75 和 Cortex-A55中也融入了自家的AI 神經(jīng)網(wǎng)絡(luò )DynamIQ技術(shù)，據介紹，DynamIQ技術(shù)在未來(lái) 3-5 年內可實(shí)現比當前設備高50倍的AI性能，可將特定硬件加速器的反應速度提升10倍�？傮w來(lái)看，智能手機未來(lái)AI芯片的生態(tài)基本可以斷定仍會(huì )掌握在傳統SoC商手中。

2）自動(dòng)駕駛

NVIDIA去年發(fā)布自動(dòng)駕駛開(kāi)發(fā)平臺DRIVE PX2，基于16nm FinFET工藝，功耗高達250W，采用水冷散熱設計；支持12路攝像頭輸入、激光定位、雷達和超聲波傳感器；CPU采用兩顆新一代NVIDIA Tegra處理器，當中包括了8個(gè)A57核心和4個(gè)Denver核心；GPU采用新一代Pascal架構，單精度計算能力達到8TFlops，超越TITAN X，有后者10倍以上的深度學(xué)習計算能力。Intel收購的Mobileye、高通收購的NXP、英飛凌、瑞薩等汽車(chē)電子巨頭也提供ADAS芯片和算法。初創(chuàng )公司中，地平線(xiàn)的深度學(xué)習處理器(BPU，BrainProcessor Unit)IP及其自研雨果(Hugo)平臺也是重點(diǎn)面向自動(dòng)駕駛領(lǐng)域。

3）計算機視覺(jué)領(lǐng)域

Intel收購的Movidius是主要的芯片提供商，大疆無(wú)人機、�？低暫痛笕A股份的智能監控攝像頭均使用了Movidius的Myriad系列芯片。目前國內做計算機視覺(jué)技術(shù)的公司中，商湯科技、Face++、云從、依圖等，未來(lái)有可能隨著(zhù)其自身計算機視覺(jué)技術(shù)的積累漸深，部分公司向上游延伸去做CV芯片研發(fā)。另外，國內還有如人人智能、智芯原動(dòng)等創(chuàng )業(yè)公司提供攝像頭端的AI加速I(mǎi)P及芯片解決方案。

4）其他

VR設備芯片的代表為微軟為自身VR設備Hololens而研發(fā)的HPU芯片，這顆由臺積電代工的芯片能同時(shí)處理來(lái)自5個(gè)攝像頭、一個(gè)深度傳感器以及運動(dòng)傳感器的數據，并具備計算機視覺(jué)的矩陣運算和CNN運算的加速功能；語(yǔ)音交互設備芯片方面，國內有啟英泰倫以及云知聲兩家公司，其提供的芯片方案均內置了為語(yǔ)音識別而優(yōu)化的深度神經(jīng)網(wǎng)絡(luò )加速方案，實(shí)現設備的語(yǔ)音離線(xiàn)識別；在泛IOT領(lǐng)域，NovuMind設計了一種僅使用3×3卷積過(guò)濾器的AI芯片，第一款芯片原型預計今年底推出，預計可實(shí)現耗能不超過(guò)5瓦進(jìn)行15萬(wàn)億次浮點(diǎn)運算，可以廣泛應用于各類(lèi)小型的互聯(lián)網(wǎng)“邊緣”設備。

（四）新架構 - 類(lèi)腦計算芯片

“類(lèi)腦芯片”是指參考人腦神經(jīng)元結構和人腦感知認知方式來(lái)設計的芯片，其目標是開(kāi)發(fā)出打破馮·諾依曼架構體系的芯片。這一領(lǐng)域目前仍處于探索階段，如歐盟支持的SpiNNaker和BrainScaleS、斯坦福大學(xué)的Neurogrid、IBM公司的TrueNorth以及高通公司的Zeroth等；國內Westwell、清華大學(xué)、浙江大學(xué)、電子科技大學(xué)等也有相關(guān)研究。

IBM的TrueNorth，2014年公布。在一顆芯片上集成了4096個(gè)內核，100萬(wàn)個(gè)神經(jīng)元、2.56億個(gè)可編程突觸，使用了三星的28nm的工藝，共540萬(wàn)個(gè)晶體管；每秒可執行460億次突觸運算，總功耗為70mW，每平方厘米功耗20mW。IBM的最終目標就是希望建立一臺包含100億個(gè)神經(jīng)元和100萬(wàn)億個(gè)突觸的計算機，這樣的計算機要比人類(lèi)大腦的功都強大10 倍，而功耗只有一千瓦，而且重量不到兩升。

國內AI初創(chuàng )公司西井科技Westwell是用FPGA模擬神經(jīng)元以實(shí)現SNN的工作方式，有兩款產(chǎn)品：

仿生類(lèi)腦神經(jīng)元芯片DeepSouth(深南)，第三代脈沖神經(jīng)網(wǎng)絡(luò )芯片SNN，基于STDP(spike-time-dependentplasticity)的算法構建完整的突觸神經(jīng)網(wǎng)絡(luò )，由電路模擬真實(shí)生物神經(jīng)元產(chǎn)生脈沖的仿生學(xué)芯片，通過(guò)動(dòng)態(tài)分配的方法能模擬出高達5000萬(wàn)級別的“神經(jīng)元”，功耗為傳統芯片在同一任務(wù)下的幾十分之一到幾百分之一。
深度學(xué)習類(lèi)腦神經(jīng)元芯片DeepWell(深井)，處理模式識別問(wèn)題的通用智能芯片，基于在線(xiàn)偽逆矩陣求解算法(OPIUM lite)對芯片中神經(jīng)元間的連接權重進(jìn)行學(xué)習和調整；擁12800萬(wàn)個(gè)神經(jīng)元，通過(guò)專(zhuān)屬指令集調整芯片中神經(jīng)元資源的分配；學(xué)習與識別速度遠遠高于運行在通用硬件(如CPU, GPU)上的傳統方法(如CNN)，且功耗更低。

總體來(lái)看，類(lèi)腦計算芯片領(lǐng)域仍處于探索階段，距離規�；逃萌杂斜容^遠的距離。

中國AI芯公司

騰訊AI產(chǎn)業(yè)報告中提到中國的AI的處理器/芯片企業(yè)一共有14家，我們參照公開(kāi)資料整理了部分國內AI處理器/芯片公司，雖不完備，但給感興趣的讀者做個(gè)參考。

1）寒武紀科技&Cambricon 1A

寒武紀科技成立于2016年，總部在北京，創(chuàng )始人是中科院計算所的陳天石、陳云霽兄弟，近期剛剛完成了一億美元A輪融資，阿里巴巴創(chuàng )投、聯(lián)想創(chuàng )投、國科投資、中科圖靈、元禾原點(diǎn)、涌鏵投資聯(lián)合投資，成為全球AI芯片領(lǐng)域第一個(gè)獨角獸初創(chuàng )公司。

寒武紀是全球第一個(gè)成功流片并擁有成熟產(chǎn)品的AI芯片公司，擁有終端AI處理器IP和云端高性能AI芯片兩條產(chǎn)品線(xiàn)。2016年發(fā)布的寒武紀1A處理器(Cambricon-1A)是世界首款商用深度學(xué)習專(zhuān)用處理器，面向智能手機、安防監控、無(wú)人機、可穿戴設備以及智能駕駛等各類(lèi)終端設備，在運行主流智能算法時(shí)性能功耗比全面超越傳統處理器。

2）地平線(xiàn)機器人&BPU/盤(pán)古

地平線(xiàn)機器人成立于2015年，總部在北京，創(chuàng )始人是前百度深度學(xué)習研究院負責人余凱。公司于去年中完成了A+輪融資，投資方包括了晨興資本、高瓴資本、紅杉資本、金沙江創(chuàng )投、線(xiàn)性資本、創(chuàng )新工場(chǎng)、真格基金、雙湖投資、青云創(chuàng )投、祥峰投資、DST等。據介紹，公司近期即將完成B輪融資。

BPU(BrainProcessing Unit)是地平線(xiàn)機器人自主設計研發(fā)高效的人工智能處理器架構IP，支持ARM/GPU/FPGA/ASIC實(shí)現，專(zhuān)注于自動(dòng)駕駛、人臉圖像辨識等專(zhuān)用領(lǐng)域。2017年，地平線(xiàn)基于高斯架構的嵌入式人工智能解決方案將會(huì )在智能駕駛、智能生活、公共安防三個(gè)領(lǐng)域進(jìn)行應用，第一代BPU芯片“盤(pán)古”目前已進(jìn)入流片階段，預計在今年下半年推出，能支持1080P的高清圖像輸入，每秒鐘處理30幀，檢測跟蹤數百個(gè)目標。地平線(xiàn)的第一代BPU采用TSMC的40nm工藝，相對于傳統CPU/GPU,能效可以提升2~3個(gè)數量級(100~1,000倍左右)。

3）深鑒科技&DPU

深鑒科技成立于2016年，總部在北京。由清華大學(xué)與斯坦福大學(xué)的世界頂尖深度學(xué)習硬件研究者創(chuàng )立，今年初完成了A輪融資，投資方包括了聯(lián)發(fā)科、賽靈思、金沙江創(chuàng )投、高榕資本、清華控股、方和資本等。

深鑒科技將其開(kāi)發(fā)的基于FPGA的神經(jīng)網(wǎng)絡(luò )處理器稱(chēng)為DPU。到目前為止，深鑒公開(kāi)發(fā)布了兩款DPU：亞里士多德架構和笛卡爾架構，其中，亞里士多德架構是針對卷積神經(jīng)網(wǎng)絡(luò )CNN而設計；笛卡爾架構專(zhuān)為處理DNN/RNN網(wǎng)絡(luò )而設計，可對經(jīng)過(guò)結構壓縮后的稀疏神經(jīng)網(wǎng)絡(luò )進(jìn)行極致高效的硬件加速。相對于 Intel XeonCPU 與 Nvidia TitanX GPU，應用笛卡爾架構的處理器在計算速度上分別提高189倍與13倍，具有24000倍與3000倍更高能效。

4）西井科技&DeepSouth/DeepWell

公司成立于2015年，總部在上海。今年6月完成了A輪融資，投資方包括了復星同浩、源政投資、合力投資、十維資本、喔贏(yíng)資本等。

西井科技是用FPGA模擬神經(jīng)元以實(shí)現SNN的工作方式，有兩款產(chǎn)品：

仿生類(lèi)腦神經(jīng)元芯片DeepSouth(深南)，第三代脈沖神經(jīng)網(wǎng)絡(luò )芯片SNN，基于STDP(spike-time-dependentplasticity)的算法構建完整的突觸神經(jīng)網(wǎng)絡(luò )，由電路模擬真實(shí)生物神經(jīng)元產(chǎn)生脈沖的仿生學(xué)芯片，通過(guò)動(dòng)態(tài)分配的方法能模擬出高達5000萬(wàn)級別的“神經(jīng)元”，功耗為傳統芯片在同一任務(wù)下的幾十分之一到幾百分之一。
深度學(xué)習類(lèi)腦神經(jīng)元芯片DeepWell(深井)，處理模式識別問(wèn)題的通用智能芯片，基于在線(xiàn)偽逆矩陣求解算法(OPIUM lite)對芯片中神經(jīng)元間的連接權重進(jìn)行學(xué)習和調整；擁12800萬(wàn)個(gè)神經(jīng)元，通過(guò)專(zhuān)屬指令集調整芯片中神經(jīng)元資源的分配；學(xué)習與識別速度遠遠高于運行在通用硬件(如CPU, GPU)上的傳統方法(如CNN)，且功耗更低。

5）云飛勵天&IPU

公司成立于2014年，總部在深圳，由國家“千人計劃”特聘專(zhuān)家陳寧和田第鴻博士聯(lián)合創(chuàng )立，今年3月完成了A輪融資，投資方松禾資本、深投控、紅秀盈信、山水從容投資、投控東海、真格基金等。

云天勵飛提供視覺(jué)智能芯片和解決方案，專(zhuān)注于人工智能領(lǐng)域，以新型處理器、機器學(xué)習與大數據技術(shù)為核心。公司自主研發(fā)的處理器芯片IPU，采用了全新的面向視覺(jué)計算的處理器芯片架構，該技術(shù)將機器學(xué)習效能提升了兩個(gè)數量級。公司在在深圳搭建的區域級天眼系統，實(shí)現了全球首創(chuàng )的“百萬(wàn)人群、秒級定位”，還被采納為2016年杭州G20峰會(huì )和烏鎮互聯(lián)網(wǎng)大會(huì )的安全系統提供服務(wù)。

6）人人智能&FaceOS

人人智能成立于2016年，是ARM OpenAI實(shí)驗室核心合作企業(yè)。公司于去年底完成了ARM和英諾天使基金的天使輪融資，據報道目前正在啟動(dòng)新一輪融資。

人人智能提供一個(gè)基ARM的人臉識別核心芯片即模組方案，識別模組是獨創(chuàng )的支持深度學(xué)習算法的嵌入式高性能ARM平臺，支持外接攝像機從視頻流檢測和載取人臉照片等功能。據介紹，人人智能發(fā)布的“智能芯”是國內首個(gè)人臉識別硬件模組，尺寸僅為86mm*56mm*21mm，集成了人工智能操作系統FaceOS。通過(guò)將人工智能算法進(jìn)行集成產(chǎn)品化，能夠把產(chǎn)品的研發(fā)周期減少60%，成本降低50%。

7）啟英泰倫&CI1006

啟英泰倫于2015年11月在成都成立，是一家語(yǔ)音識別芯片研發(fā)商，投資方包括了Roobo、匯聲信息等。

啟英泰倫的CI1006是基于A(yíng)SIC架構的人工智能語(yǔ)音識別芯片，包含了腦神經(jīng)網(wǎng)絡(luò )處理硬件單元，能夠完美支持DNN運算架構，進(jìn)行高性能的數據并行計算，可極大的提高人工智能深度學(xué)習語(yǔ)音技術(shù)對大量數據的處理效率。

8）云知聲&UniOne芯片

云知聲是一家智能語(yǔ)音識別技術(shù)公司，成立于2012年，總部位于北京。今年8月剛剛獲得3億人民幣戰略投資，其中部分資金將用于加大人工智能專(zhuān)用芯片UniOne的研發(fā)力度。

UniOne將內置DNN處理單元，兼容多麥克風(fēng)、多操作系統，對任何的場(chǎng)景不做限制，無(wú)論是在智能的空調上、車(chē)載上或其他智能設備上都可以植入這個(gè)芯片，該芯片具有高集成度的，低功耗、低成本的優(yōu)點(diǎn)。與此同時(shí)，公司還有IVM-M高性能嵌入式芯片，基于高通wifi模組，提供高性?xún)r(jià)比的物聯(lián)網(wǎng)語(yǔ)音交互整體方案，主要應用在智能空調，廚電等職能家具產(chǎn)品上；基于Linux系統設計的Unitoy芯片可一站式解決兒童陪伴式機器人的喚醒、識別、設備互聯(lián)能力。

9）百度&XPU

百度2017年8月Hot Chips大會(huì )上發(fā)布了XPU，這是一款256核、基于FPGA的云計算加速芯片。合作伙伴是賽思靈(Xilinx)。XPU采用新一代 AI 處理架構，擁有GPU的通用性和FPGA的高效率和低能耗，對百度的深度學(xué)習平臺PaddlePaddle做了高度的優(yōu)化和加速。據介紹，XPU關(guān)注計算密集型、基于規則的多樣化計算任務(wù)，希望提高效率和性能，并帶來(lái)類(lèi)似CPU的靈活性。但目前XPU有所欠缺的仍是可編程能力，而這也是涉及FPGA時(shí)普遍存在的問(wèn)題。到目前為止，XPU尚未提供編譯器。

10）NovuMind

NovuMind成立于2015年，公司創(chuàng )始人是原百度異構計算小組負責人吳韌，在北京及硅谷設有辦公室。公司于2017年初完成了A輪融資，投資方包括了真格基金、寬帶資本、英諾天使基金、洪泰基金、臻云創(chuàng )投、極客幫創(chuàng )投等，據報道近期正在籌備新一輪融資。

NovuMind主要為智能為汽車(chē)、安防、醫療、金融等領(lǐng)域提供ASIC芯片，并提供訓練模型的全棧式AI解決方案。與Nvidia GPU或Cadence DSP的通用深度學(xué)習芯片不同，NovuMind專(zhuān)注于開(kāi)發(fā)一種“非常專(zhuān)用但非常高效地進(jìn)行推理”的深度學(xué)習加速器芯片。NovuMind設計了一種僅使用3×3卷積過(guò)濾器的AI芯片，通過(guò)使用獨特的張量處理架構(tensorprocessing architecture)直接對三維Tensor進(jìn)行處理，新芯片將支持Tensorflow、Cafe和Torch模型。。NovuMind的第一個(gè)AI芯片(原型)預計會(huì )在17年圣誕節前推出。到明年2月份應用程序準備就緒，并能夠在該芯片上實(shí)現耗能不超過(guò)5瓦進(jìn)行15萬(wàn)億次浮點(diǎn)運算。NovuMind的第二個(gè)芯片，耗能將不超過(guò)1瓦，計劃在2018年中期面世。

11）華為&麒麟970芯片

麒麟970搭載的神經(jīng)網(wǎng)絡(luò )處理器NPU采用了寒武紀IP。麒麟970采用了TSMC 10nm工藝制程，擁有55億個(gè)晶體管，功耗相比上一代芯片降低20%。CPU架構方面為4核A73+4核A53組成8核心，能耗同比上一代芯片得到20%的提升；GPU方面采用了12核Mali G72 MP12GPU，在圖形處理以及能效兩項關(guān)鍵指標方面分別提升20%和50%；NPU采用HiAI移動(dòng)計算架構，在FP16下提供的運算性能可以達到1.92 TFLOPs，相比四個(gè)Cortex-A73核心，處理同樣的AI任務(wù)，有大約50倍能效和25倍性能優(yōu)勢。

12）中星微電子&NPU

中星微2016年6月推出量產(chǎn)的NPU芯片“星光智能一號”，NPU采用了“數據驅動(dòng)并行計算”的架構，單顆NPU(28nm)能耗僅為400mW，極大地提升了計算能力與功耗的比例，特別擅長(cháng)處理視頻、圖像類(lèi)的海量多媒體數據。每個(gè)NPU由四個(gè)NPU內核構成；每個(gè)NPU內核包括兩個(gè)數據流處理器和一個(gè)長(cháng)字處理器；每個(gè)數據流處理器由8個(gè)長(cháng)字或16個(gè)短字的SIMD(單指令多數據)處理單元組成；每個(gè)NPU峰值可提供38Gops或76Gops短字的處理能力；支持通用的基于深度學(xué)習的神經(jīng)網(wǎng)絡(luò )層(ConvolutionLayer/Pooling Layer/Full Connection Layer/Activation Layer/Custom SpecificLayer)。

以上僅為根據公開(kāi)資料整理部分國內AI處理器/芯片公司，更多公司資料將逐步完善。

來(lái)源：怪誕筆記

您可能對以下產(chǎn)品感興趣

產(chǎn)品型號	功能介紹	兼容型號	封裝形式	工作電壓	備注
CS5080	CS5080E是一款5V輸入,支持雙節鋰電池串聯(lián)應用,鋰離子電池的升壓充電管理IC.CS5080E集成功率MOS，采用異步開(kāi)關(guān)架構，使其在應用時(shí)僅需極少的外圍器件，可有效減少整體方案尺寸，降低BOM成本。CS5080E的升壓開(kāi)關(guān)充電轉換器的工作頻率為600KHz最大2A輸入充電，轉換效率為90%。		ESOP-8	3.44V-7.0V	5V USB輸入、雙節鋰電池串聯(lián)應用、升壓充電管理IC
HT97230	2X125mW/5.0V/32Ω		QFN-24	2.5V-5.5V	帶3D環(huán)繞音效、低音增強的免電容高保真G類(lèi)耳機IC

相關(guān)產(chǎn)品

·網(wǎng)絡(luò )主播聲卡專(zhuān)用耳機放大IC-H

M12269 河北發(fā)電機組 HT366 ACM8629 HT338

業(yè)務(wù)洽談：手機：13713728695（微信同號） QQ:3003207580 EMAIL:panbo@szczkjgs.com 聯(lián)系人：潘波

地址：深圳市寶安西鄉航城大道航城創(chuàng )新創(chuàng )業(yè)園A5棟307/309

在线亚洲人成电影_中文有码国产精品欧美激情_免费大片一级a一级久久三_av天堂东京热无码专区