
一、前言
芯片采購(gòu)網(wǎng)專注于整合國(guó)內(nèi)外授權(quán)IC代理商現(xiàn)貨資源,芯片庫(kù)存實(shí)時(shí)查詢,行業(yè)價(jià)格合理,采購(gòu)方便IC芯片,國(guó)內(nèi)專業(yè)芯片采購(gòu)平臺(tái)。
人工智能,人工智能(AI)廣泛應(yīng)用于各種應(yīng)用。硬件、算法和數(shù)據(jù)是人工智能的三大支撐,其中硬件是指運(yùn)行 AI 算法芯片及相應(yīng)的計(jì)算平臺(tái)。由于使用場(chǎng)景越來越多,需要處理的數(shù)據(jù)量越來越大,人們的需求也越來越高,這使得AI硬件平臺(tái)上必須有效地運(yùn)行算法。目前主要用于硬件。 GPU 神經(jīng)網(wǎng)絡(luò)并行計(jì)算,還有 FPGA 和 ASIC 也有未來異軍突起的潛力。
GPU它被稱為圖形處理器,是顯卡的心臟 CPU 類似地,它只是一種專門從事圖像操作的微處理器。GPU 在浮點(diǎn)計(jì)算和并行計(jì)算中,可以提供數(shù)十倍甚至數(shù)百倍 CPU 性能。但在應(yīng)用于深度學(xué)習(xí)算法時(shí),有三個(gè)局限性:
并行計(jì)算優(yōu)勢(shì)在應(yīng)用過程中不能充分發(fā)揮
硬件結(jié)構(gòu)固定不可編程
操作深度學(xué)習(xí)算法的效率遠(yuǎn)低于 ASIC 及 FPGA。
FPGA用戶可以根據(jù)自己的需要重復(fù)編程,稱為現(xiàn)場(chǎng)可編程門陣列。 GPU、CPU 相比之下,高、能耗低、可硬件編程等特點(diǎn)。FPGA 比GPU 功耗較低,比例較低 ASIC 開發(fā)時(shí)間短,成本低。FPGA也有三種限制:
基本單元的計(jì)算能力有限;
需要提高速度和功耗;
FPGA 比較貴。
ASIC(Application Specific Integrated Circuit)是為特殊目的設(shè)計(jì)的集成電路。不能重新編程,效率高,功耗低,但價(jià)格昂貴。近年來出現(xiàn)出現(xiàn)TPU、NPU、VPU、BPU各種令人眼花繚亂的芯片,本質(zhì)上都屬于ASIC。ASIC不同于 GPU 和 FPGA 定制的靈活性 ASIC 一旦制造完成,就不能改變,所以初始成本高,開發(fā)周期長(zhǎng),進(jìn)入門檻高。目前大部分都是有的 AI 算法也擅長(zhǎng)芯片研發(fā)的巨頭,如 Google 的 TPU。與神經(jīng)網(wǎng)絡(luò)相關(guān)的算法完美適用,ASIC 優(yōu)于性能和功耗 GPU 和 FPGA,TPU1 是傳統(tǒng) GPU 性能的 14-16 倍,NPU 是 GPU 的 118 倍。寒武紀(jì)已發(fā)布對(duì)外應(yīng)用指令集,預(yù)計(jì) ASIC 將是未來 AI 芯片的核心。
綜上所述,在性能方面,ASIC優(yōu)于其他幾種計(jì)算方案。ASIC在眾多芯片中,NPU性能非常突出,下面介紹一下NPU。
二、NPU介紹
所謂NPU(Neural network Processing Unit), 即神經(jīng)網(wǎng)絡(luò)處理器。顧名思義,它用電路模擬人類的神經(jīng)元和突觸結(jié)構(gòu)!如果你想用電路模仿人類的神經(jīng)元,你必須把每個(gè)神經(jīng)元抽象成一個(gè)激勵(lì)函數(shù),它的輸入是由連接神經(jīng)元的輸出和連接神經(jīng)元的突觸決定的。為了表達(dá)特定的知識(shí),用戶通常需要調(diào)整人工神經(jīng)網(wǎng)絡(luò)中的突觸值、網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)等。這一過程稱為學(xué)習(xí)。學(xué)習(xí)后,人工神經(jīng)網(wǎng)絡(luò)可以通過學(xué)習(xí)的知識(shí)來解決特定的問題。
由于深度學(xué)習(xí)的基本操作是處理神經(jīng)元和突觸,而傳統(tǒng)的處理器指令集(包括x86和ARM等)是為了開發(fā)一般計(jì)算,其基本操作是算術(shù)操作(加減乘除)和邏輯操作(和或非),通常需要數(shù)百甚至數(shù)千個(gè)指令來完成神經(jīng)元的處理,深度學(xué)習(xí)的處理效率不高。此時(shí),我們必須找到一種新的方法來突破經(jīng)典的馮·諾伊曼結(jié)構(gòu)!
存儲(chǔ)和處理在神經(jīng)網(wǎng)絡(luò)中是一體的,都體現(xiàn)在突觸權(quán)重上。 而馮·在諾伊曼結(jié)構(gòu)中,存儲(chǔ)和處理是分開的,分別由存儲(chǔ)器和計(jì)算器實(shí)現(xiàn),兩者之間存在巨大的差異。用現(xiàn)有的基于馮·經(jīng)典的諾伊曼結(jié)構(gòu)計(jì)算機(jī)(如X英偉達(dá)86處理器GPU)運(yùn)行神經(jīng)網(wǎng)絡(luò)時(shí),不可避免地會(huì)受到存儲(chǔ)和處理分離結(jié)構(gòu)的限制,從而影響效率。這也是專門針對(duì)人工智能的專業(yè)芯片對(duì)傳統(tǒng)芯片具有一定先天優(yōu)勢(shì)的原因之一。
NPU典型代表國(guó)內(nèi)寒武紀(jì)(Cambricon)芯片和IBM的TrueNorth。以中國(guó)寒武紀(jì)為例,2016年3月,中國(guó)科學(xué)院計(jì)算技術(shù)研究所陳云姬和陳天石研究小組提出了世界上第一個(gè)深度學(xué)習(xí)處理器指令集DianNaoYu。DianNaoYu指令可以直接處理大規(guī)模神經(jīng)元和突觸,一組神經(jīng)元可以通過一個(gè)指令處理,并為芯片上神經(jīng)元和突觸數(shù)據(jù)的傳輸提供一系列特殊支持。
三、寒武紀(jì)NPU介紹
寒武紀(jì)科技于2016年發(fā)布了世界上第一個(gè)終端AI首款商用神經(jīng)網(wǎng)絡(luò)處理器(NPU)“寒武紀(jì)1A”(Cambricon-1A),智能手機(jī)、安全監(jiān)控、可穿戴設(shè)備、無人機(jī)、智能駕駛等終端設(shè)備的主流智能算法能耗比完全超過傳統(tǒng)CPU、GPU。其高性能硬件架構(gòu)和軟件支持Caffe、Tensorflow、MXnet等主流AI開發(fā)平臺(tái)。可廣泛應(yīng)用于計(jì)算機(jī)視覺、語音識(shí)別、自然語言處理等智能處理的關(guān)鍵領(lǐng)域。
2017年,寒武紀(jì)科技發(fā)布了第二代NPU寒武紀(jì)1的架構(gòu)H”(Cambricon-1H),該系列比第一代產(chǎn)品1A該系列的能效比提高了數(shù)倍,可廣泛應(yīng)用于計(jì)算機(jī)視覺、語言識(shí)別、自然語言處理等智能處理的關(guān)鍵領(lǐng)域。其中,Cambricon-1H16版本的IP作為1H2566系列高性能版MAC 5126位浮點(diǎn)運(yùn)算器MAC 8位定點(diǎn)運(yùn)算器。在1GHz在主頻下,16位浮點(diǎn)神經(jīng)網(wǎng)絡(luò)的峰值速度為0.5Tops;8位定點(diǎn)神經(jīng)網(wǎng)絡(luò)運(yùn)算的峰值速度為1Tops。Cambricon-1H8版本IP作為1H512MAC 8位定點(diǎn)運(yùn)算器。在1GHz在主頻下,8位定點(diǎn)神經(jīng)網(wǎng)絡(luò)運(yùn)算的峰值速度為1Tops。Cambricon-1H8mini版本IP作為1H2566系列輕量級(jí)版MAC 8位定點(diǎn)運(yùn)算器。在1GHz在主頻下,8位定點(diǎn)神經(jīng)網(wǎng)絡(luò)的峰值速度為0.5Tops。
2018年,寒武紀(jì)科技發(fā)布了第三代IP寒武紀(jì)1產(chǎn)品M”(Cambricon-1M),世界上第一個(gè)臺(tái)積電7nm工藝制造,能耗比5Tops/W,即每瓦特運(yùn)算5萬億次,提供2Tops、4Tops、8Tops滿足不同場(chǎng)景、不同量級(jí)的三種規(guī)模處理器核AI處理需求,支持多核互聯(lián)。寒武紀(jì)1M前兩代處理器延續(xù)IP產(chǎn)品寒武紀(jì)1H/1A卓越的TracoPower代理單個(gè)處理器核可以支持完整性CNN、RNN、SOM進(jìn)一步支持多元化的深度學(xué)習(xí)模式SVM、k-NN、k-Means、決策樹等經(jīng)典機(jī)器學(xué)習(xí)算法支持本地培訓(xùn),為視覺、語音、自然語言處理和各種經(jīng)典機(jī)器學(xué)習(xí)任務(wù)提供靈活高效的計(jì)算平臺(tái),可廣泛應(yīng)用于智能手機(jī)、智能揚(yáng)聲器、智能攝像頭、智能駕駛等領(lǐng)域。
四、Cambricon-1A NPU應(yīng)用
這里首先介紹華為海思麒麟970手機(jī)處理器,因?yàn)樗鞘澜缟系谝粋(gè)人工智能移動(dòng)計(jì)算平臺(tái),是業(yè)內(nèi)第一個(gè)獨(dú)立的NPU(Neural Network Processing Unit)手機(jī)芯片專用硬件處理單元。麒麟970創(chuàng)新集成NPU創(chuàng)新設(shè)計(jì)了專用硬件處理單元HiAI移動(dòng)計(jì)算架構(gòu),它AI性能密度明顯優(yōu)于CPU和GPU。相較于四個(gè)Cortex-A73核心處理相同AI任務(wù),新的異構(gòu)計(jì)算架構(gòu)有約 50 倍能效和 25 性能優(yōu)勢(shì)倍,圖像識(shí)別速度可達(dá)2000張/分鐘左右。如此強(qiáng)大NPU寒武紀(jì)使用的專用硬件處理單元Cambricon-1A系列的IP,即麒麟970芯片集成寒武紀(jì)1A處理器作為其核心人工智能處理單元(NPU)。
————————————————
版權(quán)聲明:本文為CSDN博主「耐心的小黑」遵循原創(chuàng)文章CC 4.0 BY-SA版權(quán)協(xié)議,請(qǐng)附上原始來源鏈接和本聲明。
原文鏈接:https://blog.csdn.net/qq_39507748/article/details/109402395
- 消除對(duì)電氣系統(tǒng)和設(shè)備的干擾
- AMD Computex 2022簡(jiǎn)要概括&ZEN4架構(gòu)5nm瑞龍7000系列處理將于今年秋季上市,主頻超過5Ghz
- 安霸CV2FS/CV22FS獲得ASIL C芯片功能安全認(rèn)證超過了市場(chǎng)上同類芯片的水平
- 非接觸式充電智能鎖解決方案
- 激光雷達(dá)爆發(fā)的第一年 自動(dòng)駕駛技術(shù)或革命
- ST與Metalenz合作提供光學(xué)超結(jié)構(gòu)透鏡技術(shù)
- 巴斯夫擴(kuò)大了中國(guó)領(lǐng)先的正活性材料產(chǎn)能,實(shí)現(xiàn)了富錳鎳鈷錳產(chǎn)品噸級(jí)生產(chǎn)
- WWDC什么值得期待明天凌晨開幕?
- 佳能攜手VeeR舉辦超視角VR創(chuàng)作者大賽
- 印尼總統(tǒng):希望特斯拉能在當(dāng)?shù)刂圃炱嚕粌H僅是電池
- 推出新型多級(jí)羅茨泵 ACP 90
- 實(shí)現(xiàn)5G和6G愿景
