<abbr id="kc8ii"><menu id="kc8ii"></menu></abbr>
  • <input id="kc8ii"><tbody id="kc8ii"></tbody></input><table id="kc8ii"><source id="kc8ii"></source></table><kbd id="kc8ii"></kbd>
    <center id="kc8ii"><table id="kc8ii"></table></center>
  • <input id="kc8ii"></input>
    <abbr id="kc8ii"></abbr>
  • <abbr id="kc8ii"></abbr>
  • <center id="kc8ii"><table id="kc8ii"></table></center>
    <abbr id="kc8ii"></abbr>
    你的位置:首頁 > 互連技術 > 正文

    機器學習應用用FPGA技術實現要注意的幾點因素

    發布時間:2017-03-17 責任編輯:sherry

    【導讀】神經網絡、算法和傳感器等都還是處于不斷演化的過程,一款固定的、標準的設計平臺面對這些風云變幻的演進根本無力招架。此時此刻,FPGA技術成為數百家嵌入式視覺企業開發的首選,其中用于機器學習領域的已經超過40家。
     
    越來越多的輔助駕駛、無人機、虛擬現實/增強現實、醫學診斷、工業視覺等應用,為了追逐更高性能/差異化,紛紛對機器學習產生濃厚的興趣。
     
    已有幾家初創企業在開發專門的機器學習芯片,但上述這些應用不僅僅要集成機器學習,還有計算機視覺,傳感器融合和連接。如果要開發這么一整套獨特的性能組合,可能要花費幾億美元才能推出第一款芯片,而且從各種規格的確定落實到推出樣片,可能需要三年以上。
     
    更別提這三年過程當中還有一個挑戰:那就是神經網絡、算法和傳感器等都還是處于不斷演化的過程,一款固定的、標準的設計平臺面對這些風云變幻的演進根本無力招架。此時此刻,FPGA技術成為數百家嵌入式視覺企業開發的首選,其中用于機器學習領域的已經超過40家。
     
    那么問題來了,面對市場上最熱門的人工智能CPU/GPU芯片,全可編程方案的優缺點是什么?產量達到多少以后就不再合適?
     
    秒殺對手的性能,是怎么算出來的?
     
    賽靈思有一個公開的性能對比:針對 Zynq SoC 的 reVISION堆棧與 Nvidia Tegra X1 進行基準對比,得出下圖這個驚人的數據: reVISION 堆棧在機器學習方面單位功耗圖像捕獲速度提升 6 倍,在計算機視覺處理的幀速率提升 42 倍,時延僅為 1/5(以毫秒為單位),這些對實時應用而言都是至關重要的。
    秒殺對手的性能,是怎么算出來的?
    既然和競爭對手做對比,一定是在相同價格的芯片之上做的一些性能對比。在接到EDN記者的疑問后,賽靈思嵌入式視覺和SDSoC高級產品經理Nick Ni用詳細數據解答了此疑問。
     
    6倍、42倍和1/5,這幾個數據都是基于同一基礎的。
     
    “像機器學習的6倍的圖像/秒/瓦是用谷歌來做編程。比如Xilinx我們使用ZU9可以達到370,我們的功率達到7W,我們使用一樣的GoogleNet,我們可以看到Nvidia已經在公開他們最好的數據,所以我們就用他們這些數字,所以就算出來6X。”Ni指出。
     
    在42倍幀/秒/瓦,則是用最優化的這些庫來做比較。
     
    在競爭分析中使用英特爾(Altera)的 Arria 10 器件與賽靈思的 Zynq UltraScale+ MPSoC 對比。在進行嵌入式視覺應用計算效率比較時,選擇的器件有可比的 DSP 密度和器件功耗:
     
    ·Arria 10 SoC:SX220、SX270 和 SX480
     
    ·Zynq UltraScale+ MPSoC:ZU3、ZU7 和 ZU9 器件
    重點比較能用于包括深度學習和計算機視覺在內的眾多應用的通用 MACC 性能。英特爾的 MACC 性能基于運用預加法器的算子。但是這種實現方案產生的是乘積項的和,而非單獨的乘積項。因此英特爾的預加法器不適用高效深度學習或計算機視覺運算。
     
    在本計算效率分析中,每個器件的功耗使用賽靈思的2016.4 版 Power Estimator 工具和英特爾的 16.0.1 版 EPE Power Estimate 工具進行估算,并根據下列假設得出:
     
    1.90% DSP 占用率
     
    2.英特爾器件 - 速度等級為:2L, 最大頻率下供電電壓為 0.9V
     
    3.賽靈思器件 -速度等級為 1L, 最大頻率下供電電壓為 0.72V
     
    4.時鐘速率為 DSP Fmax 時邏輯利用率為 70%
     
    5.時鐘速率為 DSP 最大頻率的一半時,Block RAM 利用率為 90%
     
    6.DSP 翻轉率為 12.5%
     
    7.功耗特征:“典型功耗”
     
    下圖所示的即為深度學習和計算機視覺運算的能效對比。與英特爾的 Arria 10 SoC 器件相比,賽靈思器件能讓深度學習和計算機視覺運算的計算效率提高 3-7 倍。
    響應速度來源于架構
    響應速度來源于架構
     
    響應速度在汽車駕駛中直接影響著安全距離。
     
    “1/5時延有不一樣的方法來算,我們的算法是直接用了深度學習/機器學習,因為很多時候如果知道深度學習的話,可以用不一樣的方法來做,你輸入一個圖像進去,反應速度就是這個圖像什么時候能夠出來,我們可以看到5倍的速率差異。”Ni表示。現在一些硬件的專業客戶如果他們花費很多的精力或者是時間的投入,他們有可能可以實現只有1/12的時延。
     
    響應速度快,其實和賽靈思的架構是息息相關的,如下圖所示。“典型的嵌入式的GPU和典型的SoC,他的傳感器的數據是需要外部存儲,在處理過程中需要不斷的去訪問外部存儲。但是Zynq能直接獲得數據流,直接經過傳感器融合處理,再進行決策,響應時間大大縮短。”
    響應速度來源于架構
    如何滿足機器學習的這三點訴求?
     
    我們從客戶那里看到三方面的需求,賽靈思公司戰略與市場營銷部高級副總裁Steve Glaser表示,“第一,他們希望機器學習的智能性有所提高,同時他們也希望系統能夠實現及時的快速響應來應對一切外部事件,比如行人從車前經過,比如神經網絡或者相關技術的市場變化。”
    賽靈思公司戰略與市場營銷部高級副總裁Steve Glaser
    賽靈思公司戰略與市場營銷部高級副總裁Steve Glaser
     
    其次,成本要低、功耗要低。他們希望能夠以非常高的效率使用非常先進的算法。最后,他們需要靈活性——因為一切都在不斷的變化:神經網絡和算法、傳感器的類型配置和組合等。
     
    “我們能夠幫助客戶來優化他們的數據流,從傳感器到視覺處理,再到機器學習推斷,一直到控制系統。另外我們也通過先預置的硬件,再加上可以編程的軟件,為客戶提供前所未有的靈活性。”Glaser表示,這也就意味著,在不實質性改變硬件、包括板和芯片的情況下,客戶就能夠升級優化到最新的神經網絡、算法以及傳感器的類型配置。
     
    reVISION堆棧包含一些基礎的平臺,可以支持算法的開發,而且它帶有非常符合行業標準的庫和元素,針對于計算機、視覺以及機器學習都是非常重要的,這些框架包括在機器學習領域的Caffe,以及在計算機視覺領域就是OpenVX。
     
    專門的開發人才與生態環境
     
    在GPU體系中,有一大群開發者不斷提供優秀的設計,實現良性循環,例如NVidia推出的運算平臺CUDA,包含了CUDA指令集架構(ISA)以及GPU內部的并行計算引擎。
     
    全可編程方案好是好,可是會的人少。
     
    “reVISION可以簡單地實現一個工程,直接把一個Caffe訓練好的神經網絡模型部署到Zynq里。Zynq本身已經包括了優化的硬件,可以滿足神經網絡的計算需求。如果需要定制自己的神經網絡,只要把Caffe模型輸入到Zynq即可馬上跑起來。從開發角度講,Zynq特別像CUDA,可以直接釆用GPU或CPU訓練好的神經網絡。”
     
    現在reVISION堆棧有大量符合行業標準的庫和框架,開發時間可以大大壓縮,專門針對那些并沒有硬件方面專業知識的嵌入式軟件或者系統級工程師。
     
    傳統的模式中,賽靈思提供芯片以及開發環境當中20%的解決方案,剩下的80%要由客戶來完成。“有了這個reVISION堆棧以后,賽靈思能夠完成解決方案當中80%的工作,剩下的客戶只要完成20%。”Glaser表示。
     
    關鍵的一點不能漏:reVISION是免費的,賽靈思說自己只賺芯片錢。
     
    成本,多大的量需要尋求替代性方案?
     
    最后,人工智能的硬件生態目前還沒確定,從公司角度出發,搶占市場先機和獲得成本優勢同樣重要。
     
    幾年前推出Zynq的時候,其低端的版本大批量應用差不多是15美元以下,現在甚至有了更低端的單核版本,與高端產品4核及7核的異構多處理器MPSoC并存,“現在我們有從10美元到幾十美元的組合。”Glaser指出。
     
    雖然達不到幾千萬或數億那么高的量,由于不再是FPGA了,而是混合的SoC,帶有可以編程的邏輯和IO,所以在量方面已經建立了一個非常強大的成本優化的產品組合,能夠提供非常好的量化的性價比。
     
    “我們關注那些數量級在幾百萬的應用。一旦有一些應用實現了商業化,達到了幾千萬甚至是幾億的數量級,就會有別的更低成本的方案進來。”Glaser指出,賽靈思關注的只是幾百萬的數量級追求差異化的應用,而不是“夠用就好”的批量數千萬的商業化應用 。
    要采購傳感器么,點這里了解一下價格!
    特別推薦
    技術文章更多>>
    技術白皮書下載更多>>
    熱門搜索
    ?

    關閉

    ?

    關閉

    国产AV无码专区亚洲AV手机麻豆| 中文字幕乱码人妻一区二区三区 | 三上悠亚ssⅰn939无码播放| 久久久久久亚洲精品无码| 无码丰满熟妇juliaann与黑人| 中文字幕乱码无码人妻系列蜜桃| 18禁裸乳无遮挡啪啪无码免费| 免费无码午夜福利片69| 最近2019中文字幕电影1| 天堂√中文最新版在线| 97免费人妻无码视频| 无码人妻一区二区三区免费n鬼沢| 精品人妻V?出轨中文字幕| 无码任你躁久久久久久老妇| 精品少妇无码AV无码专区| 无码人妻熟妇AV又粗又大| 久久亚洲AV成人无码| 亚洲国产人成中文幕一级二级| 日本中文字幕中出在线| 色婷婷综合久久久久中文| 免费A级毛片无码无遮挡内射 | 中文毛片无遮挡高潮免费| 波多野42部无码喷潮在线| 人妻系列无码专区无码中出| 无码无套少妇毛多18p| 无码无套少妇毛多18PXXXX| 亚洲AV无码成人精品区天堂| 亚洲国产精品无码久久久蜜芽| 亚洲AV无码无限在线观看不卡| 中文字幕无码不卡免费视频| 中文字幕日韩理论在线| 久久久久av无码免费网| 中文字幕无码无码专区| 亚洲av激情无码专区在线播放| 亚洲AV无码精品色午夜在线观看| 无码无套少妇毛多18p| 精品无码一区在线观看| 免费a级毛片无码| 香蕉伊蕉伊中文视频在线 | 最近2018中文字幕免费视频| 欧美一级一区二区中文字幕 |