# XILINX Deephi Solution紹介

## アヴネット株式会社

18 June 2019







/\VNET°



以下のDPU IPをPL部分に実装するだけであとはソフトウェアフローのみで推論機能を実現できる。

| High DSP Usage |       |          |       |     | Low DSP Usage |       |          |       |     |
|----------------|-------|----------|-------|-----|---------------|-------|----------|-------|-----|
| Arch           | LUT   | Register | BRAM  | DSP | Arch          | LUT   | Register | BRAM  | DSP |
| B512           | 20177 | 31782    | 69.5  | 98  | B512          | 20759 | 33572    | 69.5  | 66  |
| B800           | 20617 | 35065    | 87    | 142 | B800          | 21050 | 33752    | 87    | 102 |
| B1024          | 27377 | 46241    | 101.5 | 194 | B1024         | 29155 | 49823    | 101.5 | 130 |
| B1152          | 28698 | 46906    | 117.5 | 194 | B1152         | 30043 | 49588    | 117.5 | 146 |
| B1600          | 30877 | 56267    | 123   | 282 | B1600         | 33130 | 60739    | 123   | 202 |
| B2304          | 34379 | 67481    | 161.5 | 386 | B2304         | 37055 | 72850    | 161.5 | 290 |
| B3136          | 38555 | 79867    | 203.5 | 506 | B3136         | 41714 | 86132    | 203.5 | 394 |
| B4096          | 40865 | 92630    | 249.5 | 642 | B4096         | 44583 | 99791    | 249.5 | 514 |

がZU3に実装可能なDPU IP

演算性能(OPS)は数字×動作周波数

例) B1024を300MHzで動かした場合は 1024×300M=300GOPS

ハードウェア設計としてはIP Catalogから DPUのIPをBlock Design に追加するだけ



## 課題1: 学習結果はなるべくGPUで学習したものをそのまま使いたい

#### 学習結果はGPUで実行しているものをそのまま流用可能



## 課題2:GPUでは消費電力が高すぎる、レイテンシが大きい

#### GPUに比べてZyngUS+が優れている理由

その1:内部メモリへのアクセスでLowレイテンシでHighパフォーマンスを実現 GPUは内部メモリが少ないので外部DRAMへのアクセスが必要となりレイテンシがかかる



より低消費電力でハイパフォーマンスを 実現できる

FP/INT16 CPU GPU Xilinx 2014 2015 2016

その2: 演算を低ビット化(量子化)することに その3: パイプライン処理により余分なDRAM アクセスをなくし、Lowレイテンシを 実現できる



## 課題2:GPUでは消費電力が高すぎる、レイテンシが大きい



## 課題3:GPUでは供給面が不安 長期供給可能か?

安定供給・長期供給を可能にするTSMC社との強いパートナシップ Xilinxは最新7nmプロセスもTSMCと共同開発を行っており、 TSMCと強いパートナーシップを結んでいる またTSMCはXilinx専用ラインがあり安定供給も可能



XilinxとTSMCの深いパートナーシップにより 長期供給が可能

## NEXTアクション

# 評価ボード Ultra96ボードによるDPUの評価

#### ターゲットデバイスと同じZU3が載っているボード



### B2304F DPUコアを260MHzで実装した場合の YOLOv3、RefineDetスペック

| Neural Network             | Input Size | MAC(GOPS) | Performance(fps) (Single thread) | Performance(fps) (Multiple thread) |
|----------------------------|------------|-----------|----------------------------------|------------------------------------|
| YOLOv3_ADAS                | 512x256    | 5.5       | 44.6                             | 47.5                               |
| YOLOv3_VOC                 | 416x416    | 65.4      | 6.6                              | 6.9                                |
| YOLOv3_VOC_TF <sup>1</sup> | 416x416    | 65.4      | 6.6                              | 6.8                                |
| RefineDet                  | 480x360    | 25        | 16.8                             | 17.9                               |
| RefineDet_10G              | 480x360    | 10.1      | 35                               | 39.3                               |
| RefineDet_5G               | 480x360    | 5.1       | 57.9                             | 70.3                               |
| RefineDet_640x480          | 640x480    | 6.2       | 37.6                             | 46.9                               |

Xilinxの機械学習ソリューションが簡単に評価できるボードです

# Thank you