# 計算科学概論 — 高性能プログラミングと性能測定

#### 田浦健次朗

工学部 電子情報工学科 情報理工学系研究科 電子情報学専攻

### 目標

- ▶ 計算 & 計算機の「性能」について理解して
- ▶ 高性能プログラミングを実践
  - ▶ Jupyter 環境で学習
  - ▶ Wisteria で本格演習

#### Contents

計算科学で代表的なワークロード

OpenMP によるマルチコア CPU 並列化 parallel pragma Work sharing 構文 データ共有

OpenMP による GPU 並列化

CPU の性能

SIMD 命令

SIMD 命令 GCC のベクトル型拡張 ベクタ intrinsics 関数 例題の SIMD 化

#### ロードマップ

#### 計算科学で代表的なワークロード

OpenMP によるマルチコア CPU 並列化 parallel pragma Work sharing 構文 データ共有

OpenMP による GPU 並列化

CPU の性能

SIMD 命令

SIMD 命令 GCC のベクトル型拡張 ベクタ intrinsics 関数 例題の SIMD 化

# 計算科学で代表的なワークロード(1) — 密行列

▶ 例: 境界要素法, 深層学習



Krizhevsky et al. "ImageNet Classification with Deep Convolutional Neural Networks"

▶ 計算カーネル: 行列・行列積

```
for (i = 0; i < M; i++)
for (j = 0; j < N; j++)
for (k = 0; k < K; k++)
C(i,j) += A(i,k) * B(k,j);
```



# 計算科学で代表的なワークロード(2) ― 疎行列

▶ 例: 不規則格子での差分法や有限要素法



www.wikipedia.org

▶ 計算カーネル: 疎行列ベクトル積

```
for (i = 0; i < M; i++) {
    y[i] = 0;
    for (idx = start[i]; idx < start[i+1]; idx++) {
       y[i] += A[idx] * x[J[idx]];
    }
}</pre>
```

# 計算科学で代表的なワークロード (3) — N 体問題

▶ 例: 分子動力学, 天文, 流体, ...



www.wikipedia.org

- ▶ 計算カーネル: 直接計算, 多重極展開
- ▶ 重力の直接計算カーネル

```
for (i = 0; i < n; i++) {
   for (j = 0; j < n; j++) {
      if (i != j) {
            dx = p[j].pos - p[i].pos;
      r = |dx|;
      p[i].acc += p[j].m * dx / (r * r * r);
   }
}
</pre>
```

# 計算科学で代表的なワークロード(4) — モンテカルロ法

▶ 例: 統計物理, 機械学習, あらゆる期待値計算, ...

#### ロードマップ

計算科学で代表的なワークロード

#### OpenMP によるマルチコア CPU 並列化

parallel pragma Work sharing 構文 データ共有

OpenMP による GPU 並列化

CPU の性能

SIMD 命令

SIMD 命令 GCC のベクトル型拡張 ベクタ intrinsics 関数 例題の SIMD 化

#### マルチコア並列化の選択肢

- ▶ OS が提供するスレッド (Pthread) を直接使う
- ► OpenMP
- ▶ Intel Thread Building Blocks, Cilk Plus

今日は OpenMP の、それもごく基本的な機能だけを使う

### OpenMP

- ▶ ノード内 (共有メモリマルチコア) 上 での並列プログラミング言語の, 事実 上の標準
- ▶ 最近は GPU もサポートしている
  - ▶ 本演習ではそのこともあり OpenMP で CPU, GPU プログラミングを行う
- ► C/C++/Fortran + 並列指示構文 (directive) + APIs
  - ► C/C++では**#pragma**,
  - ▶ Fortran ではコメントで
- ▶ GCC, ICC, Clang (LLVM), NVIDIA はじめ多くのコンパイラでサポート
  - ► 本演習では GPU もサポートしている NVIDIA コンパイラを使ってみる (自分の好きなのを使って良い)



# OpenMP 参考文献

- ▶ 公式 HP http://openmp.org/
- ▶ 仕様 https://www.openmp.org/specifications/
- ▶ 最新の仕様 5.1 (pdf, html)

# OpenMP プログラムのコンパイルと実行 (GCC)

▶ GCC: コンパイル時に-fopenmp オプション

```
1 $ gcc -Wall -fopenmp program.c # C++ は g++
```

▶ NVIDIA HPC SDK (nvc, nvc++): コンパイル時に -mp=multicore オプション

```
1 $ nvc -mp=multicore program.c # C++ は nvc++
```

▶ 実行時に、OMP\_NUM\_THREADS環境変数で、使うスレッド数(コア数と 思ってよい)を指定

```
$ OMP_NUM_THREADS=1 ./a.out # use 1 thread
$ OMP_NUM_THREADS=4 ./a.out # use 4 threads
```

▶ 指定しなければノードのコア数. ただし, Oakbridge CX のジョブ スクリプトでは, 以下の節の x 部分でそれを指定できる

```
1 #PJM --omp thread=x
```

#### ロードマップ

計算科学で代表的なワークロード

#### OpenMP によるマルチコア CPU 並列化

parallel pragma

Work sharing 構文 データ共有

OpenMP による GPU 並列化

CPU の性能

SIMD 命令

SIMD 命令 GCC のベクトル型拡張 ベクタ intrinsics 関数 例題の SIMD 化

#### 基本中の基本の二つ

- ▶ #pragma omp parallel に よってスレッドを生成 (2.6)
- ► その後 **#pragma** omp for で for 文の繰り返しをスレッドで 分担 (2.11.4)

注: すべての OpenMP プラグマは 以下の形#pragma omp ...



#### #pragma parallel

▶ 文法:

- ▶ 意味 (動作):
  - ▶ OMP\_NUM\_THREADS 個のスレッドの チームができる
  - 最初からいたスレッドがチームの master になる
  - ▶ チームの各スレッドが S を実行
  - ▶ マスターは全員が S を終了するのを 待ち,終了したら続きを (自分だけで) 実行



# 簡単な parallel pragma の例

```
#include <stdio.h>
int main() {
   printf("hello\n");

#pragma omp parallel
   printf("world\n");
   printf("good bye\n");
   return 0;
}
```

```
1 $ OMP_NUM_THREADS=1 ./a.out
hello
world
$ OMP_NUM_THREADS=4 ./a.out
hello
6 world
7 world
8 world
9 world
9 good bye
```

### 細かい注

▶ 注: 複数の文を { ... } で囲めば一つの文になり, 結果として複数の文を parallel で実行可能

```
#include <stdio.h>
int main() {
   printf("hello\n");

#pragma omp parallel
   { printf("world\n");
   printf("good bye\n"); }

return 0;
}
```

```
1 $ OMP_NUM_THREADS=4 ./a.out
hello
world
world
good bye
world
good bye
world
good bye
world
good bye
```

# parallelの実際の動作

- ▶ ここでのスレッド  $\approx$  OS がサポートするスレッド (e.g., Pthread) と思っていてよい
- ▶ 以下を書いて

```
int main() {
    #pragma omp parallel
    worker();
}
```

以下のように実行すれば.

```
1 $ OMP_NUM_THREADS=50 ./a.out
```

50 の OS レベルのスレッドができ, それぞれが関数 worker() を実行する

▶ ⇒ 実践的には、使いたいコア数だけのスレッドを作ると思っておけば良い

### スレッド間で仕事を「分割」するには?

- ▶ #pragma omp parallel はスレッドを作り, 全員が同じ文を実行する
- ▶ つまりそれ自体がいわゆる「並列化 (仕事を分け合って高速化)」の 手段ではない
- ▶ スレッド間で仕事を分け合う手段が必要
  - 1. 自前でやる方法
  - 2. work sharing 構文を使う方法

### 自分でやるためのプリミティブ

- ▶ omp\_get\_num\_threads() (3.2.2): チーム内のスレッド数
- ▶ omp\_get\_thread\_num() (3.2.4): チーム内の自分の ID (0, 1, ...)
- ▶ これさえあれば原理的には自分で好きなように仕事を分割できる
- ▶ e.g.,

```
#pragma omp parallel

#pragma omp parallel

int t = omp_get_thread_num();

int nt = omp_get_num_threads();

/* n 回の繰り返しを nt スレッドで均等分割 */

for (i = t * n / nt; i < (t + 1) * n / nt; i++) {

...

}

}
```

#### ロードマップ

計算科学で代表的なワークロード

#### OpenMP によるマルチコア CPU 並列化

parallel pragma Work sharing 構文 データ共有

OpenMP による GPU 並列化

CPU の性能

SIMD 命令

SIMD 命令 GCC のベクトル型拡張 ベクタ intrinsics 関数 例題の SIMD 化

# Work sharing 構文

- 理論的には parallel, omp\_get\_num\_threads(), omp\_get\_thread\_num() だけで生きていくことが可能
- ▶ だが不便すぎる
- ▶ OpenMP は仕事をスレッド間で分割する手段 *(work sharing* **構文)** も提供している
  - ▶ for
  - ► task (省略)
  - ▶ section (省略)

# #pragma omp for (2.11.4 Worksharing-loop)

▶ 構文

- ▶ 意味 (動作) チーム内のスレッドがループの 繰り返しを「分け合って」実行
- ▶ 具体的にはどう「分け合う」? ⇒ scheduling



# #pragma omp forの制限

- ▶ for 文ならなんでも並列実行できるわけではない
- ▶ 文法上の厳しい制約がある. 繰り返しの回数が for 文開始時に簡単 にわかることを保証するため
- ▶ 簡単に言えば以下のような形のものだけ (2.11.1)

```
#pragma omp for
for(i = init; i < limit; i += incr)
S</pre>
```

(くや += は他の同種の演算も可<=や-=)

▶ init, limit, incr はループ中一定

# Scheduling (2.11.4)

▶ schedule という節でループの繰り返しがどうスレッド間で分割されるかを指定できる

▶ 3つの選択肢 (static, dynamic, guided)

#### static, dynamic, guided

- ▶ schedule(static[,chunk]):
   chunk 回ずつ巡ぐり
   (round-robin)
- ▶ schedule(dynamic[,chunk]): 各 スレッドが chunk 回分取っては 終わったら次の chunk 回を取る, ...を繰り返す
- ▶ schedule(guided[,chunk]): dynamicと似ているが,前半は いっぱい取り,後半は少く取る
- ▶ *chunk* は一回に取る回数の最小値を与える



### 他の選択肢

▶ schedule(runtime) とすると実行時に環境変数 OMP\_SCHEDULE で 指定可能になる

```
1 $ OMP_SCHEDULE=dynamic, 2 ./a.out
```

- ▶ schedule(auto) または何も指定しないと実装依存のデフォルトになる
- ▶ 多分 static で, chunk が  $\approx$  繰り返し数/スレッド数であるようなも のが使われていると思う (要確認)

## OpenMP プログラミングの頻出パターン

▶ 並列化できる・したいループを見つける

```
1 for (i = 0; i < HUGE; i++) {
2    ...
3</pre>
```

▶ そこに parallel と for を挿入

```
#pragma omp parallel
#pragma omp for
for (i = 0; i < HUGE; i++) {
    ...
}</pre>
```

▶ 実際その二つを一緒にした構文もある

```
#pragma omp parallel for
for (i = 0; i < HUGE; i++) {
    ...
}</pre>
```

#### ロードマップ

計算科学で代表的なワークロード

#### OpenMP によるマルチコア CPU 並列化

parallel pragma Work sharing 構文 データ共有

OpenMP による GPU 並列化

CPUの性能

SIMD 命令

SIMD 命令 GCC のベクトル型拡張 ベクタ intrinsics 関数 例題の SIMD 化

▶ # pragma omp parallel で作られたスレッドは,メモリ (アドレス 空間) を共有する

- ▶ # pragma omp parallel で作られたスレッドは,メモリ (アドレス 空間) を共有する
- ▶ メモリ? アドレス空間? 共有? どういう意味?

- ▶ # pragma omp parallel で作られたスレッドは、メモリ (アドレス空間) を共有する
- ▶ メモリ? アドレス空間? 共有? どういう意味?
  - ➤ ペプログラム言語の言葉で言えば、 たいがいの「変数や配列を共有する」 という意味です

- ▶ # pragma omp parallel で作られたスレッドは,メモリ (アドレス空間) を共有する
- ▶ メモリ? アドレス空間? 共有? どうい う意味?
  - ➤ ≈ プログラム言語の言葉で言えば、 たいがいの「変数や配列を共有する」 という意味です
  - ▶ ⇒ つまり, あるスレッドが変数や配列の値を更新して, 他のスレッドが読んだら, それはちゃんと伝わる, という意味



- ▶ # pragma omp parallel で作られたスレッドは、メモリ (アドレス空間) を共有する
- ▶ メモリ? アドレス空間? 共有? どうい う意味?
  - ➤ ≈ プログラム言語の言葉で言えば、 たいがいの「変数や配列を共有する」 という意味です
  - ▶ ⇒ つまり、あるスレッドが変数や配列の値を更新して、他のスレッドが読んだら、それはちゃんと伝わる、という意味
  - ▶ 参考: MPI はそうではない



#### 注: 共有メモリが実現されているレイヤ

- ▶ マルチコア CPU 自身が共有メモリの機能を (ソフトウェアの介在なく) 持っている
- ▶ あるコアがアドレス a に 456 を store 命令で書き (movq \$456,(a)), 別のコアが (後で) 同じアドレス a を load 命令で読めば (movq (a), %rbx), 456 が出てくる, というのは CPU の機能



- ▶ ありがたいことに、プログラミング言語処理 系がやることは並列プログラムであろうとな かろうとほぼ同じ
- ▶ ただしこれは、一つのノード (≈箱) 内での話
- ▶ 今日,複数のノード間では,そのような機能はない

# OpenMP でのデータ共有に関して知っておくべき点

- ▶ 共有されている場合の注意点 (競合状態)
- ▶ 共有されるもの (shared) とされないもの (private) の区別
- ▶ 競合状態の調停法

# 共有されたデータで計算をする場合の注意点

```
s = 0:
  for (i = 0; i < n; i++) {
    s += f(i);
                                       s: 5
   の f(0), f(1), ...の計算を
                                                   load s -> 5
   並列化したかったので,
                                                                 loads \rightarrow 5
   s = 0:
                                                   store s := 6
  #pragma omp parallel for
  for (i = 0; i < n; i++) {
                                                                 store s := 6
    s += f(i):
5
   とした.
```

▶ 右のようなタイミングで実行されると?

# 競合状態 (Race Condition)

- ▶ 競合状態: 並列に動いているスレッドが, 同じデータをアクセスしており, 誰か一人でも書き込みを行っている状態
- ▶ たいがいの場合はうまく動かない
- ▶ 対策:
  - 1. 競合状態を作らない (あるスレッドが書き込むなら, そのスレッド以外は触らない)
  - 2. 読み出しから書き込みまでの間に、他のスレッドに書かれないように する (atomic, critical 指示) (省略)
  - 3. 足し算のような、演算順序が関係ない集計操作であれば、各スレッド ごとに計算した結果を後で一度だけ足す (reduction) (後述)

# データ共有 (shared)・非共有 (private) 指示

- ▶ parallel pragma で作られたスレッド間で, データは
  - ▶ 文内で宣言された変数や配列は private (各スレッドが持つ)
  - ▶ それ以外は共有が基本
- ▶ それを逸脱したい場合の指示ができる
- ▶ 2.21 Data Environment
  - private
  - firstprivate
  - shared
  - reduction (only for parallel and for)
  - copyin

```
int main() {
2
      int S; /* shared */
      int P; /* made private below */
3
    #pragma omp parallel private(P) shared(S)
      {
5
        int L; /* automatically private */
6
        printf("S at %p, P at %p, L at %p\n",
7
               &S, &P, &L);
8
q
      return 0;
10
11
```

```
1 $ OMP_NUM_THREADS=2 ./a.out
S at 0x..777f494, P at 0x..80d0e28, L at 0x..80d0e2c
S at 0x..777f494, P at 0x..777f468, L at 0x..777f46c
```

# 挙動の図解

#### shared



#### private



#### firstprivate



#### reduction



## Reduction (2.21.5)

- ▶ "reduction":多くのデータを一つ のデータに集約する操作
  - $v = v_1 + \cdots + v_n$
  - $v = \max(v_1, \cdots, v_n)$
  - **>** ...
- ▶ 直接共有された変数を更新すると、 競合状態

```
1  v = 0.0;
5  for (i = 0; i < n; i++) {
2   v += f(a + i * dt) * dt;
3  }
4</pre>
```



## OpenMP の Reduction 節

- ▶ 以下を一言でやってくれる
  - ▶ 各スレッドが private な変数に集約
  - ▶ 全スレッドが終わったら一つの値に reduction

```
v = 0.0;
pragma omp parallel shared(v)
pragma omp for reduce(+:v)
for (i = 0; i < n; i++) {
v += f(a + i * dt) * dt;
}
</pre>
```



### Reduction の記法とユーザ定義 reduction

ightharpoonup reduction (2.21.5.4):

```
 \begin{array}{c} \text{1} \\ \text{2} \\ \end{array}  \begin{array}{c} \text{\#pragma omp parallel reduction}(\textit{op:var,var},\ldots) \\ \\ S \\ \end{array}
```

op は以下のどれか

- ▶ +, \*, -, &, ^, |, &&, min, max, ||
- ▶ ユーザ定義の reduction 名
- ▶ ユーザ定義 reduction (2.21.5.7)

```
#pragma omp declare reduction (name : type : combine statement)
```

#### ユーザ定義の reduction の例

#### 構造体 point に対する reduction

```
typedef struct {
1
      int x; int y;
2
    } point;
3
    point add_point(point p, point q) {
      /* p + q に相当する関数を定義 */
5
      point r = \{ p.x + q.x, p.y + q.y \};
6
      return r:
8
    // "ap" という名前で reduction を定義
9
    #pragma omp declare reduction(ap: point: omp_out=add_point(omp_out, omp_in))
10
11
    int main(int argc, char ** argv) {
12
      int n = atoi(argv[1]);
13
      point p = \{ 0.0, 0.0 \};
14
      int i:
    #pragma omp parallel for reduction(ap : p)
16
      for (i = 0: i < n: i++) {
        point q = { i, i };
18
        p = add_point(p, q);
19
20
      printf("%d %d\n", p.x, p.y);
21
22
      return 0;
23
```

## 密行列のマルチコア並列化

#### ▶ 簡単な作戦: i ループを分割

```
#pragma omp parallel for
for (i = 0; i < M; i++) {
  for (j = 0; j < N; j++) {
  real c = 0.0;
  for (k = 0; k < K; k++) {
    c += A(i,k) * B(k,j);
  }
  C(i,j) += c;
  }
}</pre>
```

注: すでに行った SIMD 化と組み合わせるのも同じくらい簡単

#### N 体問題のマルチコア並列化

#### ▶ 簡単な作戦: i ループの分割

```
real
interact_all(n, particle *p) {
    real U = 0.0;

for (i = 0; i < n; i++) {
        p[i].acc = vec(0,0,0);
        for (j = 0; j < n; j++) {
            U += interact2(p+i, p+j);
        }
        }
        return 0.5 * U;
}</pre>
```

```
real
interact_all(n, particle *p) {
    real U = 0.0;

    #pragma omp parallel for reduction(+:U)
    for (i = 0; i < n; i++) {
        p[i].acc = vec(0,0,0);
        for (j = 0; j < n; j++) {
            U += interact2(p+i, p+j);
        }
        return 0.5 * U;
}</pre>
```

注: SIMD 化と組み合わせるのも簡単

#### ロードマップ

計算科学で代表的なワークロード

OpenMP によるマルチコア CPU 並列化 parallel pragma Work sharing 構文 データ共有

#### OpenMP による GPU 並列化

CPUの性能

SIMD 命令 SIMD 命令 GCC のベクトル型拡張 ベクタ intrinsics 関数 例題の SIMD 化

#### ロードマップ

計算科学で代表的なワークロード

OpenMP によるマルチコア CPU 並列化 parallel pragma Work sharing 構文 データ共有

OpenMP による GPU 並列化

#### CPU の性能

SIMD 命令 SIMD 命令 GCC のベクトル型拡張 ベクタ intrinsics 関数 例題の SIMD 化

▶ プロセッサ (CPU や GPU) の性能は普通「○○ FLOPS」と表現され、1 秒に実行可能な最大の浮動小数点演算数を表す

- プロセッサ (CPU や GPU) の性能は普通「○○ FLOPS」と表現され、1 秒に実行可能な最大の浮動小数点演算数を表す
  - ► FLOPS = FLoating point Operations Per Second

- ▶ プロセッサ (CPU や GPU) の性能は普通「○○ FLOPS」と表現され、1 秒に実行可能な最大の浮動小数点演算数を表す
  - ► FLOPS = FLoating point Operations Per Second
  - ▶ 例えば 10 GFLOPS =  $1 \times 10^{10}$  FLOPS
  - ightharpoonup K = 10<sup>3</sup>, M = 10<sup>6</sup>, G = 10<sup>9</sup>, T = 10<sup>12</sup>, P = 10<sup>15</sup>, E = 10<sup>18</sup>, ...

- ▶ プロセッサ (CPU や GPU) の性能は普通「○○ FLOPS」と表現され、1 秒に実行可能な最大の浮動小数点演算数を表す
  - ► FLOPS = FLoating point Operations Per Second
  - ▶ 例えば 10 GFLOPS =  $1 \times 10^{10}$  FLOPS
  - $K = 10^3$ ,  $M = 10^6$ ,  $G = 10^9$ ,  $T = 10^{12}$ ,  $P = 10^{15}$ ,  $E = 10^{18}$ , ...
- ▶ ちなみに flop (小文字) は floating point operation の意味で使われる事が多い
  - ▶ 100 flops = 100 回の浮動小数点演算
  - ▶ 100 FLOPS = 毎秒 100 回の浮動小数点演算

# 今時のCPU/GPUの「性能」

▶ 単位: TFLOPS

|                            | 倍精度  | 単精度  | 消費電力                     |
|----------------------------|------|------|--------------------------|
| NVIDIA Tesla P100          | 5.0  | 10.0 | $\approx 300 W$          |
| NVIDIA Tesla V100          | 7.5  | 15.0 | $\approx 300 \mathrm{W}$ |
| NVIDIA Tesla A100 PCIe (*) | 9.7  | 19.5 | $\approx 300 W$          |
| NVIDIA Tesla H100 PCIe (*) | 30.0 | 60.0 | $\approx 350 W$          |
| Intel Knights Landing      | 3.0  | 6.0  | $\approx 250 \mathrm{W}$ |
| Intel Platinum 8368 (**)   | 2.9  | 5.8  | $\approx 270 W$          |
| Intel Platinum 8360Y (***) | 2.8  | 5.5  | $\approx 250 \mathrm{W}$ |

- ▶ (\*) Tensor Core (行列積用の特殊命令) を使わない場合
- ▶ (\*\*) 学習環境 Jupyter (mdx)
- ▶ (\*\*\*) 演習環境 Wisteria Aquarius (Intel CPU + GPU)

## 「性能」について知っておかねばならない事

▶ この CPU/GPU の「性能」が○○ FLOPS というのは, 割と多く のアプリケーションで自然にそのくらい (例: 6~7割) の性能が出る, ということを意味していない

## 「性能」について知っておかねばならない事

- ▶ この CPU/GPU の「性能」が○○ FLOPS というのは, 割と多く のアプリケーションで自然にそのくらい (例: 6~7割) の性能が出る, ということを意味していない
- ▶ 常に最大性能が出るわけじゃないのは当たり前, と思うでしょうが, そのギャップの大きさには驚き, 怒りすら覚えるかも知れません

## 「性能」について知っておかねばならない事

- ▶ この CPU/GPU の「性能」が○○ FLOPS というのは, 割と多く のアプリケーションで自然にそのくらい (例: 6~7割) の性能が出る, ということを意味していない
- ▶ 常に最大性能が出るわけじゃないのは当たり前, と思うでしょうが, そのギャップの大きさには驚き, 怒りすら覚えるかも知れません
- ▶ 不都合な真実?

## 不都合な真実 — 密行列積の場合

▶ 以下の密行列積コード:

```
for (long i = 0; i < M; i++) {
   for (long j = 0; j < N; j++) {
    for (long k = 0; k < K; k++) {
       C(i,j) += A(i,k) * B(k,j);
   }
}</pre>
```



▶ を「性能」 2.8 TFLOPS のプロセッサ Intel Xeon Platinum 8360Y CPU (Oakbridge CX の計算ノードのプロセッサ) で実行し たときの性能は?

## 実際の結果

```
1 A = 1000 x 1000 (4000000 bytes)
2 B = 1000 x 1000 (4000000 bytes)
3 C = 1000 x 1000 (4000000 bytes)
4 repeat C += A * B 1 times
5 2000000000 flops, total 12000000 bytes
6 2762354648 clocks
7 1.025528 sec
8 0.724 flops/clock
9 1.950215 GPLOPS
10 2.762 clocks/muladd
11 OK: max relative error = 0.000000
```

- ▶ CPU の最大性能 4.8 TFLOPS と比べると約 1/2461 (!)
- ▶ ちなみに計算ノードには同 CPU が 2 個積まれているので, 計算 ノードの最大性能は 9.6 TFLOPS

## 最大「性能」の真実

▶ プロセッサの性能を決めているのは、1クロックに実行できる命令数



http://www.realworldtech.com/haswell-cpu/

## 最大「性能」の真実

- ▶ プロセッサの性能を決めているのは、1クロックに実行できる命令数
- ▶ ざっくり言えば、1クロックに、
  - ▶ 浮動小数点命令が○個
  - ▶ + 整数演算が○個
  - ▶ + load 命令が○個
  - ▶ + store 命令が○個、
  - ▶ ...みたいな



http://www.realworldtech.com/haswell-cpu/

## 最大「性能」の真実

- ▶ プロセッサの性能を決めているのは,1クロックに実行できる命令数
- ▶ ざっくり言えば、1クロックに、
  - ▶ 浮動小数点命令が○個
  - ▶ + 整数演算が○個
  - ▶ + load 命令が○個
  - ▶ + store 命令が○個,
  - ▶ ...みたいな
- ▶ 最大「性能」は以下の掛け算の結果に 過ぎない:
  - 1 浮動小数点命令あたりの演算数
  - × 1クロックに実行できる浮動小数点命令数
  - × クロック周波数 (秒あたりのクロック数)
  - × コア数



http://www.realworldtech.com/haswell-cpu/

▶ 単精度 (32 bit) 浮動小数点数の場合:



▶ 単精度 (32 bit) 浮動小数点数の場合:

1 浮動小数点命令あたりの演算数

= 32 flops



▶ 単精度 (32 bit) 浮動小数点数の場合:

1 浮動小数点命令あたりの演算数 × 1 クロックに実行できる浮動小数点命令数

 $= 32 \text{ flops} \times 2$ 



▶ 単精度 (32 bit) 浮動小数点数の場合:

1 浮動小数点命令あたりの演算数

- × 1クロックに実行できる浮動小数点命令数
- × クロック周波数(秒あたりのクロック数)
- $= 32 \text{ flops} \times 2 \times 2.4 \text{ GHz } (1/\text{sec})$



▶ 単精度 (32 bit) 浮動小数点数の場合:

1 浮動小数点命令あたりの演算数

- × 1クロックに実行できる浮動小数点命令数
- × クロック周波数(秒あたりのクロック数)
- × コア数
- $= 32 \text{ flops} \times 2 \times 2.4 \text{ GHz } (1/\text{sec}) \times 36$



▶ 単精度 (32 bit) 浮動小数点数の場合:

- 1 浮動小数点命令あたりの演算数
- × 1クロックに実行できる浮動小数点命令数
- × クロック周波数(秒あたりのクロック数)
- × コア数
- $= 32 \text{ flops} \times 2 \times 2.4 \text{ GHz } (1/\text{sec}) \times 36$
- = 5529.6 GFLOPS (5.5 TFLOPS)



▶ 単精度 (32 bit) 浮動小数点数の場合:

1 浮動小数点命令あたりの演算数

- × 1クロックに実行できる浮動小数点命令数
- × クロック周波数(秒あたりのクロック数)
- × コア数
- $= 32 \text{ flops} \times 2 \times 2.4 \text{ GHz } (1/\text{sec}) \times 36$
- = 5529.6 GFLOPS (5.5 TFLOPS)

▶ 注: 倍精度 (64 bit) 浮動小数点数の場合: 1 クロックに実行できる浮動小数点命令数 = 8 となる以外は同じ



# 1浮動小数点命令あたりの演算数について

▶ Intel Platinum は 512 bit 幅のレジスタ (SIMD レジスタ) を持つ

# 1浮動小数点命令あたりの演算数について

- ▶ Intel Platinum は 512 bit 幅のレジスタ (SIMD レジスタ) を持つ
- ▶ 512 bit (64 bytes) = 単精度 (32 bit / 4 bytes)) 浮動小数点数が 16 つ

|  | $x_0$ | $x_1   x_2  $ | $x_3$ | $x_4$ | $x_5$ | $x_6$ | $x_7$ |
|--|-------|---------------|-------|-------|-------|-------|-------|
|--|-------|---------------|-------|-------|-------|-------|-------|

## 1浮動小数点命令あたりの演算数について

- ▶ Intel Platinum は 512 bit 幅のレジスタ (SIMD レジスタ) を持つ
- ▶ 512 bit (64 bytes) = 単精度 (32 bit / 4 bytes)) 浮動小数点数が 16 つ

|  |  |  |  |    |      | l  | l . |    |    |                   |         |
|--|--|--|--|----|------|----|-----|----|----|-------------------|---------|
|  |  |  |  | Y. | Υ.   | Ya | Y.  | Υ. | Y- | $\gamma_{\alpha}$ | $x_{7}$ |
|  |  |  |  | ~0 | 1201 | ~2 | 123 | ~4 | 25 | ~6                | 50.7    |
|  |  |  |  |    |      |    |     |    |    |                   |         |

▶ 乗算と加算を同時に行う命令 (fmadd) があり, それを使うと 1 命令で 16 × 2 = 32 演算ということになる

$$c = a * b + c$$

## 1浮動小数点命令あたりの演算数について

- ▶ Intel Platinum は 512 bit 幅のレジスタ (SIMD レジスタ) を持つ
- ▶ 512 bit (64 bytes) = 単精度 (32 bit / 4 bytes)) 浮動小数点数が 16 つ

▶ 乗算と加算を同時に行う命令 (fmadd) があり, それを使うと 1 命令で 16 × 2 = 32 演算ということになる

$$c = a * b + c$$

▶ 同じ SIMD レジスタで倍精度 (64 bit / 8 bytes) 数 8 つを保持する こともできる (したがって fmadd の演算数 =16)

# 知ってしまった真実

```
fmadd 命令を使わ (え) ない \rightarrow 1/2 (50.0%) SIMD 命令を使わ (え) ない \rightarrow 1/16 (6.25%) 並列化して (でき) いない \rightarrow 1/36 (2.78%) どれも使って (え) ない \rightarrow 1/1152 (0.087%)
```

- ▶ ⇒ 最大性能に近い性能は、相当限られた状況でのみ目にできる
- ▶ これらを意識せずにプログラムを書いたら言語処理系がそれらを勝手に使ってくれる、というのが理想だがなかなかそうはなっていない

## 以降のロードマップ

- ▶ 実例に沿って各要素を説明
- ▶ ワークロード
  - ▶ 密行列積
  - ▶ N 体問題の直接法カーネル部分
- それぞれのツールを使うための「プログラミング」
  - ▶ SIMD 化 ベクタ型, intrinsics
  - ▶ マルチコア並列化 OpenMP parallel/for pragma
  - ▶ 複数ノード並列化 MPI (時間切れの予定)
- ▶ 思想・哲学
  - ▶ 速くなったという結果より、何が起きているかをしっかり理解するのが大事
  - ▶ つまり, 何が起きているかを調べる方法を覚えるのが大事
  - ▶ コンパイラが出したコードを見る, 測定する

### ロードマップ

計算科学で代表的なワークロード

OpenMP によるマルチコア CPU 並列化 parallel pragma Work sharing 構文 データ共有

OpenMP による GPU 並列化

CPUの性能

### SIMD 命令

SIMD 命令 GCC のベクトル型拡張 ベクタ intrinsics 関数 例題の SIMD 化

### SIMD 化基礎

- ▶ SIMD 命令 = Single Instruction Multiple Data 命令
- ▶ ひとつの命令で複数のデータに同時に(同じ)演算

- ► CPU にとっては、命令デコードやディスパッチのオーバーヘッドを減らし、低消費電力で最大性能を稼ぐ手段
- ▶ 注: SIMD 命令(化)のことをしばしばベクトル命令(化)と言う
- ▶ 昔のベクトル計算機におけるベクトル命令とは違うが、考え方は似ているので、もはや区別しなくても平気(?)

### ロードマップ

計算科学で代表的なワークロード

OpenMP によるマルチコア CPU 並列化 parallel pragma Work sharing 構文 データ共有

OpenMP による GPU 並列化

CPU の性能

### SIMD 命令

SIMD 命令

GCC のベクトル型拡張 ベクタ intrinsics 関数 例題の SIMD 化

## IntelのSIMD命令概要

- ▶ Intel は長きに渡り、命令セットを拡張して SIMD 命令を増やして きた (今も増えている)
- ▶ ひとつの SIMD 命令で扱える bit 幅も増え続けている
- ▶ 命令セット名 (括弧内は SIMD の bit 幅): MMX (64) → SSE3 (128) → SSE4 (128) → AVX (256) → AVX2 (256) → AVX-512 (512)
- ▶ Oakbridge CX の CPU は Cascade Lake というマイクロアーキテクチャで AVX-512 までをサポート
- ▶ 自分で書ける必要はないが「どんなコードが SIMD 化できるのか」 を知る, 無事 SIMD 化できたかを判断できるようになる必要がある

# いくつかの AVX-512 命令 (アセンブリ言語)

| 演算  | 表記                                  | 意味 (C 風表記で)           |
|-----|-------------------------------------|-----------------------|
| 乗算  | <pre>vmulps %zmm0,%zmm1,%zmm2</pre> | zmm2 = zmm1 * zmm0    |
| 加算  | <pre>vaddps %zmm0,%zmm1,%zmm2</pre> | zmm2 = zmm1 + zmm0    |
| 乗加算 | vfmadd132ps %zmm0,%zmm1,%zmm2       | zmm2 = zmm0*zmm2+zmm1 |
| ロード | vmovups 400(%rax),%zmm0             | zmm0 = *(rax+400)     |
| ストア | <pre>vmovups %zmm0,400(%rax)</pre>  | *(rax+400) = zmm0     |

- ▶ zmm0, zmm1 ...SIMD レジスタ (通常 zmm レジスタ)
  - ▶ 16 個の単精度浮動小数点数 (C の float), 8 個の倍精度浮動小数点数 (C の double) を保持できる
- ▶ zmm0, ..., zmm31 まで 32 個ある
- ▶ XXXXps は *packed single precision* の略で, 単精度用の SIMD 命令 であることを示す

### ロード・ストア命令について

| ロード | vmovups 40(%rax),%zmm1 | zmm1 = *(rax+40) |
|-----|------------------------|------------------|
| ストア | vmouups %zmm1,40(%rax) | *(rax+40) = zmm1 |

- ▶ %rax は汎用レジスタで 64 bit の整数 (アドレス) を1つ保持できる
- ▶ 32(%rax) は (%rax + 32) 番地を指定する記法
- ▶ vmovups は, 指定したアドレスから連続した 512 bit (64 バイト) を アクセスする



▶ AVX2 以降は、バラバラのアドレスをアクセスする命令 (gather, scatter) もあるが、省略

# SIMD 命令と非 SIMD (スカラ) 命令

- 似て非なる命令たち
- ▶ SIMD 版 (...p.) vs. スカラ版 (...s.)
- ▶ SIMD 版も 512 bit 版 (zmm), 256 bit 版 (ymm), 128 bit 版 (xmm)

|                               | 演算対象   | SIMD   | 幅      | ISA     |
|-------------------------------|--------|--------|--------|---------|
|                               |        | /スカラ?  | (bits) |         |
| vmulps %zmm0,%zmm1,%zmm2      | 16 SPs | SIMD   | 512    | AVX-512 |
| vmulpd %zmm0,%zmm1,%zmm2      | 8 DPs  | SIMD   | 512    | AVX-512 |
| vmulps %ymm0,%ymm1,%ymm2      | 8 SPs  | SIMD   | 256    | AVX     |
| vmulpd %ymm0,%ymm1,%ymm2      | 4 DPs  | SIMD   | 256    | AVX     |
| mulps %xmm0,%xmm1             | 4 SPs  | SIMD   | 128    | SSE     |
| mulpd %xmm0,%xmm1             | 2 DPs  | SIMD   | 128    | SSE     |
| mulss %xmm0,%xmm1             | 1 SP   | scalar | (32)   | SSE     |
| mulsd %xmm0,%xmm1             | 1 DP   | scalar | (64)   | SSE     |
| vfmadd132ss %ymm0,%ymm1,%ymm2 | 1 SP   | scalar | (32)   | AVX     |

- $\triangleright$  ...ps : packed single precision
- ightharpoonup ...pd : packed double precision
- ▶ xmm0, ..., xmm15: 128 bit SSE registers (xmmi は, ymmi の下半分)
- ▶ ymm0, ..., ymm15 : 256 bit AVX registers (ymmi は, zmmi の下半分)

### SIMDの適用範囲と限界

- ▶ 命令を見ればわかるとおり、SIMD は、複数のデータに対し、ほぼ同 じ演算を適用する場合にしか適用できない
- ▶ また, それらのデータがメモリ上連続していないと (ロード・ストアに大きなオーバーヘッドがかかるため) 適用しにくい
- ▶ ⇒ 主なターゲットは, 隣接した繰り返しが隣接した要素にアクセス する, 分岐 (if, switch, etc.) がほとんどない単純なループ

## SIMD 化容易・困難なループ

### 易

```
for (i = 0; i < n; i++)
c[i] = a[i] + b[i];</pre>
```

### 難 (要素がバラバラ)

```
for (i = 0; i < n; i++)
c[i] = a[3 * i] + b[4 * i];</pre>
```

### 難 (分岐が多数)

```
for (i = 0; i < n; i++) {
   if (...) {
      ...
   } else if (...) {
      ...
   }
}</pre>
```

## SIMDを使う方法の選択肢

- 1. SIMD 化されたライブラリ関数の呼び出し (BLAS など)
- 2. コンパイラによるループの自動 SIMD(ベクトル) 化
- 3. SIMD 用言語拡張
  - ▶ OpenMP/Cilk Plus の SIMD 指示構文
  - ► Cilk Plus の配列構文
- 4. GCC/ICC ベクタ拡張
- 5. intrinsics 関数
- 6. アセンブリ

## どの SIMD 化手法を選択すべきか?

- ▶ コンパイラによるループの自動 SIMD(ベクトル) 化や, SIMD 指示 構文が十分強力ならばそれが理想だが, 実際には制限が多い
- ▶ それらが成功するようにするには結局, CPU の特性に合わせたプログラムやデータの書き換えが必要なことも多い
- ▶ この授業では目的に鑑みて、低水準だが直截な方法を中心に扱う
  - ▶ GCC/ICC ベクタ拡張
  - ► intrinsics 関数
- ► それをマスターした後、高水準な方法でのプログラミングをマスターするのは(多分)易しい

### ロードマップ

計算科学で代表的なワークロード

OpenMP によるマルチコア CPU 並列化 parallel pragma Work sharing 構文 データ共有

OpenMP による GPU 並列化

CPU の性能

#### SIMD 命令

SIMD 命令

GCC のベクトル型拡張

ベクタ intrinsics 関数 例題の SIMD 化

### GCC のベクトル型

▶ GCC では以下のようにして (SIMD) ベクトル型を定義可能

```
typedef float floatv __attribute__((vector_size(64),aligned(sizeof(float))));
```

- ▶ floatv という新しい型が定義され, float を 16 つ (64 バイト分) 並べたもの、という意味になる
- ▶ 注: Intel C Compiler (ICC) でも使えます
- ▶ 通常の四則演算がベクトル型に対しても可能 (そして, 当然 SIMD 命令が使われるだろうと確信できる)

```
1 floatv x, y, z;
z += x * y;
```

▶ 最近の GCC はスカラーとベクトルの混合も許す (ICC はダメ)

```
1 floatv x, y, z;
z = 3.5 * x + y;
```

## 実際に生成されたコードを見てみる

- ▶ コンパイラの-S オプション (アセンブリコード (.s) 生成) とお友達 になる
- ▶ -S オプションで学習
  - ▶ 小さな関数を書いて生成されたコードを見る

```
float plus(float x, float y) { return x + y; }
floatv plusv(floatv x, floatv y) { return x + y; }
```

▶ 注目部分 (e.g., 最内ループ) に以下を埋め込みアセンブリ言語の中で 検索 (asm volatile("...") は"..."をアセンブリに埋め込む構文).

▶ 以下などでコンパイル (g++, icc, icpc も同様)

```
gcc -S -03 -mavx512f file.c
```

▶ -mavx512f は AVX-512F を使うことを指示

# スカラ型データからベクトル型データを作る方法あれこれ(1)

1. 変数宣言時の初期化子

```
floatv v = { 0,10,20,...,150 };
```

2.16 要素を明示的に指定する関数

```
1 floatv v = _mm512_set_ps(0,10,20,...,150);/* されで v = 0,10,20,...,150 */
```

方法1と異なり変数初期化以外の場所でも使える.

3. スカラー個から全要素同一のベクトルを作る

```
1 floatv v = _mm512_set1_ps(30);/* これで v = 30,30,30,30,30,... */
```

# スカラ型データからベクトル型データを作る方法あれこれ(2)

4. スカラ型の配列から連続16要素をロードする

```
1 float * a;
2 ...
3 floatv v = *((floatv *)(&a[i]));
4 /* ごれで v = {a[i],a[i+1], ...,a[i+15]} */
```

5. 同じことを関数で

```
1 float * a;
2 ...
3 floatv v = _mm512_loadu_ps(&a[i]);
4 /* これで v = {a[i],a[i+1], ...,a[i+15]} */
```

# ベクトル型データからスカラ型データを取り出す方法あれこれ

配列風の構文

```
floatv v;
float x = v[3];
```

▶ スカラ型配列の連続16要素にストアする

```
1 float * a;
float v;
3 ...
4 *((floatv *)(&a[i])) = v;
/* これで a[i],a[i+1], ...,a[i+15] <- {v[0],v[1],...,v[15]} */
```

▶ 同じことを関数で

```
1 float * a;
2 ...
3 .mm512_storeu_ps(&a[i], v);
4 /* ごれで a[i],a[i+1], ...,a[i+15] <- {v[0],v[1],...,v[15]} */
```

### ロードマップ

計算科学で代表的なワークロード

OpenMP によるマルチコア CPU 並列化 parallel pragma Work sharing 構文 データ共有

OpenMP による GPU 並列化

CPU の性能

### SIMD 命令

SIMD 命令 GCC のベクトル型拡張 ベクタ intrinsics 関数 例題の SIMD 化

### ベクタ intrinsics

- ▶ Intrinsics 関数: コンパイラによって特別処理される関数
- ▶ 「ベクタ」intrinsics は、SIMD 命令とほぼ 1 対 1 に対応
- ▶ ⇒ どんな命令を出してほしいかをかなり詳細に制御できる
- ▶ 使い方: まず以下の include 指示を書く

#include <x86intrin.h>

すると以下が使えるようになる

- ▶ いくつかのベクトル型 (floatv に相当するもの)
- ▶ ベクトル型に対する多数の演算
- ➤ "Intel Intrinsics Guide" (https://software.intel.com/sites/landingpage/IntrinsicsGuide/) をブックマークしよう

# ベクタ intrinsics (名前の慣習)

- ベクタ型:
  - ▶ \_\_m128 (128 bit 浮動小数点数),
  - ▶ \_m256 (256 bit 浮動小数点数),
  - ▶ \_\_m512 (512 bit 浮動小数点数),
  - **•** ...
- ▶ 関数群
  - ▶ \_mm\_xxx (128 bit),
  - ► \_mm256\_xxx (256 bit),
  - ► \_mm512\_xxx (512 bit),
  - **•** ...
- ▶ ほぼすべての関数は特定の SIMD 命令に対応
  - \_mm\_add\_ps, \_mm\_mul\_ps, etc.
  - \_mm512\_loadu\_ps
  - \_mm512\_storeu\_ps
  - \_mm512\_add\_ps, \_mm512\_mul\_ps, \_mm512\_fmadd\_ps, ...
- ▶ もっとも四則演算は intrinsics を使うまでもない

### ロードマップ

計算科学で代表的なワークロード

OpenMP によるマルチコア CPU 並列化 parallel pragma Work sharing 構文 データ共有

OpenMP による GPU 並列化

CPU の性能

#### SIMD 命令

SIMD 命令 GCC のベクトル型拡張 ベクタ intrinsics 関数

例題の SIMD 化

## SIMD 化の実践 (前提)

- ▶ Oakbridge CX の CPU 用に AVX-512F 命令セット (512 bit = 64 byte)
- ▶ 単精度浮動小数点数 (32 bit = 4 byte)

```
typedef float real;
```

▶ つまりベクトル型 (realv) は real を 16 個保持

```
typedef real realv __attribute__((vector_size(64),aligned(sizeof(real))));
```

▶ ベクトル型の個々の要素をしばしば「レーン」と呼ぶ

```
enum { n_lanes = sizeof(realv) / sizeof(real) /* 16 */ };
```

## 密行列積の SIMD 化

#### ▶ 元コード:

```
void mm(matrix& A, matrix& B, matrix& C) {
2
      long M = A.n_rows, K = A.n_cols, N = B.n_cols;
      for (long i = 0; i < M; i++) {
        for (long j = 0; j < N; j++) {
          real c = 0.0;
5
          for (long k = 0; k < K; k++) {
            c += A(i,k) * B(k,j);
7
8
          C(i,j) += c;
q
10
11
12
```

▶ 注: C++の機能を使い matrix 型と, その要素アクセス演算 (A(i,j)) を定義している

### matrix クラス

```
struct matrix {
                                // 行数
     long n_rows;
                                // 列数
     long n_cols;
                                // 行間の要素数 (通常 = n_cols)
     long ld;
     real * a;
                                // (n_rows x 1d)個の要素を持つ配列
     // これで A(i,j) や A(i,j) = x みたいな表記が可能になる
     real& operator()(long i, long j) {
7
       return a[i * ld + j];
8
9
10
   };
```



### SIMD 化

- ▶ 作戦: jループのベクトル化
   c += A(i,k) \* B(k,j)
   の B(k,j), B(k,j+1),..., B(k,j+15) に対する計算を SIMD 命令で実行
- ▶ 問い: なぜi, kではなくjなのか?

```
for (i = 0; i < M; i++) {
  for (j = 0; j < N; j++) {
  real c = 0.0;
  for (k = 0; k < K; k++) {
    c += A(i,k) * B(k,j);
  }
  C(i,j) += c;
}
for (i = 0; i < M; i++) {
  for (j = 0; j < N; j+=16) {
  real c = 0.0;
  for (k = 0; k < K; k++) {
    c += A(i,k) * B(k,j);
  }
  C(i,j) += c;
}
C(i,j) += c;
}
for (i = 0; i < M; i++) {
  for (j = 0; j < N; j+=16) {
  real c = 0.0;
  for (k = 0; k < K; k++) {
    c += A(i,k) * B(k,j:j+15);
  }
  C(i,j:j+15) += c;
}
C(i,j:j+15) += c;
}
</pre>
```

注: B(k,j:j+15) という記法は概念説明用(C++ではない)です

### ベクトル要素のアクセス

▶ B(k,j), B(k,j+1), ..., B(k,j+15) をひとつのベクトル型デー タとして返す関数を定義するのがよい

```
realv loadv(long i, long j) {
   return *(realv*)(&a[i*ld+j]);
}
```

► C(i,j), C(i,j+1), ..., C(i,j+7) にベクトル型データをスト アする部分も同様

```
void storev(long i, long j, realv v) {
   *(realv*)(&a[i*ld+j]) = v;
}
```

```
for (i = 0; i < M; i++) {
  for (j = 0; j < N; j+=n.lanes) {
  realv c = _mm512_set1_ps(0);
  for (k = 0; k < K; k++) {
    c += A(i,k) * B.loadv(k,j);
  }
  C.storev(i,j,c);
  }
}</pre>

C.storev(i,j,c);
}
```

### N体問題のSIMD化

- ▶ 作戦: 16 個の i 粒子 1 個の j 粒子の計算を SIMD 命令で
- ▶ 問題点 1: i 粒子の x (y, z) 座標 16 つを束ねたベクトルデータをどう作るか
  - ▶ ベクトル用のロード命令は、連続した 16 個の要素しか取り出せない
- ▶ 問題点 2: 分岐命令 (if (i!= j)) の処理
  - ► SIMD の 16 要素中の 1 要素でのみ i == j となる

```
1 real interact_all(long n, particle * p) {
2    for (i = 0; i < n; i++) {
3       for (j = 0; j < n; j++) {
4         if (i != j) {
5            dx = p[j].pos - p[i].pos; // (x,y,z) のベクトル
6            r = |dx|; // (x*x+y*y+z*z)^{1/2} {
7            p[i].acc += p[j].m * dx / (r * r * r);
8            }
9            }
10       }
11 }
```

# 問題点1: 粒子集合の(自然な)データ構造

```
struct vec {
    real x[3]; // 3次元座標
    };

typedef struct {
    particle_idx idx; // 通し番号
    real m; // 質量
    vec pos; // 位置
    vec vel; // 速度
    vec acc; // 加速度
} particle;
```



- ▶ 連続する粒子の x (y, z) 座標がバラバラに (おそらく 44 バイトずつ 離れて) 配置されている
- ▶ 構造体の配列 (Array of Structure; AoS)
- ▶ SIMD load 命令ひとつで取り出すのが困難
- ▶ 注: AVX2 の gather 命令ならば可能. だが性能は?

## 問題点1の解決策

- ▶ 策 1: 同じ要素だけをまとめた配列をたくさん作る
  - ▶ 配列の構造体 (Structure of Array; SoA)

```
particle_idx * idx; // 通し番号
real * m; // 質量
real * pos[3]; // 位置(x,y,z)
real * vel[3]; // 速度(x,y,z)
real * acc[3]; // 加速度(x,y,z)
```

▶ 策 2: 粒子 16 個 (SIMD レーン数) 分まとめた構造体を作る

```
1 struct vecv {
2    realv x[3]; // 3次元座標
3 };
4 typedef struct {
5    particle_idxv idx; // 通し番号
6    realv m; // 質量
7    vecv pos; // 位置
8    vecv vel; // 速度
9    vecv acc; // 加速度
10 } particlev;
```

## 問題2: 分岐の処理

元のコード

```
interact_all(long n, particle * p) {
  for (i = 0; i < n; i++) {
    for (j = 0; j < n; j++) {
      if (i != j) {
        dx = p[j].pos - p[i].pos;
      r = |dx|;
      p[i].acc += p[j].m * dx / (r*r*r);
} } }
}</pre>
```

(問題 1 をなんとか解決して) SIMD 化された (擬似) コード:

```
interact_all(long n, particle * p) {
// i を 16 つまとめて処理
for (i = 0; i < n; i += 16) {
for (j = 0; j < n; j++) {
   if (i:i+15 != j) {
        dx = p[j].pos - p[i:i+15].pos;
        r = |dx|;
   p[i:i+15].acc += p[j].m * dx / (r*r*r);
} } } }
```

i j 16 17 18 19 20 21 22 23 == 19 19 19 19 19 19 19 19 19

▶ → SIMD 処理される一部の レーンでのみ実行される仕組 みが必要

### 問題 2: SIMD と分岐

▶ 分岐:

```
1 (E) {
2 A;
3 }
```

- ▶ ある程度汎用的な方法: predicate 付き命令
- ▶ よくやる方法: *E* が成り立たない lane で *A* を実行しても何も起きないような処理 (マスク) を考える (詳しくは演習で)

### まとめ

- ▶ 最大性能 = SIMD 並列性 × スーパスカラ並列性 × マルチコア並列性 × マルチノード並列性
- ▶ 現状 それぞれのマスターが必要:
  - ▶ SIMD:ベクトル型, intrinsics
  - ▶ マルチコア : OpenMP #pragma omp parallel (+ for)
  - ▶ マルチノード: MPI (先週)
  - ► スーパスカラ並列性: 意識しなくてもある程度は勝手に. 時として意 識必要(説明せず)
- ▶ 普遍的に重要なこと: 何が起きているかの理解
- ▶ 「期待できる性能」の正しい理解と実際の性能の計測

### 課題

ベースとなるコード

https://gitlab.eidos.ic.i.u-tokyo.ac.jp/tau/cs-intro-taura

- ▶ Oakbridge CX 上で 行列積 (02mm), N 体問題 (03nbody) の高速 化 (SIMD 化, マルチコア並列化, 命令レベル並列性の向上など) に 取り組んでください
- ▶ 詳細は以下を参照
  - ▶ 02mm/README.md
  - ▶ 03nbody/README.md
- ▶ 提出物:
  - ▶ コード: Oakbrdge CX 上で

/work/gt11/ユーザ名/submit/cs-intro-taura というフォルダに すべてのコードを置く

- ▶ レポート: ITC-LMS に提出. 内容:
  - ▶ 上記のフォルダを明示すること
  - ▶ 取り組んだ内容, コードの変更の説明
  - ▶ SIMD 化されていることの確認
  - ▶ 性能測定結果
  - ▶ 性能の分析 (特に、CPU の限界性能との関係)
  - ▶ など