#  高性能プログラミングと性能測定(0) --- Jupyter演習環境


名前と学生証番号を書け. Enter your name and student ID.

 * 名前 Name:
 * 学生証番号 Student ID:



# 1. このnotebookの使い方 / How this notebook works
* スーパーコンピュータ(Wisteria)で, SSH + コマンドの代わりに, プログラミングを学習する環境
* 本演習では
  * Wisteria Aquarius (Intel CPU + NVIDIA GPU) を用いる
  * マルチコア並列 (OpenMP) の演習では Wisteria Odyssey を用いることもできる
* Jupyterのセルを実行するだけで例題プログラムを保存, コンパイル, 実行できる
* GPU (NVIDIA GPUが必要), Odyssey (CPUがログインノードと異なる) を用いず, かつすぐに終了する (ログインノードにほとんど負荷をかけない) コマンドであればログインノード (Intel CPU) で直接実行
* それ以外の場合はセルをほんの少し修正するとそれをバッチキューに入れて実行できる

* 入口: https://wisteria08.cc.u-tokyo.ac.jp:8000/jupyterhub/ 
* オリジナルドキュメント: [Wisteria利用支援ポータル](https://wisteria-www.cc.u-tokyo.ac.jp/cgi-bin/hpcportal.ja/index.cgi) にログイン -> ドキュメント閲覧 -> Wisteria/BDEC-01 システム利用手引書 -> 2.7節 JupyterHub

## 1-1. セル / Cell
* 以下のような入力欄を「セル」という
* SHIFT+ENTERで実行できる
<br/>

* A textbox like below is called a "cell"
* Press SHIFT+ENTER to execute it

## 1-2. Python

In [None]:
def f(x):
  return x + 1

f(3)

* 実行中のセルは, 左に`[*]`と表示され, 終了すると`[2]`のような番号に変わる
* `[*]`が表示されている間は他のセルを実行できないことを覚えておこう
* 以下のセルは3秒間sleep (休眠)するプログラム
* 実行すると3秒間 `[*]` ｔなることを観察しておくこと
<br/>

* while a cell is executing, `[*]` is shown on the left, which turns into a number like `[2]`
* remember that you cannot execute other cells while `[*]` is shown
* the cell below sleeps for 3 seconds
* execute it and observe `[*]` is shown for 3 seconds


In [None]:
import time
time.sleep(3.0)

* 実行中のセルを途中で止めたければタブ上部の■ボタンで止められることにはなっているが効かないことも多い
* その場合は, メニューの Kernel -&gt; Restart Kernel として **カーネルのリセット** をする
* より強力なリセット方法はメニューの File -&gt; Hub Control Panel -&gt; Stop Server ->&gt; Start Server として**サーバの再起動** をする
* 以下を実行し, 終了する前(5秒以内)に■ボタンで止めてみよ
* カーネルのリセット, サーバの再起動も試してみよ
<br/>

* you should be able to stop an executing cell by ■ button at top of the tab, but do not expect it to work reliably
* if it doesn't work, **reset kernel** by going to menu and selecting Kernel -&gt; Restart Kernel
* even more powerful method to reset everything is to **restart the server** by going to menu and selecting File -&gt; Hub Control Panel -&gt; Stop Server -&gt; Start Server
* execute the cell below and stop it before it finishes by ■ button
* also try to reset kernel and restart server

In [None]:
import time
time.sleep(5.0)


* 以下のように
```
%%writefile ファイル名
```
で始まるセルは SHIFT + Enter で実行すると中身が指定された「ファイル名」に保存される(だけ)という効果を持つ.
実際にプログラムとして実行されるわけではないので中身は何でも良い(Pythonプログラムでなくても良い).


In [None]:
%%writefile hello.c

#include <stdio.h>
int main() {
  printf("hello\n");
  return 0;
}

## 1-3. bash
* セルの先頭に`%%bash` と書くとセルの内容はシェルコマンド (Linuxのコマンド) の意味になる
<br/>

* If you put `%%bash` in the beginning of a cell, the content of the cell is read as shell commands


In [None]:
%%bash
pwd

In [None]:
%%bash
ls

* 上記で `hello.c` として保存されたはずのプログラムを下記でコンパイル・実行

In [None]:
%%bash
gcc -o hello hello.c

In [None]:
%%bash
./hello

## 1-4. text (markdown)
* コードではなくテキスト(マークダウン形式)を書くためのセル
* there are cells for ordinary texts (markdown format), not code


* ここをダブルクリックして編集してみよ
  * 編集し終えたらSHIFT-ENTERで保存
* double-click this cell and edit
  * after done, press SHIFT-ENTER to save

## 1-5. セルの追加, 削除
* Editメニューからあるセルを選択して
  * `a` : 上にセルを追加
  * `b` : 下にセルを追加
  * `x` : セルを削除
することができるので, 自分でコードを書いて試してみたい, AIに質問をしたい場合 (詳細以下) などに適宜利用されたい



# 2. Wisteria上の演習で一度だけやっておくべき作業

In [None]:
%%bash
if ! [ -e ~/.notebook/lustre ]; then
  ln -s /work/gt47/$USER ~/.notebook/lustre
fi


* 解説
  * Wisteria 上では各ユーザの Jupyter 関連のファイルは `~/.notebook` (ユーザのホームディレクトリ直下の `.notebook`) というフォルダに書かれる
  * ls コマンドは `.` で始まるファイルをデフォルトでは表示しないため見つけにくい
  * `ls -a` とすれば見られるので確認されたい
  * Jupyter のページは `~/.notebook` の下しか表示しない (`~/.notebook` が `/` と表示され, その外は表示できない) 
  * 一方, Wisteria の計算ノードはホームディレクトリを参照できず, Lustreディレクトリ (`/work/グループ名/ユーザ名`) を参照するのが基本
  * したがってこの状態では, Jupyter は `~/.notebook` の下 (したがってホームディレクトリの下) しか表示できず, 計算ノードは Lustre の下しか見えないという不都合な状態になる (例えば Jupyter から書き出したプログラムやデータを計算ノードから実行・参照できない)
  * その回避策として, `~/.notebook` から Lustre ディレクトリへのシンボリックリンクを作っておくのが上記のコマンド


# 3. 演習用コードのチェックアウト

In [None]:
%%bash
cd ~/.notebook/lustre
git clone https://github.com/taura/computational-science-code.git

として, ページ左のペインから,
* lustre   # 注: 上記で作ったシンボリックリンク
  * computational-science-code
    * 01jupyter
      * notebooks
        * source
          * cs[00-05]
フォルダ以下にある notebook を開いて見よ          


# 4. ジョブ投入を簡便に行うための設定
* Jupyter notebookからジョブ投入を簡便に行うための設定が以下
* 以下は各notebookごとに行う
* 同じnotebookであってもカーネルをログアウトや再スタートしたらやり直す必要がある


In [None]:
import sys
submit_path = "/work/gt47/share/taura/computational-science-code/00submit"
if submit_path not in sys.path:
    sys.path.append(submit_path)
import submit


`%%bash` セルと似た使い方で, `%%bash_submit` をセルのはじめに書くとそのセル内のコマンドを計算ノードに投入する

* 使用例


In [None]:
%%bash_submit
#PJM -L rscgrp=lecture-a
#PJM -L elapse=0:01:00
#PJM -L gpu=1
#PJM --omp thread=9
#PJM -g gt47
#PJM -j
#PJM -o 0output.txt

hostname
pwd
whoami
uptime


* なお実は上記で設定されている, `#PJM` オプションは本演習用の典型的な使用例と思われるためデフォルトで設定されており, したがって以下でも上記と同じ動作をする

In [None]:
%%bash_submit

hostname
pwd
who
uptime


* 必要に応じて上書きしたいものだけを設定すればよい
* 例

In [None]:
%%bash_submit
#PJM -L rscgrp=lecture7-a
#PJM -L elapse=0:10:00

hostname
pwd
who
uptime


* 以下のように少しだけ変更すればログインノードでの実行になるため, ログインノード実行とジョブ投入での実行を簡単に行き来できる
* `#PJM` で始まる行はログインノードでの実行 (`%%bash`) ではコメントの扱いになるためあっても問題はない


In [None]:
%%bash
#_submit
#PJM -L rscgrp=lecture7-a
#PJM -L elapse=0:10:00

hostname
pwd
who
uptime


* Odysseyに投げるときは `%%bash_submit` の変わりに `%%bash_submit_o` を使う
* 以下がデフォルト値 (つまりなくても同じ)


In [None]:
%%bash_submit_o
#PJM -L rscgrp=lecture-o
#PJM -L elapse=0:01:00
#PJM -L node=1
#PJM --omp thread=48
#PJM -g gt47
#PJM -j
#PJM -o 0output.txt

hostname
pwd
whoami
uptime


# 5. AIチューター
## 5-1. 設定

In [1]:
import sys
ta_paths = ["/work/gt47/share/taura/ai-tutor-hey",
            "/work/gt47/share/taura/ai-tutor-hey/ex",
            "/home/tau/proj/small/ai-tutor-hey",
            "/home/tau/proj/small/ai-tutor-hey/ex"]
for path in ta_paths:
  if path not in sys.path:
    sys.path.append(path)
from heytutor import hey, I, C, R, D, config
import openmp_tutor


## 5-2. 質問例
* hey("omp parallelの文法を教えて") ... 自由な質問
* I("reduction句") ... あるトピックについて説明
* C("omp for") ... あるトピックに関するコーディング問題を出題
* R("omp for") ... あるトピックに関するリーディング問題を出題

以下のコメント # を外していくつか実行してみよ

In [None]:
# 自由質問
# hey("omp parallelの文法を教えて")

In [3]:
# 説明
I("collapse句について日本語で")

### 💬 Introduction to collapse句について日本語で:

### OpenMPの`collapse`句について

OpenMPの`collapse`句は、`for`ディレクティブとともに使われ、**複数のネストされたループを1つのループ空間にまとめて並列化を行う**機能を提供します。通常、OpenMPはネストされたループがあった場合、最外層のループのみを並列化します。しかし、ネストされたループ全体を並列実行したい場合や、最外層のループだけでは十分なスレッド利用ができない場合に、この`collapse`句を用いると効果的です。

---

### 文法
```c
#pragma omp parallel for collapse(n)
```

- `n`: ネストされたループの階層の数を指定します。
  - `n=2`の場合は2つの階層、`n=3`の場合は3つの階層のループが1つのループ空間に結合されます。

---

### `collapse`句を使うべき場合
- **ループ間に依存関係がない場合**（各ループの反復が並列実行可能）。
- **外側のループの反復回数が少なく、スレッド数が十分に活用できない場合**。
- **多重ループ全体で負荷を均等に分配したい場合**。

---

### 例1: `collapse`を使わない場合

以下のコードでは、ネストされた2つのループを考えます。

```c
#include <omp.h>
#include <stdio.h>

int main() {
    int i, j;
    int N = 4, M = 5;

    #pragma omp parallel for
    for (i = 0; i < N; i++) {
        for (j = 0; j < M; j++) {
            printf("Thread %d: i=%d, j=%d\n", omp_get_thread_num(), i, j);
        }
    }
    return 0;
}
```

この場合、OpenMPは**最外層のループ**（`i`ループ）の反復のみを並列化します。仮に4スレッドを使用し、それぞれのスレッドが`i=0`から`i=3`の反復を処理しますが、内側の`j`ループの反復は**スレッド内で逐次（シリアル）実行**されます。

#### **出力例（スレッドIDは実行時に変わる）：**
```
Thread 0: i=0, j=0
Thread 0: i=0, j=1
...
Thread 1: i=1, j=0
Thread 1: i=1, j=1
...
```

この方法では、外側のループの反復回数（例：`N=4`）がスレッド数に満たない場合、スレッドが十分に活用されない可能性があります。

---

### 例2: `collapse`を使った場合

次に、`collapse`句を使ってネストされたループ全体を並列化します。

```c
#include <omp.h>
#include <stdio.h>

int main() {
    int i, j;
    int N = 4, M = 5;

    #pragma omp parallel for collapse(2)
    for (i = 0; i < N; i++) {
        for (j = 0; j < M; j++) {
            printf("Thread %d: i=%d, j=%d\n", omp_get_thread_num(), i, j);
        }
    }
    return 0;
}
```

- `collapse(2)`によって、**外側のループ（`i`）と内側のループ（`j`）が1つの大きな反復空間として扱われます**。
- 結合されたループ空間の総反復回数は、`N * M`（この場合、`4 * 5 = 20`反復）となります。
- OpenMPはこの結合された領域に基づいてスレッドに均等に反復を分配します。

#### **出力例（スレッドIDは実行時に変わる）：**
```
Thread 0: i=0, j=0
Thread 0: i=0, j=1
Thread 1: i=0, j=2
Thread 2: i=1, j=0
...
Thread 3: i=3, j=4
```

この方法により、スレッド数がより効果的に利用され、並列処理のパフォーマンスが向上します。

---

### 実際の動作（内部変換）について

`collapse(2)`を使うと、次のようにネストされたループが1つのループに「フラット化」されます。OpenMPはこの変換を内部で自動的に行います。

```c
for (int k = 0; k < N * M; k++) {
    int i = k / M;  // 外側のループインデックス
    int j = k % M;  // 内側のループインデックス
    // あとは同じ処理
}
```

こうして結合された単一のループ空間がスレッドに分配されます。

---

### 例3: 3重ループの`collapse`

3つのループ階層がある場合でも`collapse`を使用できます。

```c
#include <omp.h>
#include <stdio.h>

int main() {
    int i, j, k;
    int N = 3, M = 4, P = 2;

    #pragma omp parallel for collapse(3)
    for (i = 0; i < N; i++) {
        for (j = 0; j < M; j++) {
            for (k = 0; k < P; k++) {
                printf("Thread %d: i=%d, j=%d, k=%d\n", omp_get_thread_num(), i, j, k);
            }
        }
    }
    return 0;
}
```

- `collapse(3)`を指定すると、3重ループ全体が1つのループ空間（`N * M * P`）にまとめられます。
- **結合された反復回数**は `N * M * P = 3 * 4 * 2 = 24` となり、OpenMPがこの空間を均等にスレッドに分配します。

#### **出力例（スレッドIDは実行時に変わる）：**
```
Thread 0: i=0, j=0, k=0
Thread 0: i=0, j=0, k=1
Thread 1: i=0, j=1, k=0
Thread 1: i=0, j=1, k=1
...
Thread 3: i=2, j=3, k=1
```

---

### 注意事項
1. **依存関係（Data Dependency）に注意**  
   `collapse`を利用するには、結合するすべてのループが独立しており、ある反復が別の反復に依存しない必要があります。

2. **適切な粒度の選択**  
   ループの粒度（反復回数）が小さすぎるとスレッド管理のオーバーヘッドが増え、逆にパフォーマンスが低下する可能性があります。

---

### `collapse`の利点
- 複数ループの並列化により、計算資源の利用効率を向上させる。
- スレッドの負荷分散が改善され、大規模なデータセットでもスケーラブル。
- 計算時間を短縮する可能性が大幅に高まる。

---

### 結論
`collapse`句は、特にネストしたループ構造において、OpenMPの並列性能を引き出すために非常に重要な機能です。ループ構造と並列性を正しく分析し、適切に適用することで、大きなパフォーマンス向上が期待できます！😄

In [None]:
# コーディング問題
# C("omp for")

In [None]:
# リーディング問題
# R("omp for")

In [None]:
# デバッグ問題
# R("omp for")


* Pythonセルの先頭に `%%hey_` 書いて実行するとそのセルの内容をAIに送る
* コードを見せて間違いを教えてもらう, フィードバックをもらうなどしたいときに使うとよい


In [4]:
%%hey_

正しい答えが出ないんだけどなぜ?

#include <stdio.h>
#include <stdlib.h>

double int_inv_1_x2(double a, double b, long n) {
  double s = 0.0;
  double dx = (b - a) / (double)n;
#pragma omp parallel for
  for (long i = 0; i < n; i++) {
    double x = a + i * dx;
    s += 1 / (1 + x * x);
  }
  return s * dx;
}

int main(int argc, char ** argv) {
  double a = (argc > 1 ? atof(argv[1]) : 0.0);
  double b = (argc > 2 ? atof(argv[2]) : 1.0);
  long n   = (argc > 3 ? atol(argv[3]) : 1000L * 1000L * 1000L);
  double s = int_inv_1_x2(a, b, n);
  printf("s = %f\n", s);
  return 0;
}


このコードでは、数値積分を計算していますが、並列化されたループ部分に問題があるため、正しい結果が得られない可能性があります。この問題は**競合状態（race condition）**によるものです。

---

### **問題の原因: 競合状態**
`int_inv_1_x2`関数の以下の部分に問題があります:

```c
#pragma omp parallel for
for (long i = 0; i < n; i++) {
    double x = a + i * dx;
    s += 1 / (1 + x * x);
}
```

ここでは、すべてのスレッドが共有変数`double s`に同時にアクセスしています。複数のスレッドが同時に `s` を読み取り、それに値を加算し書き込む場合、スレッド間でデータが上書きされる可能性があります。これが競合状態であり、このような競合によって計算が間違った値を出力します。

OpenMPでは、共有変数への同時アクセスを明示的に管理しない場合、このような問題が発生します。

---

### **解決方法**
`reduction`句を使用することで、`s`の加算を正しく管理できます。`reduction`句を用いると、各スレッドが独自の`s`のコピーを持ち、最後にそれらが安全に合計されます。

修正後のコードは以下のようになります:

```c
double int_inv_1_x2(double a, double b, long n) {
  double s = 0.0;
  double dx = (b - a) / (double)n;
#pragma omp parallel for reduction(+:s)
  for (long i = 0; i < n; i++) {
    double x = a + i * dx;
    s += 1 / (1 + x * x);
  }
  return s * dx;
}
```

### **変更点**
- `reduction(+:s)`を追加:
  - OpenMPが自動的にスレッドごとに`double s`のコピーを作成し、ループ終了時にすべてのスレッドの結果を安全に合計します。
- `:` の後の `+` は、足し算の操作を明示していることを示します。これにより、OpenMPは`+=`の競合状態を正しく調整します。

---

### **動作確認**
修正したコードを実行すると、正しい結果が得られるはずです。

テスト入力:
```bash
$ ./a.out 0 1 1000000000
```

---

### **補足: reduction句の効果**
- `reduction(+:s)` を使うと、以下のような処理が暗黙的に行われます。
1. 各スレッドがローカル変数`私的 (private)`コピーを持ちます。
2. 各スレッドは、自分に割り当てられるループの範囲内で、このローカル変数に加算します。
3. ループ終了後、すべてのスレッドのローカル変数`私的コピー`が安全に合計され、`共有（shared）変数`である元の`s`に加算されます。

---

### **reductionを使わない解決策: ロックを明示**
他の方法として、OpenMPのロックを使うこともできます。しかし、ロックを使う方法は効率が悪いので、通常は`reduction`の方が推奨されます。一応、ロックでの解決も以下に示します。

```c
#include <omp.h>

double int_inv_1_x2(double a, double b, long n) {
  double s = 0.0;
  double dx = (b - a) / (double)n;
  omp_lock_t lock;
  omp_init_lock(&lock);

#pragma omp parallel for
  for (long i = 0; i < n; i++) {
    double x = a + i * dx;
    double local = 1 / (1 + x * x);

    omp_set_lock(&lock);
    s += local;
    omp_unset_lock(&lock);
  }
  
  omp_destroy_lock(&lock);
  return s * dx;
}
```

ただし、ロックの使用は競合状態を防ぐものの、スレッド間の同期によってオーバーヘッドが増えるため、性能は低下します。

---

### **結論**
OpenMPで並列計算を行う際、競合状態（race condition）を避けるために、`reduction`句を使用するのがベストプラクティスです。それにより、スレッド間で安全かつ効率的に共有変数を扱うことができます。

修正版のコードで正しい結果を得られることを確認してください！ 😄

In [5]:
%%hey_

Fortran版を作って

#include <stdio.h>
#include <stdlib.h>

double int_inv_1_x2(double a, double b, long n) {
  double s = 0.0;
  double dx = (b - a) / (double)n;
#pragma omp parallel for
  for (long i = 0; i < n; i++) {
    double x = a + i * dx;
    s += 1 / (1 + x * x);
  }
  return s * dx;
}

int main(int argc, char ** argv) {
  double a = (argc > 1 ? atof(argv[1]) : 0.0);
  double b = (argc > 2 ? atof(argv[2]) : 1.0);
  long n   = (argc > 3 ? atol(argv[3]) : 1000L * 1000L * 1000L);
  double s = int_inv_1_x2(a, b, n);
  printf("s = %f\n", s);
  return 0;
}


以下は、提供されたCコードのFortran版です。FortranのOpenMPを使用し、`reduction`を適用して競合状態を適切に回避したコードを示します。また、Fortran版では`real(8)`型（倍精度浮動小数点）を使用し、`PROGRAM`構造に合わせています。

---

### Fortranコード

```fortran
program main
  use omp_lib
  implicit none

  real(8) :: a, b, s, dx
  integer(8) :: n
  integer :: argc
  character(len=*), dimension(:), allocatable :: argv

  ! 初期化
  call get_command_argument_count(argc)
  allocate(argv(0:argc))
  call get_command_argument_values(argv)

  ! コマンドライン引数の処理
  if (argc >= 1) then
    read(argv(1), *) a
  else
    a = 0.0_8
  end if

  if (argc >= 2) then
    read(argv(2), *) b
  else
    b = 1.0_8
  end if

  if (argc >= 3) then
    read(argv(3), *) n
  else
    n = 1000000000_8 ! デフォルト値 (1 billion)
  end if

  ! 数値積分の計算
  s = int_inv_1_x2(a, b, n)

  ! 結果出力
  print *, "s = ", s

contains

  function int_inv_1_x2(a, b, n) result(sum)
    implicit none
    real(8), intent(in) :: a, b
    integer(8), intent(in) :: n
    real(8) :: sum, s, dx
    integer(8) :: i
    real(8) :: x

    sum = 0.0_8
    dx = (b - a) / real(n, 8)

    ! OpenMP並列ループとreduction句
    !$omp parallel do reduction(+:sum)
    do i = 0, n - 1
      x = a + i * dx
      sum = sum + 1.0_8 / (1.0_8 + x * x)
    end do
    !$omp end parallel do

    ! 積分結果
    sum = sum * dx
  end function int_inv_1_x2

end program main
```

---

### **説明**
#### **1. コマンドライン引数の処理**
- `get_command_argument_count()`と`get_command_argument()`でコマンドライン引数を取得しています。
- デフォルト値はC版と同じく
  - `a = 0.0`
  - `b = 1.0`
  - `n = 1000000000`(1 billion).
- コマンドライン引数が不足している場合、デフォルト値を使用します。

#### **2. `int_inv_1_x2`関数**
- 引数として区間`[a, b]`と分割数`n`を受け取ります。
- 変数`sum`の合計をOpenMPの`reduction`句で並列化しています。
  - 各スレッドは独自の`sum`コピーを持ち、最後に安全に合計します。
- `dx`は各区間の幅です。
- ループで指数関数部分`1 / (1 + x * x)`を計算し、`sum`に加算します。

#### **3. OpenMPディレクティブ**
- `!$omp parallel do reduction(+:sum)`:
  - 並列でループを分割し、`sum`の加算を安全に行います。
- `reduction(+:sum)`はC版に相当する操作です。

#### **4. 注意点**
- **倍精度型 (`real(8)`)**:
  - `8`は倍精度の指定であり、Cの`double`に相当します。
- **範囲指定**:
  - Fortranでは`do i = 0, n-1`のようにループ範囲を指定します。

---

### 実行例

#### 入力
```bash
$ gfortran -fopenmp main.f90 -o main
$ ./main 0 1 1000000
```

#### 出力
```
 s =   0.785398
```

- この値は、区間 [0, 1] で `1 / (1 + x^2)` を積分したものに対応しており、理論値である π / 4 に近い値となります。
- 分割数を増やす（`n`を大きくする）ほど結果の精度が向上します。

---

### **改善や拡張**
1. **スレッド数の確認**:
   以下を追加して、使用スレッド数を確認可能です。
   ```fortran
   print *, "Number of threads used: ", omp_get_max_threads()
   ```

2. **並列モードの無効化**:
   コードをデバッグするときはOpenMPディレクティブをコメントアウトし、逐次実行版でも正しい結果が得られるかチェックします。

3. **ループのスケジューリング**:
   必要に応じて`schedule(static)`や`schedule(dynamic)`を指定することで並列の負荷分散を調整できます。

---

もしさらに質問があれば、お気軽にお尋ねください！ 😄

In [6]:
%%hey_

character(len=*), dimension(:), allocatable :: argv

を説明して

`character(len=*), dimension(:), allocatable :: argv`はFortranの変数宣言で、可変長文字列の1次元配列を動的に割り当てるためのものです。この文法に含まれる要素について一つずつ説明していきます。

---

### **分解して理解する**

1. **`character(len=*)`**
   - `character`はFortranで文字列（文字型）を定義するためのデータ型です。
   - `(len=*)`は、文字列の「長さが可変」であることを意味します。配列の各要素の長さは宣言時ではなく、コンパイラや規則により動的に決定されます。ただし、`argv`の具体的な内容（プログラム引数）は型や長さがシステム依存で規定されます。

   **ポイント**
   - `len=*`は文字長をコンパイラが内部的に処理するもので、`argv`の場合は呼び出すコマンド引数の内容に応じた文字列長になります。
   - 可変長文字列を使うことで、引数の長さが固定されていなくても柔軟に扱えます。

2. **`dimension(:)`**
   - `:`は1次元配列のサイズが「可変」であることを指定しています。これにより、配列の具体的なサイズは後から決定できます。
   - インデックスが固定されないため、たとえば次のように配列サイズを動的に設定できます。
     ```fortran
     allocate(argv(5))
     ```
     これで`argv`は5要素の配列として使用できるようになります。
   - このように、配列のサイズは実行時に決定できます。

3. **`allocatable`**
   - `allocatable`は「動的にメモリを割り当てる必要がある配列」を表します。
   - 明示的に`allocate`文を使ってメモリを割り当て、使用後は`deallocate`文で解放する必要があります。
   - 静的配列と異なり、動的配列は実行時にそのサイズを変更可能なため、柔軟性があります。

---

### **全体の意味**
この宣言:
```fortran
character(len=*), dimension(:), allocatable :: argv
```
の意味をまとめると、

- **`argv`は配列である**:
  - 配列の各要素は、文字列データ（`character`）で構成されます。
  - 配列のサイズ（つまり、要素数）は実行中に決定されます。
  
- **文字列の長さは可変**:
  - 各文字列の長さは`len=*`のため、「呼び出し元や実行環境が決定」します。
  
- **メモリ割り当てと解放が必要**:
  - `allocatable`により、配列のメモリ割り当てはプログラム実行時に行う必要があります。
  - 使用後は`deallocate`でメモリを解放します。

---

### **例: コマンドライン引数での使用方法**

Fortranの標準では、`argv`という配列はプログラムのコマンドライン引数を処理する際によく使われます。

#### 例1: コマンドライン引数を取得する
以下は、コマンドライン引数を動的に取得して出力するプログラムの例です。

```fortran
program command_args
  implicit none
  integer :: argc, i
  character(len=*), dimension(:), allocatable :: argv

  ! コマンドライン引数の個数を取得
  call get_command_argument_count(argc)

  ! argv配列を動的に割り当て
  allocate(argv(0:argc))

  ! コマンドライン引数を取得
  do i = 0, argc
    call get_command_argument(i, argv(i))
  end do

  ! コマンドライン引数の出力
  print *, "Number of arguments:", argc
  do i = 0, argc
    print *, "Argument ", i, ": ", trim(argv(i))
  end do

  ! メモリの解放
  deallocate(argv)
end program command_args
```

開発や実行:
```bash
$ gfortran -o command_args command_args.f90
$ ./command_args hello world 12345
```

出力:
```
 Number of arguments:           3
 Argument  0 : ./command_args
 Argument  1 : hello
 Argument  2 : world
 Argument  3 : 12345
```

---

### **関連情報**
1. **`get_command_argument()`と`get_command_argument_count()`**
   - `get_command_argument(index, arg)`:
     指定された`index`（0から始まる）に対応するコマンドライン引数を取得します。
   - `get_command_argument_count()`:
     コマンドライン引数の個数（プログラム名を含む）を取得します。

2. **`len=*`で自動的に長さを調整する】
   - コマンドライン引数の長さは引数の内容に応じて決定されるため、プログラム側が長さを事前に指定する必要がありません。
   - ただし、文字列処理の結果を保存する場合、明示的な長さ設定が必要になることもあります（例: `character(len=50) :: str`）。

3. **`dimension(:)`による動的配列**
   - メモリの無駄を抑えるため、使用するサイズだけ割り当てることができます。
   - 必要のない場合に必ず`deallocate`で解放することがベストプラクティスです。

4. **利点**
   - 実行時に柔軟なデータ構造を利用可能。
   - 不定のコマンドライン引数や動的に増減する要素への対応が簡単。

---

この説明で`argv`の役割とその使い方が明確になれば幸いです！😄

In [7]:
%%hey_
Fortranでコマンドライン引数を受け取るプログラムはいつもこんな面倒なことをしないといけないの?

確かに、Fortranでコマンドライン引数を取り扱う際に`get_command_argument()`や`get_command_argument_count()`を使うのは、少し面倒に感じることがあります。しかし、いくつかの基本構造や工夫を使うことで、コードの冗長さを減らし、簡潔に書くことができます。また、代表的な使い方をパターン化すれば、それほど面倒ではなくなります。

---

### **いつもこんな面倒なことをする必要があるのか？**
答えは**「必要に応じて簡略化可能」**です。具体的には以下がポイントになります：
1. **`argv`の確保や操作を自動化するパターンを書く**
   - 典型的なスタイルをモジュール化することで、再利用できます。
2. **固定された個数の引数しか扱わない場合**
   - すべての引数を明示的に読み取ることで、動的な処理を省略できます。
3. **ライブラリや特定のユーティリティ利用**
   - 一部のFortranライブラリが拡張関数で引数処理を簡易化しています。

以下で、より簡潔化した例やパターン化されたコードを解説します。

---

### **1. 引数の自動処理をラップする**
コマンドライン引数を毎回手動で扱う代わりに、ラッパー関数やサブルーチンを作成し、それを使い回します。

#### 簡略化の例
```fortran
program command_args_easy
  implicit none

  integer :: argc
  character(len=:), allocatable, dimension(:) :: argv

  ! コマンドライン引数を自動取得
  call get_arguments(argc, argv)

  ! 結果の表示
  print *, "Arguments count:", argc
  if (argc > 0) then
     print *, "Arguments:", trim(argv)
  end if
end program command_args_easy

subroutine get_arguments(argc, argv)
  implicit none
  integer, intent(out) :: argc
  character(len=:), allocatable, dimension(:), intent(out) :: argv
  integer :: i

  ! コマンドライン引数の個数を取得
  call get_command_argument_count(argc)

  ! メモリの割り当て
  allocate(argv(0:argc))

  ! 各引数を取得
  do i = 0, argc
     call get_command_argument(i, argv(i))
  end do
end subroutine get_arguments
```

#### 実行例
```bash
$ ./a.out hello world
```
出力:
```
 Arguments count: 2
 Arguments: hello world
```

この方法では、サブルーチン`get_arguments`を使うことで、煩雑なプロセスが簡略化されます。

---

### **2. 固定個数の引数のみ扱う場合**
もしコマンドライン引数が**固定個数**であるなら、動的配列を使う必要はありません。この場合、かなりシンプルに書けます。

#### 固定個数の引数を扱う例
```fortran
program fixed_command_args
  implicit none
  character(len=32) :: arg1, arg2
  integer :: status

  ! 最初の引数を取得
  call get_command_argument(1, arg1)
  call get_command_argument(2, arg2)

  ! 結果出力
  print *, "Argument 1:", trim(arg1)
  print *, "Argument 2:", trim(arg2)
end program fixed_command_args
```

#### 実行例
```bash
$ ./a.out input.txt output.txt
```

出力:
```
 Argument 1: input.txt
 Argument 2: output.txt
```

このように、引数の個数が事前に固定されている場合、配列や動的な処理を省略できるため、Fortranでも非常にシンプルになります。

---

### **3. 必要最小限だけ処理する（動的ではなく単純化）**
もし余計な引数は無視し、最初のいくつかの引数だけを扱えばよい場合、以下のように書けます：

```fortran
program minimal_args
  implicit none
  character(len=100) :: filename
  integer :: argc

  call get_command_argument_count(argc)

  if (argc >= 1) then
    call get_command_argument(1, filename)
    print *, "Using file:", trim(filename)
  else
    print *, "Please provide a filename."
  end if

end program minimal_args
```

このような単純な処理は、動的な計算や複雑なコードなしで利用可能です。

---

### **4. ライブラリやツールの利用**
近代的なFortranライブラリやツールを使用すれば、通常の引数処理をさらに簡素化することも可能です。ただし、それらを使うには追加のインストールやリンクが必要になることがあります。

例えば、`FLAP (Fortran command Line Argument Parser)`などのライブラリを使えば、より柔軟かつ人間に優しい引数処理が可能になります。

---

### **まとめ**
- Fortranで引数を処理することは、動作を柔軟にするために多少の手間が必要です。
- **工夫次第では簡略化可能**: 汎用的なサブルーチンを作成する、固定個数の引数を仮定するなど。
- 再利用可能なテンプレートを作成することで、多くのケースで引数処理が数行で済むようになります。

Fortranのコマンドライン引数処理は、慣れればそれほど煩雑には感じないはずです！ 😊