<a href="https://colab.research.google.com/github/nrnrk/public-resources/blob/main/google-colaboratory/wc-cuda/wc_cuda.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## `wc` コマンドの CUDA 実装

学習のために `wc` コマンドを CUDA で実装し直します。大きいファイルでは本家より早くなることをごく簡単な計測で確認できました。

### 準備

* Colaboratory で `編集` > `ノートブックの設定` で CUDA 対応のアクセラレータ(T4など)を選択
  * これにより関連のミドルウェアはインストールされます
* `PyCUDA` のインストール


In [3]:
# 2分くらいかかります
!pip install pycuda

Collecting pycuda
  Downloading pycuda-2025.1.tar.gz (1.7 MB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/1.7 MB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━━━━━━━━━━━[0m[90m╺[0m[90m━━━━━━━━━━━━━━━━━━━━━[0m [32m0.8/1.7 MB[0m [31m23.5 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.7/1.7 MB[0m [31m29.0 MB/s[0m eta [36m0:00:00[0m
[?25h  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
Collecting pytools>=2011.2 (from pycuda)
  Downloading pytools-2025.1.1-py3-none-any.whl.metadata (3.0 kB)
Collecting mako (from pycuda)
  Downloading Mako-1.3.9-py3-none-any.whl.metadata (2.9 kB)
Downloading pytools-2025.1.1-py3-none-any.whl (92 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m92.8/92.8 kB[0m [31m9.1 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading Mako-

### .cubin の生成

`wc.cu` に CUDA カーネルを定義しています。実行速度を上げるために `.cubin` を事前に生成しておきます。

In [5]:
# T4 は sm_75 のアーキテクチャ
!nvcc -cubin -arch=sm_75 wc.cu -o wc.cubin

### wc.py を実行

`wc.cubin` をロードして、 `wc` コマンド相当のものを実行するコード `wc.py` を実行します。

In [9]:
!python wc.py wc.py

 79 208 2410 wc.py


### 時間の計測

`time` コマンドで簡易的に速度を計測する。テスト用の短いテキストと、長いテキストも事前に生成して、 `wc` コマンドと比較します。

In [10]:
# 短めのデータを生成
with open('short_text.txt', 'w') as f:
  for _ in range(100):
    f.write('short text!\n' * 5)

In [11]:
# とても長いデータを生成
with open('long_text.txt', 'w') as f:
  for _ in range(100000):
    f.write('super long text!\n' * 100)

In [12]:
!time wc short_text.txt

 500 1000 6000 short_text.txt

real	0m0.006s
user	0m0.000s
sys	0m0.001s


In [13]:
!time python wc.py short_text.txt

 500 1000 6000 short_text.txt

real	0m0.331s
user	0m0.236s
sys	0m0.203s


In [14]:
!time wc long_text.txt

 10000000  30000000 170000000 long_text.txt

real	0m1.814s
user	0m1.711s
sys	0m0.041s


In [15]:
!time python wc.py long_text.txt

 10000000 30000105 170000000 long_text.txt

real	0m0.478s
user	0m0.327s
sys	0m0.264s
