# LLM Inference with Burn on Google Colab

このノートブックは、Burn MLフレームワークを使用してGoogle Colab上でLLM推論を実行します。

**対応GPU:**
- Tesla T4 (無料版)
- A100 (Colab Pro+)
- H100 (Colab Enterprise)

**必要な設定:**
- ランタイムタイプ: GPU
- GPU種類: T4, A100, またはH100

## 1. GPU確認

In [10]:
!nvidia-smi

Sun Jan 18 12:59:13 2026       
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 550.54.15              Driver Version: 550.54.15      CUDA Version: 12.4     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|   0  Tesla T4                       Off |   00000000:00:04.0 Off |                    0 |
| N/A   49C    P8             10W /   70W |       0MiB /  15360MiB |      0%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+
                                                

## 2. Rustのインストール

In [None]:
# Rustのインストール
!curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh -s -- -y

# 環境変数の設定
import os
os.environ['PATH'] = f"/root/.cargo/bin:{os.environ['PATH']}"

# インストール確認
!rustc --version
!cargo --version

## 3. CUDA開発環境の確認

In [11]:
# CUDAバージョン確認
!nvcc --version

# CUDA環境変数の設定
!echo $CUDA_HOME
!echo $LD_LIBRARY_PATH

nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2024 NVIDIA Corporation
Built on Thu_Jun__6_02:18:23_PDT_2024
Cuda compilation tools, release 12.5, V12.5.82
Build cuda_12.5.r12.5/compiler.34385749_0

/usr/lib64-nvidia


## 4. プロジェクトのクローン/アップロード

In [14]:
# 方法1: GitHubからクローン (リポジトリがある場合)
!git clone https://github.com/Tatsuya0518/LLM-API.git
# %cd LLM-API

# 方法2: ローカルファイルをアップロード
# 1. 左サイドバーのファイルアイコンをクリック
# 2. LLM-APIフォルダ全体をドラッグ&ドロップ
# 3. 以下のセルを実行してディレクトリに移動

%cd /content/LLM-API

Cloning into 'LLM-API'...
remote: Enumerating objects: 26, done.[K
remote: Counting objects: 100% (26/26), done.[K
remote: Compressing objects: 100% (18/18), done.[K
remote: Total 26 (delta 2), reused 26 (delta 2), pack-reused 0 (from 0)[K
Receiving objects: 100% (26/26), 18.83 KiB | 18.83 MiB/s, done.
Resolving deltas: 100% (2/2), done.
/content/LLM-API


## 5. 依存関係のビルド

In [15]:
# Cargo.tomlの確認
!cat Cargo.toml

[package]
name = "llm-api"
version = "0.1.0"
edition = "2021"

[dependencies]
# Burn ML Framework with CUDA backend for NVIDIA GPUs (T4, H100, A100)
burn = { version = "0.15", features = ["train", "dataset"] }
burn-cuda = "0.15"

# Tensor operations (for CPU fallback and testing)
burn-ndarray = "0.15"

# Tokenization
tokenizers = { version = "0.20", default-features = false, features = ["onig"] }

# Serialization
serde = { version = "1.0", features = ["derive"] }
serde_json = "1.0"

# Async runtime
tokio = { version = "1", features = ["full"] }

# Logging
tracing = "0.1"
tracing-subscriber = "0.3"

# Utilities
anyhow = "1.0"
rand = "0.8"

[profile.release]
opt-level = 3
lto = true
codegen-units = 1


In [16]:
# ビルド (初回は10-20分かかります)
!cargo build --release

[1m[92m    Updating[0m crates.io index
[1m[92m     Locking[0m 524 packages to latest compatible versions
[1m[92m      Adding[0m burn v0.15.0 [1m[33m(available: v0.20.0)[0m
[1m[92m      Adding[0m burn-cuda v0.15.0 [1m[33m(available: v0.20.0)[0m
[1m[92m      Adding[0m burn-ndarray v0.15.0 [1m[33m(available: v0.20.0)[0m
[1m[92m      Adding[0m generic-array v0.14.7 [1m[33m(available: v0.14.9)[0m
[1m[92m      Adding[0m rand v0.8.5 [1m[33m(available: v0.9.2)[0m
[1m[92m      Adding[0m tokenizers v0.20.4 [1m[33m(available: v0.22.2)[0m
[1m[92m      Adding[0m unicode-width v0.2.0 [1m[33m(available: v0.2.2)[0m
[1m[92m Downloading[0m crates ...
[1m[92m  Downloaded[0m aligned v0.4.3
[1m[92m  Downloaded[0m aligned-vec v0.6.4
[1m[92m  Downloaded[0m adler2 v2.0.1
[1m[92m  Downloaded[0m allocator-api2 v0.2.21
[1m[92m  Downloaded[0m dirs-sys v0.4.1
[1m[92m  Downloaded[0m equivalent v1.0.2
[1m[92m  Downloaded[0m fastrand v2.3.0
[1m

## 6. 推論の実行

In [None]:
# 推論実行
!cargo run --release

## 7. カスタムプロンプトで推論

In [None]:
# カスタムプロンプトを使用する場合は、main.rsを編集してください
# または、CLIオプションを追加する実装が必要です

## トラブルシューティング

### CUDAが見つからない場合
```bash
export CUDA_HOME=/usr/local/cuda
export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH
export PATH=/usr/local/cuda/bin:$PATH
```

### メモリ不足の場合
- モデルサイズを小さくする（`ModelConfig::tiny()`を使用）
- より大きなGPU（A100やH100）を使用

### ビルドエラーの場合
```bash
cargo clean
cargo build --release
```