<a href="https://colab.research.google.com/github/thebirthoftropica-beep/portfolio/blob/main/Untitled.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# 1. Unsloth（学習を爆速にするライブラリ）と依存関係のインストール
# ※Colabの環境に合わせて最新版を入れるで

%%capture
!pip install "unsloth[colab-new] @ git+https://github.com/unslothai/unsloth.git"
!pip install --no-deps "xformers<0.0.27" "trl<0.9.0" peft accelerate bitsandbytes

print("インストール完了！準備OKやで！")

In [None]:
# 2. モデル（Llama-3-ELYZA-JP-8b）のロード
from unsloth import FastLanguageModel
import torch

# 扱うモデルの名前
model_name = "elyza/Llama-3-ELYZA-JP-8b"

# モデルとトークナイザー（言葉を数字にするやつ）を読み込む
# 4bit量子化（max_seq_length = 2048, load_in_4bit = True）でメモリ節約
max_seq_length = 2048
dtype = None # Noneにすると自動でGPUに合わせてくれる
load_in_4bit = True

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = model_name,
    max_seq_length = max_seq_length,
    dtype = dtype,
    load_in_4bit = load_in_4bit,
)

print(f"{model_name} のロード完了！いよいよ次から学習や！")

🦥 Unsloth: Will patch your computer to enable 2x faster free finetuning.
🦥 Unsloth Zoo will now patch everything to make training faster!


  import trl.experimental.openenv.utils as openenv_utils


==((====))==  Unsloth 2025.12.1: Fast Llama patching. Transformers: 4.57.3.
   \\   /|    Tesla T4. Num GPUs = 1. Max memory: 14.741 GB. Platform: Linux.
O^O/ \_/ \    Torch: 2.9.0+cu126. CUDA: 7.5. CUDA Toolkit: 12.6. Triton: 3.5.0
\        /    Bfloat16 = FALSE. FA [Xformers = None. FA2 = False]
 "-____-"     Free license: http://github.com/unslothai/unsloth
Unsloth: Fast downloading is enabled - ignore downloading bars which are red colored!


model.safetensors.index.json: 0.00B [00:00, ?B/s]

model-00001-of-00004.safetensors:   0%|          | 0.00/4.98G [00:00<?, ?B/s]

model-00002-of-00004.safetensors:   0%|          | 0.00/5.00G [00:00<?, ?B/s]

model-00003-of-00004.safetensors:   0%|          | 0.00/4.92G [00:00<?, ?B/s]

model-00004-of-00004.safetensors:   0%|          | 0.00/1.17G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/194 [00:00<?, ?B/s]

tokenizer_config.json: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/296 [00:00<?, ?B/s]

elyza/Llama-3-ELYZA-JP-8b does not have a padding token! Will use pad_token = <|reserved_special_token_250|>.
elyza/Llama-3-ELYZA-JP-8b のロード完了！いよいよ次から学習や！


In [None]:
import pandas as pd
from datasets import Dataset

# 1. プロンプトの「型（テンプレート）」を作る
# 新聞記者のルールを叩き込むためのフォーマットや
alpaca_prompt = """下記は、新聞記者ハンドブックに基づく校閲の指示と、対象の文章です。指示に従って適切に修正された文章を出力してください。

### 指示:
{}

### 入力:
{}

### 出力:
{}"""

# EOS_TOKEN（文の終わりを教える記号）を準備
EOS_TOKEN = tokenizer.eos_token

# 2. CSVデータを読み込んで、プロンプトに流し込む関数
def formatting_prompts_func(examples):
    instructions = examples["instruction"]
    inputs       = examples["input"]
    outputs      = examples["output"]
    texts = []
    for instruction, input, output in zip(instructions, inputs, outputs):
        # テンプレートに中身を埋め込む
        text = alpaca_prompt.format(instruction, input, output) + EOS_TOKEN
        texts.append(text)
    return { "text" : texts, }

# 3. CSVファイルを読み込む
# ※ファイル名が違う場合は 'data.csv' を書き換えてな！
df = pd.read_csv("data.csv", encoding='shift_jis')

# データセット形式に変換
dataset = Dataset.from_pandas(df)
dataset = dataset.map(formatting_prompts_func, batched = True)

# 4. ちゃんと読み込めたか、最初の1件を表示して確認
print("\n--- データの確認（最初の1件） ---")
print(dataset[0]["text"])
print("---------------------------------")

Map:   0%|          | 0/39 [00:00<?, ? examples/s]


--- データの確認（最初の1件） ---
下記は、新聞記者ハンドブックに基づく校閲の指示と、対象の文章です。指示に従って適切に修正された文章を出力してください。

### 指示:
新聞記者ハンドブックのルールに従い、入力された文章を校閲してください。

### 入力:
この度、社長に就任した。

### 出力:
このたび、社長に就任した。<|eot_id|>
---------------------------------


In [None]:
import os
os.environ["WANDB_DISABLED"] = "true"

In [None]:
from trl import SFTTrainer
from transformers import TrainingArguments
from unsloth import is_bfloat16_supported

# 1. AIの脳みそに「学習用パーツ（LoRA）」を取り付ける
model = FastLanguageModel.get_peft_model(
    model,
    r = 16, # AIの更新するパラメータ数（16〜64くらいが一般的）
    target_modules = ["q_proj", "k_proj", "v_proj", "o_proj",
                      "gate_proj", "up_proj", "down_proj",],
    lora_alpha = 16,
    lora_dropout = 0,
    bias = "none",
    use_gradient_checkpointing = "unsloth",
    random_state = 3407,
    use_rslora = False,
    loftq_config = None,
)

# 2. 学習の設定（ハイパーパラメータ）
# ※データが少ないから「max_steps」は60回くらいにしてあるで
trainer = SFTTrainer(
    model = model,
    tokenizer = tokenizer,
    train_dataset = dataset,
    dataset_text_field = "text",
    max_seq_length = max_seq_length,
    dataset_num_proc = 2,
    packing = False,
    args = TrainingArguments(
        per_device_train_batch_size = 2,
        gradient_accumulation_steps = 4,
        warmup_steps = 5,
        max_steps = 60, # 学習回数。データが増えたらここを増やす
        learning_rate = 2e-4, # 学習率
        fp16 = not is_bfloat16_supported(),
        bf16 = is_bfloat16_supported(),
        logging_steps = 1,
        optim = "adamw_8bit",
        weight_decay = 0.01,
        lr_scheduler_type = "linear",
        seed = 3407,
        output_dir = "outputs",
    ),
)

# 3. いざ、学習開始！！
print("学習スタート！ワクワクするな！")
trainer_stats = trainer.train()
print("学習完了！お疲れさん！")

Unsloth: Already have LoRA adapters! We shall skip this step.
Using the `WANDB_DISABLED` environment variable is deprecated and will be removed in v5. Use the --report_to flag to control the integrations used for logging result (for instance --report_to none).


Unsloth: Tokenizing ["text"] (num_proc=6):   0%|          | 0/39 [00:00<?, ? examples/s]

The model is already on multiple devices. Skipping the move to device specified in `args`.


学習スタート！ワクワクするな！


==((====))==  Unsloth - 2x faster free finetuning | Num GPUs used = 1
   \\   /|    Num examples = 39 | Num Epochs = 12 | Total steps = 60
O^O/ \_/ \    Batch size per device = 2 | Gradient accumulation steps = 4
\        /    Data Parallel GPUs = 1 | Total batch size (2 x 4 x 1) = 8
 "-____-"     Trainable parameters = 41,943,040 of 8,072,204,288 (0.52% trained)


Step,Training Loss
1,1.9696
2,1.9547
3,1.9032
4,1.6001
5,1.3184
6,0.9824
7,0.7513
8,0.5221
9,0.3904
10,0.3969


Using the `WANDB_DISABLED` environment variable is deprecated and will be removed in v5. Use the --report_to flag to control the integrations used for logging result (for instance --report_to none).


学習完了！お疲れさん！


In [None]:
# 1. 推論モードに切り替え（これをやると爆速になる魔法）
FastLanguageModel.for_inference(model)

# ==========================================
# ここにテストしたい「ダメな文章」を入れる
# ==========================================
input_text = "ケガをしたり、ゴミを出す。"
# （↑「起きられる」じゃないとアカンはずや！）

# 2. プロンプトに埋め込む（学習時と同じ型を使うのがコツ）
prompt = alpaca_prompt.format(
    "新聞記者ハンドブックに基づいて校閲して。", # 指示（学習データと合わせる）
    input_text, # 入力
    "", # 出力（ここは空欄にしてAIに続きを書かせる）
)

# 3. AIに読ませる準備（トークナイズ）
inputs = tokenizer([prompt], return_tensors = "pt").to("cuda")

# 4. 生成実行！（わくわくタイム）
# max_new_tokens=64 は「64トークン（文字）まで書いていいよ」って意味
outputs = model.generate(**inputs, max_new_tokens = 64, use_cache = True)

# 5. 結果をデコードして表示
# 余計な記号を消して読みやすくする
result = tokenizer.batch_decode(outputs, skip_special_tokens=True)

print("\n========== 校閲結果 ==========\n")
# 結果全体を表示（プロンプト含む）
print(result[0])
print("\n==============================")



下記は、新聞記者ハンドブックに基づく校閲の指示と、対象の文章です。指示に従って適切に修正された文章を出力してください。

### 指示:
新聞記者ハンドブックに基づいて校閲して。

### 入力:
ケガをしたり、ゴミを出す。

### 出力:
ケガをしたり、ごみを出す。



In [None]:
# 1. 学習したLoRAアダプタ（差分データ）を保存
model.save_pretrained("lora_model")
tokenizer.save_pretrained("lora_model")

# 2. フォルダをzipに圧縮（ダウンロードしやすくするため）
!zip -r lora_model.zip lora_model

# 3. PCにダウンロード
from google.colab import files
files.download('lora_model.zip')

  adding: lora_model/ (stored 0%)
  adding: lora_model/tokenizer_config.json (deflated 96%)
  adding: lora_model/README.md (deflated 65%)
  adding: lora_model/chat_template.jinja (deflated 52%)
  adding: lora_model/special_tokens_map.json (deflated 60%)
  adding: lora_model/tokenizer.json (deflated 85%)
  adding: lora_model/adapter_config.json (deflated 57%)
  adding: lora_model/adapter_model.safetensors (deflated 8%)


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>