<a href="https://colab.research.google.com/github/tomonari-masada/course2024-nlp/blob/main/09_text_classification_with_Transformer_LM.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 言語モデルを使ったテキスト分類
* 今回はトランスフォーマ言語モデルのファインチューニングを実践する。
  * パラメータ数は数億個オーダのもの。
  * パラメータ数が数十億個（数ビリオン）のものは、扱いがやや大変。
* ファインチューニングによってテキスト分類の性能を向上させる。

* 今回はTransformersライブラリを使う。
  * Sentence Transformersは使わない。

* ランタイムのタイプをGPUに設定しておく。

## インストール

In [None]:
!pip install -U transformers accelerate datasets evaluate

## 準備

In [None]:
from transformers import set_seed

set_seed(0)

## データセット
* ライブドアニュースコーパスを使う。
* 前々回に作成したtraining/validation/testのsliceを使う。
  * https://github.com/tomonari-masada/course2024-nlp/blob/main/livedoor_ds.tar.gz

In [None]:
!wget https://github.com/tomonari-masada/course2024-nlp/raw/refs/heads/main/livedoor_ds.tar.gz
!tar zxf livedoor_ds.tar.gz

In [None]:
from datasets import load_from_disk

ds = load_from_disk("livedoor_ds")

In [None]:
ds

In [None]:
category_names = [
  'movie-enter',
  'it-life-hack',
  'kaden-channel',
  'topic-news',
  'livedoor-homme',
  'peachy',
  'sports-watch',
  'dokujo-tsushin',
  'smax',
]

In [None]:
ds["train"]["content"][0]

## トークナイザ

* E5の多言語版を使う。
  * https://arxiv.org/abs/2212.03533
  * https://arxiv.org/abs/2402.05672

In [None]:
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("intfloat/multilingual-e5-large-instruct")

def tokenize_function(examples):
  return tokenizer(
    examples["content"],
    padding="max_length",
    truncation=True,
    return_tensors="pt",
  )

tokenized_ds = ds.map(tokenize_function, batched=True)

* 正解ラベルのカラムを"label"にrenameする。

In [None]:
for slice in tokenized_ds:
  tokenized_ds[slice] = tokenized_ds[slice].rename_column("category", "label")

In [None]:
train_ds = tokenized_ds["train"]
eval_ds = tokenized_ds["validation"]

In [None]:
train_ds

## 言語モデル

* `AutoModelForSequenceClassification`クラスを使う。

In [None]:
from transformers import AutoModelForSequenceClassification

model = AutoModelForSequenceClassification.from_pretrained(
    "intfloat/multilingual-e5-large-instruct",
    num_labels=9,
).to(0)

* モデルの中身を見てみる。
  * `classifier`というモジュールに注目。

In [None]:
model

* 分類器として使えることを確認する。

In [None]:
input = tokenize_function(tokenized_ds["test"][0]).to(model.device)
input

In [None]:
model(**input).logits

In [None]:
import torch

torch.argmax(model(**input).logits, axis=-1)

* ファインチューニング前の分類性能を見てみる。

In [None]:
from tqdm.auto import tqdm

def evaluate(model, ds, eval_batch_size=1):
    model.eval()
    predicted_class_ids = []
    offset = 0
    for offset in tqdm(range(0, len(ds), eval_batch_size)):
        examples = ds[offset:offset + eval_batch_size]
        input = tokenize_function(examples).to(model.device)
        with torch.no_grad():
            logits = model(**input).logits
        predicted_class_ids.append(torch.argmax(logits, axis=-1))
    model.train()
    return torch.concat(predicted_class_ids)

predicted_class_ids = evaluate(model, ds["test"], eval_batch_size=32)

In [None]:
predicted_class_ids

In [None]:
print(ds["test"]["category"])

* 当然、ランダムな予測の分類性能に近い。
  * 分類用のヘッドが全くtrainingされていないから。

In [None]:
import evaluate

metric = evaluate.load("accuracy")
metric.compute(predictions=predicted_class_ids, references=ds["test"]["category"])

## 評価を実行するヘルパ関数

* logitsと正解ラベルを渡せばaccuracyを返してくれる関数。

In [None]:
import numpy as np

def compute_metrics(eval_pred):
  logits, labels = eval_pred
  predictions = np.argmax(logits, axis=-1)
  return metric.compute(predictions=predictions, references=labels)

## `Trainer`の作成

In [None]:
from transformers import TrainingArguments, Trainer

training_args = TrainingArguments(
    output_dir="my_model",
    learning_rate=2e-5,
    per_device_train_batch_size=16,
    gradient_accumulation_steps=8,
    per_device_eval_batch_size=16,
    num_train_epochs=5,
    eval_strategy="steps",
    eval_steps=50,
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_ds,
    eval_dataset=eval_ds,
    compute_metrics=compute_metrics,
)

## ファインチューニングの実行

* RTX4090だと`per_device_train_batch_size`を16まで増やせるので15分ぐらいで終わる。

In [None]:
trainer.train()

In [None]:
trainer.save_model("path_to_my_model")

In [None]:
model = AutoModelForSequenceClassification.from_pretrained("path_to_my_model").to(0)

In [None]:
from tqdm.auto import tqdm

def evaluate(model, ds, eval_batch_size=1):
    model.eval()
    predicted_class_ids = []
    offset = 0
    for offset in tqdm(range(0, len(ds), eval_batch_size)):
        examples = ds[offset:offset + eval_batch_size]
        input = tokenize_function(examples).to(model.device)
        with torch.no_grad():
            logits = model(**input).logits
        predicted_class_ids.append(torch.argmax(logits, axis=-1))
    model.train()
    return torch.concat(predicted_class_ids)

predicted_class_ids = evaluate(model, ds["test"], eval_batch_size=32)

In [None]:
metric.compute(predictions=predicted_class_ids, references=ds["test"]["category"])