<a href="https://colab.research.google.com/github/tomonari-masada/course2024-nlp/blob/main/09_text_mining_with_finetuned_LMs.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# テキストマイニングのためのLMのfinetuning

* たぶん、このnotebookの説明は、授業一回では終わりません・・・。

## 技術的な背景
* 今ではBERT largeの規模の言語モデルでも気軽に使える。
* 今までならトピックモデルを使っていただろうトピック抽出も気軽に行える。
* さらに、今ではBERT large規模の言語モデルのファインチューニングも気軽に実行できる。
* ということは、分析対象のテキスト集合を使って言語モデルウをファインチューニングすれば・・・
* 分析対象のテキスト集合向けにカスタマイズされたトピック抽出も、気軽にできるようになっている。

## インストール

In [None]:
!pip install -q transformers datasets sentence-transformers captum

## インポート

In [None]:
from tqdm.auto import tqdm
import numpy as np

import spacy
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans
from sklearn.metrics.pairwise import cosine_similarity

import torch
import torch.nn as nn
from torch.nn.functional import normalize

from datasets import Dataset, DatasetDict, load_dataset
from transformers import set_seed
from sentence_transformers import (
    SentenceTransformer,
    SentenceTransformerTrainer,
    SentenceTransformerTrainingArguments,
)
from sentence_transformers.losses import TripletLoss
from sentence_transformers.evaluation import TripletEvaluator

set_seed(0)

## 言語モデルを使ったトピック抽出

### データセット
* ライブドアニュースコーパスからトピックを抽出する。
  * 分類カテゴリは今回は使わない。

In [None]:
dataset = load_dataset(
    "shunk031/livedoor-news-corpus",
    train_ratio=0.8, val_ratio=0.1, test_ratio=0.1,
    random_state=42,
    shuffle=True,
    trust_remote_code=True,
)
num_categories = len(set(dataset["train"]["category"]))
max_seq_length = 512

category_names = ['movie-enter', 'it-life-hack', 'kaden-channel', 'topic-news', 'livedoor-homme', 'peachy', 'sports-watch', 'dokujo-tsushin', 'smax']

In [None]:
dataset["train"][0]

### 言語モデル
* 今回は`intfloat/multilingual-e5-large-instruct`を使う。
  * 日本語にも対応しているため。
* sentence transformersというライブラリを使ってモデルを操作する。
  * Hugging Faceのtransformersよりも初心者に優しい。

In [None]:
model_id = "intfloat/multilingual-e5-large-instruct"
model = SentenceTransformer(model_id)

In [None]:
model

* sentence transformersではデフォルトでモデルがGPU上に映される。

In [None]:
model.device

* モデルのパラメータ一覧

In [None]:
for name, _ in model.named_parameters():
  print(name)

### テキストの埋め込み

* 今回は（時間節約のため）タイトルを使う。

In [None]:
embeddings = {}
for key in dataset:
  embeddings[key] = model.encode(
      dataset[key]["title"],
      show_progress_bar=True,
  )

### テキストのクラスタリング

* クラスタ数は適当に設定する。

In [None]:
n_clusters = 30
kmeans = KMeans(n_clusters=n_clusters, n_init='auto', random_state=0)
kmeans.fit(embeddings["train"])
centers = kmeans.cluster_centers_

* クラスタの重心に近い順に数件のテキストを表示させる。

In [None]:
similarities = cosine_similarity(embeddings["train"], centers)
for i in range(similarities.shape[-1]):
  indices = np.argsort(- similarities[:,i])[:5]
  for index in indices:
    print(f"{i:d} {index:d} " + dataset["train"]["title"][index])

### クラスタのラベリング

* 下に示すのは、あくまで一つの方法。

* 日本語テキストを形態素解析できるようにする。
  * セッションの再起動はおそらく不要。


In [None]:
!python -m spacy download ja_core_news_sm

* 形態素解析の実行。

In [None]:
label_pos_tags = ["NOUN", "PROPN"]

nlp = spacy.load("ja_core_news_sm")
corpus = {}
for key in dataset:
  corpus[key] = []
  for text in tqdm(dataset[key]["title"]):
    corpus[key].append(" ".join(
        [token.lemma_
         for token in nlp(text) if token.pos_ in label_pos_tags
        ]
    ))

* scikit-learnのTfidfVectorizerを使う。
  * min_dfやmax_dfの設定は、クラスタのラベリングに使う単語を絞り込む。

In [None]:
vectorizer = TfidfVectorizer(min_df=10, max_df=0.1, lowercase=False)
vectorizer.fit(corpus["train"])
vocab = np.array(vectorizer.get_feature_names_out())
X_train = vectorizer.transform(corpus["train"]).toarray()

In [None]:
vocab

* 単語を含むテキストのtf-idf値を使って、テキストの重みづけ線形和を求める。
* 得られた線形和をその単語の埋め込みとみなす。

In [None]:
vocab_embeddings = np.dot((X_train / X_train.sum(0)).T, embeddings["train"])

* テキストのクラスタの重心に近い順に20個の単語を表示させる。

In [None]:
topic_words = []
similarities = cosine_similarity(vocab_embeddings, centers)
for i in range(similarities.shape[-1]):
  indices = np.argsort(- similarities[:,i])
  topic_words.append(f"{i:d} " + " ".join(list(vocab[indices[:20]])))
print("\n".join(topic_words))

## 言語モデルのファインチューニング

### トリプレットデータを作成する
* anchor, positive, negativeという3つのテキストの組。
  * positiveはanchorと同じクラスに属するテキスト。
  * negativeはanchorと異なるクラスに属するテキスト
* この三つ組のテキストを、後でファインチューニングに使う。

In [None]:
triplet_dataset = {}
for key in dataset:

  categorized = [list() for i in range(num_categories)]
  for example in dataset[key]:
    categorized[example["category"]].append(example["title"])
  category_size = [len(categorized[i]) for i in range(num_categories)]

  anchors, positives, negatives = [], [], []
  for i in range(num_categories):
    indices = i + np.random.randint(1, num_categories, category_size[i])
    indices = indices % num_categories
    anchors += categorized[i]
    positives += [
        categorized[i][np.random.randint(0, category_size[i])]
        for _ in indices
    ]
    negatives += [
        categorized[j][np.random.randint(0, category_size[j])]
        for j in indices
    ]

  triplet_dataset[key] = Dataset.from_dict({
      "anchors": anchors,
      "positives": positives,
      "negatives": negatives,
  })

triplet_dataset = DatasetDict(triplet_dataset)

In [None]:
train_dataset = triplet_dataset["train"]
eval_dataset = triplet_dataset["validation"]
test_dataset = triplet_dataset["test"]

In [None]:
train_dataset[0]

### 損失関数

* トリプレット損失関数を使う。
  * anchorとpositiveの埋め込みベクトルは接近し・・・
  * anchorとnegativeの埋め込みベクトルは遠ざかるように・・・
  * ファインチューニングが進む。

In [None]:
loss = TripletLoss(model)

### trainerの設定

In [None]:
args = SentenceTransformerTrainingArguments(
    output_dir=f"models/{model_id}_livedoor-title-triplet",
    max_steps=1000,
    learning_rate=1e-4,
    per_device_train_batch_size=4,
    per_device_eval_batch_size=4,
    gradient_accumulation_steps=8,
    bf16=True,
    eval_strategy="steps",
    eval_steps=100,
    save_strategy="steps",
    save_steps=100,
    save_total_limit=2,
    logging_steps=100,
)

### evaluatorの設定

In [None]:
dev_evaluator = TripletEvaluator(
    anchors=eval_dataset["anchors"],
    positives=eval_dataset["positives"],
    negatives=eval_dataset["negatives"],
)

* ファインチューニングの実行前に、evaluatorに評価させてみる。

In [None]:
dev_evaluator(model)

### trainerの作成

In [None]:
trainer = SentenceTransformerTrainer(
    model=model,
    args=args,
    train_dataset=train_dataset,
    eval_dataset=eval_dataset,
    loss=loss,
    evaluator=dev_evaluator,
)

* trainableなパラメータの個数を確認してみる。
  * 100%になっているはず。

In [None]:
def print_trainable_parameters(model):
  trainable_params = 0
  all_param = 0
  for _, param in model.named_parameters():
    all_param += param.numel()
    if param.requires_grad:
      trainable_params += param.numel()
  print(
      f"trainable params: {trainable_params} "
      f"|| all params: {all_param} "
      f"|| trainable%: {100 * trainable_params / all_param}"
  )

In [None]:
print_trainable_parameters(model)

### ファインチューニングの実行

In [None]:
trainer.train()

### ファインチューニング後のモデルによるテキストの埋め込み

In [None]:
embeddings = {}
for key in dataset:
  embeddings[key] = model.encode(
      dataset[key]["title"],
      show_progress_bar=True,
  )

### 語彙の埋め込み

In [None]:
vocab_embeddings = np.dot((X_train / X_train.sum(0)).T, embeddings["train"])

### テキストのクラスタリング

In [None]:
n_clusters = 30
kmeans = KMeans(n_clusters=n_clusters, n_init='auto', random_state=123)
kmeans.fit(embeddings["train"])
centers = kmeans.cluster_centers_

### クラスタのラベリング

In [None]:
topic_words = []
similarities = cosine_similarity(vocab_embeddings, centers)
for i in range(similarities.shape[-1]):
    indices = np.argsort(- similarities[:,i])
    topic_words.append(f"{i:d} " + " ".join(list(vocab[indices[:20]])))
print("\n".join(topic_words))

## 言語モデルの解釈
* Integrated Gradientsという手法を使う。
  * Captumというライブラリに実装がある。
* 特定のクラスタにテキストが所属する"根拠"を調査できる。
  * どのトークンがその所属に効いているかを可視化できる。

* モデルのパラメータを微分できない状態にする。
  * メモリを節約するため。

In [None]:
for param in model.parameters():
  param.requires_grad = False

* モデルをCPUに移す。
  * 無料版のGoogle ColabではGPUのメモリが足りなくなるため。

In [None]:
model.to("cpu").eval();

### 準備

In [None]:
from captum.attr import LayerIntegratedGradients, TokenReferenceBase, visualization

tokenizer = model.tokenizer
token_reference = TokenReferenceBase(reference_token_idx=tokenizer.pad_token_id)

### Captum向けの埋め込みの書き方

* input_idsとattention_maskを使った埋め込みに書き換える。
  * Captumではsentence transformersにおける言語モデルのencodeメソッドは使えない。

In [None]:
text = dataset["train"]["title"][0]
encodings = tokenizer(text, padding=True, return_tensors="pt")
encodings = encodings.to(model.device)
input_ids = encodings["input_ids"]
attention_mask = encodings["attention_mask"]
with torch.no_grad():
  embedding = model({"input_ids": input_ids, "attention_mask": attention_mask})["sentence_embedding"]
  st_embedding = model.encode(text)

* encodeメソッドと埋め込みベクトルが一致することを確認する。

In [None]:
((embedding - st_embedding) ** 2).sum()

### テキストとクラスタ重心との類似度を求めるヘルパ関数

* 類似度はコサイン類似度で求める。
  * ベクトルの長さが1なので、大小関係はユークリッド距離と同じ。

In [None]:
cos_sim = nn.CosineSimilarity(dim=-1)
cluster_centers = torch.tensor(centers, device=model.device)

def predict(input_ids, attention_mask):
  embedding = model({
      "input_ids": input_ids,
      "attention_mask": attention_mask,
  })["sentence_embedding"]
  return cos_sim(
      cluster_centers.unsqueeze(0),
      embedding.unsqueeze(1)
  )

* 試しに一つのテキストについて各クラスタとの類似度を計算してみる。

In [None]:
text = dataset["train"]["title"][0]
print(text)
encodings = tokenizer(text, padding=True, return_tensors="pt")
encodings.to(model.device)
predict(
    encodings.input_ids,
    encodings.attention_mask,
)

### テキストと特定のクラスタの重心との類似度を求めるヘルパ関数

In [None]:
def cluster_similarity_forward_func(input_ids, attention_mask, cluster_id):
  similarities = predict(input_ids, attention_mask)
  return similarities[:,cluster_id]

In [None]:
text = dataset["train"]["title"][0]
encodings = tokenizer(text, padding=True, return_tensors="pt")
encodings.to(model.device)
cluster_similarity_forward_func(
    encodings.input_ids,
    encodings.attention_mask,
    29,
)

### Integrated Gradientの初期化

* モデルのembedding layerを取得する必要がある。

In [None]:
list(model[0].modules())[1]

In [None]:
list(model[0].modules())[1].embeddings

In [None]:
lig = LayerIntegratedGradients(
    cluster_similarity_forward_func,
    list(model[0].modules())[1].embeddings.word_embeddings,
)

### 可視化のためのヘルパ関数

* 可視化結果を蓄えるリスト

In [None]:
vis_data_records_ig = []

* 可視化のためのヘルパ関数

In [None]:
def add_attributions_to_visualizer(attributions, text, pred_prob, pred_class, true_class,
                                   attr_class, convergence_scores, vis_data_records):
  attributions = attributions.cpu()
  attributions = attributions.sum(dim=-1).squeeze(0)
  attributions = attributions / torch.norm(attributions)
  attributions = attributions.cpu().detach().numpy()
  vis_data_records.append(
      visualization.VisualizationDataRecord(
          attributions,
          pred_prob,
          pred_class,
          true_class,
          attr_class,
          attributions.sum(),
          text,
          convergence_scores,
      )
  )

### 解釈を実行する関数

In [None]:
def interpret_text(text, attr_class=None, n_steps=50):
  encodings = tokenizer(text, padding=True, return_tensors="pt")
  encodings = encodings.to(model.device)
  input_ids = encodings.input_ids
  attention_mask = encodings.attention_mask
  tokens = tokenizer.convert_ids_to_tokens(input_ids[0])
  reference_input_ids = token_reference.generate_reference(
      len(tokens),
      device=model.device,
  ).unsqueeze(0)

  similarities = predict(
      input_ids,
      attention_mask,
  )
  prediction = similarities.argmax().item()
  if attr_class is None:
    attr_class = prediction
  print(
      f"prediction={prediction} "
      f"cos_sim={similarities.max().item():.3f} ",
      end=""
  )

  attributions_ig, delta = lig.attribute(
      input_ids,
      reference_input_ids,
      additional_forward_args=(attention_mask, attr_class),
      n_steps=n_steps,
      return_convergence_delta=True,
  )
  print(f"convergence delta={delta.item():.3e} when n_steps={n_steps}")

  add_attributions_to_visualizer(
      attributions_ig,
      tokens,
      similarities.max().item(),
      str(prediction),
      str(prediction),
      str(attr_class),
      delta,
      vis_data_records_ig,
  )
  return prediction


### Integrated Gradientsの実行

In [None]:
vis_data_records_ig = []
for n_steps in [50, 100]:
  interpret_text(dataset["train"]["title"][0], n_steps=n_steps)

### 解釈結果の可視化

* ステップ数によって結果が微妙に変わる

In [None]:
visualization.visualize_text(vis_data_records_ig);

* 50件ぐらいのテキストのクラスタへの所属をまとめて解釈する。

In [None]:
for i in tqdm(range(50)):
  example = dataset["validation"][i]
  print(category_names[example["category"]], end=" ")
  vis_data_records_ig = []
  prediction = interpret_text(example["title"], n_steps=50)
  print("\t" + topic_words[prediction])
  visualization.visualize_text(vis_data_records_ig);