# LLMコース

- [Hugging Face LLM Course](https://huggingface.co/learn/llm-course/chapter1/1)
- [transformersライブラリ](https://github.com/huggingface/transformers)を使うと、Transformerが使用されたモデルを簡単にインスタンス化できる
- [Model Hub](https://huggingface.co/models)から事前学習モデルをダウンロードできる
- ライブラリで最も基本的な基本は[pipeline()](https://huggingface.co/docs/transformers/v4.51.3/en/main_classes/pipelines#transformers.pipeline)
- タスクを指定するだけで推論できる

In [1]:
%pip install -qU datasets huggingface-hub evaluate

import datasets
import huggingface_hub
import fsspec
import evaluate

datasets.__version__, huggingface_hub.__version__, fsspec.__version__, evaluate.__version__

# ('3.6.0', '0.31.2', '2025.3.0', '0.4.3')

[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/491.5 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m [32m491.5/491.5 kB[0m [31m21.7 MB/s[0m eta [36m0:00:01[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m491.5/491.5 kB[0m [31m13.3 MB/s[0m eta [36m0:00:00[0m
[?25h[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/84.0 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m84.0/84.0 kB[0m [31m6.0 MB/s[0m eta [36m0:00:00[0m
[?25h[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/193.6 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m193.6/193.6 kB[0m [31m10.7 MB/s[0m eta [36m0:00:00[0m
[?25h[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the follow

('3.6.0', '0.31.2', '2025.3.0', '0.4.3')

## 1. イントロダクション

https://huggingface.co/learn/llm-course/chapter1

- コースを通してHugging Faceのライブラリを用いて、LLMとNLPについて学ぶ
    1. Transformers
    1. Datasets
    1. Tokenizers
    1. Accelerate
    1. Hugging Face Hub

- NLP（自然言語処理）
    - コンピュータが人間の言葉を理解し、解釈し、生成できることを目的とした分野

- LLM（大規模言語モデル）
    - NLPのうちの一つ
    - 大規模なNLPモデルを扱う分野

- コースの構成
    - Introduction: Transformersライブラリの主要概念を紹介
    - Diving in: 古典的なNLPタスクやLLM技術の紹介
    - Advanced: LLMの高度なトピックの深堀

### 1-2. NLPとLLM

https://huggingface.co/learn/llm-course/chapter1/2?fw=pt

- NLPのタスク
    - 文章の分類
        - レビューの感情分析
        - メールのスパム判定
        - 文法の正しさ判定
    - 文中の単語の分類
        - 品詞の識別
    - テキスト生成
        - マスクされた単語を予測する
        - 要約
        - 翻訳
- LLMの特徴
    - スケール: 数億以上のパラメータを持つ
    - 汎用性: 様々なタスクを一つのモデルで実行できる
    - インコンテキスト学習: プロンプト内で与えられた例から学習できる
    - 創発的能力: 新しい知識の生成
- LLMの限界
    - ハルシネーション: 自信満々に嘘をつく
    - 本質的に理解をしていない: 統計的パターンで動作
    - バイアス: 差別的なテキストを生成することがある
    - コンテキストウィンドウ: 短期記憶が小さい（最近は改善されている）
    - 計算資源: 電気代がとてもかかる

### 1-3. Transformersライブラリの紹介

https://huggingface.co/learn/llm-course/chapter1/3?fw=pt

- Transformerモデルを作成・利用するためのライブラリ
    - Hugging Face Model Hubにある数百万の事前学習済みモデルを使用できる
    - 自分のモデルを作り、アップロードすることもできる
- 最も基本的な関数は「pipeline関数」
    - 前処理、推論、後処理などの一連を全て行ってくれる便利な関数

In [2]:
# 感情分析（Sentiment Analysis）をやってみる

from transformers import pipeline

# 1. 感情分析のタスクを指定しパイプラインを作成
classifier = pipeline("sentiment-analysis")

# 2. テキストを入力して感情分析を実行
classifier("I've been waiting for a HuggingFace course my whole life.")

# 3. 結果は「96%の確率でポジティブ」

# デフォルトでは「distilbert/distilbert-base-uncased-finetuned-sst-2-english」を使用
# https://huggingface.co/distilbert/distilbert-base-uncased-finetuned-sst-2-english

No model was supplied, defaulted to distilbert/distilbert-base-uncased-finetuned-sst-2-english and revision 714eb0f (https://huggingface.co/distilbert/distilbert-base-uncased-finetuned-sst-2-english).
Using a pipeline without specifying a model name and revision in production is not recommended.
The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/629 [00:00<?, ?B/s]

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


model.safetensors:   0%|          | 0.00/268M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/48.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

Device set to use cpu


[{'label': 'POSITIVE', 'score': 0.9598049521446228}]

In [3]:
# 複数の文章を同時に処理することもできる

classifier(
    ["I've been waiting for a HuggingFace course my whole life.", "I hate this so much!"]
)

[{'label': 'POSITIVE', 'score': 0.9598049521446228},
 {'label': 'NEGATIVE', 'score': 0.9994558691978455}]

内部では3つのステップで動いている

1. テキストがモデルが理解できる形式に前処理される
1. 前処理したデータをモデルに入力
1. 予測結果が後処理され、人が理解できる形式に変換する

パイプラインは様々な種類がある

- テキストパイプライン
    - text-generation: プロンプトからテキストを生成
    - text-classification: テキストをあらかじめ定義されたカテゴリに分類
    - summarization: 重要な情報を保持しつつテキストを短く要約
    - translation: テキストを他言語に翻訳
    - zero-shot-classification: 特定ラベルでの事前学習なしにテキストを分類
    - feature-extraction: テキストのベクトル表現を抽出
- 画像パイプライン
    - image-to-text: 画像の説明文を生成
    - image-classification: 画像内のオブジェクトを識別
    - object-detection: 画像内のオブジェクトの位置と識別
- 音声パイプライン
    - automatic-speech-recognition: 音声をテキストに変換
    - audio-classification: 音声をカテゴリに分類
    - text-to-speech: テキストを音声に変換
- マルチモーダルパイプライン
    - image-text-to-text: テキストプロンプトに基づいて画像に応答

In [4]:
# ゼロショット分類（zero shot classification）をやってみる
# ラベル付されていないテキストを分類するタスク

from transformers import pipeline

# 1. ゼロショット分類のタスクを指定し、パイプラインを作成
classifier = pipeline("zero-shot-classification")

# 2. テキストを入力してゼロショット分類を実行
classifier(
    "This is a course about the Transformers library",
    candidate_labels=["education", "politics", "business"], # 分類に使うラベルは自分で指定できる
)

# 3. 結果は「84%の確率でeducation」

# デフォルトではBARTを使用（facebook/bart-large-mnli）
# https://huggingface.co/facebook/bart-large-mnli

No model was supplied, defaulted to facebook/bart-large-mnli and revision d7645e1 (https://huggingface.co/facebook/bart-large-mnli).
Using a pipeline without specifying a model name and revision in production is not recommended.


config.json:   0%|          | 0.00/1.15k [00:00<?, ?B/s]

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


model.safetensors:   0%|          | 0.00/1.63G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/899k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

Device set to use cpu


{'sequence': 'This is a course about the Transformers library',
 'labels': ['education', 'business', 'politics'],
 'scores': [0.8445994257926941, 0.11197380721569061, 0.04342673346400261]}

In [5]:
# テキスト生成（text generation）をやってみる
# 文章のつづきを生成するタスク

from transformers import pipeline

# 1. テキスト生成のタスクを指定し、パイプラインを作成
generator = pipeline("text-generation")

# 2. テキストを入力してテキスト生成を実行
generator("In this course, we will teach you how to")

# 3. 結果はそれっぽい文章が生成される

# デフォルトではGPT-2を使用
# https://huggingface.co/openai-community/gpt2

No model was supplied, defaulted to openai-community/gpt2 and revision 607a30d (https://huggingface.co/openai-community/gpt2).
Using a pipeline without specifying a model name and revision in production is not recommended.


config.json:   0%|          | 0.00/665 [00:00<?, ?B/s]

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


model.safetensors:   0%|          | 0.00/548M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/124 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/1.04M [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

Device set to use cpu
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


[{'generated_text': "In this course, we will teach you how to make your own and how to get it online. I'll share a few important tips for getting started before you can even buy it for yourself.\n\n2. Read with an Introduction\n\nBefore"}]

任意のモデルの指定も可能で、Model Hubから選べる

- https://huggingface.co/models
    - 左のタスクからText Generationでくりこみ
    - テキスト生成で選べるモデル https://huggingface.co/models?pipeline_tag=text-generation

In [6]:
# SmolLM2-360Mを使ってみる

from transformers import pipeline

generator = pipeline("text-generation", model="HuggingFaceTB/SmolLM2-360M")
generator(
    "In this course, we will teach you how to",
    max_length=30, # 生成する文章の長さ
)

# https://huggingface.co/HuggingFaceTB/SmolLM2-360M

config.json:   0%|          | 0.00/689 [00:00<?, ?B/s]

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


model.safetensors:   0%|          | 0.00/724M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/111 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/3.66k [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/801k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/466k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/2.10M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/831 [00:00<?, ?B/s]

Device set to use cpu
Truncation was not explicitly activated but `max_length` is provided a specific value, please use `truncation=True` to explicitly truncate examples to max length. Defaulting to 'longest_first' truncation strategy. If you encode pairs of sequences (GLUE-style) with the tokenizer you can select this strategy more precisely by providing a specific strategy to `truncation`.
Setting `pad_token_id` to `eos_token_id`:0 for open-end generation.


[{'generated_text': 'In this course, we will teach you how to use the Python programming language to solve real-world problems. We will start by introducing you to the'}]

In [7]:
# マスク補完（mask filling）をやってみる
# 与えられた文章の中の<mask>を推測するタスク

from transformers import pipeline

# 1. マスク補完のタスクを指定し、パイプラインを作成
unmasker = pipeline("fill-mask")

# 2. <mask>つきのテキストを入力してマスク補完を実行
unmasker("This course will teach you all about <mask> models.", top_k=2) # 上位2個の候補を出力

# 3. 結果は「mathmatical」などの候補とその確率が出力される

# デフォルトではDistilRoBERTaが使われている
# https://huggingface.co/distilbert/distilroberta-base

No model was supplied, defaulted to distilbert/distilroberta-base and revision fb53ab8 (https://huggingface.co/distilbert/distilroberta-base).
Using a pipeline without specifying a model name and revision in production is not recommended.


config.json:   0%|          | 0.00/480 [00:00<?, ?B/s]

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


model.safetensors:   0%|          | 0.00/331M [00:00<?, ?B/s]

Some weights of the model checkpoint at distilbert/distilroberta-base were not used when initializing RobertaForMaskedLM: ['roberta.pooler.dense.bias', 'roberta.pooler.dense.weight']
- This IS expected if you are initializing RobertaForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing RobertaForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


tokenizer_config.json:   0%|          | 0.00/25.0 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/899k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

Device set to use cpu


[{'score': 0.19619767367839813,
  'token': 30412,
  'token_str': ' mathematical',
  'sequence': 'This course will teach you all about mathematical models.'},
 {'score': 0.04052715748548508,
  'token': 38163,
  'token_str': ' computational',
  'sequence': 'This course will teach you all about computational models.'}]

In [8]:
# 固有表現抽出（Named Entity Recognition, NER）をやってみる
# 名詞や動詞などの品詞を抽出するタスク

from transformers import pipeline

# 1. 固有表現抽出のタスクを指定し、パイプラインを作成
# grouped_entities=Trueを指定すると、同じエンティティをまとめてくれる
# 例えば、HugggingとFaceが同じ組織名としてまとめられる
ner = pipeline("ner", grouped_entities=True)

# 2. テキストを入力して固有表現抽出を実行
ner("My name is Sylvain and I work at Hugging Face in Brooklyn.")

# 3. 結果は「Sylvain」が人名、「Hugging Face」が組織名、「Brooklyn」が地名として抽出される
# PER -> 人名
# ORG -> 組織名
# LOC -> 地名

# BERT large cased finetuned con1103 English
# https://huggingface.co/dbmdz/bert-large-cased-finetuned-conll03-english

No model was supplied, defaulted to dbmdz/bert-large-cased-finetuned-conll03-english and revision 4c53496 (https://huggingface.co/dbmdz/bert-large-cased-finetuned-conll03-english).
Using a pipeline without specifying a model name and revision in production is not recommended.


config.json:   0%|          | 0.00/998 [00:00<?, ?B/s]

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


model.safetensors:   0%|          | 0.00/1.33G [00:00<?, ?B/s]

Some weights of the model checkpoint at dbmdz/bert-large-cased-finetuned-conll03-english were not used when initializing BertForTokenClassification: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
- This IS expected if you are initializing BertForTokenClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForTokenClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


tokenizer_config.json:   0%|          | 0.00/60.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/213k [00:00<?, ?B/s]

Device set to use cpu


[{'entity_group': 'PER',
  'score': np.float32(0.9981694),
  'word': 'Sylvain',
  'start': 11,
  'end': 18},
 {'entity_group': 'ORG',
  'score': np.float32(0.9796019),
  'word': 'Hugging Face',
  'start': 33,
  'end': 45},
 {'entity_group': 'LOC',
  'score': np.float32(0.9932106),
  'word': 'Brooklyn',
  'start': 49,
  'end': 57}]

In [9]:
# 質問応答（Question Answering）をやってみる
# 与えたコンテキストの中から質問に応えるタスク

from transformers import pipeline

# 1. 質問応答のタスクを指定し、パイプラインを作成
question_answerer = pipeline("question-answering")

# 2. コンテキストと質問を入力して質問応答を実行
question_answerer(
    context="My name is Sylvain and I work at Hugging Face in Brooklyn",
    question="Where do I work?",
)

# コンテキスト内の文字の範囲とスコアを出力される

# DistilBERT base cased distilled SQuAD
# SQUADデータセットでファインチューニングされたDistilBERTモデル
# https://huggingface.co/distilbert/distilbert-base-cased-distilled-squad

No model was supplied, defaulted to distilbert/distilbert-base-cased-distilled-squad and revision 564e9b5 (https://huggingface.co/distilbert/distilbert-base-cased-distilled-squad).
Using a pipeline without specifying a model name and revision in production is not recommended.


config.json:   0%|          | 0.00/473 [00:00<?, ?B/s]

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


model.safetensors:   0%|          | 0.00/261M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/49.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/213k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/436k [00:00<?, ?B/s]

Device set to use cpu


{'score': 0.6949766278266907, 'start': 33, 'end': 45, 'answer': 'Hugging Face'}

In [10]:
# 要約（Summarization）をやってみる
# テキストの重要な点を抽出して短くするタスク

from transformers import pipeline

# 1. 要約のタスクを指定し、パイプラインを作成
summarizer = pipeline("summarization")

# 2. テキストを入力して要約を実行
summarizer("""
America has changed dramatically during recent years. Not only has the number of
graduates in traditional engineering disciplines such as mechanical, civil,
electrical, chemical, and aeronautical engineering declined, but in most of
the premier American universities engineering curricula now concentrate on
and encourage largely the study of engineering science. As a result, there
are declining offerings in engineering subjects dealing with infrastructure,
the environment, and related issues, and greater concentration on high
technology subjects, largely supporting increasingly complex scientific
developments. While the latter is important, it should not be at the expense
of more traditional engineering.

Rapidly developing economies such as China and India, as well as other
industrial countries in Europe and Asia, continue to encourage and advance
the teaching of engineering. Both China and India, respectively, graduate
six and eight times as many traditional engineers as does the United States.
Other industrial countries at minimum maintain their output, while America
suffers an increasingly serious decline in the number of engineering graduates
and a lack of well-educated engineers.
""")

# DistilBART CNN
# https://huggingface.co/sshleifer/distilbart-cnn-12-6

No model was supplied, defaulted to sshleifer/distilbart-cnn-12-6 and revision a4f8f3e (https://huggingface.co/sshleifer/distilbart-cnn-12-6).
Using a pipeline without specifying a model name and revision in production is not recommended.


config.json:   0%|          | 0.00/1.80k [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/1.22G [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.22G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/899k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

Device set to use cpu


[{'summary_text': ' America has changed dramatically during recent years . The number of engineering graduates in the U.S. has declined in traditional engineering disciplines such as mechanical, civil, electrical, chemical, and aeronautical engineering . China and India graduate six and eight times as many traditional engineers as does the United States .'}]

In [11]:
# 翻訳（Translation）をやってみる

# translation_en_to_frなどのタスクを指定してもよいが、Model Hubから選ぶほうが効率的
# https://huggingface.co/models

from transformers import pipeline

# 1. 翻訳のタスクを指定し、パイプラインを作成（フランス語から英語）
translator = pipeline("translation", model="Helsinki-NLP/opus-mt-fr-en")

# 2. テキストを入力して翻訳を実行
translator("Ce cours est produit par Hugging Face.")

# 3. 結果は「This course is produced by Hugging Face.」と出力される

# OPUS-MT（Open Source Machine Translation）プロジェクトのモデル
# https://huggingface.co/Helsinki-NLP/opus-mt-fr-en

config.json:   0%|          | 0.00/1.42k [00:00<?, ?B/s]

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


pytorch_model.bin:   0%|          | 0.00/301M [00:00<?, ?B/s]

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


generation_config.json:   0%|          | 0.00/293 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/301M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/42.0 [00:00<?, ?B/s]

source.spm:   0%|          | 0.00/802k [00:00<?, ?B/s]

target.spm:   0%|          | 0.00/778k [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/1.34M [00:00<?, ?B/s]

Device set to use cpu


[{'translation_text': 'This course is produced by Hugging Face.'}]

In [12]:
# 画像分類（Image Classification）をやってみる

from transformers import pipeline

# 1. 画像分類のタスクとモデルを指定し、パイプラインを作成
image_classifier = pipeline(task="image-classification", model="google/vit-base-patch16-224")

# 2. 画像を指定して画像分類を実行
image_classifier("https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/pipeline-cat-chonk.jpeg")

# 3. 結果は43%の確率で「lynx, catamount」

# ViT Base
# https://huggingface.co/google/vit-base-patch16-224

config.json:   0%|          | 0.00/69.7k [00:00<?, ?B/s]

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


model.safetensors:   0%|          | 0.00/346M [00:00<?, ?B/s]

preprocessor_config.json:   0%|          | 0.00/160 [00:00<?, ?B/s]

Fast image processor class <class 'transformers.models.vit.image_processing_vit_fast.ViTImageProcessorFast'> is available for this model. Using slow image processor class. To use the fast image processor class set `use_fast=True`.
Device set to use cpu


[{'label': 'lynx, catamount', 'score': 0.43349990248680115},
 {'label': 'cougar, puma, catamount, mountain lion, painter, panther, Felis concolor',
  'score': 0.03479622304439545},
 {'label': 'snow leopard, ounce, Panthera uncia',
  'score': 0.032401926815509796},
 {'label': 'Egyptian cat', 'score': 0.023944783955812454},
 {'label': 'tiger cat', 'score': 0.02288925088942051}]

In [13]:
# 自動音声認識（Automatic Speech Recognition, ASR）をやってみる
# 文字起こしのタスク

from transformers import pipeline

# 1. 自動音声認識のタスクとモデルを指定し、パイプラインを作成
transcriber = pipeline(task="automatic-speech-recognition", model="openai/whisper-tiny")

# 2. 音声ファイルを指定して自動音声認識を実行
transcriber("https://huggingface.co/datasets/Narsil/asr_dummy/resolve/main/mlk.flac")

# 3. 結果は「I have a dream. Good one day. This nation will rise up. Live out the true meaning of its dream.」

# Whisper Tiny
# https://huggingface.co/openai/whisper-tiny

config.json:   0%|          | 0.00/1.98k [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/151M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/3.75k [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/283k [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/836k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/2.48M [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/494k [00:00<?, ?B/s]

normalizer.json:   0%|          | 0.00/52.7k [00:00<?, ?B/s]

added_tokens.json:   0%|          | 0.00/34.6k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/2.19k [00:00<?, ?B/s]

preprocessor_config.json:   0%|          | 0.00/185k [00:00<?, ?B/s]

Device set to use cpu
Due to a bug fix in https://github.com/huggingface/transformers/pull/28687 transcription using a multilingual Whisper will default to language detection followed by transcription instead of translation to English.This might be a breaking change for your use case. If you want to instead always translate your audio to English, make sure to pass `language='en'`.


{'text': ' I have a dream. Good one day. This nation will rise up. Live out the true meaning of its dream.'}

### 1-4. Transformerの仕組み

https://huggingface.co/learn/llm-course/chapter1/4?fw=pt

- GPT->BERT->GPT-2->T5->GPT-3->InstructGPT->Llamaa->Mistral->Gemma 2->SmolLM2
- 大量のテキストで事前学習を行い、ファインチューニングして使う
    - 例: WikiPediaで訓練したGPT-2を、論文の文章でファインチューニングし、科学分野向けのモデルを作る
- Transformerの具体的な仕組みは省略（AI基礎を受講しよう！）

### 1-5. Transformerが解決できるタスク

https://huggingface.co/learn/llm-course/chapter1/5?fw=pt

- 色々ある
    - Wav2Vec2：音声分類と自動音声認識（ASR）
    - Vision Transformer (ViT)およびConvNeXT：画像分類
    - DETR：物体検出
    - Mask2Former：画像セグメンテーション
    - GLPN：深度推定
    - BERT：テキスト分類、トークン分類、質問応答などエンコーダを使うNLPタスク
    - GPT2：テキスト生成などデコーダを使うNLPタスク
    - BART：要約や翻訳などエンコーダ-デコーダを使うNLPタスク
- それぞれの仕組みの解説は省略（AI基礎を受講しよう！）

### 1-6. Transformerのアーキテクチャ

https://huggingface.co/learn/llm-course/chapter1/6?fw=pt

- Transformerの部位ごとに得意分野が異なる
    - エンコーダーモデル: BERT, DistilBERT, ModernBERT -> テキスト分類、NER
    - デコーダーモデル: GPT-2 -> テキスト生成
    - エンコーダーデコーダーモデル: BART, mBART, Marian, T5 -> 翻訳、要約
- アテンションも色々ある: LSH Attention, Local Attention

### 1-8. LLMによるテキスト生成の仕組み

https://huggingface.co/learn/llm-course/chapter1/8?fw=pt

- 大まかな流れ
    1. トークン化
    1. トークン埋め込み
    1. 特徴抽出
    1. 次のトークンの確率分布を予測
    1. サンプリング
- ストップトークン, スケーリングペナルティ, 最大トークン数, ビームサーチ
- ベンチマーク指標: TTFT, TPOP, スループット, VRAM使用量
- KVキャッシュ最適化などパフォーマンス向上のための研究も紹介

### 1-9. LLMのバイアスと限界

https://huggingface.co/learn/llm-course/chapter1/9?fw=pt

In [14]:
# 大量のデータを使用して事前学習モデルを訓練すると、ジェンダーバイアスなどの偏見が生成されることがある

from transformers import pipeline

unmasker = pipeline("fill-mask", model="bert-base-uncased")

# 男性の職業を予測
result = unmasker("This man works as a [MASK].")
print([r["token_str"] for r in result])

# 女性の職業を予測
result = unmasker("This woman works as a [MASK].")
print([r["token_str"] for r in result])

# BERT base uncased
# WikiPediaやBookCorpusなどを使用すると、偏見が生成されることもある
# https://huggingface.co/bert-base-uncased

config.json:   0%|          | 0.00/570 [00:00<?, ?B/s]

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


model.safetensors:   0%|          | 0.00/440M [00:00<?, ?B/s]

Some weights of the model checkpoint at bert-base-uncased were not used when initializing BertForMaskedLM: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight', 'cls.seq_relationship.bias', 'cls.seq_relationship.weight']
- This IS expected if you are initializing BertForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


tokenizer_config.json:   0%|          | 0.00/48.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

Device set to use cpu


['carpenter', 'lawyer', 'farmer', 'businessman', 'doctor']
['nurse', 'maid', 'teacher', 'waitress', 'prostitute']


## 2. Transformerを使おう

### 2.1 Introduction

https://huggingface.co/learn/llm-course/en/chapter2/1?fw=pt

- Transformerライブラリの特徴
    1. 使いやすさ
        - 最新のモデルのロードがたった2行でできる
    1. 柔軟性
        - PyTorchの基本クラスnn.Moduleを全てのモデルが継承している
    1. シンプルさ
        - ライブラリ内で参照が少なく、理解しやすい

### 2.2 パイプライン関数の裏側

In [15]:
# 感情分析の例を思い出してみる

from transformers import pipeline

# 1. 感情分析のタスクを指定し、パイプラインを作成
classifier = pipeline("sentiment-analysis")

# 2. テキストを入力して感情分析を実行
classifier(
    [
        "I've been waiting for a HuggingFace course my whole life.",
        "I hate this so much!",
    ]
)

# 3. 結果を確認

No model was supplied, defaulted to distilbert/distilbert-base-uncased-finetuned-sst-2-english and revision 714eb0f (https://huggingface.co/distilbert/distilbert-base-uncased-finetuned-sst-2-english).
Using a pipeline without specifying a model name and revision in production is not recommended.
Device set to use cpu


[{'label': 'POSITIVE', 'score': 0.9598049521446228},
 {'label': 'NEGATIVE', 'score': 0.9994558691978455}]

内部では以下のように処理されている

1. トークン化（Tokenizer）: 文章をトークン（数字の羅列）に変換
2. モデルの推論（Model）：トークンから相対的な確率（ロジット）を計算
3. 後処理（Post Processing）: ラベルごとの確率を辞書で出力

In [16]:
# トークン化（Tokenizer）してみる

# AutoTokenizerクラスとfrom_pretrainedメソッドを使用
# チェックポイント名を指定すると自動的に適切なトークナイザーを選択し、パラメータを設定してくれる

from transformers import AutoTokenizer

# チェックポイントを指定（学習済みのモデルの名前）
checkpoint = "distilbert-base-uncased-finetuned-sst-2-english"

# AutoTokenizerのfrom_pretrainedメソッドを使用すると、学習済みのトークナイザーを取得できる
# このクラスは、チェックポイント名に基づいて適切なトークナイザーでインスタン化してくれる便利なツール
tokenizer = AutoTokenizer.from_pretrained(checkpoint)

tokenizer

# 「DistilBERT Tokenizer Fast」が読み込まれる
# FastはRust言語で実装されたトークナイザーで高速

tokenizer_config.json:   0%|          | 0.00/48.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/629 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

DistilBertTokenizerFast(name_or_path='distilbert-base-uncased-finetuned-sst-2-english', vocab_size=30522, model_max_length=512, is_fast=True, padding_side='right', truncation_side='right', special_tokens={'unk_token': '[UNK]', 'sep_token': '[SEP]', 'pad_token': '[PAD]', 'cls_token': '[CLS]', 'mask_token': '[MASK]'}, clean_up_tokenization_spaces=True, added_tokens_decoder={
	0: AddedToken("[PAD]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	100: AddedToken("[UNK]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	101: AddedToken("[CLS]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	102: AddedToken("[SEP]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	103: AddedToken("[MASK]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
}
)

In [17]:
# トークナイザーでトークン化

raw_inputs = [
    "I've been waiting for a HuggingFace course my whole life.",
    "I hate this so much!",
]

# トークン化
# padding=Trueで、[PAD]トークンで長さを揃える
# truncation=Trueで、長すぎる文章は切り捨てる
# return_tensors="pt"で、PyTorchのテンソルを返す
inputs = tokenizer(raw_inputs, padding=True, truncation=True, return_tensors="pt")

inputs

# input_ids, attention_maskの2つのキーを持つ辞書

# input_idsはトークン化された語彙のID
# attention_maskはパディングされた部分を0にするマスク

{'input_ids': tensor([[  101,  1045,  1005,  2310,  2042,  3403,  2005,  1037, 17662, 12172,
          2607,  2026,  2878,  2166,  1012,   102],
        [  101,  1045,  5223,  2023,  2061,  2172,   999,   102,     0,     0,
             0,     0,     0,     0,     0,     0]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0]])}

In [20]:
# トークンを使ってモデルを推論させてみる

# AutoModelクラスとfrom_pretrainedメソッドを使用
# チェックポイント名を指定すると、適切なモデルを自動的に選択し、パラメータを設定してくれる
# AutoModelはタスクが未定義で特徴量だけ出力するモデルを選択する

from transformers import AutoModel

# チェックポイントを指定（学習済みのモデルの名前）
checkpoint = "distilbert-base-uncased-finetuned-sst-2-english"

# AutoModelのfrom_pretrainedメソッドを使用すると、学習済みのモデルを取得できる
# このクラスはチェックポイント名に基づいて適切なモデルでインスタン化してくれる便利なやつ
# パイプラインを使わない場合、AutoModelが便利
model = AutoModel.from_pretrained(checkpoint)

model

# DistilBERT
# AutoModelはファインチューニングされていないモデル（ファンデーションモデル）

DistilBertModel(
  (embeddings): Embeddings(
    (word_embeddings): Embedding(30522, 768, padding_idx=0)
    (position_embeddings): Embedding(512, 768)
    (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
    (dropout): Dropout(p=0.1, inplace=False)
  )
  (transformer): Transformer(
    (layer): ModuleList(
      (0-5): 6 x TransformerBlock(
        (attention): DistilBertSdpaAttention(
          (dropout): Dropout(p=0.1, inplace=False)
          (q_lin): Linear(in_features=768, out_features=768, bias=True)
          (k_lin): Linear(in_features=768, out_features=768, bias=True)
          (v_lin): Linear(in_features=768, out_features=768, bias=True)
          (out_lin): Linear(in_features=768, out_features=768, bias=True)
        )
        (sa_layer_norm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
        (ffn): FFN(
          (dropout): Dropout(p=0.1, inplace=False)
          (lin1): Linear(in_features=768, out_features=3072, bias=True)
          (lin2): L

In [19]:
# AutoModelはファインチューニングされていないので、入力の特徴量を出力する
# 特徴量は高次元のベクトルで、抽象的な概念を表現する

outputs = model(**inputs)

outputs.last_hidden_state.shape

# バッチサイズが2、シーケンスの長さが16、768次元の表現ベクトル

torch.Size([2, 16, 768])

表現ベクトルをファインチューニングした「モデルヘッド」に入力し、ロジット（相対的な確率）を計算する

モデルヘッドは、モデルの出力をタスクに合わせて変換するための層

- 例
    - ModelForCausalLMクラス -> 自然言語生成
    - ModelForMaskedLMクラス -> マスク補完
    - ModelForMultipleChoiceクラス -> 複数選択肢
    - ModelForQuestionAnsweringクラス -> 質問応答
    - ModelForSequenceClassificationクラス -> テキスト分類
    - ModelForTokenClassificationクラス -> トークン分類

タスクごとによってモデルヘッドは異なる

In [21]:
# 感情分析用のモデルヘッドは「AutoModelForSequenceClassification」

from transformers import AutoModelForSequenceClassification

# チェックポイントを指定（学習済みのモデルの名前）
checkpoint = "distilbert-base-uncased-finetuned-sst-2-english"

# AutoModelForSequenceClassificationのfrom_pretrainedメソッドを使用すると、学習済みのモデルを取得できる
model = AutoModelForSequenceClassification.from_pretrained(checkpoint)

# モデルに入力を渡して予測を実行
outputs = model(**inputs)

# 予測結果はロジット（相対的な確率）
outputs.logits

tensor([[-1.5607,  1.6123],
        [ 4.1692, -3.3464]], grad_fn=<AddmmBackward0>)

In [22]:
# それぞれの確率の意味は、モデルの設定にヒントがある
model.config.id2label

# "I've been waiting for a HuggingFace course my whole life." -> Positive（インデックス1が大きい）
# "I hate this so much!" -> Negative（インデックス0が大きい）

{0: 'NEGATIVE', 1: 'POSITIVE'}

In [23]:
# 後処理（Post Processing)では、ロジットを確率に変換する

import torch.nn.functional as F

# Softmax関数を使用
probs = F.softmax(outputs.logits, dim=-1)

probs

# "I've been waiting for a HuggingFace course my whole life." -> 95.98%でPositive
# "I hate this so much!" -> Negative（インデックス0が大きい）-> 99.95%でNegative

tensor([[4.0195e-02, 9.5980e-01],
        [9.9946e-01, 5.4418e-04]], grad_fn=<SoftmaxBackward0>)

### 2-3. モデルの作成と使用方法

https://huggingface.co/learn/llm-course/en/chapter2/3?fw=pt

AutoModelを使用せずに直接モデルを指定して推論できる

In [24]:
# BERTモデルを手動で作ってみる

from transformers import BertConfig

# BERTモデルの設定はBertConfigクラスで作成できる
config = BertConfig()

config
# 中身を見てみると、いろいろなハイパーパラメータがデフォルトで設定されている
# hidden_size: 隠れ層の次元数が768次元
# num_layers: Transformerの層の数が12層
# transformers_version: Transformersライブラリのバージョン

BertConfig {
  "attention_probs_dropout_prob": 0.1,
  "classifier_dropout": null,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "layer_norm_eps": 1e-12,
  "max_position_embeddings": 512,
  "model_type": "bert",
  "num_attention_heads": 12,
  "num_hidden_layers": 12,
  "pad_token_id": 0,
  "position_embedding_type": "absolute",
  "transformers_version": "4.51.3",
  "type_vocab_size": 2,
  "use_cache": true,
  "vocab_size": 30522
}

In [25]:
from transformers import BertModel

# 設定を使って、BERTモデルを作成
model = BertModel(config)

model

# パラメータはランダムに初期化されている

BertModel(
  (embeddings): BertEmbeddings(
    (word_embeddings): Embedding(30522, 768, padding_idx=0)
    (position_embeddings): Embedding(512, 768)
    (token_type_embeddings): Embedding(2, 768)
    (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
    (dropout): Dropout(p=0.1, inplace=False)
  )
  (encoder): BertEncoder(
    (layer): ModuleList(
      (0-11): 12 x BertLayer(
        (attention): BertAttention(
          (self): BertSdpaSelfAttention(
            (query): Linear(in_features=768, out_features=768, bias=True)
            (key): Linear(in_features=768, out_features=768, bias=True)
            (value): Linear(in_features=768, out_features=768, bias=True)
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (output): BertSelfOutput(
            (dense): Linear(in_features=768, out_features=768, bias=True)
            (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
            (dropout): Dropout(p=0.1, inplace=False

In [26]:
# 事前学習済みのチェックポイントを読み込む

# from_pretrainedメソッドを使用して読み込み
model = BertModel.from_pretrained("bert-base-uncased")

model

# AutoModelを使った場合も同じ:
# model = AutoModel.from_pretrained("bert-base-uncased")

BertModel(
  (embeddings): BertEmbeddings(
    (word_embeddings): Embedding(30522, 768, padding_idx=0)
    (position_embeddings): Embedding(512, 768)
    (token_type_embeddings): Embedding(2, 768)
    (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
    (dropout): Dropout(p=0.1, inplace=False)
  )
  (encoder): BertEncoder(
    (layer): ModuleList(
      (0-11): 12 x BertLayer(
        (attention): BertAttention(
          (self): BertSdpaSelfAttention(
            (query): Linear(in_features=768, out_features=768, bias=True)
            (key): Linear(in_features=768, out_features=768, bias=True)
            (value): Linear(in_features=768, out_features=768, bias=True)
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (output): BertSelfOutput(
            (dense): Linear(in_features=768, out_features=768, bias=True)
            (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
            (dropout): Dropout(p=0.1, inplace=False

In [27]:
# チェックポイントの保存は save_pretrainedメソッドを使用する
model.save_pretrained("my_model")

In [28]:
# チェックポイントのディレクトリの中身を見てみる
!ls my_model

# 設定ファイル（config.json）とチェックポイント（model.safe_tensors）が格納されている

config.json  model.safetensors


In [29]:
# 設定の中身を見てみる
!cat my_model/config.json

# 設定はBERTConfigとだいたい同じ

{
  "architectures": [
    "BertModel"
  ],
  "attention_probs_dropout_prob": 0.1,
  "classifier_dropout": null,
  "gradient_checkpointing": false,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "layer_norm_eps": 1e-12,
  "max_position_embeddings": 512,
  "model_type": "bert",
  "num_attention_heads": 12,
  "num_hidden_layers": 12,
  "pad_token_id": 0,
  "position_embedding_type": "absolute",
  "torch_dtype": "float32",
  "transformers_version": "4.51.3",
  "type_vocab_size": 2,
  "use_cache": true,
  "vocab_size": 30522
}


In [30]:
# 大きいので削除

!rm -rf my_model

In [31]:
# 作成したBERTモデルを使ってみる

sequences = ["Hello!", "Cool.", "Nice!"]

In [32]:
# トークナイザーを読み込み

from transformers import BertTokenizer

# 学習済みのトークナイザーをfrom_pretrainedメソッドを使用して読み込む
tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")

# 文章をトークン化
encoded_sequences = tokenizer(sequences, padding=True, truncation=True, return_tensors="pt")

# トークンを確認
encoded_sequences.input_ids

tensor([[ 101, 7592,  999,  102],
        [ 101, 4658, 1012,  102],
        [ 101, 3835,  999,  102]])

In [33]:
# モデルで推論してみる

output = model(encoded_sequences.input_ids)

output.last_hidden_state.shape

# BERTモデルはファインチューニングしていないので、768次元の表現ベクトルが出力される

torch.Size([3, 4, 768])

### 2.4 トークナイザーについて

https://huggingface.co/learn/llm-course/en/chapter2/4?fw=pt

- トークナイザーはテキストを分割し（tokenize）、モデルが理解できる数値に変換する（encode）
- テキストの区切り方
    - 単語ベース
    - 文字ベース
    - サブワードベース（頻繁に使われる単語は分割せず、あまり使われない単語は分割する）
    - バイトペアエンコーディング（GPT-2）
    - ワードピースエンコーディング（BERT）
    - センテンスピース（T5, MarianMT, mBART）
    - ユニグラム（T5, MarianMT, mBART）

In [34]:
# トークナイザーの保存
tokenizer.save_pretrained("my_tokenizer")

!ls my_tokenizer
# tokenizer_config.json: トークナイザーの設定
# vocab.txt: 語彙のリスト
# special_tokens_map.json: 特殊トークンのマッピング

special_tokens_map.json  tokenizer_config.json	vocab.txt


In [35]:
!rm -rf my_tokenizer

In [36]:
# tokenizerにそのまま通すと文字列が数値に変換される

tokenizer("Using a Transformer network is simple")

# 文字列を数値に変換することを「エンコーディング」呼ぶ
# input_ids がエンコードされた語彙のID

# エンコーディングは以下のように行われる
# 1. トークン化（Tokenization）: 文章をトークンに分割
# 2. トークンをインデックスIDに変換: トークンを辞書のインデックスIDに変換

{'input_ids': [101, 2478, 1037, 10938, 2121, 2897, 2003, 3722, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1]}

In [37]:
# 手動でエンコーディングも可能

# 1. トークン化（Tokenization）

from transformers import AutoTokenizer

# AutoTokenizerクラスで、自動的に適切なクラスでインスタンス化
tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")

sequence = "Using a Transformer network is simple"

# トークン化
tokens = tokenizer.tokenize(sequence)

tokens

# BERTはサブワードトークナイザーを使用
# Transformer -> Trans + ##former

tokenizer_config.json:   0%|          | 0.00/49.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/570 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/213k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/436k [00:00<?, ?B/s]

['Using', 'a', 'Trans', '##former', 'network', 'is', 'simple']

In [38]:
# 2. エンコーディング（Encoding）

# convert_tokens_to_idsメソッドを使用して、トークンをインデックスIDに変換
tokenizer.convert_tokens_to_ids(tokens)

[7993, 170, 13809, 23763, 2443, 1110, 3014]

In [39]:
# 追加で特殊トークンを追加すると、tokenizerに通した処理と同じになる

encoded = tokenizer.encode(sequence)
encoded

# 先頭に[CLS]トークン101、末尾に[SEP]トークン102が追加されている

[101, 7993, 170, 13809, 23763, 2443, 1110, 3014, 102]

In [40]:
# デコードも可能

tokenizer.decode(encoded)

'[CLS] Using a Transformer network is simple [SEP]'

### 2.5 バッチ処理について

https://huggingface.co/learn/llm-course/chapter2/5?fw=pt

In [41]:
# 復習で一つの文章をトークン化してみる

import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification

checkpoint = "distilbert-base-uncased-finetuned-sst-2-english"

# 事前学習済みのトークナイザーをfrom_pretrainedメソッドを使用して読み込む
tokenizer = AutoTokenizer.from_pretrained(checkpoint)

# 文章を分類するタスク（Sequence Classification）のモデルを読み込む
model = AutoModelForSequenceClassification.from_pretrained(checkpoint)

sequence = "I've been waiting for a HuggingFace course my whole life."

# 文章をトークン化
tokens = tokenizer.tokenize(sequence)

# トークンをエンコード
ids = tokenizer.convert_tokens_to_ids(tokens)

# Pytorchのテンソルに変換
input_ids = torch.tensor(ids)
print(input_ids)

# model(input_ids)

# この行は失敗する。
# input_idsは1次元のテンソルで、モデルは2次元のテンソルを期待しているから


tensor([ 1045,  1005,  2310,  2042,  3403,  2005,  1037, 17662, 12172,  2607,
         2026,  2878,  2166,  1012])


In [42]:
# 2次元のテンソルに変換するとうまく行く

output = model(torch.tensor([ids]))

output.logits

# 出力はロジット（相対的な確率）

tensor([[-2.7276,  2.8789]], grad_fn=<AddmmBackward0>)

In [43]:
# 複数の文章を同時に処理できる（バッチ処理）

model(torch.tensor([ids, ids, ids])).logits

tensor([[-2.7276,  2.8789],
        [-2.7276,  2.8789],
        [-2.7276,  2.8789]], grad_fn=<AddmmBackward0>)

In [44]:
# 入力のパッティングについて

# シーケンスのIDが異なる場合
batched_ids = [
    [200, 200, 200],
    [200, 200]
]

# model(torch.tensor(batched_ids)).logits
# エラーが発生する

In [45]:
# シーケンスの長さは揃える必要がある

# パッドトークンを使って、長さを揃える
padding_id = 100

batched_ids = [
    [200, 200, 200],
    [200, 200, padding_id]
]

model(torch.tensor(batched_ids)).logits

# うまく行く

tensor([[ 1.5694, -1.3895],
        [ 0.9907, -0.9139]], grad_fn=<AddmmBackward0>)

In [46]:
# うまく行くが問題がある
# パディングトークンありとなしだと、ロジット（相対的な確率）が異なってしまう

model(torch.tensor([[200, 200]])).logits

# これを防ぐためにパディングトークンだけを推論時にマスクするように設定する（アテンションマスク）

tensor([[ 0.5803, -0.4125]], grad_fn=<AddmmBackward0>)

In [47]:
# マスクを作成
attention_mask = [
    [1, 1, 1],
    [1, 1, 0], # パッディングに対応する部分は「0」
]

model(torch.tensor(batched_ids), attention_mask=torch.tensor(attention_mask)).logits
# パッディングトークンの影響がなくなる

tensor([[ 1.5694, -1.3895],
        [ 0.5803, -0.4125]], grad_fn=<AddmmBackward0>)

#### 2-6. チャプター2のまとめ

https://huggingface.co/learn/llm-course/en/chapter2/6?fw=pt

In [48]:
from transformers import AutoTokenizer

# チェックポイントを指定して、事前学習済みのトークナイザーを作成
checkpoint = "distilbert-base-uncased-finetuned-sst-2-english"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)

# トークナイザーを使って、文章をトークン化し、エンコード
sequence = "I've been waiting for a HuggingFace course my whole life."
model_inputs = tokenizer(sequence)

model_inputs

# モデルに入力に必要な全ての情報が含まれている
# input_ids: トークン化された語彙のID
# attention_mask: パディングトークンをマスクするためのマスク

{'input_ids': [101, 1045, 1005, 2310, 2042, 3403, 2005, 1037, 17662, 12172, 2607, 2026, 2878, 2166, 1012, 102], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}

In [49]:
# トークナイザーは複数入力（リスト）も可能

sequences = ["I've been waiting for a HuggingFace course my whole life.", "So have I!"]

model_inputs = tokenizer(sequences)
model_inputs

{'input_ids': [[101, 1045, 1005, 2310, 2042, 3403, 2005, 1037, 17662, 12172, 2607, 2026, 2878, 2166, 1012, 102], [101, 2061, 2031, 1045, 999, 102]], 'attention_mask': [[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1]]}

In [50]:
# パディングもいろいろな方法がある

# シーケンスを最大のシーケンス長に揃えてパディング
tokenizer(sequences, padding="longest")

{'input_ids': [[101, 1045, 1005, 2310, 2042, 3403, 2005, 1037, 17662, 12172, 2607, 2026, 2878, 2166, 1012, 102], [101, 2061, 2031, 1045, 999, 102, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]], 'attention_mask': [[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]]}

In [51]:
# モデルの最大長までパディング（BERTやDistilBERTの場合は512）
tokenizer(sequences, padding="max_length")

{'input_ids': [[101, 1045, 1005, 2310, 2042, 3403, 2005, 1037, 17662, 12172, 2607, 2026, 2878, 2166, 1012, 102, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 

In [52]:
# 指定した最大長までパディング
tokenizer(sequences, padding="max_length", max_length=8)

{'input_ids': [[101, 1045, 1005, 2310, 2042, 3403, 2005, 1037, 17662, 12172, 2607, 2026, 2878, 2166, 1012, 102], [101, 2061, 2031, 1045, 999, 102, 0, 0]], 'attention_mask': [[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1, 0, 0]]}

In [53]:
# エンコードすると、特殊トークンが追加される
# 事前学習時と入力の形式を合わせるため

sequence = "I've been waiting for a HuggingFace course my whole life."

# エンコード
model_inputs = tokenizer(sequence)
tokens = tokenizer.tokenize(sequence)
ids = tokenizer.convert_tokens_to_ids(tokens)
print(ids)

# デコード
tokenizer.decode(model_inputs["input_ids"])

# 1045 -> [CLS], 1012 -> [SEP]

[1045, 1005, 2310, 2042, 3403, 2005, 1037, 17662, 12172, 2607, 2026, 2878, 2166, 1012]


"[CLS] i've been waiting for a huggingface course my whole life. [SEP]"

In [54]:
# まとめると

from transformers import AutoTokenizer, AutoModelForSequenceClassification

# 1. チェックポイントを指定して、事前学習済みのトークナイザーを作成
checkpoint = "distilbert-base-uncased-finetuned-sst-2-english"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)

# 2 モデル作成
model = AutoModelForSequenceClassification.from_pretrained(checkpoint)


# トークナイザーでエンコード
sequences = ["I've been waiting for a HuggingFace course my whole life.", "So have I!"]
tokens = tokenizer(sequences, padding=True, truncation=True, return_tensors="pt")
# padding=True: パディングをゆうう効果
# truncation=True: 非常に長いシーケンスの切り捨てる
# return_tensors="pt": Pytorchテンソルへの変換を行う

output = model(**tokens)
output.logits

# 出力はロジット（相対的な確率）

tensor([[-1.5607,  1.6123],
        [-3.6183,  3.9137]], grad_fn=<AddmmBackward0>)

## 3. 事前学習済みモデルのファインチューニング

### 3-1. イントロダクション

https://huggingface.co/learn/llm-course/en/chapter3/1?fw=pt

- 3章は、事前学習済みモデルのファインチューニングがテーマ

### 3-2. データ処理

- https://huggingface.co/learn/llm-course/en/chapter3/2?fw=pt

In [55]:
# 実際にファインチューニングしてみよう

import torch
from torch.optim import AdamW
from transformers import AutoTokenizer, AutoModelForSequenceClassification

# チェックポイントを指定して、事前学習済みのトークナイザーを作成
checkpoint = "bert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)

# 分類タスク用の事前学習済みモデルを作成
model = AutoModelForSequenceClassification.from_pretrained(checkpoint)

# このモデルを更にファインチューニングするためのデータを作成
sequences = [
    "I've been waiting for a HuggingFace course my whole life.",
    "This course is amazing!",
]

# バッチ処理でエンコード
batch = tokenizer(sequences, padding=True, truncation=True, return_tensors="pt")

# バッチに正解データを追加（両方ともPositiveとする）
batch["labels"] = torch.tensor([1, 1])

# データセットの準備完了〜

Some weights of BertForSequenceClassification were not initialized from the model checkpoint at bert-base-uncased and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


In [56]:
# つづいて訓練

# 誤差に基づいて、どの程度パラメータを調整するかを決めるモジュール（最適化関数）を作成
optimizer = AdamW(model.parameters())

# データセットをモデルに渡し、予測との誤差（ロス）を計算
loss = model(**batch).loss

# 勾配を計算（どの程度パラメータを調整するかを計算）
loss.backward()

# パラメータを更新
optimizer.step()

# 以上でファインチューニング完了

# 実際は2つの文ではなく、より多くの文を使う

In [57]:
# 多くの文でファインチューニングしてみる

# まずはデータセットのダウンロード

# MRPC（Microsoft Research Paraphrase Corpuse）データセットを使用
# 5,801組の文のペアが含まれている
# ペアの文章が同じ意味かどうかを判定するタスク用のデータセット

from datasets import load_dataset

# GLUEベンチー膜のMRPCデータセットをダウンロード
raw_datasets = load_dataset("glue", "mrpc")
raw_datasets

# 訓練データ（train）: 3668ペア
# 検証データ（validation）: 408ペア
# テストデータ（test）: 1725ペア

README.md:   0%|          | 0.00/35.3k [00:00<?, ?B/s]

train-00000-of-00001.parquet:   0%|          | 0.00/649k [00:00<?, ?B/s]

validation-00000-of-00001.parquet:   0%|          | 0.00/75.7k [00:00<?, ?B/s]

test-00000-of-00001.parquet:   0%|          | 0.00/308k [00:00<?, ?B/s]

Generating train split:   0%|          | 0/3668 [00:00<?, ? examples/s]

Generating validation split:   0%|          | 0/408 [00:00<?, ? examples/s]

Generating test split:   0%|          | 0/1725 [00:00<?, ? examples/s]

DatasetDict({
    train: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx'],
        num_rows: 3668
    })
    validation: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx'],
        num_rows: 408
    })
    test: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx'],
        num_rows: 1725
    })
})

In [58]:
# データセットの中身をみてみる

raw_train_dataset = raw_datasets["train"]
raw_train_dataset[0]

# labelの意味を確認したい

{'sentence1': 'Amrozi accused his brother , whom he called " the witness " , of deliberately distorting his evidence .',
 'sentence2': 'Referring to him as only " the witness " , Amrozi accused his brother of deliberately distorting his evidence .',
 'label': 1,
 'idx': 0}

In [59]:
# featuresにデータセットの情報が含まれていて、ラベルの意味を確認できる
raw_train_dataset.features["label"]

# 0: 文の意味が異なる（not_equivalent）
# 1: 文の意味が同じ（equivalent）

ClassLabel(names=['not_equivalent', 'equivalent'], id=None)

In [60]:
# データセットの文章をエンコードする

from transformers import AutoTokenizer

# トークナイザーを作成
checkpoint = "bert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)

# 文章のペアをエンコード
tokenized_sentences_1 = tokenizer(raw_datasets["train"]["sentence1"])
tokenized_sentences_2 = tokenizer(raw_datasets["train"]["sentence2"])

len(tokenized_sentences_1["input_ids"]), len(tokenized_sentences_2["input_ids"])

# 3668ペアの文章がエンコードされた

(3668, 3668)

In [61]:
# モデルの入力は2つの文章をつなげて1つの文章にする必要がある

inputs = tokenizer("This is the first sentence.", "This is the second one.")
inputs.token_type_ids

# 分類タスクでは token_type_ids フィールドが追加される

# どの部分が1つ目の文章で、どの部分が2つ目の文章かを示すフィールド
# 0: sentence1
# 1: sentence2

[0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1]

In [62]:
# デコードしてみる
tokenizer.decode(inputs["input_ids"])

# [SEP]トークンで区切られている

'[CLS] this is the first sentence. [SEP] this is the second one. [SEP]'

In [63]:
# 以上を踏まえて、正しい前処理を行い、データセットを作成する

# トークナイザーに文章のペアを渡しエンコードすると、[SEP]トークンでつなげてくれる
tokenized_dataset = tokenizer(
    raw_datasets["train"]["sentence1"],
    raw_datasets["train"]["sentence2"],
    padding=True,
    truncation=True,
)

# 3668ペアのデータセットができた

In [64]:
# 大量のデータを扱う場合は、Datasetのmapメソッドを使用すると効率的

# マップする関数を定義
def tokenize_function(examples):
    # メモリ節約のため、使う直前でパディングする（動的パディング）
    return tokenizer(examples["sentence1"], examples["sentence2"], truncation=True)

# マップする関数を渡し、バッチ処理を有効化
tokenized_datasets = raw_datasets.map(tokenize_function, batched=True)
tokenized_datasets

# これでもデータセットのエンコードができた

Map:   0%|          | 0/3668 [00:00<?, ? examples/s]

Map:   0%|          | 0/408 [00:00<?, ? examples/s]

Map:   0%|          | 0/1725 [00:00<?, ? examples/s]

DatasetDict({
    train: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx', 'input_ids', 'token_type_ids', 'attention_mask'],
        num_rows: 3668
    })
    validation: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx', 'input_ids', 'token_type_ids', 'attention_mask'],
        num_rows: 408
    })
    test: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx', 'input_ids', 'token_type_ids', 'attention_mask'],
        num_rows: 1725
    })
})

In [65]:
# 動的パディングなど、バッチ内のサンプルを調整する関数は「コレイト関数（Collate function）」と呼ばれる
# コレイト関数を作ってみる

from transformers import DataCollatorWithPadding

# 動的パディング用のコレイト関数を作成
data_collator = DataCollatorWithPadding(tokenizer=tokenizer)

In [66]:
# コレイト関数を適用してみる

# 8個のサンプルを取得
samples = tokenized_datasets["train"][:8]

# パディングされていないので、シーケンス長にばらつきがある
[len(x) for x in samples["input_ids"]]

[50, 59, 47, 67, 59, 50, 62, 32]

In [67]:
# エラー回避のために、一部のキーを削除
samples = {k: v for k, v in samples.items() if k not in ["idx", "sentence1", "sentence2"]}

# コレイト関数を適用
batch = data_collator(samples)

[len(x) for x in batch["input_ids"]]
# パディングが追加され、すべてのシーケンスが同じ長さになる
# これで動的パッディングができるようになった


[67, 67, 67, 67, 67, 67, 67, 67]

### 3-3. Trainer API を使ったモデルのファインチューニング

- https://huggingface.co/learn/llm-course/en/chapter3/3?fw=pt

In [68]:
# トレーナー（Trainer）はTrainerArgumentsで設定する

from transformers import TrainingArguments

# 実行名（run_name）を指定して、トレーニング用の引数を作成
training_args = TrainingArguments("test-trainer")

# トレーニング用の引数をカスタマイズ
training_args.max_steps = 100
training_args.eval_strategy = "steps"
training_args.eval_steps = 50
training_args.report_to = "none"

training_args

# この引数で、学習と評価に使用するハイパーパラーメータを設定できる
# デフォルト値でもよい
# push_to_hub=Trueにすると学習中に自動的にモデルをHubにアップロードできる

TrainingArguments(
_n_gpu=0,
accelerator_config={'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None, 'use_configured_state': False},
adafactor=False,
adam_beta1=0.9,
adam_beta2=0.999,
adam_epsilon=1e-08,
auto_find_batch_size=False,
average_tokens_across_devices=False,
batch_eval_metrics=False,
bf16=False,
bf16_full_eval=False,
data_seed=None,
dataloader_drop_last=False,
dataloader_num_workers=0,
dataloader_persistent_workers=False,
dataloader_pin_memory=True,
dataloader_prefetch_factor=None,
ddp_backend=None,
ddp_broadcast_buffers=None,
ddp_bucket_cap_mb=None,
ddp_find_unused_parameters=None,
ddp_timeout=1800,
debug=[],
deepspeed=None,
disable_tqdm=False,
do_eval=False,
do_predict=False,
do_train=False,
eval_accumulation_steps=None,
eval_delay=0,
eval_do_concat_batches=True,
eval_on_start=False,
eval_steps=50,
eval_strategy=steps,
eval_use_gather_object=False,
fp16=False,
fp16

In [69]:
# ファインチューニングする事前学習済みモデルの読み込み

from transformers import AutoModelForSequenceClassification

# num_labelsはラベルの数
model = AutoModelForSequenceClassification.from_pretrained(checkpoint, num_labels=2)

# 事前学習済みモデルとヘッドが異なるので、警告がでる（一部がランダムに初期化される）

Some weights of BertForSequenceClassification were not initialized from the model checkpoint at bert-base-uncased and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


In [70]:
# Trainerを作成する

from transformers import Trainer

# モデル、引数、データセット、コレイト関数、トークナイザーを指定してTrainerを作成
trainer = Trainer(
    model,
    training_args,
    train_dataset=tokenized_datasets["train"],
    eval_dataset=tokenized_datasets["validation"],
    data_collator=data_collator,
    processing_class=tokenizer,
)

trainer

<transformers.trainer.Trainer at 0x78bab5bec390>

In [71]:
# train()メソッドでファインチューニングが開始

trainer.train()

# 評価指標用の関数（compute_metrics()）をTrainerに渡すと、評価時に評価指標を計算できる

Step,Training Loss,Validation Loss
50,No log,0.644106
100,No log,0.555012


TrainOutput(global_step=100, training_loss=0.6360253524780274, metrics={'train_runtime': 971.9657, 'train_samples_per_second': 0.823, 'train_steps_per_second': 0.103, 'total_flos': 29316327121440.0, 'train_loss': 0.6360253524780274, 'epoch': 0.2178649237472767})

In [None]:
# ファインチューニングしたモデルの評価

# 検証データセットを使って評価
predictions = trainer.predict(tokenized_datasets["validation"])

predictions.predictions.shape, predictions.label_ids.shape
# 408ペアのデータセットに対して、2つのロジット（相対的な確率）が出力されている

In [None]:
# ロジットを、ロジットの大きいインデックスの値に変換

import numpy as np

preds = np.argmax(predictions.predictions, axis=1)

# 0か1のラベルが予測データとして出力される
preds[:10]

In [None]:
# 正解データと比較

import evaluate

# EvaluateライブラリでMRPCの評価指標を計算
metric = evaluate.load("glue", "mrpc")

# 予測データと正解データを渡して評価
metric.compute(predictions=preds, references=predictions.label_ids)

# 正解率73%、F1スコア82%

In [None]:
# 訓練時にも評価指標を計算できるようにするため、関数化

def compute_metrics(eval_preds):
    logits, labels = eval_preds

    # ロジットを、ロジットの大きいインデックスの値に変換
    predictions = np.argmax(logits, axis=-1)

    # EvaluateライブラリでMRPCの評価指標を計算
    metric = evaluate.load("glue", "mrpc")
    return metric.compute(predictions=predictions, references=labels)

In [None]:
# Trainerにcompute_metricsを渡す

# eval_strategyをepochにすると、エポックごとに評価が行われる
training_args = TrainingArguments("test-trainer")

training_args.max_steps = 100
training_args.eval_strategy = "steps"
training_args.eval_steps = 50
training_args.report_to = "none"

model = AutoModelForSequenceClassification.from_pretrained(checkpoint, num_labels=2)

trainer = Trainer(
    model,
    training_args,
    train_dataset=tokenized_datasets["train"],
    eval_dataset=tokenized_datasets["validation"],
    data_collator=data_collator,
    processing_class=tokenizer,
    compute_metrics=compute_metrics, # 追加
)

In [None]:
trainer.train()

# 学習損失に加え、エポック終了時に検証損失とメトリクスも計算される

# 以上でファインチューニングは完了

### 3-4. Pytorchを使ったモデルのファインチューニング

https://huggingface.co/learn/llm-course/en/chapter3/4?fw=pt

TrainerをPytorchで実装し、仕組みを学ぶ

In [None]:
# 以前と同じ

from datasets import load_dataset
from transformers import AutoTokenizer, DataCollatorWithPadding

# MRPC（Microsoft Research Paraphrase Corpuse）データセットを使用
raw_datasets = load_dataset("glue", "mrpc")

# チェックポイントを指定して、事前学習済みのトークナイザーを作成
checkpoint = "bert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)

# マップ関数を作成
def tokenize_function(example):
    return tokenizer(example["sentence1"], example["sentence2"], truncation=True)

# マップ関数を使って、データセットをエンコード
tokenized_datasets = raw_datasets.map(tokenize_function, batched=True)

# コレイト関数を作成
data_collator = DataCollatorWithPadding(tokenizer=tokenizer)

In [None]:
# トークン化されたデータセットの中身を確認

tokenized_datasets["train"].features

# Pytorchのデータローダーで読み込ませるために前処理が必要

In [None]:
# Pytorchのデータローダーによみこませる用の前処理

# 不要なカラムの削除
tokenized_datasets = tokenized_datasets.remove_columns(["sentence1", "sentence2", "idx"])

# ラベルのカラム名をlabelsに変更
tokenized_datasets = tokenized_datasets.rename_column("label", "labels")

# データセットの形式をtorchに変更
tokenized_datasets.set_format("torch")

# データセットのカラム名を確認
tokenized_datasets["train"].column_names

In [None]:
# データローダーを作成

from torch.utils.data import DataLoader

train_dataloader = DataLoader(
    tokenized_datasets["train"],
    shuffle=True,
    batch_size=8,
    collate_fn=data_collator, # コレイト関数を指定
)

eval_dataloader = DataLoader(
    tokenized_datasets["validation"],
    batch_size=8,
    collate_fn=data_collator, # コレイト関数を指定
)

In [None]:
# 最初のバッチを確認

first_batch = next(iter(train_dataloader))

{k: v.shape for k, v in first_batch.items()}

# 前処理が完了

In [None]:
# モデルのインスタンス化

from transformers import AutoModelForSequenceClassification

# 文章分類タスク用の事前学習済みモデルを作成
# 正解ラベルは2つ（0または1）なので、num_labels=2
# ヘッドが変わるので、一部がランダムに初期化される（警告）
model = AutoModelForSequenceClassification.from_pretrained(checkpoint, num_labels=2)

In [None]:
# バッチを渡して、動作を検証

outputs = model(**first_batch)

print(outputs.loss, outputs.logits.shape)
# ロジット（相対的な確率）, 損失が出力される（8バッチサイズ）

In [None]:
# 最適化関数の定義

from torch.optim import AdamW

# AdamWを使用
optimizer = AdamW(model.parameters(), lr=5e-5)

In [None]:
# 学習スケジューラを作成

from transformers import get_scheduler

num_epochs = 3

# 学習ステップ数を計算
num_training_steps = num_epochs * len(train_dataloader)
print(num_training_steps)

# ステップ数に応じて、線形的に学習率が減衰するスケジューラを作成
lr_scheduler = get_scheduler(
    "linear",
    optimizer=optimizer,
    num_warmup_steps=0,
    num_training_steps=num_training_steps,
)

In [None]:
# モデルをGPUに移動

import torch

device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
model.to(device)
print(device)

In [None]:
# 訓練開始

from tqdm.auto import tqdm

# 学習進捗のプログレスバーを作成
progress_bar = tqdm(range(num_training_steps))

# 訓練モードに変更
model.train()

max_steps = 100

for epoch in range(num_epochs):
    for batch in train_dataloader:
        # 動的パディングされたバッチをGPUに移動
        batch = {k: v.to(device) for k, v in batch.items()}

        # 分類タスクで予測
        outputs = model(**batch)

        # 勾配を計算（どの程度パラメータを調整するかを計算）
        loss = outputs.loss
        loss.backward()

        # モデルを更新
        optimizer.step()

        # 学習率を更新
        lr_scheduler.step()

        # 勾配を初期化
        optimizer.zero_grad()

        # プログレスバーを更新
        progress_bar.update(1)

        if progress_bar.n >= max_steps:
            break

In [None]:
# Evaluateライブラリを使用して評価

import evaluate

# MRPC（Microsoft Research Paraphrase Corpuse）データセットを使用
metric = evaluate.load("glue", "mrpc")

# モデルを評価モードに変更
model.eval()

for batch in eval_dataloader:
    # 動的パディングされたバッチをGPUに移動
    batch = {k: v.to(device) for k, v in batch.items()}

    # 勾配を計算しないで予測
    with torch.no_grad():
        outputs = model(**batch)

    # ロジット（相対的な確率）を取得
    logits = outputs.logits

    # ロジットを、ロジットの大きいインデックスの値に変換
    predictions = torch.argmax(logits, dim=-1)

    # 評価指標を計算
    metric.add_batch(predictions=predictions, references=batch["labels"])

# 予測結果を計算
metric.compute()

In [None]:
# 応用

# Accelerateライブラリを使用して、分散学習もかんたんにできる
# 既存の実装を少し変えるだけ

from accelerate import Accelerator # 追加
from torch.optim import AdamW
from transformers import AutoModelForSequenceClassification, get_scheduler

accelerator = Accelerator() # 追加

model = AutoModelForSequenceClassification.from_pretrained(checkpoint, num_labels=2)
optimizer = AdamW(model.parameters(), lr=3e-5)

# データローダーをAcceleratorで準備
# 複数のGPUにデータが割り当てられる
train_dl, eval_dl, model, optimizer = accelerator.prepare(
    train_dataloader, eval_dataloader, model, optimizer
)

num_epochs = 3
num_training_steps = num_epochs * len(train_dl)
lr_scheduler = get_scheduler(
    "linear",
    optimizer=optimizer,
    num_warmup_steps=0,
    num_training_steps=num_training_steps,
)

progress_bar = tqdm(range(num_training_steps))

model.train()

max_steps = 100

for epoch in range(num_epochs):
    for batch in train_dl:
        outputs = model(**batch)
        loss = outputs.loss

        # 逆伝搬をAcceleratorで行う
        accelerator.backward(loss)

        optimizer.step()
        lr_scheduler.step()
        optimizer.zero_grad()
        progress_bar.update(1)

        if progress_bar.n >= max_steps:
            break

## 4. モデルとトークナイザーの共有

### 4-1. Hugging Face Hub

https://huggingface.co/learn/llm-course/en/chapter4/1?fw=pt


- [Hugging Face](https://huggingface.co/)は最新のモデル、データセットなどを探せるサイト
- Transformers以外にも音声や画像のモデルなど様々な分野のモデルが存在する
- 各モデルはGitリポジトリで管理されている
- Hubでモデルを共有すると、推論用のAPIが自動的に作成させ、誰でも試すことができる
- 有料プランを利用すると、モデルを非公開で共有できる

このパートを進めるには、Hugging Faceのアカウントが必要です。

### 4-2. 事前学習済みモデルの使用

- https://huggingface.co/learn/llm-course/en/chapter4/2?fw=pt

In [None]:
# マスク言語処理モデル（MLMモデル）を使ってみる
# https://huggingface.co/almanach/camembert-base

from transformers import pipeline

# パイプラインを使うと簡単
camembert_fill_mask = pipeline("fill-mask", model="camembert-base")

# <mask>の部分を予測
results = camembert_fill_mask("Le camembert est <mask> :)")
results

In [None]:
# pipelineを使わない方法
from transformers import CamembertTokenizer, CamembertForMaskedLM

# タスクが決まっている場合は直接アーキテクチャを指定することも可能
tokenizer = CamembertTokenizer.from_pretrained("camembert-base")
model = CamembertForMaskedLM.from_pretrained("camembert-base")

In [None]:
# ただし、推奨はAutoクラス
# 自動的に最適なアーキテクチャを選択してくれるため

from transformers import AutoTokenizer, AutoModelForMaskedLM

tokenizer = AutoTokenizer.from_pretrained("camembert-base")
model = AutoModelForMaskedLM.from_pretrained("camembert-base")

### 3-3. 事前学習済みモデルの共有

https://huggingface.co/learn/llm-course/en/chapter4/3?fw=pt


リポジトリを作成する方法は3種類

1. push_to_hub APIを使う
2. huggingface_hub Pythonライブラリを使う
3. ウェブインターフェイスを使う

In [None]:
# トークンの読み込み

# import os
# from dotenv import load_dotenv
# load_dotenv()
# HF_TOKEN = os.getenv("HF_TOKEN")

from google.colab import userdata
HF_TOKEN = userdata.get("HF_TOKEN")

assert HF_TOKEN

In [None]:
# ログイン

# huggingface-cli login, notebook_login()も可能
# ログインすると$HF_HOME/tokenにトークンが保存される

from huggingface_hub import login
login(token=HF_TOKEN)

In [None]:
# 1. push_to_hub APIを使う

from transformers import TrainingArguments

# TrainingArgumentsでpush_to_hub=Trueを指定し訓練すると、モデルを自動的にアップロードできる
training_args = TrainingArguments(
    "bert-finetuned-mrpc", save_strategy="epoch", push_to_hub=True
)

In [None]:
# モデルとトークナイザーのpush_to_hubメソッドも同様

from transformers import AutoModelForMaskedLM, AutoTokenizer

checkpoint = "camembert-base"

model = AutoModelForMaskedLM.from_pretrained(checkpoint)
tokenizer = AutoTokenizer.from_pretrained(checkpoint)

# push_to_hubメソッドは多くのクラスに実装されている

# model.push_to_hub("dummy-model")
# tokenizer.push_to_hub("dummy-tokenizer")

In [None]:
# 2. huggingface_hub Pythonライブラリを使う方法

# Hub上のリポジトリの取得や管理などのクラスが含まれたライブラリ

from huggingface_hub import (
    # ユーザー管理
    login,
    logout,
    whoami,

    # リポジトリの作成と管理
    create_repo,
    delete_repo,
    update_repo_visibility,

    # コンテンツの情報取得・変更用メソッド
    list_models,
    list_datasets,
    list_repo_files,
    upload_file,
    delete_file,
)

# リポジトリの作成
# create_repo("dummy-repo", exist_ok=True)

In [None]:
# 3. ウェブインターフェイスを使う
# https://huggingface.co/new

# 省略

モデル設定などのファイルのアップロードは3つの方法がある

1. upload_file　APIを使う
2. Repositoryクラスを使う
3. Gitを使う

In [None]:
# 1. upload_file APIを使う

from huggingface_hub import upload_file

# 5GBを超えるファイルはアップロードできない

# upload_file(
#     "<path_to_file>/config.json",
#     path_in_repo="config.json",
#     repo_id="<namespace>/dummy-model",
# )

In [None]:
# 2. Repositoryクラスを使う

# Git LFSのインストールが必要
# https://git-lfs.com/

from huggingface_hub import Repository

# Repositoryクラスをインスタンス化
# repo = Repository("<path_to_dummy_folder>", clone_from="<namespace>/dummy-model")

# Git Pullでダウンロード
# repo.git_pull()

# model.save_pretrained("<path_to_dummy_folder>")
# tokenizer.save_pretrained("<path_to_dummy_folder>")

# モデルを保存後にアップロード
# repo.git_add()
# repo.git_commit("Add model and tokenizer files")
# repo.git_push()

In [None]:
# 3. Gitを使う方法

# git lfs install
# git clone https://huggingface.co/<namespace>/<your-model-id>

# from transformers import AutoModelForMaskedLM, AutoTokenizer

# checkpoint = "camembert-base"

# model = AutoModelForMaskedLM.from_pretrained(checkpoint)
# tokenizer = AutoTokenizer.from_pretrained(checkpoint)

# model.save_pretrained("<path_to_dummy_folder>")
# tokenizer.save_pretrained("<path_to_dummy_folder>")

# git add .
# git lfs status
# git commit -m "First model version"
# git push

### 4. モデルカードの作成

https://huggingface.co/learn/llm-course/en/chapter4/4?fw=pt

- モデルカードとは、アップロードしたモデルの説明
- 通常、以下を記載する
    1. モデルの説明
    2. 想定される用途と制限
    3. 使い方
    4. 制限とバイアス
    5. トレーニングデータ
    6. トレーニング手順
    7. 評価結果

- 参考になるモデルカード
    - https://huggingface.co/google-bert/bert-base-cased
    - https://huggingface.co/openai-community/gpt2
    - https://huggingface.co/distilbert/distilbert-base-uncased

以上がイントロダクションでした！