<a href="https://colab.research.google.com/github/sakamototaisei/python_colab/blob/main/%E5%A4%A7%E8%A6%8F%E6%A8%A1%E8%A8%80%E8%AA%9E%E3%83%A2%E3%83%87%E3%83%ABLLM%E3%81%AE%E4%BB%95%E7%B5%84%E3%81%BF.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **LLMの概要**

## **LLMの概要**

**大規模言語モデル**


*   文章を扱うAIモデルで、近年は自然言語がインターフェイス
*   近年、性能が著しく向上し、世界中で注目を集めている
*   次の単語を予測するようにして、文章を生成可能
*   文章の続き、返答文、要約、翻訳、校正、etc...
*   OpenAIのChatGPT、GoogleのBardなどで使われる
*   検索エンジンの組み込む動きも



**性能が向上した理由**


*   Transformerの登場(2017)

→並列処理が容易で、大量のデータを高速に処理可能
*   パラメータ数の急増による効果

→パラメータ(学習時に調整される値)の急増が、AIに質的な変化を与える?

→GPT-2が15億程度のパラメータ、GPT-3では1750億程度



**Transformerの概要**

*   2017年に導入されたディープラーニングモデルで、主に自然言語処理の分野で使用される
*   RNNと同様に、自然言語処理などの時系列データを処理するように設計されているが、RNNで用いる再帰、CNNで用いる畳み込みは使わない
*   Attention層のみで構築される→**「Attention」は時系列データの特定の部分に注意を向けるように学習させていく方法**
*   翻訳やテキストの要約など、さまざまなタスクで利用可能
*   並列化が容易であり、訓練時間を大きく削減できる



## **LMMを使ってみる**

**ライブラリのインストール**

GPT-2が含まれるライブラリtransformes、形態素解析のためのライブラリsentencepieceをインストール

In [None]:
!pip install transformers
!pip install sentencepiece

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting sentencepiece
  Downloading sentencepiece-0.1.99-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.3/1.3 MB[0m [31m16.9 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: sentencepiece
Successfully installed sentencepiece-0.1.99


GPT-**2の設定**

形態素解析のためにT5Tokenizerを、訓練済みモデルの読み込みのために、AutoModelForCausalLMを設定する

In [None]:
from transformers import T5Tokenizer, AutoModelForCausalLM

tokenizer = T5Tokenizer.from_pretrained('rinna/japanese-gpt2-xsmall')
model = AutoModelForCausalLM.from_pretrained('rinna/japanese-gpt2-xsmall')

Downloading spiece.model:   0%|          | 0.00/806k [00:00<?, ?B/s]

Downloading (…)cial_tokens_map.json:   0%|          | 0.00/153 [00:00<?, ?B/s]

Downloading (…)okenizer_config.json:   0%|          | 0.00/282 [00:00<?, ?B/s]

Downloading (…)lve/main/config.json:   0%|          | 0.00/845 [00:00<?, ?B/s]

Downloading model.safetensors:   0%|          | 0.00/156M [00:00<?, ?B/s]

最初の文章を設定

In [None]:
first_sentence = '羽田空港に到着、東京の街は'
x = tokenizer.encode(first_sentence, return_tensors='pt', add_special_tokens=False)

**文章生成**

訓練済みのモデルに入力を渡す→モデルの出力は、トークナイザーを使って文章に変換する

In [None]:
y = model.generate(x, max_length=50)
generated_sentence = tokenizer.batch_decode(y, skip_special_tokens=True)
print(generated_sentence)

The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


['羽田空港に到着、東京の街はとても静かで、とても静かでした。 空港から空港までは、約1時間半で到着しました。 空港から空港までは、約1時間半で到着しました。 空港']


# **ニューラルネットワークの仕組み**

## **人工知能とは**

**機械学習のモデル**


*   モデルは定量的なルールを数式などで表したもの
*   モデルは多数の「学習するパラメータ」「ハイパーパラメータ」を、値や設定として持つ

学習するパラメータはモデル構築時はランダム設定し、学習時に調整してくが、ハイパーパラメーターはモデル構築時に慎重に設定する、学習時に変更はできない




## **ニューラルネットワークの概要**

**人工ニューロン**


*   ニューロンへの入力に重みをかけた値を統べて足し合わせて、バイアスを加える
*   重みはシナプスの伝達効率
*   バイアスはニューロンの感度
*   上記の値を活性化関数で処理し出力とする
*   活性化関数は、値を信号に変換する関数



**人工ニューラルネットワーク**


*   ニューロンを層状に並べたもの
*   数値を入力し、情報を伝播させ結果を出力する
*   出力は確率などの予測値として解釈可能で、ネットワークにより予測を行うことが可能
*   ニューロンや層の数を増やすことで、高い表現力を発揮するようになる



## **ディープラーニングの概要**

**ディープラーニングとは**

*   多数の層からなるニューラルネットワークの学習のことを、ディープラーニング(深層学習)と呼ぶ
*   人の知能に部分的に迫る(あるいは凌駕する)高い性能をしばしば発揮する



**バックプロパゲーションによる学習**

*   ニューラルネットワークは、出力と正解の誤差が小さくなるように重みとバイアスを調整することで学習することができる
*   一層ずつ遡るように誤差を伝播させて重みとバイアスを更新するが、このアルゴリズムは、バックプロパゲーション(誤差逆伝播法)と呼ばれる



**活性化関数**

*   ニューロンの興奮/抑制状態を決める関数
*   関数への入力を、興奮/抑制状態を表す値に変換する



**損失関数**

*   出力と正解の間の誤差を定義する関数
*   ex)二乗和誤差、交差エントロピー誤差


**最適化アルゴリズム**

*   パラメータを調整し誤差を最小化するためのアルゴリズム
*   例えるなら夜の山岳地帯で谷底を目指すための戦略
*   ex)SGD、Adam



## **様々なニューラルネットワーク**

**畳み込みニューラルネットワークCNN**

*   画像を入力として、畳み込み層、プーリング層を経て全結合層へ
*   出力は各グループに分類される確率となる



**再帰型ニューラルネットワークRNN**

*   入力と正解が時系列データとなる
*   中間層が再帰の構造を持ち、前後の時刻の中間層をつながる



GAN敵対的生成ネットワーク

*   2つのニューラルネットワークが競い合うようにして画像などのデータを生成する
*   Generatorはランダムなノイズを入力とし、偽データを生成する
*   Discriminatorは偽データ(正解ラベル0)と本物のデータ(正解ラベル1)を識別できるように学習する
*   Generatorは偽データの識別結果が本物になるように学習する



# **Transformerの仕組み**

## **自然言語処理の概要**

**自然言語処理技術の要素**

*   形態素解析→文書を単語に分割する技術
*   単語の分散表現→文書内での関係性を踏まえて、単語をベクトル化する技術
*   再帰型ニューラルネットワークRNN→時系列を扱うのが得意なニューラルネットワークの一種
*   Seq2Seq→RNNをベースにした、文章などを生成可能がモデル
*   etc...



**skip-gram**

*   ある単語から、前後の単語を予測するニューラルネットワーク
*   CBOWよりも学習時間がかかるが、精度が良い



## **Transformerの概要**

**Transformerとは**

*   2017年に導入されたディープラーニングモデルで、主に自然言語処理の分野で使用される
*   RNNと同様に、自然言語処理などの時系列データを処理するように設計されているが、RNNで用いる再帰、CNNで用いる畳み込みは使わない
*   Action層のみで構築される
*   翻訳やテキストの要約など、様々なタスクで利用可能
*   並列化が容易であり、訓練時間を大きく削減できる



**Transformerのモデル**

**Encoderの構造**
1.   Embedding層により入力文章をベクトルに圧縮
2.   Postional Encoder層によって位置情報を加える
3.   Multi-Head Attention層
4.   normalizetion(正規化)など
5.   Positionwise fully connected feed-forward network
6.   normalization(正規化)など

**3-6を6回繰り返す**

**Decoderの構造**

1.   Embedding層により入力文章をベクトルに圧縮
2.   Postional Encoder層によって位置情報を加える
3.   Multi-Head Attention層
4.   normalizetion(正規化)など
5.   Multi-Head Attention層(Encoderの入力を使用)
6.   normalization(正規化)など
7.   Positionwise fully connected feed-forward network
8.   normalization(正規化)など

**3-8を6回繰り返す**


**Positionwise fully connected feed-forward network**

*   2層の全結合ニューラルネットワーク
*   単語の位置ごとに個別の順伝播ネットワーク
*   他単語との影響関係を排除
*   パラメータはすべてのネットワークで共通

**Postional Encoding**

*   単語の位置の情報を加える



## **Attemtionの概要**

**Attentionとは**
*   文章中のどの単語に注目すればいいかを表すスコア
*   Query、Key、Valueの3つのベクトルで計算される

**Query**
*   Inputのうち「検索をかけたいもの」

**Key**
*   検索対象とQueryの近さを測る

**Value**
*   Keyに基づき、適切なValueを出力する







**Multi-Head Attention**

*   Attentionを平行に並べる
*   それぞれのAttentionはHeadと呼ばれる
*   Attention Is All You Need ではMulti-Head化による性能の向上が述べられている





**Masked Multi-Head Attention**

*   特定のKeyに対して、Attention weightを0にする
*   TransformerではDecoderで使われる
*   入力した単語が先読みを防ぐために、情報をマスクで遮断する
*   いわばカンニングを防ぐ



## **Transformerの利用**

**BERT**

*   2018年の後半にGoogleから発表された、自然言語処理のための新たなディープラーニングのモデル
*   Transformerがベースとなっている
*   様々な自然言語処理タスクでファインチューニングが可能
*   従来の自然言語処理タスクと比較して、高い汎用性



In [1]:
!pip install transformers==4.26.0

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting transformers==4.26.0
  Downloading transformers-4.26.0-py3-none-any.whl (6.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m6.3/6.3 MB[0m [31m52.9 MB/s[0m eta [36m0:00:00[0m
Collecting huggingface-hub<1.0,>=0.11.0 (from transformers==4.26.0)
  Downloading huggingface_hub-0.15.1-py3-none-any.whl (236 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m236.8/236.8 kB[0m [31m33.7 MB/s[0m eta [36m0:00:00[0m
Collecting tokenizers!=0.11.3,<0.14,>=0.11.1 (from transformers==4.26.0)
  Downloading tokenizers-0.13.3-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (7.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.8/7.8 MB[0m [31m107.2 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: tokenizers, huggingface-hub, transformers
Successfully installed huggingface-hub-0.15.1 tokenizers-0.13.3 transfor

In [2]:
import torch
from transformers import BertForMaskedLM
from transformers import BertTokenizer

文章における一部の単語をマスクし、それをBERTのモデルを使って予測する

In [3]:
text = '[CLS] I played baseball with my friends at school yesterday [SEP]'
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
words = tokenizer.tokenize(text)
print(words)

Downloading (…)solve/main/vocab.txt: 0.00B [00:00, ?B/s]

Downloading (…)okenizer_config.json:   0%|          | 0.00/28.0 [00:00<?, ?B/s]

Downloading (…)lve/main/config.json:   0%|          | 0.00/570 [00:00<?, ?B/s]

['[CLS]', 'i', 'played', 'baseball', 'with', 'my', 'friends', 'at', 'school', 'yesterday', '[SEP]']


文章の一部をマスクする

In [5]:
msk_idx = 3
words[msk_idx] = '[MASK]'
print(words)

['[CLS]', 'i', 'played', '[MASK]', 'with', 'my', 'friends', 'at', 'school', 'yesterday', '[SEP]']


単語を対応するインデックスに変換する

In [6]:
word_ids = tokenizer.convert_tokens_to_ids(words) # 単語をインデックスに変換
word_tensor = torch.tensor([word_ids]) # テンソルに変換
print(word_tensor)

tensor([[ 101, 1045, 2209,  103, 2007, 2026, 2814, 2012, 2082, 7483,  102]])


BERTのモデルを使って予測を行う

In [7]:
msk_model = BertForMaskedLM.from_pretrained('bert-base-uncased')
msk_model.eval()

x = word_tensor
y = msk_model(x) # 予測
result = y[0]
print(result.size()) # 結果の形状

Downloading pytorch_model.bin:   0%|          | 0.00/440M [00:00<?, ?B/s]

Some weights of the model checkpoint at bert-base-uncased were not used when initializing BertForMaskedLM: ['cls.seq_relationship.bias', 'cls.seq_relationship.weight']
- This IS expected if you are initializing BertForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


torch.Size([1, 11, 30522])


In [8]:
_, max_ids = torch.topk(result[0][msk_idx], k=5) # 最も大きい5つの値
result_words = tokenizer.convert_ids_to_tokens(max_ids.tolist()) # インデックスを単語に変換
print(result_words)

['basketball', 'football', 'soccer', 'baseball', 'tennis']


BERTのモデルを使って、2つの文章が連続しているかどうかの判定を行う

show_continuityでは、2つの文章の連続性を判定し、表示する

In [9]:
from transformers import BertForNextSentencePrediction

In [10]:
nsp_model = BertForNextSentencePrediction.from_pretrained('bert-base-uncased')
nsp_model.eval() # 評価モード

def show_continuity(text1, text2):
    # トークナイズ
    tokenized = tokenizer(text1, text2, return_tensors='pt')
    print('Tokenized:', tokenized)

    # 予測と結果の表示
    y = nsp_model(**tokenized) # 予測
    print('Result:', y)
    pred = torch.softmax(y.logits, dim=1) # Softmax関数で確率に変換
    print(str(pred[0][0].item()*100) + '%の確率で連続している')

Some weights of the model checkpoint at bert-base-uncased were not used when initializing BertForNextSentencePrediction: ['cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.decoder.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.bias']
- This IS expected if you are initializing BertForNextSentencePrediction from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForNextSentencePrediction from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


In [12]:
text1 = 'What is baseball ?'
text2 = 'It is a geme of hitting the ball with the bat.'
show_continuity(text1, text2)

Tokenized: {'input_ids': tensor([[  101,  2054,  2003,  3598,  1029,   102,  2009,  2003,  1037, 17070,
          2063,  1997,  7294,  1996,  3608,  2007,  1996,  7151,  1012,   102]]), 'token_type_ids': tensor([[0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]])}
Result: NextSentencePredictorOutput(loss=None, logits=tensor([[ 6.2868, -6.1452]], grad_fn=<AddmmBackward0>), hidden_states=None, attentions=None)
99.99960660934448%の確率で連続している


In [11]:
text1 = 'What is baseball ?'
text2 = 'This food is made with flour and milk.'
show_continuity(text1, text2)

Tokenized: {'input_ids': tensor([[  101,  2054,  2003,  3598,  1029,   102,  2023,  2833,  2003,  2081,
          2007, 13724,  1998,  6501,  1012,   102]]), 'token_type_ids': tensor([[0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]])}
Result: NextSentencePredictorOutput(loss=None, logits=tensor([[-4.1025,  7.1723]], grad_fn=<AddmmBackward0>), hidden_states=None, attentions=None)
0.0012688253264059313%の確率で連続している
