# <font color="Teal">🤗 Transformers による高度自然言語処理</font>

- version 0.1 (2022/2/27)
    - 初版（教材作成：一関高専　小池 敦）

本教材では，Hugging Face Transformers と呼ばれる自然言語処理フレームワークを用いて，高度な自然言語処理を行います．  
詳細については，[Hugging Face Transformersのドキュメント](https://huggingface.co/docs/transformers/index)をご覧ください．

日本語を扱うためには，日本語に対応するモデルをロードする必要があります．これについては後半で扱います．

# 1. ✏️ <font color="Teal">準備</font>


## 1-1. <font color="Teal">教材の複製</font>

まず，本教材を自分のGoogleドライブに保存します．  
以下の手順を行ってください．


1.   <font color="OrangeRed">Chromeブラウザを利用</font>して，本教材にアクセスする．
2.   「ファイル」→<font color="OrangeRed">「ドライブにコピーを保存」</font>を選択し，自分のGoogleドライブに本教材の複製を作る．


教材中のコードを実行する際は，コードの左側にある実行ボタンを押します．


<font color="RoyalBlue">【実習】$3+5=8$ であることを確認する</font>

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
3 + 5
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

## 1-2. <font color="Teal">GPU利用</font>

本教材では計算時間を短くするためにGPUを利用します．
以下の手順を行ってください．


1.   Colabの「ランタイム」→<font color="OrangeRed">「ランタイムのタイプを変更」</font>で，ハードウェアアクセラレータを「None」から<font color="OrangeRed">「GPU」</font>に変更し保存する．  
（既に「GPU」になっている場合はそのままでよい．）


<font color="RoyalBlue">【実習】GPUが割り当てられていることを確認する</font>

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
!nvidia-smi
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

二重線の下の行に，GPUの名前（Tesra K80, Tesla T4 等）が表示されます．  
"NVIDIA-SMI has failed ・・・" と出力される場合は，上記手順が正しく行えていませんので，再度上記手順を行ってください．

# 2. ✏️ <font color="Teal">最も簡単な使い方</font>

最も簡単に使用するには，`pipeline()`という関数を使用します．  
これにより決められた自然言語処理タスクを標準的なモデルで実施することができます．  
タスクの一覧については，[Hugging Faceドキュメントのドキュメント](https://huggingface.co/docs/transformers/v4.17.0/en/main_classes/pipelines#transformers.pipeline.task)をご覧ください．

## 2-1. <font color="Teal">準備</font> 

Hugging Face Transformersをインストールし，その中のpipelineをインポートします．  
日本語を扱う場合，[BertJapanese](https://huggingface.co/docs/transformers/model_doc/bert-japanese)のドキュメントに従い，`transformers["ja"]`をインストールすることで関連するライブラリが一括でインストールされますが，ここでは，一部のモデルで使用するsentencepiece関連のライブラリを一括でインストールするために`transformers[sentencepiece]`をインストールします．

<font color="RoyalBlue">【実習】 Hugging Face Transformersをトークナイザーsentencepieceの関連ライブラリと共にインストールする</font>

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
!pip install transformers[sentencepiece]
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```


<font color="RoyalBlue">【実習】 `pipeline`関数をインポートする．</font>

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
from transformers import pipeline
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```


## 2-2. <font color="Teal">感情分析</font> 

<font color="RoyalBlue">【実習】 標準的なモデルを使用して，感情分析（ポジティブ，ネガティブ）を行う</font>

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
classifier = pipeline("text-classification")
classifier("This restaurant is awesome.")
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```


## 2-3. <font color="Teal">質問応答</font> 

質問応答タスクは，文を読んでそれに関する質問に答えるものです．

<font color="RoyalBlue">【実習】 標準的なモデルを使用して，質問応答を行う</font>

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
question_answerer = pipeline("question-answering")
context = "Bob wanted to eat ramen, but he actually ate soba."
question_answerer(question="What did he eat?", context=context)
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```


## 2-4. <font color="Teal">穴埋め問題</font> 

<font color="RoyalBlue">【実習】 `<mask>`で隠した単語を予測させる．</font>

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
unmasker = pipeline("fill-mask")
unmasker("I want to eat <mask> tomorrow.")
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```


## 2-5. <font color="Teal">文書生成</font> 

<font color="RoyalBlue">【実習】 指定した単語列の後ろに続く文を生成させる</font>

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
text_generator = pipeline("text-generation")
text_generator("As far as I know, she ", max_length=40)
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```


## 2-6. <font color="Teal">文書要約</font> 

<font color="RoyalBlue">【実習】 赤ずきんちゃん（著作権フリー）の最初の段落の要約を作る</font>

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
text = "Once upon a time there was a dear little girl who was loved by everyone \
who looked at her, but most of all by her grandmother, and there was nothing \
that she would not have given to the child. Once she gave her a little cap of red velvet, \
which suited her so well that she would never wear anything else; \
so she was always called ‘Little Red-Cap.’"

summarizer = pipeline("summarization")
summarizer(text, min_length=5, max_length=30)
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```


## 2-7. <font color="Teal">固有表現抽出</font> 

<font color="RoyalBlue">【実習】 標準的なモデルを使用して，文から固有表現(組織名，地名，人名など)を抽出する</font>

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
ner = pipeline("ner")
ner("Alice will visit Osaka University tomorrow.")
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```


# 3. ✏️ <font color="Teal">日本語に対する処理</font>

## 3-1. <font color="Teal">準備</font> 

<font color="RoyalBlue">【実習】 日本語処理のために必要となるライブラリをインストールする</font>

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
!pip install t5[gcp]
!pip install fugashi ipadic unidic-lite 
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```


<font color="RoyalBlue">【実習】 関連するライブラリのバージョンを表示する</font>

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
!pip list | grep transformers
!pip list | grep sentencepiece
!pip list | grep fugashi
!pip list | grep ipadic
!pip list | grep unidic-lite
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```


## 3-2. <font color="Teal">日本語の穴埋め問題</font> 

東北大学 乾研が公開している [bert-base-japanese-v2](https://huggingface.co/cl-tohoku/bert-base-japanese-v2)を使用して，穴埋め問題を解きます．穴埋めしたい単語を`[MASK]`とします．

<font color="RoyalBlue">【実習】 日本語の穴埋め問題を解く</font>

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
from transformers import TFAutoModelForMaskedLM, AutoTokenizer
model_name = "cl-tohoku/bert-base-japanese-v2"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = TFAutoModelForMaskedLM.from_pretrained(model_name)
unmasker = pipeline("fill-mask", model=model, tokenizer=tokenizer)
unmasker(f"私は大学で[MASK]を研究しています。")
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```


<font color="RoyalBlue">【実習】 トークナイザーを用いて日本語の文のトークン化（単語分割）を行う</font>

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
tokenizer.tokenize("学校名に関するお話を聞く。")
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```


## 3-3. <font color="Teal">日本語の文章生成</font> 

rinna株式会社が公開しているGPT2モデル [japanese-gpt2-medium](https://huggingface.co/rinna/japanese-gpt2-medium)を使用して，指定した単語列に続く文字列を計算します．

<font color="RoyalBlue">【実習】 日本語の文書生成を行う</font>

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
from transformers import T5Tokenizer, TFAutoModelForCausalLM
model_name = "rinna/japanese-gpt2-medium"

tokenizer = T5Tokenizer.from_pretrained(model_name)
tokenizer.do_lower_case = True  # due to some bug of tokenizer config loading

model = TFAutoModelForCausalLM.from_pretrained(model_name)

prompt = "大阪大学は、"
inputs = tokenizer(prompt, add_special_tokens=False, return_tensors="tf")["input_ids"]

prompt_length = len(tokenizer.decode(inputs[0]))
outputs = model.generate(inputs, max_length=250, do_sample=True, top_p=0.95, top_k=60)
generated = prompt + tokenizer.decode(outputs[0])[prompt_length + 1 :]

print(generated)
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```


## 3-4. <font color="Teal">日本語の質問応答</font> 

[bert-base-japanese-jaquad](https://huggingface.co/SkelterLabsInc/bert-base-japanese-jaquad)モデルを用いて日本語の質問応答を行います．

<font color="RoyalBlue">【実習】 日本語の質問応答を行う</font>

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
from transformers import AutoTokenizer, TFAutoModelForQuestionAnswering
import tensorflow as tf

model = TFAutoModelForQuestionAnswering.from_pretrained('SkelterLabsInc/bert-base-japanese-jaquad', from_pt=True)
tokenizer = AutoTokenizer.from_pretrained('SkelterLabsInc/bert-base-japanese-jaquad')

text = "太郎は岩手県の一関市にある一関高専で働いています。今年度は大阪府にある大阪大学に来れなくて残念でした。"
questions = ["太郎は何市で働いていますか?"]

for question in questions:
    inputs = tokenizer(question, text, add_special_tokens=True, return_tensors="tf")
    input_ids = inputs["input_ids"].numpy()[0]

    outputs = model(inputs)
    answer_start_scores = outputs.start_logits
    answer_end_scores = outputs.end_logits

    # Get the most likely beginning of answer with the argmax of the score
    answer_start = tf.argmax(answer_start_scores, axis=1).numpy()[0]
    # Get the most likely end of answer with the argmax of the score
    answer_end = tf.argmax(answer_end_scores, axis=1).numpy()[0] + 1

    answer = tokenizer.convert_tokens_to_string(
        tokenizer.convert_ids_to_tokens(input_ids[answer_start:answer_end])
    )

    print(f"Question: {question}")
    print(f"Answer: {answer}")
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```


## 3-5. <font color="Teal">日本語の翻訳</font> 

[opus-mt-ja-en](https://huggingface.co/Helsinki-NLP/opus-mt-ja-en)モデルを用いて日本語から英語への機械翻訳を行います．

<font color="RoyalBlue">【実習】 日本語の機械翻訳を行う</font>

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
trans = pipeline("translation_ja_to_en", model="Helsinki-NLP/opus-mt-ja-en")
trans("今日の授業では自然言語処理について勉強します。")
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```


## 3-6. <font color="Teal">演習</font> 

Hugging Face Transformersを使用して，自由に自然言語処理を行なってください．