# <font color="Teal">🤗 Transformers による高度自然言語処理</font>

- version 0.1 (2022/2/27)
    - 初版（教材作成：一関高専　小池 敦）

本教材では，Hugging Face Transformers と呼ばれる自然言語処理フレームワークを用いて，高度な自然言語処理を行います．  
詳細については，[Hugging Face Transformersのドキュメント](https://huggingface.co/docs/transformers/index)をご覧ください．

日本語を扱うためには，日本語に対応するモデルをロードする必要があります．これについては後半で扱います．

# 1. ✏️ <font color="Teal">準備</font>


## 1-1. <font color="Teal">教材の複製</font>

まず，本教材を自分のGoogleドライブに保存します．  
以下の手順を行ってください．


1.   <font color="OrangeRed">Chromeブラウザを利用</font>して，本教材にアクセスする．
2.   「ファイル」→<font color="OrangeRed">「ドライブにコピーを保存」</font>を選択し，自分のGoogleドライブに本教材の複製を作る．


教材中のコードを実行する際は，コードの左側にある実行ボタンを押します．


<font color="RoyalBlue">【実習】$3+5=8$ であることを確認する</font>

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
3 + 5
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

In [1]:
3 + 5

8

## 1-2. <font color="Teal">GPU利用</font>

本教材では計算時間を短くするためにGPUを利用します．
以下の手順を行ってください．


1.   Colabの「ランタイム」→<font color="OrangeRed">「ランタイムのタイプを変更」</font>で，ハードウェアアクセラレータを「None」から<font color="OrangeRed">「GPU」</font>に変更し保存する．  
（既に「GPU」になっている場合はそのままでよい．）


<font color="RoyalBlue">【実習】GPUが割り当てられていることを確認する</font>

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
!nvidia-smi
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```

In [2]:
!nvidia-smi

Thu Aug  4 08:48:37 2022       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 460.32.03    Driver Version: 460.32.03    CUDA Version: 11.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|   0  Tesla T4            Off  | 00000000:00:04.0 Off |                    0 |
| N/A   40C    P8     9W /  70W |      0MiB / 15109MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Proces

二重線の下の行に，GPUの名前（Tesra K80, Tesla T4 等）が表示されます．  
"NVIDIA-SMI has failed ・・・" と出力される場合は，上記手順が正しく行えていませんので，再度上記手順を行ってください．

# 2. ✏️ <font color="Teal">最も簡単な使い方</font>

最も簡単に使用するには，`pipeline()`という関数を使用します．  
これにより決められた自然言語処理タスクを標準的なモデルで実施することができます．  
タスクの一覧については，[Hugging Faceドキュメントのドキュメント](https://huggingface.co/docs/transformers/v4.17.0/en/main_classes/pipelines#transformers.pipeline.task)をご覧ください．

## 2-1. <font color="Teal">準備</font> 

Hugging Face Transformersをインストールし，その中のpipelineをインポートします．  
日本語を扱う場合，[BertJapanese](https://huggingface.co/docs/transformers/model_doc/bert-japanese)のドキュメントに従い，`transformers["ja"]`をインストールすることで関連するライブラリが一括でインストールされますが，ここでは，一部のモデルで使用するsentencepiece関連のライブラリを一括でインストールするために`transformers[sentencepiece]`をインストールします．

<font color="RoyalBlue">【実習】 Hugging Face Transformersをトークナイザーsentencepieceの関連ライブラリと共にインストールする</font>

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
!pip install transformers[sentencepiece]
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```


In [3]:
!pip install transformers[sentencepiece]

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting transformers[sentencepiece]
  Downloading transformers-4.21.0-py3-none-any.whl (4.7 MB)
[K     |████████████████████████████████| 4.7 MB 34.4 MB/s 
Collecting huggingface-hub<1.0,>=0.1.0
  Downloading huggingface_hub-0.8.1-py3-none-any.whl (101 kB)
[K     |████████████████████████████████| 101 kB 10.1 MB/s 
Collecting tokenizers!=0.11.3,<0.13,>=0.11.1
  Downloading tokenizers-0.12.1-cp37-cp37m-manylinux_2_12_x86_64.manylinux2010_x86_64.whl (6.6 MB)
[K     |████████████████████████████████| 6.6 MB 30.2 MB/s 
Collecting pyyaml>=5.1
  Downloading PyYAML-6.0-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_12_x86_64.manylinux2010_x86_64.whl (596 kB)
[K     |████████████████████████████████| 596 kB 44.9 MB/s 
Collecting sentencepiece!=0.1.92,>=0.1.91
  Downloading sentencepiece-0.1.96-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.2 MB)
[K     |██████

<font color="RoyalBlue">【実習】 `pipeline`関数をインポートする．</font>

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
from transformers import pipeline
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```


In [4]:
from transformers import pipeline

## 2-2. <font color="Teal">感情分析</font> 

<font color="RoyalBlue">【実習】 標準的なモデルを使用して，感情分析（ポジティブ，ネガティブ）を行う</font>

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
classifier = pipeline("text-classification")
classifier("This restaurant is awesome.")
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```


In [5]:
classifier = pipeline("text-classification")
classifier("This restaurant is awesome.")

No model was supplied, defaulted to distilbert-base-uncased-finetuned-sst-2-english and revision af0f99b (https://huggingface.co/distilbert-base-uncased-finetuned-sst-2-english).
Using a pipeline without specifying a model name and revision in production is not recommended.


Downloading config.json:   0%|          | 0.00/629 [00:00<?, ?B/s]

Downloading pytorch_model.bin:   0%|          | 0.00/255M [00:00<?, ?B/s]

Downloading tokenizer_config.json:   0%|          | 0.00/48.0 [00:00<?, ?B/s]

Downloading vocab.txt:   0%|          | 0.00/226k [00:00<?, ?B/s]

[{'label': 'POSITIVE', 'score': 0.9998769760131836}]

## 2-3. <font color="Teal">質問応答</font> 

質問応答タスクは，文を読んでそれに関する質問に答えるものです．

<font color="RoyalBlue">【実習】 標準的なモデルを使用して，質問応答を行う</font>

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
question_answerer = pipeline("question-answering")
context = "Bob wanted to eat ramen, but he actually ate soba."
question_answerer(question="What did he eat?", context=context)
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```


In [6]:
question_answerer = pipeline("question-answering")
context = "Bob wanted to eat ramen, but he actually ate soba."
question_answerer(question="What did he eat?", context=context)

No model was supplied, defaulted to distilbert-base-cased-distilled-squad and revision 626af31 (https://huggingface.co/distilbert-base-cased-distilled-squad).
Using a pipeline without specifying a model name and revision in production is not recommended.


Downloading config.json:   0%|          | 0.00/473 [00:00<?, ?B/s]

Downloading pytorch_model.bin:   0%|          | 0.00/249M [00:00<?, ?B/s]

Downloading tokenizer_config.json:   0%|          | 0.00/29.0 [00:00<?, ?B/s]

Downloading vocab.txt:   0%|          | 0.00/208k [00:00<?, ?B/s]

Downloading tokenizer.json:   0%|          | 0.00/426k [00:00<?, ?B/s]

{'answer': 'soba', 'end': 49, 'score': 0.9406253099441528, 'start': 45}

## 2-4. <font color="Teal">穴埋め問題</font> 

<font color="RoyalBlue">【実習】 `<mask>`で隠した単語を予測させる．</font>

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
unmasker = pipeline("fill-mask")
unmasker("I want to eat <mask> tomorrow.")
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```


In [7]:
unmasker = pipeline("fill-mask")
unmasker("I want to eat <mask> tomorrow.")

No model was supplied, defaulted to distilroberta-base and revision ec58a5b (https://huggingface.co/distilroberta-base).
Using a pipeline without specifying a model name and revision in production is not recommended.


Downloading config.json:   0%|          | 0.00/480 [00:00<?, ?B/s]

Downloading pytorch_model.bin:   0%|          | 0.00/316M [00:00<?, ?B/s]

Downloading vocab.json:   0%|          | 0.00/878k [00:00<?, ?B/s]

Downloading merges.txt:   0%|          | 0.00/446k [00:00<?, ?B/s]

Downloading tokenizer.json:   0%|          | 0.00/1.29M [00:00<?, ?B/s]

[{'score': 0.13479603826999664,
  'sequence': 'I want to eat pizza tomorrow.',
  'token': 9366,
  'token_str': ' pizza'},
 {'score': 0.07176647335290909,
  'sequence': 'I want to eat sushi tomorrow.',
  'token': 28287,
  'token_str': ' sushi'},
 {'score': 0.061002228409051895,
  'sequence': 'I want to eat breakfast tomorrow.',
  'token': 7080,
  'token_str': ' breakfast'},
 {'score': 0.05122402682900429,
  'sequence': 'I want to eat tacos tomorrow.',
  'token': 29965,
  'token_str': ' tacos'},
 {'score': 0.05024869367480278,
  'sequence': 'I want to eat dinner tomorrow.',
  'token': 3630,
  'token_str': ' dinner'}]

## 2-5. <font color="Teal">文書生成</font> 

<font color="RoyalBlue">【実習】 指定した単語列の後ろに続く文を生成させる</font>

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
text_generator = pipeline("text-generation")
text_generator("As far as I know, she ", max_length=40)
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```


In [8]:
text_generator = pipeline("text-generation")
text_generator("As far as I know, she ", max_length=40)

No model was supplied, defaulted to gpt2 and revision 6c0e608 (https://huggingface.co/gpt2).
Using a pipeline without specifying a model name and revision in production is not recommended.


Downloading config.json:   0%|          | 0.00/665 [00:00<?, ?B/s]

Downloading pytorch_model.bin:   0%|          | 0.00/523M [00:00<?, ?B/s]

Downloading vocab.json:   0%|          | 0.00/0.99M [00:00<?, ?B/s]

Downloading merges.txt:   0%|          | 0.00/446k [00:00<?, ?B/s]

Downloading tokenizer.json:   0%|          | 0.00/1.29M [00:00<?, ?B/s]

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


[{'generated_text': "As far as I know, she \xa0doesn't own any other vehicles. She owns an \xa0airfield. That's what's supposed to make drivers feel safe.\nSo when a woman"}]

## 2-6. <font color="Teal">文書要約</font> 

<font color="RoyalBlue">【実習】 赤ずきんちゃん（著作権フリー）の最初の段落の要約を作る</font>

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
text = "Once upon a time there was a dear little girl who was loved by everyone \
who looked at her, but most of all by her grandmother, and there was nothing \
that she would not have given to the child. Once she gave her a little cap of red velvet, \
which suited her so well that she would never wear anything else; \
so she was always called ‘Little Red-Cap.’"

summarizer = pipeline("summarization")
summarizer(text, min_length=5, max_length=30)
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```


In [9]:
text = "Once upon a time there was a dear little girl who was loved by everyone \
who looked at her, but most of all by her grandmother, and there was nothing \
that she would not have given to the child. Once she gave her a little cap of red velvet, \
which suited her so well that she would never wear anything else; \
so she was always called ‘Little Red-Cap.’"

summarizer = pipeline("summarization")
summarizer(text, min_length=5, max_length=30)

No model was supplied, defaulted to sshleifer/distilbart-cnn-12-6 and revision a4f8f3e (https://huggingface.co/sshleifer/distilbart-cnn-12-6).
Using a pipeline without specifying a model name and revision in production is not recommended.


Downloading config.json:   0%|          | 0.00/1.76k [00:00<?, ?B/s]

Downloading pytorch_model.bin:   0%|          | 0.00/1.14G [00:00<?, ?B/s]

Downloading tokenizer_config.json:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

Downloading vocab.json:   0%|          | 0.00/878k [00:00<?, ?B/s]

Downloading merges.txt:   0%|          | 0.00/446k [00:00<?, ?B/s]

[{'summary_text': ' Once upon a time there was a dear little girl who was loved by everyone who looked at her, but most of all by her grandmother'}]

## 2-7. <font color="Teal">固有表現抽出</font> 

<font color="RoyalBlue">【実習】 標準的なモデルを使用して，文から固有表現(組織名，地名，人名など)を抽出する</font>

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
ner = pipeline("ner")
ner("Alice will visit Osaka University tomorrow.")
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```


In [10]:
ner = pipeline("ner")
ner("Alice will visit Osaka University tomorrow.")

No model was supplied, defaulted to dbmdz/bert-large-cased-finetuned-conll03-english and revision f2482bf (https://huggingface.co/dbmdz/bert-large-cased-finetuned-conll03-english).
Using a pipeline without specifying a model name and revision in production is not recommended.


Downloading config.json:   0%|          | 0.00/998 [00:00<?, ?B/s]

Downloading pytorch_model.bin:   0%|          | 0.00/1.24G [00:00<?, ?B/s]

Downloading tokenizer_config.json:   0%|          | 0.00/60.0 [00:00<?, ?B/s]

Downloading vocab.txt:   0%|          | 0.00/208k [00:00<?, ?B/s]

[{'end': 5,
  'entity': 'I-PER',
  'index': 1,
  'score': 0.935253,
  'start': 0,
  'word': 'Alice'},
 {'end': 22,
  'entity': 'I-ORG',
  'index': 4,
  'score': 0.99856335,
  'start': 17,
  'word': 'Osaka'},
 {'end': 33,
  'entity': 'I-ORG',
  'index': 5,
  'score': 0.9976406,
  'start': 23,
  'word': 'University'}]

# 3. ✏️ <font color="Teal">日本語に対する処理</font>

## 3-1. <font color="Teal">準備</font> 

<font color="RoyalBlue">【実習】 日本語処理のために必要となるライブラリをインストールする</font>

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
!pip install t5[gcp]
!pip install fugashi ipadic unidic-lite 
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```


In [11]:
!pip install t5[gcp]
!pip install fugashi ipadic unidic-lite 

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting t5[gcp]
  Downloading t5-0.9.3-py3-none-any.whl (153 kB)
[K     |████████████████████████████████| 153 kB 30.5 MB/s 
Collecting rouge-score
  Downloading rouge_score-0.1.2.tar.gz (17 kB)
Collecting tfds-nightly
  Downloading tfds_nightly-4.6.0.dev202208040045-py3-none-any.whl (4.5 MB)
[K     |████████████████████████████████| 4.5 MB 66.4 MB/s 
Collecting mesh-tensorflow[transformer]>=0.1.13
  Downloading mesh_tensorflow-0.1.21-py3-none-any.whl (385 kB)
[K     |████████████████████████████████| 385 kB 70.6 MB/s 
[?25hCollecting seqio
  Downloading seqio-0.0.9-py3-none-any.whl (306 kB)
[K     |████████████████████████████████| 306 kB 58.8 MB/s 
Collecting sacrebleu
  Downloading sacrebleu-2.2.0-py3-none-any.whl (116 kB)
[K     |████████████████████████████████| 116 kB 70.8 MB/s 
Collecting tensorflow-text
  Downloading tensorflow_text-2.9.0-cp37-cp37m-manylinux_2_17_x86_64.

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting fugashi
  Downloading fugashi-1.1.2-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (568 kB)
[K     |████████████████████████████████| 568 kB 38.4 MB/s 
[?25hCollecting ipadic
  Downloading ipadic-1.0.0.tar.gz (13.4 MB)
[K     |████████████████████████████████| 13.4 MB 58.3 MB/s 
[?25hCollecting unidic-lite
  Downloading unidic-lite-1.0.8.tar.gz (47.4 MB)
[K     |████████████████████████████████| 47.4 MB 1.7 MB/s 
[?25hBuilding wheels for collected packages: ipadic, unidic-lite
  Building wheel for ipadic (setup.py) ... [?25l[?25hdone
  Created wheel for ipadic: filename=ipadic-1.0.0-py3-none-any.whl size=13556723 sha256=405ee0be890a3be2f6025b3cec07a6891ae75193e220e18f5116196ab0ae274c
  Stored in directory: /root/.cache/pip/wheels/33/8b/99/cf0d27191876637cd3639a560f93aa982d7855ce826c94348b
  Building wheel for unidic-lite (setup.py) ... [?25l[?25hdone
  Crea

<font color="RoyalBlue">【実習】 関連するライブラリのバージョンを表示する</font>

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
!pip list | grep transformers
!pip list | grep sentencepiece
!pip list | grep fugashi
!pip list | grep ipadic
!pip list | grep unidic-lite
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```


In [12]:
!pip list | grep transformers
!pip list | grep sentencepiece
!pip list | grep fugashi
!pip list | grep ipadic
!pip list | grep unidic-lite

transformers                  4.21.0
sentencepiece                 0.1.96
fugashi                       1.1.2
ipadic                        1.0.0
unidic-lite                   1.0.8


## 3-2. <font color="Teal">日本語の穴埋め問題</font> 

東北大学 乾研が公開している [bert-base-japanese-v2](https://huggingface.co/cl-tohoku/bert-base-japanese-v2)を使用して，穴埋め問題を解きます．穴埋めしたい単語を`[MASK]`とします．

<font color="RoyalBlue">【実習】 日本語の穴埋め問題を解く</font>

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
from transformers import TFAutoModelForMaskedLM, AutoTokenizer
model_name = "cl-tohoku/bert-base-japanese-v2"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = TFAutoModelForMaskedLM.from_pretrained(model_name)
unmasker = pipeline("fill-mask", model=model, tokenizer=tokenizer)
unmasker(f"私は大学で[MASK]を研究しています。")
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```


In [13]:
from transformers import TFAutoModelForMaskedLM, AutoTokenizer
model_name = "cl-tohoku/bert-base-japanese-v2"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = TFAutoModelForMaskedLM.from_pretrained(model_name)
unmasker = pipeline("fill-mask", model=model, tokenizer=tokenizer)
unmasker("私は大学で[MASK]を研究しています。")

Downloading tokenizer_config.json:   0%|          | 0.00/174 [00:00<?, ?B/s]

Downloading config.json:   0%|          | 0.00/517 [00:00<?, ?B/s]

Downloading vocab.txt:   0%|          | 0.00/230k [00:00<?, ?B/s]

Downloading tf_model.h5:   0%|          | 0.00/524M [00:00<?, ?B/s]

All model checkpoint layers were used when initializing TFBertForMaskedLM.

All the layers of TFBertForMaskedLM were initialized from the model checkpoint at cl-tohoku/bert-base-japanese-v2.
If your task is similar to the task the model of the checkpoint was trained on, you can already use TFBertForMaskedLM for predictions without further training.


[{'score': 0.03164185956120491,
  'sequence': '私 は 大学 で 哲学 を 研究 し て い ます 。',
  'token': 13697,
  'token_str': '哲 学'},
 {'score': 0.02549310028553009,
  'sequence': '私 は 大学 で 科学 を 研究 し て い ます 。',
  'token': 11797,
  'token_str': '科 学'},
 {'score': 0.02181907184422016,
  'sequence': '私 は 大学 で 映画 を 研究 し て い ます 。',
  'token': 11292,
  'token_str': '映 画'},
 {'score': 0.021148312836885452,
  'sequence': '私 は 大学 で 数学 を 研究 し て い ます 。',
  'token': 14167,
  'token_str': '数 学'},
 {'score': 0.018427759408950806,
  'sequence': '私 は 大学 で 医学 を 研究 し て い ます 。',
  'token': 12997,
  'token_str': '医 学'}]

<font color="RoyalBlue">【実習】 トークナイザーを用いて日本語の文のトークン化（単語分割）を行う</font>

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
tokenizer.tokenize("学校名に関するお話を聞く。")
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```


In [14]:
tokenizer.tokenize("学校名に関するお話を聞く。")

['学校', '名', 'に', '関する', 'お', '話', 'を', '聞く', '。']

## 3-3. <font color="Teal">日本語の文章生成</font> 

rinna株式会社が公開しているGPT2モデル [japanese-gpt2-medium](https://huggingface.co/rinna/japanese-gpt2-medium)を使用して，指定した単語列に続く文字列を計算します．

<font color="RoyalBlue">【実習】 日本語の文書生成を行う</font>

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
from transformers import T5Tokenizer, TFAutoModelForCausalLM
model_name = "rinna/japanese-gpt2-medium"

tokenizer = T5Tokenizer.from_pretrained(model_name)
tokenizer.do_lower_case = True  # due to some bug of tokenizer config loading

model = TFAutoModelForCausalLM.from_pretrained(model_name)

prompt = "大阪大学は、"
inputs = tokenizer(prompt, add_special_tokens=False, return_tensors="tf")["input_ids"]

prompt_length = len(tokenizer.decode(inputs[0]))
outputs = model.generate(inputs, max_length=250, do_sample=True, top_p=0.95, top_k=60)
generated = prompt + tokenizer.decode(outputs[0])[prompt_length + 1 :]

print(generated)
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```


In [16]:
from transformers import T5Tokenizer, TFAutoModelForCausalLM
model_name = "rinna/japanese-gpt2-medium"

tokenizer = T5Tokenizer.from_pretrained(model_name)
tokenizer.do_lower_case = True  # due to some bug of tokenizer config loading

model = TFAutoModelForCausalLM.from_pretrained(model_name)

prompt = "大阪大学は、"
inputs = tokenizer(prompt, add_special_tokens=False, return_tensors="tf")["input_ids"]

prompt_length = len(tokenizer.decode(inputs[0]))
outputs = model.generate(inputs, max_length=250, do_sample=True, top_p=0.95, top_k=60)
generated = prompt + tokenizer.decode(outputs[0])[prompt_length + 1 :]

print(generated)

All model checkpoint layers were used when initializing TFGPT2LMHeadModel.

All the layers of TFGPT2LMHeadModel were initialized from the model checkpoint at rinna/japanese-gpt2-medium.
If your task is similar to the task the model of the checkpoint was trained on, you can already use TFGPT2LMHeadModel for predictions without further training.
The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to 2 (first `eos_token_id`) to generate sequence


八戸工業大学は、学の教育・研究の進展ならびに産業の発達に寄与することを目的といたしております。 八戸工業大学が教育研究活動を行う目的は、学生の教育・研究活動を通じて八戸工業大学の発展と人類の福祉の増進に寄与することにあり、目的を十分達成できない場合には、本学としての将来に対する不確実な目標を設定することになります。その結果、本学の学生及びその教職員の生命、健康、安全、名誉、経済的利益が著しく損なわれることを防止するために、目的達成のために必要なあらゆる努力を惜しまないことを誓約します。 教職員は、教育・研究活動について常に責任を持つとともに、本学の運営について必要な責任を追及し、学内委員会として十分な指導をするとともに、学内関係者に対しても常に指導・助言を行う等、本学の教育・研究活動に責任を持ちます。 3.教職員は、その職務を行うに当たっては、常に全学の教育・研究活動について、教育・研究課題の明確化、指導能力の向上と、透明性の確保に努め、その成果を組織内に還元するように努めます。 2.教職員は、学生及び職員に対して、本学における教育・研究活動を十分理解するよう努め、理解されていない事項については個別に理解できるよう


## 3-4. <font color="Teal">日本語の質問応答</font> 

[bert-base-japanese-jaquad](https://huggingface.co/SkelterLabsInc/bert-base-japanese-jaquad)モデルを用いて日本語の質問応答を行います．

<font color="RoyalBlue">【実習】 日本語の質問応答を行う</font>

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
from transformers import AutoTokenizer, TFAutoModelForQuestionAnswering
import tensorflow as tf

model = TFAutoModelForQuestionAnswering.from_pretrained('SkelterLabsInc/bert-base-japanese-jaquad', from_pt=True)
tokenizer = AutoTokenizer.from_pretrained('SkelterLabsInc/bert-base-japanese-jaquad')

text = "太郎は岩手県の一関市にある一関高専で働いています。今年度は大阪府にある大阪大学に来れなくて残念でした。"
questions = ["太郎は何市で働いていますか?"]

for question in questions:
    inputs = tokenizer(question, text, add_special_tokens=True, return_tensors="tf")
    input_ids = inputs["input_ids"].numpy()[0]

    outputs = model(inputs)
    answer_start_scores = outputs.start_logits
    answer_end_scores = outputs.end_logits

    # Get the most likely beginning of answer with the argmax of the score
    answer_start = tf.argmax(answer_start_scores, axis=1).numpy()[0]
    # Get the most likely end of answer with the argmax of the score
    answer_end = tf.argmax(answer_end_scores, axis=1).numpy()[0] + 1

    answer = tokenizer.convert_tokens_to_string(
        tokenizer.convert_ids_to_tokens(input_ids[answer_start:answer_end])
    )

    print(f"Question: {question}")
    print(f"Answer: {answer}")
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```


In [17]:
from transformers import AutoTokenizer, TFAutoModelForQuestionAnswering
import tensorflow as tf

model = TFAutoModelForQuestionAnswering.from_pretrained('SkelterLabsInc/bert-base-japanese-jaquad', from_pt=True)
tokenizer = AutoTokenizer.from_pretrained('SkelterLabsInc/bert-base-japanese-jaquad')

text = "太郎は岩手県の一関市にある一関高専で働いています。今年度は大阪府にある大阪大学に来れなくて残念でした。"
questions = ["太郎は何市で働いていますか?"]

for question in questions:
    inputs = tokenizer(question, text, add_special_tokens=True, return_tensors="tf")
    input_ids = inputs["input_ids"].numpy()[0]

    outputs = model(inputs)
    answer_start_scores = outputs.start_logits
    answer_end_scores = outputs.end_logits

    # Get the most likely beginning of answer with the argmax of the score
    answer_start = tf.argmax(answer_start_scores, axis=1).numpy()[0]
    # Get the most likely end of answer with the argmax of the score
    answer_end = tf.argmax(answer_end_scores, axis=1).numpy()[0] + 1

    answer = tokenizer.convert_tokens_to_string(
        tokenizer.convert_ids_to_tokens(input_ids[answer_start:answer_end])
    )

    print(f"Question: {question}")
    print(f"Answer: {answer}")

Downloading config.json:   0%|          | 0.00/688 [00:00<?, ?B/s]

Downloading pytorch_model.bin:   0%|          | 0.00/420M [00:00<?, ?B/s]

Some weights of the PyTorch model were not used when initializing the TF 2.0 model TFBertForQuestionAnswering: ['bert.embeddings.position_ids']
- This IS expected if you are initializing TFBertForQuestionAnswering from a PyTorch model trained on another task or with another architecture (e.g. initializing a TFBertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing TFBertForQuestionAnswering from a PyTorch model that you expect to be exactly identical (e.g. initializing a TFBertForSequenceClassification model from a BertForSequenceClassification model).
All the weights of TFBertForQuestionAnswering were initialized from the PyTorch model.
If your task is similar to the task the model of the checkpoint was trained on, you can already use TFBertForQuestionAnswering for predictions without further training.


Downloading tokenizer_config.json:   0%|          | 0.00/472 [00:00<?, ?B/s]

Downloading vocab.txt:   0%|          | 0.00/252k [00:00<?, ?B/s]

Downloading special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

Question: 太郎は何市で働いていますか?
Answer: 一関 市 に ある 一関 高専 で


## 3-5. <font color="Teal">日本語の翻訳</font> 

[opus-mt-ja-en](https://huggingface.co/Helsinki-NLP/opus-mt-ja-en)モデルを用いて日本語から英語への機械翻訳を行います．

<font color="RoyalBlue">【実習】 日本語の機械翻訳を行う</font>

```
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
trans = pipeline("translation_ja_to_en", model="Helsinki-NLP/opus-mt-ja-en")
trans("今日の授業では自然言語処理について勉強します。")
#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#--#
```


In [18]:
trans = pipeline("translation_ja_to_en", model="Helsinki-NLP/opus-mt-ja-en")
trans("今日の授業では自然言語処理について勉強します。")

Downloading config.json:   0%|          | 0.00/1.11k [00:00<?, ?B/s]

Downloading pytorch_model.bin:   0%|          | 0.00/289M [00:00<?, ?B/s]

Downloading tokenizer_config.json:   0%|          | 0.00/42.0 [00:00<?, ?B/s]

Downloading source.spm:   0%|          | 0.00/764k [00:00<?, ?B/s]

Downloading target.spm:   0%|          | 0.00/783k [00:00<?, ?B/s]

Downloading vocab.json:   0%|          | 0.00/1.43M [00:00<?, ?B/s]



[{'translation_text': "Today's class will study natural language processing."}]

## 3-6. <font color="Teal">演習</font> 

Hugging Face Transformersを使用して，自由に自然言語処理を行なってください．