<a href="https://colab.research.google.com/github/project-ccap/project-ccap.github.io/blob/master/2022notebooks/2022_0206tlpa_o2p.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# TLPA 絵画命名検査での単語発話モデル CCAP バージョン

- date: 2022-0206
- filename: 2022_0206tlpa_o2p.ipynb
- file required: 呼称(TLPA)語彙属性.xlsx
- author: 浅川伸一
- license: MIT

## 手続き


### 材料

TLPA の絵画命名課題に用いられる図版 200 枚を単語にして刺激語として用いた。
TLPA の本課題は，入力が白黒画像であるが，これを単語として表現した場合，複数の表記が考えられる。
たとえば，「海苔巻き」と「ノリ巻き」とであれば，どちらでも刺激図版を表す単語として用いることができる。
今回は，日本語ウィキペディア 2021 年 5 月版に記載のあった単語を用いることとした。
このため，200 枚の図版に対して，237 語の刺激語を用いた。
一方，NTT 日本語語彙特性 (天野，近藤, 1999) の頻度に基づいて，最頻語を 10,000 語用いて訓練データとした。
NTT 日本語語彙特性に基づく単語頻度のうち，記号やアルファベットを除き，かつ，上述の TLPA 単語 237 語を除外した
上位 10,000 語を訓練データとした。

訓練においては，各入力単語は，文字別に付番した番号を文字トークン ID とした。
この文字トークン ID を ワンホットベクトルとみなし，入力層に与えた。
出力の音素表現については，単語の読みを mecab (Kudo, 2007) によって取得した。
得られた単語の読みを julius 表記によってアルファベット文字列に変換した情報をワンホットベクトルとみなして出力表現とした。
このようにして得られた，単語の音表現は 41 種 と特殊トークン 4 種の計 45 種 であった。
特殊トークン 4 種とは，入力表現でも用いられた，次の 4 種である。

* '\<EOW\>': 単語の終端を表す特殊トークン
* '\<SOW\>': 単語の先端を表す特殊トークン
* '\<UNK\>': 未知記号を表す特殊トークン
* '\<PAD\>': 埋め草用特殊トークン，ミニバッチ学習の際に入出力表現ベクトルの次元を揃えるために用いられる
    
このようにして得られた入力用文字トークンは，1903 種，音トークンは先述のとおり 45 種とした。
入力文字トークン系列の最大系列長は 12, 出力音トークン系列の最大系列長は，28 であった。

たとえば，単語「バス」についての入出力表現は，以下の通りである:

```
{0: {'orig': 'バス', 'ortho': ['バ', 'ス'], 'phone': ['b', 'a', 's', 'u'], 'ortho_ids': [696, 519], 'phone_ids': [25, 7, 19, 12]
```

### 訓練手続き

材料の項で述べた単語の書記素表現系列から音表現系列への変換を，符号化器=復号化器モデル，あるいは seq2seq モデル，(Sutskever et.al, 2014, arxiv:1409.3215) 
を用いて学習させた。
中間層のニューロン数は 64 または 256 とした。
符号化器=復号化器モデルに用いた理関連とニューラルネットワークとして GRU (Cho, et.al, 2014) を用いた。
学習の評価には，負の対数尤度を用いた。
学習は Adam (Kingma and Welling, 2015, arxiv:1412.6980) を用いて訓練した。
このとき学習係数は 0.01，alpha, beta の値は PyTorch の既定値を用いた。
各学習エポックでは，10,000 語のデータが用いれ，TLPA 語は学習には用いず，検証データして用いた。




### 補足
- 用いた TLPA 単語 (237 語)
```
'バス', '緑', '桜', 'のり巻き', '海苔巻', '五重塔', 'コップ', 'ごぼう', '土踏まず', '風呂', 'ヒトデ', 'ハム', 'うさぎ', '兎', 'ウサギ', 'ロープウェイ', '学校', 'ちりとり', '縁側', '歯', 'ねぎ', 'あじさい', '紫陽花', '灰色', '天井', '鍵', '肌色', 'ワニ', '鰐', '電車', '顔', '松', 'ガードレール', '柿', 'ちまき', '信号', 'ススキ', '薄', 'じょうろ', 'ジョウロ', 'コンセント', '天ぷら', 'てんぷら', '中指', 'ヨット', 'ピンク', 'フクロウ', 'ふくろう', 'みかん', '蜜柑', 'ミカン', '柱', '角砂糖', '犬', 'かご', '駕籠', 'バラ', '薔薇', '鍋', 'まぶた', 'くるみ', '黒', 'デパート', 'カーネーション', '城', 'アリ', '豆腐', 'ドライバー', '紺', '階段', '戦車', '人参', '背中', '鏡餅', 'スプーン', '朝顔', '金色', '足', 'ふすま', 'へび', '蛇', 'ヘビ', 'レモン', '公園', '乳母車', '床', '藤', 'ピンセット', 'トラック', 'いちご', '苺', 'イチゴ', '黄土色', '銭湯', 'ナマズ', 'ソバ', '蕎麦', 'おなか', 'お腹', 'オレンジ', 'バター', '工場', 'ハト', '鳩', '電卓', 'のど仏', '喉仏', 'チューリップ', '白菜', 'トラクター', '廊下', 'パトカー', '押し入れ', '鉛筆', '目尻', '芋', '吊橋', '赤', 'かき氷', '豹', 'サボテン', 'ピラミッド', 'サイ', '目', 'ひまわり', 'はたき', 'さしみ', '刺身', '玄関', 'トマト', '黄緑', '三輪車', 'にわとり', '鶏', 'つむじ', 'アスパラガス', 'ドア', '銀色', 'ウイスキー', '梅', 'タクシー', '動物園', '床の間', 'こげ茶', 'ぶどう', '葡萄', 'ブドウ', '飴', '毛虫', 'アイロン', '寺', 'そり', 'ひょうたん', '首', '消しゴム', '頬', 'イチョウ', 'いちょう', '駅', '餃子', '牛', 'びわ', '枇杷', '飛行機', '畳', '白', '竹', 'ペリカン', '紫', '手すり', '口', '大根', '風車', '鋏', 'ハサミ', '潜水艦', 'ステーキ', 'マッチ', '二階', '落花生', 'ごはん', 'ご飯', '自転車', '歩道橋', 'クジラ', '鯨', '茶色', 'あやめ', 'ふくらはぎ', 'もも', '桃', '鯛焼き', '道路', '靴べら', '水色', '壁', 'タンポポ', 'たんぽぽ', 'いかだ', 'ヤギ', '山羊', '鼻', 'エビ', '海老', '台所', 'オートバイ', 'かぶ', '蕪', '柳', 'しゃもじ', 'まんじゅう', '饅頭', 'かかと', '薄紫', '家', 'おせち料理', '青', '傘', 'つくし', 'リンゴ', '林檎', '馬車', '線路', 'タツノオトシゴ', '耳', '便所', 'レンコン', '蓮根', '猫', '黄色', 'へそ', '街灯', '障子', '酒', '船', '安全ピン', 'もみじ'
```

- 用いた音表現
```
'<EOW>', '<SOW>', '<UNK>', '<PAD>', 'n', 'o', 'h', 'a', 'i', 't', 'g', 'r', 'u', 'd', 'e', 'sh', 'q', 'm', 'k', 's', 'y', 'ch', 'p', 'N', '', 'b', 'ts', 'o:', 'ky', 'f', 'w', 'ry', 'gy', 'u:', 'z', 'j', 'py', 'hy', 'i:', 'e:', 'a:', 'by', 'ny', 'my', 'dy'
```


# 0. ハイパーパラメータの定義

In [1]:
import torch.nn
import torch.optim

params = {
    'traindata_size': 10000,
    'epochs': 20,
    'hidden_size': 128, 
    'loss_func' :torch.nn.CrossEntropyLoss(), # 交差エントロピー損失
    #'loss_func': torch.nn.NLLLoss(),         # 負の対数尤度損失   
    #'optim_func': torch.optim.SGD
    #'optim_func': torch.optim.AdamW
    'optim_func': torch.optim.Adam, 
    'lr': 0.001,                              # 学習率
    'dropout_p': 0.1,                         # ドロップアウト率
}

print(params)

{'traindata_size': 10000, 'epochs': 20, 'hidden_size': 128, 'loss_func': CrossEntropyLoss(), 'optim_func': <class 'torch.optim.adam.Adam'>, 'lr': 0.001, 'dropout_p': 0.1}


## 0.1 準備作業

In [2]:
import os
import sys
import typing
import numpy as np
import random
import pandas as pd
import gzip
from termcolor import colored

# from tqdm import tqdm         #commandline で実行時
from tqdm.notebook import tqdm  #jupyter で実行時

isColab = 'google.colab' in str(get_ipython())
if isColab:
    !pip install Levenshtein 

    # MeCab, ipadic のインストール
    #!apt install aptitude swig > /dev/null 2>&1
    #!aptitude install mecab libmecab-dev mecab-ipadic-utf8 git make curl xz-utils file -y > /dev/null 2>&1
    #!pip install mecab-python3
    #!pip install unidic
    #!git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git > /dev/null 2>&1
    #!echo yes | mecab-ipadic-neologd/bin/install-mecab-ipadic-neologd -n -a > /dev/null 2>&1
    

    #'①Mecabと辞書のインストール'
    !apt-get -q -y install sudo file mecab libmecab-dev mecab-ipadic-utf8 git curl python-mecab > /dev/null
    !git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git > /dev/null
    !echo yes | mecab-ipadic-neologd/bin/install-mecab-ipadic-neologd -n -a > /dev/null 2>&1
    !pip install mecab-python3 > /dev/null    

    #import subprocess
    #cmd='echo `mecab-config --dicdir`\"/mecab-ipadic-neologd\"'
    #path_neologd = (subprocess.Popen(cmd, stdout=subprocess.PIPE,
    #                                 shell=True).communicate()[0]).decode('utf-8')

    #!python -m unidic download
    #!pip install ipadic > /dev/null 2>&1
    !pip install 'konoha[mecab]'
    !pip install jaconv 
    !pip install japanize_matplotlib


import Levenshtein    
import jaconv    

Collecting Levenshtein
  Downloading Levenshtein-0.18.1-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (258 kB)
[K     |████████████████████████████████| 258 kB 5.3 MB/s 
[?25hCollecting rapidfuzz<3.0.0,>=2.0.1
  Downloading rapidfuzz-2.0.2-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (2.2 MB)
[K     |████████████████████████████████| 2.2 MB 50.9 MB/s 
[?25hInstalling collected packages: rapidfuzz, Levenshtein
Successfully installed Levenshtein-0.18.1 rapidfuzz-2.0.2
Cloning into 'mecab-ipadic-neologd'...
remote: Enumerating objects: 75, done.[K
remote: Counting objects: 100% (75/75), done.[K
remote: Compressing objects: 100% (74/74), done.[K
remote: Total 75 (delta 5), reused 54 (delta 0), pack-reused 0[K
Unpacking objects: 100% (75/75), done.
Collecting konoha[mecab]
  Downloading konoha-5.2.1-py3-none-any.whl (17 kB)
Collecting overrides<4.0.0,>=3.0.0
  Downloading overrides-3.1.0.tar.gz (11 kB)
Collecting requests<3.0.0,>=2.26.0
  Downloading request

In [4]:
#!mecab-config --dicdir
#!ls -l /usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd
#!cat  /usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd/dicrc
!ln -s /etc/mecabrc /usr/local/etc/mecabrc
import MeCab
yomi = MeCab.Tagger('-Oyomi -d /usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd').parse
wakati = MeCab.Tagger('-Owakati').parse 

print(yomi('行く川の流れ絶えずして'))
print(wakati('行く川の流れ絶えずして'))

イクカワノナガレタエズシテ

行く 川 の 流れ 絶えず し て 



# 1 データセットの読み込み

In [6]:
%reload_ext autoreload
%autoreload 2

# 自作ライブラリの読み込み
if isColab:
    ![ -d ccap ] & /bin/rm -rf ccap
    !git clone https://github.com/ShinAsakawa/ccap.git

from ccap import ccap_w2v
w2v = ccap_w2v(is2017=False, isColab=isColab).w2v

import MeCab
#wakati = MeCab.Tagger('-Owakati').parse
from ccap.mecab_settings import yomi

from ccap.tlpa_o2p import TLPA
tlpa = TLPA(traindata_size=params['traindata_size'])
print(colored(f'訓練データサイズ:{len(tlpa.training_data)} 語。NTT 日本語語彙特性の頻度上位 {len(tlpa.training_data)} 語','blue',attrs=['bold']))
print('ただし，TLPA に用いられる単語は含まない')
print(colored(f'検証データサイズ:{len(tlpa.tlpa_data)} TLPA 単語数','blue',attrs=['bold']))
print(colored(f'音素数:{len(tlpa.phone_vocab)}','blue',attrs=['bold']))
print(colored(f'書記素数:{len(tlpa.ortho_vocab)}','blue',attrs=['bold']))
print(colored(f'最長書記素(文字)数:{tlpa.max_ortho_length}, 最長音素数:{tlpa.max_phone_length}', 'blue',attrs=['bold']))

Cloning into 'ccap'...
remote: Enumerating objects: 185, done.[K
remote: Counting objects: 100% (185/185), done.[K
remote: Compressing objects: 100% (173/173), done.[K
remote: Total 185 (delta 92), reused 3 (delta 2), pack-reused 0[K
Receiving objects: 100% (185/185), 4.56 MiB | 8.88 MiB/s, done.
Resolving deltas: 100% (92/92), done.


SyntaxError: ignored

In [None]:
w2v_2021 = {'cbow128': { 'id': '1B9HGhLZOja4Xku5c_d-kMhCXn1LBZgDb',  'outfile': '2021_05jawiki_hid128_win10_neg10_cbow.bin.gz'},
            'sgns128': { 'id': '1OWmFOVRC6amCxsomcRwdA6ILAA5s4y4M',  'outfile': '2021_05jawiki_hid128_win10_neg10_sgns.bin.gz'},
            'cbow200': { 'id': '1JTkU5SUBU2GkURCYeHkAWYs_Zlbqob0s',  'outfile': '2021_05jawiki_hid200_win20_neg20_sgns.bin.gz'}
}
(f_id, outfile) = w2v_2021['sgns128']['id'], w2v_2021['sgns128']['outfile']
print(f_id, outfile)

from google_drive_downloader import GoogleDriveDownloader as gdd
gdd.download_file_from_google_drive(file_id=f_id, dest_path=outfile)

1OWmFOVRC6amCxsomcRwdA6ILAA5s4y4M 2021_05jawiki_hid128_win10_neg10_sgns.bin.gz


FileNotFoundError: ignored

In [3]:
!wget http://www.cis.twcu.ac.jp/~asakawa/2017jpa/2017Jul_jawiki-wakati_neologd_hid200_win20_neg20_cbow.bin.gz
!wget http://www.cis.twcu.ac.jp/~asakawa/2017jpa/2017Jul_jawiki-wakati_neologd_hid200_win20_neg20_sgns.bin.gz
!wget http://www.cis.twcu.ac.jp/~asakawa/2017jpa/2017Jul_jawiki-wakati_neologd_hid300_win20_neg20_sgns.bin.gz
!wget http://www.cis.twcu.ac.jp/~asakawa/2017jpa/2017Jul_jawiki-wakati_neologd_hid200_win20_neg20_cbow.bin.gz


--2022-02-15 01:16:52--  http://www.cis.twcu.ac.jp/~asakawa/2017jpa/2017Jul_jawiki-wakati_neologd_hid200_win20_neg20_cbow.bin.gz
Resolving www.cis.twcu.ac.jp (www.cis.twcu.ac.jp)... 160.13.90.21
Connecting to www.cis.twcu.ac.jp (www.cis.twcu.ac.jp)|160.13.90.21|:80... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://www.cis.twcu.ac.jp/~asakawa/2017jpa/2017Jul_jawiki-wakati_neologd_hid200_win20_neg20_cbow.bin.gz [following]
--2022-02-15 01:16:53--  https://www.cis.twcu.ac.jp/~asakawa/2017jpa/2017Jul_jawiki-wakati_neologd_hid200_win20_neg20_cbow.bin.gz
Connecting to www.cis.twcu.ac.jp (www.cis.twcu.ac.jp)|160.13.90.21|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 1369049082 (1.3G) [application/x-gzip]
Saving to: ‘2017Jul_jawiki-wakati_neologd_hid200_win20_neg20_cbow.bin.gz’


2022-02-15 01:17:56 (20.9 MB/s) - ‘2017Jul_jawiki-wakati_neologd_hid200_win20_neg20_cbow.bin.gz’ saved [1369049082/1369049082]

--2022-02-15 01:17:56--  http

In [None]:
!wget --no-check-certificate --load-cookies /tmp/cookies.txt "https://docs.google.com/uc?export=download&confirm=$(wget --quiet --save-cookies /tmp/cookies.txt --keep-session-cookies --no-check-certificate 'https://docs.google.com/uc?export=download&id=1B9HGhLZOja4Xku5c_d-kMhCXn1LBZgDb' -O- | sed -rn 's/.*confirm=([0-9A-Za-z_]+).*/\1\n/p')&id=1B9HGhLZOja4Xku5c_d-kMhCXn1LBZgDb" -O 2021_05jawiki_hid128_win10_neg10_cbow.bin.gz && rm -rf /tmp/cookies.txt

[autoreload of ccap.ccap failed: Traceback (most recent call last):
  File "/usr/local/lib/python3.7/dist-packages/IPython/extensions/autoreload.py", line 247, in check
    superreload(m, reload, self.old_objects)
ImportError: parent 'ccap' not in sys.modules
]
[autoreload of ccap.ccap_w2v failed: Traceback (most recent call last):
  File "/usr/local/lib/python3.7/dist-packages/IPython/extensions/autoreload.py", line 247, in check
    superreload(m, reload, self.old_objects)
ImportError: parent 'ccap' not in sys.modules
]
[autoreload of ccap.tsne failed: Traceback (most recent call last):
  File "/usr/local/lib/python3.7/dist-packages/IPython/extensions/autoreload.py", line 247, in check
    superreload(m, reload, self.old_objects)
ImportError: parent 'ccap' not in sys.modules
]
[autoreload of ccap.ccap_normalize_neologd failed: Traceback (most recent call last):
  File "/usr/local/lib/python3.7/dist-packages/IPython/extensions/autoreload.py", line 247, in check
    superreload(m, relo

--2022-02-15 00:40:42--  https://docs.google.com/uc?export=download&confirm=LJgy&id=1B9HGhLZOja4Xku5c_d-kMhCXn1LBZgDb
Resolving docs.google.com (docs.google.com)... 142.250.141.102, 142.250.141.101, 142.250.141.113, ...
Connecting to docs.google.com (docs.google.com)|142.250.141.102|:443... connected.
HTTP request sent, awaiting response... 302 Moved Temporarily
Location: https://doc-0k-3k-docs.googleusercontent.com/docs/securesc/gv3u6rtbvrog1en8a0sdnm5nu24hi14i/64p8pg5fpn0mnu70ffe534tgma0p09sd/1644885600000/10804218431552746902/01342805690271912378Z/1B9HGhLZOja4Xku5c_d-kMhCXn1LBZgDb?e=download [following]
--2022-02-15 00:40:42--  https://doc-0k-3k-docs.googleusercontent.com/docs/securesc/gv3u6rtbvrog1en8a0sdnm5nu24hi14i/64p8pg5fpn0mnu70ffe534tgma0p09sd/1644885600000/10804218431552746902/01342805690271912378Z/1B9HGhLZOja4Xku5c_d-kMhCXn1LBZgDb?e=download
Resolving doc-0k-3k-docs.googleusercontent.com (doc-0k-3k-docs.googleusercontent.com)... 142.250.141.132, 2607:f8b0:4023:c0b::84
Conne

---

## 1.1 補足説明

### 著作権に関する注意事項

上で読み込んだ `tlpa` には，tlpa の絵画命名検査に用いられる 200 図版の単語情報と，NTT 日本語語彙特性の頻度情報が含まれています。
本コードを再配布する際には，これら 2 つ，TLPA と NTT 日本語語彙特性データの著作権にご留意ください。

### ライブラリの使い方

今回作成したライブラリには以下のものが含まれる

- `tlpa.vocab`: 登録されている全単語 159061 語のリスト
- `tlpa.phone_vocab`: julius 表記した音表現のリスト。音であるから vocab ではなく phoneme などとすべきだったかも知れないが，特殊トークンを含む 47 音表現
- `tlpa.ortho_vocab`: 書記素表現のリスト，上の phone_vocab 同様に vocab という表記は適切ではなく，grapheme などと表記すべきだが，自然言語の文脈で考えていたので，このよな表記となった。
- `ntt_orth2hira`: NTT 日本語語彙特性に現れる表記を，ひらがなに変換する辞書 `tlpa.ntt_orth2hira["神経"]` などとすれば，`シンケイ` という読みを得る
- `tlpa.tlpa`: tlpa で用いられる単語 237 語の，音表現，カタカナ，意味表現(word2vec) 


---

In [None]:
# 再現性確保のため，乱数の種を設定する
import random
import torch

# リソースの選択（CPU/GPU）
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

# 乱数シード固定（再現性の担保）
def fix_seed(seed):
    random.seed(seed)  # for random
    np.random.seed(seed) # for numpy

    # for pytorch
    torch.manual_seed(seed)
    torch.cuda.manual_seed_all(seed)
    torch.backends.cudnn.deterministic = True
    torch.backends.cudnn.benchmark = False

seed = 42
fix_seed(seed)

# データローダーのサブプロセスの乱数の seed が固定
def worker_init_fn(worker_id):
    np.random.seed(np.random.get_state()[1][0] + worker_id)

print(worker_init_fn(1))

None


In [None]:
import torch
import torch.utils.data

class _train_dataset(torch.utils.data.Dataset):
    '''
    上で読み込んだ自作データ管理ライブラリ TLPA でも良いので冗長なのだが，訓練データセットと検証データセットとを明示的に定義しておく
    '''
    
    def __init__(self, tlpa=tlpa)->None:
        self.tlpa = tlpa
        self.data = tlpa.training_data
        self.order = {i:self.data[x] for i, x in enumerate(self.data)}
        
    def __len__(self)->int:
        return len(self.data)
    
    def __getitem__(self, x:int):
        return self.order[x]['ortho_ids'] + [self.tlpa.ortho_vocab.index('<EOW>')], self.order[x]['phone_ids'] + [self.tlpa.phone_vocab.index('<EOW>')]
    
    def convert_ortho_ids_to_tokens(self, ids:list):
        return [self.tlpa.ortho_vocab[idx] for idx in ids]
    
    def convert_phone_ids_to_tokens(self, ids:list):
        return [self.tlpa.phone_vocab[idx] for idx in ids]


class _val_dataset(torch.utils.data.Dataset):
    def __init__(self, tlpa=tlpa)->None:
        self.tlpa = tlpa
        self.data = tlpa.tlpa_data
        self.order = {i:self.data[x] for i, x in enumerate(self.data)}
        
    def __len__(self)->int:
        return len(self.data)
    
    def __getitem__(self, x:int):
        return self.order[x]['ortho_ids'] + [self.tlpa.ortho_vocab.index('<EOW>')], self.order[x]['phone_ids'] + [self.tlpa.phone_vocab.index('<EOW>')]
        #return self.order[x]['ortho_ids'], self.order[x]['phone_ids']
    
    def convert_ortho_ids_to_tokens(self, ids:list):
        return [self.tlpa.ortho_vocab[idx] for idx in ids]
    
    def convert_phone_ids_to_tokens(self, ids:list):
        return [self.tlpa.phone_vocab[idx] for idx in ids]
    
train_dataset = _train_dataset()
val_dataset = _val_dataset()

NameError: ignored

# 2 学習に用いる，符号化器 (エンコーダ)，復号化器 (デコーダ) の定義

In [None]:
import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F

class EncoderRNN(nn.Module):
    '''RNNによる符号化器'''
    def __init__(self, n_inp, n_hid):
        super().__init__()
        self.n_hid = n_hid

        self.embedding = nn.Embedding(n_inp, n_hid)
        self.gru = nn.GRU(n_hid, n_hid)

    def forward(self, inp, hid):
        embedded = self.embedding(inp).view(1, 1, -1)
        out = embedded
        out, hid = self.gru(out, hid)
        return out, hid

    def initHidden(self):
        return torch.zeros(1, 1, self.n_hid, device=device)


class AttnDecoderRNN(nn.Module):
    '''注意付き復号化器の定義'''
    def __init__(self, n_hid, n_out, dropout_p=0.1, max_length=tlpa.max_phone_length+1):
        super().__init__()
        self.n_hid = n_hid
        self.n_out = n_out
        self.dropout_p = dropout_p
        self.max_length = max_length

        self.embedding = nn.Embedding(self.n_out, self.n_hid)
        self.attn = nn.Linear(self.n_hid * 2, self.max_length)
        self.attn_combine = nn.Linear(self.n_hid * 2, self.n_hid)
        self.dropout = nn.Dropout(self.dropout_p)
        self.gru = nn.GRU(self.n_hid, self.n_hid)
        self.out = nn.Linear(self.n_hid, self.n_out)

    def forward(self, inp, hid, encoder_outputs):
        embedded = self.embedding(inp).view(1, 1, -1)
        embedded = self.dropout(embedded)

        attn_weights = F.softmax(self.attn(torch.cat((embedded[0], hid[0]), 1)), dim=1)
        attn_applied = torch.bmm(attn_weights.unsqueeze(0), encoder_outputs.unsqueeze(0))

        out = torch.cat((embedded[0], attn_applied[0]), 1)
        out = self.attn_combine(out).unsqueeze(0)

        out = F.relu(out)
        out, hid = self.gru(out, hid)

        out = F.log_softmax(self.out(out[0]), dim=1)
        return out, hid, attn_weights

    def initHidden(self):
        return torch.zeros(1, 1, self.n_hid, device=device)

# 3. 訓練関数 `train()` の定義 教師強制付き

In [None]:
def convert_ids2tensor(sentence_ids):
    return torch.tensor(sentence_ids, dtype=torch.long, device=device).view(-1, 1)

teacher_forcing_ratio = 0.5  # 教師強制率。文献によっては，訓練中にこの値を徐々に減衰させることも行われます

def train(input_tensor, 
          target_tensor, 
          encoder, decoder, 
          encoder_optimizer, decoder_optimizer, 
          criterion, max_length=tlpa.max_phone_length+1):
    
    encoder_hidden = encoder.initHidden() # 符号化器の中間層を初期化
    encoder_optimizer.zero_grad()         # 符号化器の最適化関数の初期化
    decoder_optimizer.zero_grad()         # 復号化器の最適化関数の初期化

    input_length = input_tensor.size(0)
    target_length = target_tensor.size(0)
    encoder_outputs = torch.zeros(max_length, encoder.n_hid, device=device)
    loss = 0

    for ei in range(input_length):
        encoder_output, encoder_hidden = encoder(
            input_tensor[ei], encoder_hidden)
        encoder_outputs[ei] = encoder_output[0, 0]

    decoder_input = torch.tensor([[train_dataset.tlpa.ortho_vocab.index('<SOW>')]], device=device)
    decoder_hidden = encoder_hidden
    
    # 教師強制をするか否かを確率的に決める
    use_teacher_forcing = True if random.random() < teacher_forcing_ratio else False
    if use_teacher_forcing: # 教師強制する場合 Teacher forcing: Feed the target as the next input
        for di in range(target_length):
            decoder_output, decoder_hidden, decoder_attention = decoder(
                decoder_input, decoder_hidden, encoder_outputs)
            loss += criterion(decoder_output, target_tensor[di])
            decoder_input = target_tensor[di]  # Teacher forcing

    else: # 教師強制しない場合 Without teacher forcing: use its own predictions as the next input
        for di in range(target_length):
            decoder_output, decoder_hidden, decoder_attention = decoder(
                decoder_input, decoder_hidden, encoder_outputs)
            topv, topi = decoder_output.topk(1)
            decoder_input = topi.squeeze().detach()  # detach from history as input

            loss += criterion(decoder_output, target_tensor[di])
            if decoder_input.item() == train_dataset.tlpa.ortho_vocab.index('<EOW>'):
                break

    loss.backward()
    encoder_optimizer.step()
    decoder_optimizer.step()

    return loss.item() / target_length

In [None]:
import time
import math

def asMinutes(s):
    """時間変数を見やすいように，分と秒に変換して返す"""
    m = math.floor(s / 60)
    s -= m * 60
    return f'{int(m):2d}分 {int(s):2d}秒'
    return '%dm %ds' % (m, s)


def timeSince(since, percent):
    """開始時刻 since と，現在の処理が全処理中に示す割合 percent を与えて，経過時間と残り時間を計算して表示する"""
    now = time.time()  #現在時刻を取得
    s = now - since    # 開始時刻から現在までの経過時間を計算
    #s = since - now    
    es = s / (percent) # 経過時間を現在までの処理割合で割って終了予想時間を計算
    rs = es - s        # 終了予想時刻から経過した時間を引いて残り時間を計算

    return f'経過時間:{asMinutes(s)} (残り時間 {asMinutes(rs)})'

# 4. `fit()` 関数の定義 エポックを反復して `train()` を呼び出す

In [None]:
def fit(encoder:nn.Module, 
        decoder:nn.Module, 
        epochs:int=params['epochs'],
        lr:float=params['lr'],
        n_sample:int=3)->list:
    
    start_time = time.time()
    
    encoder.train()
    decoder.train()
    #encoder_optimizer = optim.SGD(encoder.parameters(), lr=lr)
    #decoder_optimizer = optim.SGD(decoder.parameters(), lr=lr)
    #encoder_optimizer = optim.Adam(encoder.parameters(), lr=lr)
    #decoder_optimizer = optim.Adam(decoder.parameters(), lr=lr)
    encoder_optimizer = params['optim_func'](encoder.parameters(), lr=lr)
    decoder_optimizer = params['optim_func'](decoder.parameters(), lr=lr)
    criterion = params['loss_func']
    losses = []

    for epoch in range(epochs):
        epoch_loss = 0
        
        #エポックごとに学習順をシャッフルする
        learning_order = np.random.permutation(train_dataset.__len__())
        for i in range(train_dataset.__len__()):
            x = learning_order[i]   # ランダムにデータを取り出す 
            inputs, targets = train_dataset.__getitem__(x)
            input_tensor = convert_ids2tensor(inputs)
            target_tensor = convert_ids2tensor(targets)
            
            #訓練の実施
            loss = train(input_tensor, target_tensor, 
                         encoder, decoder, 
                         encoder_optimizer, decoder_optimizer, 
                         criterion)
            epoch_loss += loss
        
        losses.append(epoch_loss/train_dataset.__len__())
        print(colored(f'エポック:{epoch:2d} 損失:{epoch_loss/train_dataset.__len__():.2f}', 'cyan', attrs=['bold']),
              f'{timeSince(start_time, (epoch+1) * train_dataset.__len__()/(epochs * train_dataset.__len__()))}')
        
        evaluateRandomly(encoder, decoder, n=n_sample)
        
    return losses

# 5 評価関数 `evaluate()` の定義

In [None]:
def evaluate(encoder:nn.Module, 
             decoder:nn.Module, 
             input_ids:list, 
             max_length:int=tlpa.max_phone_length+1)->(list,torch.LongTensor):
    with torch.no_grad():
        input_tensor = convert_ids2tensor(input_ids)
        input_length = input_tensor.size()[0]
        encoder_hidden = encoder.initHidden()

        encoder_outputs = torch.zeros(max_length, encoder.n_hid, device=device)

        for ei in range(input_length):
            encoder_output, encoder_hidden = encoder(input_tensor[ei], encoder_hidden)
            encoder_outputs[ei] += encoder_output[0, 0]

        decoder_input = torch.tensor([[val_dataset.tlpa.phone_vocab.index('<SOW>')]], device=device)
        decoder_hidden = encoder_hidden

        decoded_words, decoded_ids = [], []  # decoded_ids を追加
        decoder_attentions = torch.zeros(max_length, max_length)

        for di in range(max_length):
            decoder_output, decoder_hidden, decoder_attention = decoder(
                decoder_input, decoder_hidden, encoder_outputs)
            decoder_attentions[di] = decoder_attention.data
            topv, topi = decoder_output.data.topk(1)
            decoded_ids.append(int(topi.squeeze().detach())) # decoded_ids に追加
            if topi.item() == val_dataset.tlpa.phone_vocab.index('<EOW>'):
                decoded_words.append('<EOW>')
                break
            else:
                decoded_words.append(val_dataset.tlpa.phone_vocab[topi.item()])

            decoder_input = topi.squeeze().detach()

        return decoded_words, decoded_ids, decoder_attentions[:di + 1]  # decoded_ids を返すように変更
        #return decoded_words, decoder_attentions[:di + 1]    

In [None]:
def evaluateRandomly(encoder:nn.Module, 
                     decoder:nn.Module, 
                     n:int=5)->float:
    
    srcs, preds = [], []
    for x in np.random.randint(val_dataset.__len__(), size=n):
        input_ids, target_ids = val_dataset.__getitem__(x)
        input_words = val_dataset.convert_ortho_ids_to_tokens(input_ids)
        print(f'入力: {target_ids}<-{input_ids}:{input_words}')
        output_words, output_ids, attentions = evaluate(encoder, decoder, input_ids)
        #output_ids, attentions = evaluate(encoder, decoder, input_ids)
        #output_word = val_dataset.convert_phone_ids_to_tokens(output_ids)
        #output_word = output_ids

        srcs.append(input_words)
        preds.append(output_words)
        print(f'出力: {output_ids}',f':{output_words}')
        print('---')
    return srcs, preds

In [None]:
#evaluateRandomly(encoder,decoder,n=5)
#val_dataset.__getitem__(3)

# 6. 学習の実施

In [None]:
%%time
hidden_size = params['hidden_size']
encoder = EncoderRNN(len(tlpa.ortho_vocab), hidden_size).to(device)
decoder = AttnDecoderRNN(n_hid=hidden_size, n_out=len(tlpa.phone_vocab), dropout_p=params['dropout_p']).to(device)

losses = []
losses = losses + fit(encoder, decoder, epochs=params['epochs'], n_sample=3)

In [None]:
losses = losses + fit(encoder, decoder, epochs=params['epochs'], n_sample=5)

# 7 学習経過の描画

In [None]:
import matplotlib.pyplot as plt
import japanize_matplotlib
import matplotlib.ticker as ticker
import numpy as np

def showPlot(points:list)->None:
    plt.figure()
    fig, ax = plt.subplots()
    loc = ticker.MultipleLocator(base=0.2) # this locator puts ticks at regular intervals
    ax.yaxis.set_major_locator(loc)
    plt.plot(points)
    
showPlot(losses)    

In [None]:
_ = evaluateRandomly(encoder, decoder, n=5)

# 8 自由入力による評価

In [None]:
def tokenize(inp_word:str, pad:bool=False)->list:
    if pad:
        ret = [tlpa.ortho_vocab.index('<PAD>') for _ in range(tlpa.max_ortho_length - len(inp_word))]
    else:
        ret = []
    return ret + [tlpa.ortho_vocab.index(ch) if ch in tlpa.ortho_vocab else tlpa.ortho_vocab[tlpa.ortho_vocab.index('<UNK>')] for ch in inp_word]


#print(train_dataset.convert_ortho_ids_to_tokens(tokenize('わたし',pad=True)))

In [None]:
import torch.nn as nn

In [None]:
def evaluate_free_input(encoder:nn.Module, 
                        decoder:nn.Module,
                        inp=None,
                       )->None:
    if inp == None:
        inp = input()
    inp = jaconv.normalize(inp)
    inputs = tokenize(inp, pad=False)
    input_ids = inputs # ['input_ids']
    output_tokens, output_words, attentions = evaluate(encoder, decoder, input_ids)
    #output_ids = val_dataset.convert_phone_ids_to_tokens(output_tokens)
    output_ids = output_tokens
    return input_ids, output_ids


In [None]:
#inp, out = evaluate_free_input(encoder,decoder, inp='お前は虎だ。虎になるのだ。')
inp, out = evaluate_free_input(encoder,decoder)
print(val_dataset.convert_ortho_ids_to_tokens(inp))
print(out)

# 9 エンコーダの内部表現の取得

In [None]:
def get_an_encoder_representation(encoder:nn.Module,
                                  input_ids:list,
                                  max_length:int=tlpa.max_phone_length+1)->(list,torch.LongTensor):
    with torch.no_grad():
        input_tensor = convert_ids2tensor(input_ids)
        input_length = input_tensor.size()[0]
        encoder_hidden = encoder.initHidden()
        encoder_outputs = torch.zeros(max_length, encoder.n_hid, device=device)

        for ei in range(input_length):
            encoder_output, encoder_hidden = encoder(input_tensor[ei],
                                                     encoder_hidden)
            encoder_outputs[ei] += encoder_output[0, 0]

        return encoder_hidden


In [None]:
X = np.zeros((val_dataset.__len__(),hidden_size))
for i in range(val_dataset.__len__()):
    x = get_an_encoder_representation(encoder, input_ids = val_dataset.__getitem__(1)[0])
    X[i] = x.squeeze(0).clone().detach().numpy()[0]

print(X.shape)

In [None]:
import ccap.tsne as tsne

tsne_result = tsne.tsne(X)

# 10 内部表現の描画

In [None]:
tsne_result.shape
plt.figure(figsize=(10,10))
plt.scatter(tsne_result[:,0],tsne_result[:,1])
plt.show()

In [None]:
x_min = tsne_result[:,0].argmin()
x_max = tsne_result[:,0].argmax()
y_min = tsne_result[:,1].argmin()
y_max = tsne_result[:,1].argmax()

print(f'X 座標最小値:{tlpa.vocab[x_min]}')
print(f'X 座標最大値:{tlpa.vocab[x_max]}')
print(f'Y 座標最小値:{tlpa.vocab[y_min]}')
print(f'Y 座標最大値:{tlpa.vocab[y_max]}')


In [None]:
tlpa.vocab[x_min]

In [None]:
path_saved = '2022_0212tlpa_o2p.pt'
torch.save({'encoder':encoder.state_dict(),
            'decoder':decoder.state_dict()}, path_saved)
checkpoint = torch.load(path_saved)
encoder2 = EncoderRNN(len(tlpa.ortho_vocab), hidden_size).to(device)
decoder2 = AttnDecoderRNN(n_hid=hidden_size, n_out=len(tlpa.phone_vocab), dropout_p=params['dropout_p']).to(device)
encoder2.load_state_dict(checkpoint['encoder'])
decoder2.load_state_dict(checkpoint['decoder'])
encoder2.eval()
decoder2.eval()

In [None]:
_ = evaluateRandomly(encoder2, decoder2, n=10)