## 言語処理課題
---
課題についての諸注意
- 特に指示のないものについてはセルを実行してください。(セルの実行はセルを選択して Shift+Enter)
- 特に指示のない箇所はコードを変更しないでください。
- docstringsやコメントを参照し、要件を満たしたコード、テキストを書いてください。
- importされているライブラリは利用してください。
- 別途ライブラリをimportしても構いませんが、Dockerコンテナに事前にインストールされているもの以外は使わないでください。
- 十分に調べ、考えてもわからない場合は回答例をsrc/script/answer_example/answer_example.ipynbを見てください。

---
---
### ファイルの読み込み
目標：いろいろな拡張子のファイルを読み込めるようになる

In [50]:
# このセルをShift+Enterで実行してください
%reload_ext autoreload
%autoreload 2

import os
from typing import List
from pprint import pprint

DATAPATH = os.getenv('DATAPATH')
TEST_TEXT_FILE_PATH = os.path.join(DATAPATH, 'aozora_samples/aibiki.txt')
TEST_CSV_FILE_PATH = os.path.join(DATAPATH, 'test_read_file/test_read.csv')
TEST_TSV_FILE_PATH = os.path.join(DATAPATH, 'test_read_file/test_read.tsv')
TEST_JSON_FILE_PATH = os.path.join(DATAPATH, 'chABSA_dataset/e00008_ann.json')
TEST_DOCX_FILE_PATH = os.path.join(DATAPATH, 'contract_samples/01-売買基本契約書.docx')
TEST_PDF_FILE_PATH = os.path.join(DATAPATH, 'contract_samples/02-OEM契約書.pdf')

---
#### No.1: テキストファイルを読み込む関数を作成してください

In [31]:
# 回答例はレポジトリ内のsrc/filereader.pyを見てください
from src.file_reader import read_txt

In [365]:
# 以下を実行してErrorにならないか確認
result_utf8 = read_txt(file_path=TEST_TEXT_FILE_PATH)
assert result_utf8[:4] == 'あいびき'
print(f'result_utf8[:4]: {result_utf8[:4]}')
print('合格!')

result_utf8[:4]: あいびき
合格!


---
#### No.2: CSV, TSVファイルの読み込み

In [7]:
# 回答例はレポジトリ内のsrc/filereader.pyを見てください
from src.file_reader import read_separated_value_file

In [366]:
# このセルを実行してCSV、TSVファイルの中身がきちんと読み込まれているか確認してください。
result_csv = read_separated_value_file(file_path=TEST_CSV_FILE_PATH, delimiter=',')
result_tsv = read_separated_value_file(file_path=TEST_TSV_FILE_PATH, delimiter='\t')

print(f'result_csv: {result_csv}')
if result_csv == [['0', 'c'], ['1', 's'], ['2', 'v']]:
    print('CSV読み込み: 合格')
else:
    print('CSV読み込み: まだまだです')
print()
print(f'result_tsv: {result_tsv}')
if result_tsv == [['0', 'T'], ['1', 'S'], ['2', 'V']]:
    print('TSV読み込み: 合格')
else:
    print('TSV読み込み: まだまだです')

result_csv: [['0', 'c'], ['1', 's'], ['2', 'v']]
CSV読み込み: 合格

result_tsv: [['0', 'T'], ['1', 'S'], ['2', 'V']]
TSV読み込み: 合格


---
#### No.3: JSONファイルの読み込み

In [42]:
# 回答例はレポジトリ内のsrc/filereader.pyを見てください
from src.file_reader import read_json

In [367]:
# 以下を実行してErrorにならないか確認
result_json = read_json(file_path=TEST_JSON_FILE_PATH)
assert result_json['header']['category17'] == '食品'
pprint(result_json['header'])
print('合格!')

{'category17': '食品',
 'category33': '水産・農林業',
 'doc_text': '有価証券報告書',
 'document_id': 'E00008',
 'document_name': 'ホクト株式会社',
 'edi_id': 'E00008',
 'scale': '6',
 'security_code': '13790'}
合格!


---
#### No.4（Challenge！）: docxファイルの読み込み

In [9]:
# 回答例はレポジトリ内のsrc/filereader.pyを見てください
from src.file_reader import read_docx_text

In [372]:
# 以下を実行してdocxファイルの中身を確認してください。
result_docx = read_docx_text(file_path=TEST_DOCX_FILE_PATH)

answer_list = [
    '売買基本契約書',
    '鈴木株式会社（以下「甲」という。）とダイヤモンド株式会社（以下「乙」という。）は，乙が取り扱う商品（以下「本製品」という）の売買に関し，基本的事項を定めるため，以下のとおり契約（以下「本契約」という）を締結する。'
]
print(f'result_docx[:2]:\n{result_docx[:2]}')
if result_docx[:2] == answer_list:
    print('合格!!')

result_docx[:2]:
['売買基本契約書', '鈴木株式会社（以下「甲」という。）とダイヤモンド株式会社（以下「乙」という。）は，乙が取り扱う商品（以下「本製品」という）の売買に関し，基本的事項を定めるため，以下のとおり契約（以下「本契約」という）を締結する。']
合格!!


---
#### No.5（Challenge！!）: pdfファイルの読み込み

In [24]:
# 回答例はレポジトリ内のsrc/filereader.pyを見てください
from src.file_reader import read_pdf_text

In [40]:
# 以下を実行してエラーにならないか確認してください。
result_pdf = read_pdf_text(file_path=TEST_PDF_FILE_PATH)
assert result_pdf[:6] == 'ＯＥＭ契約書'
print(result_pdf[:6])
print('合格!!')

ＯＥＭ契約書


---
---
### 基本的なテキストの前処理
目標：基本的な前処理を実施できるようにする

In [None]:
# このセルをShift+Enterで実行してください
%reload_ext autoreload
%autoreload 2

import os
import re
from typing import List, Union
from pprint import pprint

---
#### No.6: 全角半角の統一
- 同じ意味のカタカナや数字なのに、半角と全角で異なる単語として認識されることを防ぎます
- ここではmojimojiというライブラリを用いて半角と全角を統一します
- このセクションは問いはありませんが、使えるようにしてください

In [91]:
import mojimoji
zenkaku_text = "あいうＡＩＵアイウ０１２＋ー＝（）"
print(f'zenkaku_text: {zenkaku_text}')

# 半角にできる文字が半角にできることを確認
hankaku_text = mojimoji.zen_to_han(zenkaku_text)
print(f'hankaku_text: {hankaku_text}')

# 半角にした文字を全角に戻せることを確認
hankaku_to_zenkaku_text = mojimoji.han_to_zen(hankaku_text)
print(f'bool(hankaku_to_zenkaku_text==zenkaku_text): {bool(hankaku_to_zenkaku_text == zenkaku_text)}')

# 数字だけ半角にする
print(f'数字だけ半角: {mojimoji.zen_to_han(zenkaku_text, kana=False, digit=True, ascii=False)}')

zenkaku_text: あいうＡＩＵアイウ０１２＋ー＝（）
hankaku_text: あいうAIUｱｲｳ012+ｰ=()
bool(hankaku_to_zenkaku_text==zenkaku_text): True
数字だけ半角: あいうＡＩＵアイウ012＋ー＝（）


---
#### No.7: 正規表現を用いた文字列の置換・削除
- よくある文字の置換処理: 連続する空白文字の削除、文章前後の空白文字の削除、連続する数字を0などに置換、表記ゆれの統一を行います
- 正規表現を頻繁に使いますので読み慣れてください。
- Pythonで正規表現を用いて文字列を処理する場合はreというライブラリを用います。

In [375]:
import re

# 問: question_price_textがanswer_price_textになるように正規表現をunify_number_patternに記入してください
unify_number_pattern = '(\d+[,]*)+'  # ←ここに正規表現を書く

# 以下触らない
question_price_text = '500円、1,000円、3,000,000円、50,000,000円'
answer_price_text = '0円、0円、0円、0円'

my_answer = re.sub(unify_number_pattern, '0', question_price_text)

print(f'question_price_text: {question_price_text}')
print(f'my_answer: {my_answer}')
if bool(my_answer == answer_price_text):
    print('合格！')
else:
    print('まだまだです')

question_price_text: 500円、1,000円、3,000,000円、50,000,000円
my_answer: 0円、0円、0円、0円
合格！


In [374]:
import re

# 問: question_price_textがanswer_price_textになるように正規表現をunify_number_patternに記入してください
spaces_pattern = '\s+'  # ←ここに正規表現を書く

# 以下触らない
question_space_text = '  スペ  ー スは見　　\n　え　\t　ない敵 '
answer_space_text = 'スペースは見えない敵'
print(f'question_space_text:\n{question_space_text}')

my_answer = re.sub(spaces_pattern, '', question_space_text)

print(f'my_answer: {my_answer}')

if bool(my_answer == answer_space_text):
    print('合格！')
else:
    print('まだまだです')

question_space_text:
  スペ  ー スは見　　
　え　	　ない敵 
my_answer: スペースは見えない敵
合格！


---
---
### 文章の分かち書きと形態素解析
目標：日本語は英語と違い、単語がスペース等で区切られていないので、文章を単語（形態素）に分割する処理（分かち書き）が必要です。その分かち書きができるようになることが目標です。ついでに、単語に分割する際に形態素解析器を使えるようにします。

---
#### No.8: 形態素解析器を用いた分かち書き
- 日本語の形態素解析器はいくつか種類がありますが、今回は導入が簡単なJanomeとspacyでラップされたGinzaという形態素解析器を用いて分かち書きを行います。
- JanomeはMeCabベースの形態素解析器です。pipでインストールできるので導入が楽です。MeCab単体よりも動作は少し遅いですが、数千行程度の形態素解析であれば導入が楽なJanomeが良いでしょう。
- Ginzaは形態素解析のベースとしてSudachiを用いています。Spacyというフレームワークでラップされています。形態素解析以外の機能が豊富で、導入も楽です。精度はMeCabと同程度で、速度はMeCabよりも少し遅い程度です。固有表現抽出や係り受け解析など他の解析もできるのでいろいろ分析する場合はGinzaが良いでしょう。
- このセクションに問いはありませんが、使えるようにしてください

In [119]:
# Janomeを用いた形態素解析と分かち書き
from janome.tokenizer import Tokenizer as JanomeTokenizer
janome_tokenizer = JanomeTokenizer()

sentence = '他者と比べるのではなく、過去の自分と比べなさい'

# シンプルに分かち書きをする場合（見出し語の分かち書き）
janome_wakachi_result = list(janome_tokenizer.tokenize(sentence, wakati=True))
print(f'見出し語の分かち書き:\n{janome_wakachi_result}')

# 単語の原型を用いた分かち書き
tokens = janome_tokenizer.tokenize(sentence)
janome_base_form_wakachi_result = [t.base_form for t in tokens]
print(f'原型での分かち書き:\n{janome_base_form_wakachi_result}')

# 単語の品詞を見てみる
tokens = janome_tokenizer.tokenize(sentence)
pos_result = [t.part_of_speech for t in tokens]
print(f'品詞:\n{pos_result}')

見出し語の分かち書き:
['他者', 'と', '比べる', 'の', 'で', 'は', 'なく', '、', '過去', 'の', '自分', 'と', '比べ', 'なさい']
原型での分かち書き:
['他者', 'と', '比べる', 'の', 'だ', 'は', 'ない', '、', '過去', 'の', '自分', 'と', '比べる', 'なさる']
品詞:
['名詞,一般,*,*', '助詞,格助詞,引用,*', '動詞,自立,*,*', '名詞,非自立,一般,*', '助動詞,*,*,*', '助詞,係助詞,*,*', '助動詞,*,*,*', '記号,読点,*,*', '名詞,副詞可能,*,*', '助詞,連体化,*,*', '名詞,一般,*,*', '助詞,格助詞,引用,*', '動詞,自立,*,*', '動詞,非自立,*,*']


In [121]:
# Ginzaを用いた形態素解析と分かち書き
import spacy
ginza_tokenizer = spacy.load("ja_ginza")

sentence = '他者と比べるのではなく、過去の自分と比べなさい'

tokens = ginza_tokenizer(sentence)

# シンプルに分かち書きをする場合（見出し語の分かち書き）
ginza_wakachi_result = [token.orth_ for token in tokens]
print(f'見出し語の分かち書き:\n{ginza_wakachi_result}')

# 単語の原型を用いた分かち書き
ginza_base_form_wakachi_result = [token.lemma_ for token in tokens]
print(f'原型での分かち書き:\n{ginza_base_form_wakachi_result}')

# 単語の品詞を見てみる
pos_result = [token.pos_ for token in tokens]
print(f'品詞:\n{pos_result}')

見出し語の分かち書き:
['他者', 'と', '比べる', 'の', 'で', 'は', 'なく', '、', '過去', 'の', '自分', 'と', '比べ', 'なさい']
原型での分かち書き:
['他者', 'と', '比べる', 'の', 'だ', 'は', 'ない', '、', '過去', 'の', '自分', 'と', '比べる', 'なさる']
品詞:
['NOUN', 'ADP', 'VERB', 'SCONJ', 'AUX', 'ADP', 'ADJ', 'PUNCT', 'NOUN', 'ADP', 'NOUN', 'ADP', 'VERB', 'AUX']


---
#### No.9: N-gram
- 形態素解析器を用いず、文字をN文字の小さな塊として分割する手法があります。
- N-gramという考え方があり、Nは文字列の塊に何文字含めるかを示します。
- N-gramには文字レベルのものと単語レベルのものがあります。文字で塊を作るか、単語で塊を作るかの違いがあります。単語レベルの場合は形態素解析が必要です。

In [None]:
def to_ngram(item: Union[str, List[str]], n: int) -> List[str]:
    """N-gram変換器
    - 文字列'これはテスト'が入力された場合の出力例
        - N=1の場合の期待される出力: ['こ', 'れ', 'は', 'テ', 'ス', 'ト']
        - N=2の場合の期待される出力: ['これ', 'れは', 'はテ', 'テス', 'スト']
        - N=3の場合の期待される出力: ['これは', 'れはテ', 'はテス', 'テスト']
    - 単語の配列['これ', 'は', 'テスト']が入力された場合の出力例
        - N=1の場合の期待される出力: [['これ'], ['は'], ['テスト']]
        - N=2の場合の期待される出力: [['これ', 'は'], ['は', 'テスト']]
        - N=3の場合の期待される出力: [['これ', 'は', 'テスト']]

    Parameters
    ----------
    item : Union[str, List[str]]
        N-gramに変換したい文字列、または分かち書きのリスト
    n : int
        N-gramのNに相当する数

    Returns
    -------
    List[str]
        itemをN-gramに変換した結果
    """
    # --- 以下に回答 ---
    if n < 1:
        raise Exception(f"n > 0 (but n={n})")
    return [item[i: i + n] for i in range(len(item) - n + 1)]

In [376]:
# 作成したto_ngram関数の確認。すべてエラーにならなければ合格。
from src.nlp.tokenizer import to_ngram

test_sentence = 'これはテスト'
test_list = ['これ', 'は', 'テスト']

assert to_ngram(test_sentence, 1) == ['こ', 'れ', 'は', 'テ', 'ス', 'ト']
assert to_ngram(test_sentence, 2) == ['これ', 'れは', 'はテ', 'テス', 'スト']
assert to_ngram(test_sentence, 3) == ['これは', 'れはテ', 'はテス', 'テスト']

assert to_ngram(test_list, 1) == [['これ'], ['は'], ['テスト']]
assert to_ngram(test_list, 2) == [['これ', 'は'], ['は', 'テスト']]
assert to_ngram(test_list, 3) == [['これ', 'は', 'テスト']]

print('合格!')

合格!


---
#### No.10: Sentencepiece
- Sentencepieceは教師なし学習によって文章の分割方法を学習してます
- 言葉の意味は考慮していないので形態素解析のように意味のある単語に分割するわけではないので注意
- 高頻度語は一つの単語として認識し、低頻度語は文字や部分文字列にする処理を行うので未知語が出にくいというのがメリット
- 今回は日本語Wikipediaを学習させたモデルをロードして使用します
- このセクションは問いはありませんが、使えるようにしてください

In [133]:
from torchtext.data.functional import load_sp_model, sentencepiece_tokenizer
from src.constants import SENTENCE_PIECE_MODEL_PATH

sp_model = load_sp_model(SENTENCE_PIECE_MODEL_PATH)
sp_tokens_generator = sentencepiece_tokenizer(sp_model)

sentence = '他者と比べるのではなく、過去の自分と比べなさい'

sp_result = list(sp_tokens_generator([sentence]))[0]
# 文頭、空白は'_'になります
print(sp_result)

['▁', '他者', 'と比べ', 'る', 'のではなく', '、', '過去の', '自分', 'と比べ', 'なさい']


---
---
### torchtextを用いたデータセット作成と機械学習を用いたテキスト分類
- torchtextはpytorchやtensorflowなどのDeep Learningフレームワークで利用される言語処理でやっかいな前処理、データセット作成を簡単にしてくれるお役立ちツール
- 今回はpytorchを用いてchABSA_datasetのポジティブ、ネガティブ分類をします。<br>(chABSA_datasetについて: https://github.com/chakki-works/chABSA-dataset)

目標：torchtextとPytorchを用いてデータの前処理から機械学習器の学習、評価までの流れを身につける

torchtextの役割について
![ImageError](https://qiita-user-contents.imgix.net/https%3A%2F%2Fqiita-image-store.s3.amazonaws.com%2F0%2F183955%2Fff027e0f-7cd1-6a76-0eaa-05b8ae61074e.png?ixlib=rb-1.2.2&auto=format&gif-q=60&q=75&w=1400&fit=max&s=5f14490ebe9a8903ba827c935ebbd5de)
（出典: https://qiita.com/itok_msi/items/1f3746f7e89a19dafac5）

In [135]:
# このセルをShift+Enterで実行してください
%reload_ext autoreload
%autoreload 2

import os
import glob
from typing import List, Union
from pprint import pprint
from tqdm import tqdm

DATAPATH = os.getenv('DATAPATH')
chABSA_PATH = os.path.join(DATAPATH, 'chABSA_dataset/')

In [137]:
# このセルをShift+Enterで実行してください
# chABSA_datasetから今回使うデータだけ抽出しています。

def get_chABSA_dataset(directory_path: str) -> List[List[Union[str, int]]]:
    """chABSA_datasetの読み込み

    Parameters
    ----------
    directory_path : str
        対象のファイルパス

    Returns
    -------
    List[List[Union[str, int]]]
        [[sentence, score],[sentence, score],...,[sentence, score]]となるようにデータを返す
        - sentence は result_dict['sentences'][i]['sentence']
    """
    dataset_list = []
    file_path_list = glob.glob(directory_path + '*.json')
    for file_path in tqdm(file_path_list):
        result_dict = read_json(file_path)
        for sentence in result_dict['sentences']:
            score = 0
            for opinion in sentence['opinions']:
                polarity = opinion['polarity']
                if polarity == 'positive':
                    score += 1
                elif polarity == 'negative':
                    score -= 1
            dataset_list.append([sentence['sentence'], score])
    return dataset_list

chABSA_dataset = get_chABSA_dataset(directory_path=chABSA_PATH)

100%|██████████| 230/230 [02:40<00:00,  1.43it/s]


In [261]:
# このセルをShift+Enterで実行してください
# 最小スコアが-10であるためscoreを+10する
for i in range(len(chABSA_dataset)):
    chABSA_dataset[i][1] += 10

In [262]:
# このセルをShift+Enterで実行してください
# chABSA_datasetから今回使うデータを抽出し、データを分割してtsvファイルに書き込み。

from sklearn.model_selection import train_test_split
from src.file_writer import write_in_separated_value_file

# 訓練、評価、テスト用にデータを分割
train_data, test_valid_data = train_test_split(chABSA_dataset, test_size=0.2, shuffle=True, random_state=12345)
valid_data, test_data = train_test_split(test_valid_data, test_size=0.5, shuffle=True, random_state=12345)

# ファイルに書き込み
write_in_separated_value_file('./train.tsv', train_data, '\t')
write_in_separated_value_file('./test.tsv', test_data, '\t')
write_in_separated_value_file('./valid.tsv', valid_data, '\t')

---
#### No.11: torchtextを用いた機械学習
- 機械学習モデルのトレーニング用、学習評価用、テスト用のデータをそれぞれ作成する
- ミニバッチを作成することで学習を効率化する
- 機械学習器にトレーニングデータを入力して学習させる
- 学習後のモデルにテストデータを入力して精度を評価する
- このセクションに問いはありませんが、使えるようにしてください

torchtext.datasetsのデータ構造イメージ
（Exampleクラスは最新バージョンでは廃止され、torchtext.legacyに取り込まれる模様）
![ImageError](https://i0.wp.com/hacks.deeplearning.jp/wp-content/uploads/2017/10/%E3%82%B9%E3%82%AF%E3%83%AA%E3%83%BC%E3%83%B3%E3%82%B7%E3%83%A7%E3%83%83%E3%83%88-2017-10-17-16.23.46.png?w=1379&ssl=1)
(出典: https://hacks.deeplearning.jp/torchtext/)

In [263]:
# 実行に少し時間かかります
import torch
import torch.nn as nn

import torchtext
from torchtext import data
from torchtext import datasets

import nltk
from nltk.corpus import stopwords
from nltk.stem.porter import PorterStemmer

from janome.tokenizer import Tokenizer as JanomeTokenizer

janome_tokenizer = JanomeTokenizer()
nltk.download('stopwords')

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# 分かち書き関数を定義
def tokenize_by_janome(sentence: str) -> List[str]:
    return list(janome_tokenizer.tokenize(sentence, wakati=True))

# ストップワードを定義
def get_stopwords() -> set:
    stopword_list = []
    eng_stopword_list = stopwords.words('english')
    stopword_list += eng_stopword_list
    return set(stopword_list)

# 分かち書き後の各単語に対する前処理
stemmer = PorterStemmer()
def stemming(s: str) -> str:
    # ステミング (語幹抽出)
    return stemmer.stem(s)

# Fieldクラスを定義
text_field = data.Field(
    sequential=True,  # Falseなら、tokenizeしない (デフォルト: True)
    use_vocab=True,  # Trueなら、ボキャブラリを使って数値化する
    tokenize=tokenize_by_janome,  # 文章を単語などのトークンに分割する処理 (デフォルト: str.split)
    lower=True,  # 英文字を小文字に統一 (デフォルト: False)
    init_token=None,   # 文頭に付与するトークン (デフォルト: None)
    eos_token=None,  # 文末に付与するトークン (デフォルト: None)
    fix_length=None,  # 1文あたりのワード数を固定、不足する場合はパディング (デフォルト: None)
    pad_first=False,  # パディングを最初にいれるかどうか (デフォルト: False)
    truncate_first=False,  # fix_lengthを超えた場合に先頭から単語を削るかどうか (デフォルト: False -> 後ろから削られる)
    stop_words=get_stopwords(),  # 除去するストップワード
    preprocessing=data.Pipeline(stemming),  # tokenize後の各単語に行う処理 (デフォルト: None)
    postprocessing=None,  # ミニバッチ単位で行う処理 (デフォルト: None)
    dtype=torch.long,  # データの型 (デフォルト: torch.long)
    include_lengths=False,  # パディングした文とあわせて長さを返すかどうか (デフォルト: False)
    is_target=False,  # ラベルフィールドかどうか (デフォルト: False) 
    batch_first=False,  # ミニバッチの次元を最初に追加するかどうか (デフォルト: False)
)
label_field = data.Field(
    sequential=False,
    use_vocab=False,
    is_target=True
)

# Fieldクラスの処理順序
# 1. UTF-8へのエンコード (Python 2のみ)
# 2. tokenize
# 3. 小文字化 (lower=Trueのみ)
# 4. ストップワードの除去 (stop_wordsに値が設定されている場合のみ)
# 5. preprocessingの実行 (preprocessingが設定されている場合のみ)
# 上記の順序で処理されるためどういう処理をどこに組み込むべきかを考える必要がある

# TSVファイルからDatasetにロード
train_dataset, valid_dataset, test_dataset = data.TabularDataset.splits(
    path="./",  # ファイルまでのパス(相対パス、絶対パスどちらでもOK)
    format="tsv",  # tsv, csv, json
    fields=[("Text", text_field), ("Label", label_field)],  # 読み込むファイルの各列のFieldを指定(今回は1列目に文章, 2列目にラベル)
    skip_header=False,  # ヘッダー行がある場合はTrue
    train='train.tsv',  # トレーニング用
    test='test.tsv',  # テスト用
    validation='valid.tsv'  # バリデーション用
)

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [264]:
# データの中身を確認
print(f'list(train_dataset.Text)[0]:\n{list(train_dataset.Text)[0]}\n')
print(f'list(train_dataset.Label)[0]:\n{list(train_dataset.Label)[0]}')

list(train_dataset.Text)[0]:
['この', 'よう', 'な', '環境', 'の', 'もと', '、', '当社', 'グループ', 'は', '価値', 'ある', 'もの', 'を', 'お客様', 'に', '提供', 'できる', 'よう', '、', '漁港', '直送', '鮮魚', 'の', '調達', '拡大', 'を', 'はじめ', 'と', 'する', '、', '食', 'の', '六', '次', '産業', '化', 'と', '地産', '地', '消', '・', '地産', '全', '消', 'の', '推進', 'に', '積極', '的', 'に', '取り組ん', 'で', 'おり', 'ます']

list(train_dataset.Label)[0]:
10


In [157]:
# 既存で用意されたVectorizerで単語をベクトル化する場合（今回はTransformerというモデルを使うため不使用）
# 初回fasttextの学習済みモデルのダウンロード、セッティングに時間がかかります（10~15分程度）
fasttext = torchtext.vocab.FastText(language="ja")

# stoi: string to index
# itos: index to string
print(fasttext.vectors[fasttext.stoi['平成']])

2020-08-30 11:31:43,815 | INFO | 11 | Downloading vectors from https://dl.fbaipublicfiles.com/fasttext/vectors-wiki/wiki.ja.vec
.vector_cache/wiki.ja.vec: 1.37GB [11:25, 2.00MB/s]                               
2020-08-30 11:43:09,364 | INFO | 11 | Extracting vectors into .vector_cache
2020-08-30 11:43:09,392 | INFO | 11 | Loading vectors from .vector_cache/wiki.ja.vec
100%|██████████| 580000/580000 [05:25<00:00, 1782.11it/s]
2020-08-30 11:48:45,042 | INFO | 11 | Saving vectors to .vector_cache/wiki.ja.vec.pt


tensor([  1.8176,  -1.6412,  -1.6221,  -8.3127,  -0.9679,  -1.1080,   1.5067,
          0.9133,   3.0076,  -2.5472,   0.1931,   2.6350,  -1.8948,  -1.8723,
          2.3921,  -0.5426,  -4.8425,  -2.3739,  -2.9510,   1.8591,   1.3957,
         -2.8972,  -1.8383,  -0.5971,   1.3107,  -4.9171,   2.5857,   1.4835,
          1.6413,  -4.0612,  -0.1401,  -0.9013,  -4.6393,  -5.4123,  -3.4355,
         -2.8420,  -2.8299,  -5.3746,   5.2772,  -3.4854,   1.8954,   2.7435,
          2.0760,  -3.2331,  -2.9379,  -1.2515,   1.4767,   1.9124,   2.0021,
          1.1575,  -3.2919,   2.2986,  -0.7912,   4.7897,   1.1150,  -0.7593,
         -0.8943,   2.7334,  -2.7593,   1.9066,   0.5018,   1.8050,   0.0363,
          2.6386,  -2.5067,  -1.2310,   3.2914,   3.0996,   6.9098,  -4.6643,
          2.5215,   2.8582,  -4.4200,   4.2494,  -4.0428,   0.5242,   0.3955,
          2.0202,  -3.0462,   3.7632,  -2.0162,   4.8915,   1.8974,  11.7800,
          0.3943,   0.3840,   2.2006,   3.1889,  -1.7653,  -3.11

In [266]:
# Fieldクラス内にVocabオブジェクトを作成（単語、出現頻度、単語のIndex情報が入ります）

text_field.build_vocab(
    train_dataset,  # トレーニング用のデータを入れること。テストデータまで含めるとテストの意味がなくなる。
    vectors=fasttext,  # 既存のモデルからベクトル化する場合は指定(デフォルト: None)
    min_freq=3,  # min_freq以下でしか出現しない単語を未知語として扱う(デフォルト: 1)
    unk_init=None,  # 未知語の場合のベクトル値を指定できる。特に指定なければゼロベクトルとする(デフォルト: None)
    specials=['<unk>', '<pad>']  # paddingやeos(end of sentence)などを示すトークンを指定(デフォルト: ['<unk>', '<pad>'])
)

In [354]:
# Vocabオブジェクトの確認

# 語彙(知っている単語)の確認
print(f'語彙の確認:\n{text_field.vocab.itos[:20]}\n')

# 語彙内のトークンの出現頻度確認
print(f'出現頻度の確認:\n{list(text_field.vocab.freqs.items())[:20]}\n')

# トークンのベクトル化
print(f'「平成」の存在確認: {text_field.vocab["平成"]}')  # 0でなければ存在
print(f'「平成」ベクトル:\n{text_field.vocab.vectors[text_field.vocab.stoi["平成"]]}\n')

print(f'「江戸」の存在確認: {text_field.vocab["江戸"]}')  # 0でなければ存在
print(f'「江戸」ベクトル:\n{text_field.vocab.vectors[text_field.vocab.stoi["江戸"]]}\n')

語彙の確認:
['<unk>', '<pad>', '、', 'の', 'は', 'た', 'に', 'まし', 'を', 'と', '円', 'し', 'が', '万', '百', '（', '）', 'で', '.', 'て']

出現頻度の確認:
[('この', 378), ('よう', 237), ('な', 1030), ('環境', 338), ('の', 9308), ('もと', 71), ('、', 10592), ('当社', 503), ('グループ', 375), ('は', 5657), ('価値', 95), ('ある', 280), ('もの', 68), ('を', 3459), ('お客様', 70), ('に', 4141), ('提供', 98), ('できる', 37), ('漁港', 1), ('直送', 2)]

「平成」の存在確認: 111
「平成」ベクトル:
tensor([  1.8176,  -1.6412,  -1.6221,  -8.3127,  -0.9679,  -1.1080,   1.5067,
          0.9133,   3.0076,  -2.5472,   0.1931,   2.6350,  -1.8948,  -1.8723,
          2.3921,  -0.5426,  -4.8425,  -2.3739,  -2.9510,   1.8591,   1.3957,
         -2.8972,  -1.8383,  -0.5971,   1.3107,  -4.9171,   2.5857,   1.4835,
          1.6413,  -4.0612,  -0.1401,  -0.9013,  -4.6393,  -5.4123,  -3.4355,
         -2.8420,  -2.8299,  -5.3746,   5.2772,  -3.4854,   1.8954,   2.7435,
          2.0760,  -3.2331,  -2.9379,  -1.2515,   1.4767,   1.9124,   2.0021,
          1.1575,  -3.2919,   2.2986,  -0.791

In [267]:
# イテレータの作成
batch_sizes = (10,5,5)

train_iter, valid_iter, test_iter = data.BucketIterator.splits(
    (train_dataset, valid_dataset, test_dataset),  # 最初の要素はトレーニング用のデータセットでないといけない
    batch_sizes=batch_sizes,  # 1バッチ内に含むデータ数
    sort_key=lambda x: len(x.Text),  # バッチ内の単語数のばらつきをなくすために単語数
)
# トレーニングデータのイテレータには自動的にデータのシャッフルと繰り返し設定が有効となっている



In [268]:
# イテレータの確認
train_batch = next(iter(train_iter))

# 1バッチ内にbatch_sizes[0]個のデータが入っていることを確認
# Iterator内のTextフィールドを見ると中には単語の文字列ではなく、単語のIDが入っていることに注意
# バッチ内の次元は[センテンス内の単語サイズ, バッチサイズ]となっている
print(f'バッチ内のTextフィールドのテンソルサイズ: {train_batch.Text.shape}')
print(f'バッチのTextフィールドを確認: {train_batch.Text}')
print()
print(f'バッチ内のLabelフィールドのテンソルサイズ: {train_batch.Label.shape}')
print(f'バッチのLabelフィールドを確認: {train_batch.Label}')

バッチ内のTextフィールドのテンソルサイズ: torch.Size([135, 10])
バッチのTextフィールドを確認: tensor([[ 144,   15, 1441,  ...,  269,  406,   56],
        [  60,  347,  193,  ...,    3,   51,  220],
        [   4,   16,   32,  ...,   59,   88,  625],
        ...,
        [   1,    1,    1,  ...,    1,    1,    1],
        [   1,    1,    1,  ...,    1,    1,    1],
        [   1,    1,    1,  ...,    1,    1,    1]])

バッチ内のLabelフィールドのテンソルサイズ: torch.Size([10])
バッチのLabelフィールドを確認: tensor([11, 10, 10, 10, 11,  9, 10, 14, 10, 10])




近年言語処理界隈で様々な機械学習器のベースとなっているTransformerを用いて分類を行う<br>
下の記事を読んでおくとコードの理解がしやすいと思います。
- 元論文はこちら(https://arxiv.org/abs/1706.03762)
- わかりやすい日本語解説(https://qiita.com/omiita/items/07e69aef6c156d23c538)
![ImageError](https://pytorch.org/tutorials/_images/transformer_architecture.jpg)
（出典: https://pytorch.org/tutorials/beginner/transformer_tutorial.html ）

In [350]:
# 機械学習器のモデルパラメータを定義
from src.torch_model.transformer_model import TransformerModel  # モデルの書き方はソースコードを見てください

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")  # GPUかCPUか
ntokens = len(text_field.vocab.stoi)  # トレーニングデータ内の語彙サイズ
embed_size = 200  # 単語埋め込みベクトルの次元数
nhid = 200  # ニューラルネットワークの隠れ層のユニット数
nlayers = 1 # TransformerEncoder層の層数
nhead = 1 # MultiHead Attention層の数
dropout = 0.3 # ドロップアウトの割合
is_classifier = True  # 分類問題の場合はTrue
n_class = 21  # 分類するクラス数
model = TransformerModel(ntokens, embed_size, nhead, nhid, nlayers, dropout, is_classifier, n_class).to(device)

In [351]:
# トレーニング用のパラメータを設定
import math

criterion = torch.nn.CrossEntropyLoss()  # 損失関数の定義（期待される出力との誤差を求めるものと思っていただければ良い）
lr = 2.0  # learning rate(学習率)　大きければ大きいほど誤差を修正する勢いが強くなるが、学習が収束しないことがある
optimizer = torch.optim.SGD(model.parameters(), lr=lr)  # 最適化関数の種類 SGD: 確率的勾配降下法
scheduler = torch.optim.lr_scheduler.StepLR(
    optimizer,
    step_size=1,  # 学習率の減衰を何ステップごとに行うか
    gamma=0.9  # 減衰率
)  # 学習回数経過による学習率減衰のスケジュール

# トレーニング用スクリプト
import time
def train(log_interval: int = 50) -> None:
    if log_interval < 1:
        raise Exception('log_intervalは1以上の整数で指定')
        return
    model.train() # モデルをトレーニングモードに変更
    total_loss = 0.
    start_time = time.time()
    # ミニバッチ単位でループ
    for i, batch in enumerate(train_iter):
        optimizer.zero_grad()  # 重み更新量の初期化
        output = model(batch.Text)  # ミニバッチのtext_fieldを入力
        loss = criterion(output.view(-1, batch.Label.shape[0]).T, batch.Label)  # 誤差の計算
        loss.backward()  # 誤差逆伝搬（バックプロパゲーション: BP）
        torch.nn.utils.clip_grad_norm_(model.parameters(), 0.5)  # BPの重み更新量の爆発を防ぐ正則化処理
        optimizer.step()  # 重みの更新

        total_loss += loss.item()  # ログ出力までの損失を合計
        if i % log_interval == 0 and i > 0:
            cur_loss = total_loss / log_interval  # ミニバッチ１つあたりの損失の平均
            elapsed = time.time() - start_time  # 経過時間
            print('| epoch {:3d} | {:5d}/{:5d} batches | '
                  'lr {:02.2f} | ms/batch {:5.2f} | '
                  'loss {:5.2f}'.format(
                    epoch, i, len(train_iter), scheduler.get_lr()[0],
                    elapsed * 1000 / log_interval,
                    cur_loss))
            total_loss = 0
            start_time = time.time()

# 評価用スクリプト
def evaluate(eval_model, batch_iterator) -> float:
    eval_model.eval()  # モデルをトレーニングモードに変更
    total_loss = 0.
    counter = 0
    with torch.no_grad():  # 勾配計算をしない
        for i, batch in enumerate(batch_iterator):
            output = eval_model(batch.Text)
            output_flat = output.view(-1, batch.Label.shape[0]).T  # 出力されるテンソルの次元をbatch.Labelと損失計算できるように転置
            total_loss += criterion(output_flat, batch.Label).item()
            counter += 1
    return total_loss / ((counter*batch_iterator.batch_size) - 1)  # 平均の損失値

In [352]:
# モデルのトレーニング
best_val_loss = float("inf")
epochs = 30  # 学習回数
best_model = None

for epoch in range(1, epochs + 1):
    epoch_start_time = time.time()
    train()
    val_loss = evaluate(model, valid_iter)
    print('-' * 89)
    print(
        '| end of epoch {:3d} | time: {:5.2f}s | valid loss {:5.2f}'.format(
            epoch, (time.time() - epoch_start_time), val_loss
        )
    )
    print('-' * 89)

    if val_loss < best_val_loss:
        best_val_loss = val_loss
        best_model = model

    scheduler.step()

| epoch   1 |    50/  490 batches | lr 2.00 | ms/batch 374.93 | loss 139.18
| epoch   1 |   100/  490 batches | lr 2.00 | ms/batch 417.33 | loss 88.17
| epoch   1 |   150/  490 batches | lr 2.00 | ms/batch 632.02 | loss 53.17
| epoch   1 |   200/  490 batches | lr 2.00 | ms/batch 452.77 | loss 41.99
| epoch   1 |   250/  490 batches | lr 2.00 | ms/batch 486.47 | loss 42.07
| epoch   1 |   300/  490 batches | lr 2.00 | ms/batch 440.06 | loss 42.25
| epoch   1 |   350/  490 batches | lr 2.00 | ms/batch 388.28 | loss 38.80
| epoch   1 |   400/  490 batches | lr 2.00 | ms/batch 348.05 | loss 38.74
| epoch   1 |   450/  490 batches | lr 2.00 | ms/batch 334.73 | loss 34.98
-----------------------------------------------------------------------------------------
| end of epoch   1 | time: 211.89s | valid loss  4.19
-----------------------------------------------------------------------------------------
| epoch   2 |    50/  490 batches | lr 1.62 | ms/batch 309.18 | loss 41.94
| epoch   2 |  

In [355]:
# 学習済みモデルの保存
torch.save(best_model, './chABSA_clasifier_best.model')

# vocabオブジェクトの保存（単語をIDに変換する辞書があるため）
import pickle
with open('./vocab.pkl', 'wb') as f:
    pickle.dump(text_field.vocab, f)

In [356]:
# test_dataのLossの確認
evaluate(best_model, test_iter)



0.6328783963324581

In [361]:
# 実際にテキストを入力して学習済みモデルの出力を確認する

def predictor(model, dataset, top_k=3) -> None:
    model.eval()
    with torch.no_grad():
        for data in dataset:
            token_to_id_list = [text_field.vocab[token] for token in data.Text]  # 単語をIDに変換
            tensor = torch.tensor([token_to_id_list], dtype=torch.long).T  # バッチサイズ1としてモデルに入力するためのテンソルを作成
            output = model(tensor)
            prob = nn.functional.softmax(output, dim=1)
            val, idx = torch.topk(prob[0], k=prob.shape[1])  # 分類結果を確率順に取得
            print(f'input text: {"".join(data.Text)}')
            print(f'answer label: {data.Label}')
            for i in range(top_k):
                print(f'predict_{i+1}: {idx[i]}  (Probability: {(val[i] * 100):.2f}[%])')
            print('---' * 10)
    print('Completed')

In [362]:
# テストデータセットの結果を見てみる
predictor(model=best_model, dataset=test_dataset, top_k=3)

input text: 以上の結果、外部顧客への売上高は、60,263百万円（前期比8.9％増）と増収となったものの、営業利益は、プリンター向け機能部品などエレクトロニクス分野での市場低迷や健康介護事業など新規事業の開発コストの負担などが収益を圧迫し、1,101百万円（前期比9.6％減）となりました
answer label: 10
predict_1: 10  (Probability: 12.76[%])
predict_2: 13  (Probability: 12.65[%])
predict_3: 18  (Probability: 10.90[%])
------------------------------
input text: 真空技術応用装置事業の業績につきましては、主にスマートフォンに搭載される電子部品、光学部品向けの製造装置の受注が好調に推移しました
answer label: 11
predict_1: 10  (Probability: 8.72[%])
predict_2: 18  (Probability: 8.01[%])
predict_3: 13  (Probability: 7.23[%])
------------------------------
input text: 一方で、営業利益は、前期に実施した事業構造改善の影響のほか、海外における売上の増加が収益に寄与したこともあり、12,499百万円（前期比7.3％増）と増益となりました
answer label: 12
predict_1: 10  (Probability: 9.88[%])
predict_2: 18  (Probability: 9.76[%])
predict_3: 13  (Probability: 8.65[%])
------------------------------
input text: アルミホイールは、出荷量が減少したほか、為替相場が円高基調となった影響により、前年同期を下回りました
answer label: 8
predict_1: 10  (Probability: 7.66[%])
predict_2: 18  (Probability: 7.30[%])
predict_3: 2  (Probability: 6.6

In [364]:
# トレーニングデータセットの結果を見てみる(100件)
predictor(model=best_model, dataset=train_dataset[:100], top_k=3)

input text: このような環境のもと、当社グループは価値あるものをお客様に提供できるよう、漁港直送鮮魚の調達拡大をはじめとする、食の六次産業化と地産地消・地産全消の推進に積極的に取り組んでおります
answer label: 10
predict_1: 10  (Probability: 10.40[%])
predict_2: 18  (Probability: 9.47[%])
predict_3: 13  (Probability: 8.62[%])
------------------------------
input text: 個人消費では、百貨店・スーパー販売額におきまして、惣菜をはじめとした食料品が堅調に推移する一方、残暑が長引いた影響により衣料品販売が不振となるなど、全体としては一進一退の動きとなりました
answer label: 10
predict_1: 10  (Probability: 10.58[%])
predict_2: 18  (Probability: 9.39[%])
predict_3: 2  (Probability: 8.10[%])
------------------------------
input text: 情報通信機器の普及状況を見ると、スマートフォンが72.0％（前年同期比7.8ポイント増）、タブレット端末が33.3％（前年同期比7.0ポイント増）と、いずれも保有率は大きく上昇しております
answer label: 12
predict_1: 10  (Probability: 10.51[%])
predict_2: 18  (Probability: 9.76[%])
predict_3: 13  (Probability: 8.85[%])
------------------------------
input text: 当事業の売上高は14,232百万円（前期比1.2％増）、受注高は14,635百万円（前期比4.2％増）、セグメント利益は2,095百万円（前期比5.5％増）となりました
answer label: 13
predict_1: 18  (Probability: 9.90[%])
predict_2: 10  (Probability: 9.58[%])
predic

---
#### No.12（Challenge！!!）: モデルの精度を上げるための工夫を考える
- No.11を参考にchABSA_datasetの分類精度を上げるために、どういった工夫が必要か考え、マークダウンで下のセルに回答してください。いくつ書いていただいても構いません。

このセルに回答を記載してください。このセルはマークダウン形式になっています。



---
#### No.13（Challenge！!!）: No.12であげていただいた工夫を実践してください
- コードはコピペして書き換えていただいても構いませんし、イチから書いていただいても構いません。

In [None]:
# --- 以下に回答 ---
