# NLP; Natural Language Processing 100 KNOCKs!!!!
https://nlp100.github.io/ja/
## 配布しているデータについて
- baby-names.txt: 米国社会保障局 (SSA: Social Security Administration)のウェブサイト”Beyond the Top 1000 Names“で公開されている全州のデータを加工し，TSV形式に変換したもの．
- jawiki-country.json.gz: 2020年4月5日付けの日本語のWikipedia記事のダンプの中から，国家に言及していると思われる記事を抽出し，JSON形式で格納したものです．このファイルは，クリエイティブ・コモンズ 表示-継承 3.0 非移植のライセンスで配布されています．
- neko.txt: 青空文庫で公開されている夏目漱石の長編小説『吾輩は猫である』をテキストファイルに整形したものです．

In [2]:
try:
    import japanize_matplotlib
except ModuleNotFoundError:
    !pip install japanize_matplotlib

Processing ./.cache/pip/wheels/89/17/dd/5581d8a65aeb283780aba4d50e40ba74e695fc0e9948756082/japanize_matplotlib-1.1.2-py3-none-any.whl
Installing collected packages: japanize-matplotlib
Successfully installed japanize-matplotlib-1.1.2
You should consider upgrading via the '/root/local/python-3.8.3/bin/python -m pip install --upgrade pip' command.[0m


----

# 第１章 準備運動

----

## 00. 文字列の逆順 
文字列”stressed”の文字を逆に（末尾から先頭に向かって）並べた文字列を得よ．

In [None]:
s = "stressed"
print(s[::-1])

## 01. 「パタトクカシーー」 
「パタトクカシーー」という文字列の1,3,5,7文字目を取り出して連結した文字列を得よ．

In [None]:
s = "パタトクカシー"
s[::2]

## 02. 「パトカー」＋「タクシー」＝「パタトクカシーー」 
「パトカー」＋「タクシー」の文字を先頭から交互に連結して文字列「パタトクカシーー」を得よ．

In [None]:
s1 = "パトカー"
s2 = "タクシー"
s = ""
for i in range(4):
    s += s1[i]+s2[i]
print(s)

## 03. 円周率 
“Now I need a drink, alcoholic of course, after the heavy lectures involving quantum mechanics.”という文を単語に分解し，各単語の（アルファベットの）文字数を先頭から出現順に並べたリストを作成せよ．

In [None]:
import re
import numpy as np
sentence = "Now I need a drink, alcoholic of course, after the heavy lectures involving quantum mechanics."
word_len = [len(word) for word in re.sub("[,.]", "", sentence).split(" ")]
#======------======#
print(sentence)
print(re.sub("[,.]", "", sentence))
print(re.sub("[,.]", "", sentence).split(" "))
print(word_len)
print(np.round(np.pi, len(re.sub("[,.]", "", sentence).split(" "))-1))

## 04. 元素記号 
“Hi He Lied Because Boron Could Not Oxidize Fluorine. New Nations Might Also Sign Peace Security Clause. Arthur King Can.”という文を単語に分解し，1, 5, 6, 7, 8, 9, 15, 16, 19番目の単語は先頭の1文字，それ以外の単語は先頭に2文字を取り出し，取り出した文字列から単語の位置（先頭から何番目の単語か）への連想配列（辞書型もしくはマップ型）を作成せよ．

In [None]:
import re
sentence = "Hi He Lied Because Boron Could Not Oxidize Fluorine. New Nations Might Also Sign Peace Security Clause. Arthur King Can."
words    = re.sub("[,.]", "", sentence).split(" ")
print(words)

In [None]:
pick_1_idxs = [1,5,6,7,8,9,15,16,19]
word_ini_dict = {}
for i, word in enumerate(words):
    adjust = i+1 not in pick_1_idxs
    word_ini_dict[i+1] = word[:1+int(adjust)]
word_ini_dict
# 12: Might -> Mi が惜しい。。。

In [None]:
# もし一行で書くなら、、、（わかりやすくインデントつけたけど）
{
    i+1 : word[:1+int(i+1 not in [1,5,6,7,8,9,15,16,19])] 
        for i, word in enumerate(
            re.sub("[,.]", "", sentence).split(" ")
        )
}

## 05. n-gram 
与えられたシーケンス（文字列やリストなど）からn-gramを作る関数を作成せよ．この関数を用い，”I am an NLPer”という文から単語bi-gram，文字bi-gramを得よ．

In [None]:
sentence = "I am an NLPer"

def get_n_gram(sentence:str, target="word", n=2) -> list:
    if target=="word":
        targets = sentence.split(" ")
    elif target=="letter":
        targets = [l for l in sentence.replace(" ", "")]
    else:
        raise KeyError(f"Invalid target key '{target}' was input. Target key should be 'word' or 'letter'.")
    n_grams = []
    for i in range(0, len(targets)-(n-1)):
        #print(f"n={n}; i = {i}, then targets[i:i+n] = {targets[i:i+n]}")
        n_grams.append(
            "".join(targets[i:i+n])
        )
    else:
        return n_grams

In [None]:
target_keys = ["word", "letter"]#, "phrase"]
n = 2
for target in target_keys:
    print(f"target_key is {target: >6}, then n_gram(n={n}) is {get_n_gram(sentence, target=target, n=n)}")

In [None]:
# smart ans?? from u++ -> https://upura.hatenablog.com/entry/2020/04/14/032840
def n_gram(target, n):
    return [target[idx:idx + n] for idx in range(len(target) - n + 1)]
    # スペースも無視していいのか（一文字扱いしている）

text = "I am an NLPer"
for i in range(1, 4):
    print("#"*5, " n = ", i, " ", "#"*5)
    print(n_gram(text, i))
    print(n_gram(text.split(" "), i))

## 06. 集合 
“paraparaparadise”と”paragraph”に含まれる文字bi-gramの集合を，それぞれ, XとYとして求め，XとYの和集合，積集合，差集合を求めよ．さらに，’se’というbi-gramがXおよびYに含まれるかどうかを調べよ．

In [None]:
sent_1 = "paraparaparadise"
sent_2 = "paragraph"
X = get_n_gram(sent_1, target="letter", n=2)
Y = get_n_gram(sent_2, target="letter", n=2)
print(f"bi-gram of '{sent_1}' =: X; {X}")
print(f"bi-gram of '{sent_2}' =: Y; {Y}")

In [None]:
# Union of X and Y
union = set(np.array(X+Y))
# product set of X and Y
prod  = set([x_ for x_ in X if x_ in Y])
# difference set of X and Y
diff  = set([x_ for x_ in X if x_ not in Y]+[y_ for y_ in Y if y_ not in X])
# "se" is in X and Y as bi-gram??
se_in_X = "se" in X
se_in_Y = "se" in Y
se_in_XandY = se_in_X&se_in_Y

print(f"     union set of X and Y: {union}")
print(f"   product set of X and Y: {prod}")
print(f"difference set of X and Y: {diff}")
print(f"'se' is in X and Y??: in X; {se_in_X}, in Y; {se_in_Y}, totally {se_in_XandY}.")

In [None]:
# use logical operator from u++ -> https://upura.hatenablog.com/entry/2020/04/14/033506
print(f"     union set of X and Y: {set(X) | set(Y)}")
print(f"   product set of X and Y: {set(X) & set(Y)}")
print(f"difference set of X and Y: {set(X) - set(Y)}") # ここの出力が違う？？
print(f"'se' is in X and Y??: in X; {'se' in set(X)}, in Y; {'se' in set(X)}, totally {'se' in (set(X) & set(Y))}.")

## 07. テンプレートによる文生成 
引数x, y, zを受け取り「x時のyはz」という文字列を返す関数を実装せよ．さらに，x=12, y=”気温”, z=22.4として，実行結果を確認せよ．

In [None]:
def gen_template(x, y, z):
    return f"{str(x)}時の{str(y)}は{str(z)}"

In [None]:
gen_template(x=12, y="気温", z=22.4)

## 08. 暗号文 
与えられた文字列の各文字を，以下の仕様で変換する関数cipherを実装せよ．

- 英小文字ならば(219 - 文字コード)の文字に置換
- その他の文字はそのまま出力
- この関数を用い，英語のメッセージを暗号化・復号化せよ．

- 文字の文字コードを取得 ... `ord()`
- 文字コードの文字を取得 ... `chr()`

In [None]:
def cipher(letters):
    return "".join([
        letter if not letter.islower() else chr(219-ord(letter)) for letter in letters
    ])

In [None]:
origin = "We have a Gift 4 You."
encod  = cipher(origin)
decod  = cipher(encod)
print(f"original sentence: {origin}")
print(f" encoded sentence: {encod}")
print(f" decoded sentence: {decod}")

In [None]:
def cipher(text):
    text = [chr(219 - ord(w)) if 97 <= ord(w) <= 122 else w for w in text]
    return ''.join(text)


text = 'this is a message.'
ans = cipher(text)
print(ans)
ans = cipher(ans)
print(ans)

## 09. Typoglycemia 
スペースで区切られた単語列に対して，各単語の先頭と末尾の文字は残し，それ以外の文字の順序をランダムに並び替えるプログラムを作成せよ．ただし，長さが４以下の単語は並び替えないこととする．適当な英語の文（例えば”I couldn’t believe that I could actually understand what I was reading : the phenomenal power of the human mind .”）を与え，その実行結果を確認せよ．

In [None]:
import random
import re

def rearrange_words(sentence, threshold_len=4, with_space=False) -> str:
    words = re.sub(r"[ ]+", r" ", re.sub(r"([,.:])", r" \1", sentence)).split(" ")
    # aaa, b: cc. -> aaa , b : cc . -> ["aaa", ",", "b", ":", "cc", "."]
    # 最初から a , b って感じに,.:の前後にスペースが入っていたなら、re.sub(r"([,.:])", r" \1", sentence) だけだと
    # 空白のみもsplitで得てしまうので、空白の重複を消すための re.sub(r"[ ]+", r" ", を頭に設置
    re_words = []
    for word in words:
        re_word = ""
        if len(word)<=threshold_len:
            re_word = word
        else:
            re_word = word[0]
            re_word += "".join(random.sample(word[1:-1], len(word[1:-1])))
            re_word += word[-1]
        re_words.append(re_word)
    else:
        if with_space: # ,.:の前後にもスペースがついた状態で返す
            return " ".join(re_words)
        else:
            return re.sub(r' ([,.:])', r'\1', " ".join(re_words))

In [None]:
sentence = "I couldn’t believe that I could actually understand what I was reading : the phenomenal power of the human mind ."
print("include blank in sentence around ',.:', \n",
    rearrange_words(sentence, 
                    threshold_len=4,
                    with_space=True)
)
print("#=-="*10)
print("ignore blank in sentence around ',.:', \n",
    rearrange_words(sentence, 
                    threshold_len=4,
                    with_space=False)
)

In [None]:
# from u++ -> https://upura.hatenablog.com/entry/2020/04/14/035314
def shuffleWord(word):
    if len(word) <= 4:
        return word
    else:
        start = word[0]
        end = word[-1]
        others = random.sample(list(word[1:-1]), len(word[1:-1]))
        return ''.join([start] + others + [end])


text = 'I couldn’t believe that I could actually understand what I was reading : the phenomenal power of the human mind .'
ans = [shuffleWord(w) for w in text.split()]
print(ans)

# 第２章 UNIXコマンド

[popular-names.txt](https://nlp100.github.io/data/popular-names.txt)は，アメリカで生まれた赤ちゃんの「名前」「性別」「人数」「年」をタブ区切り形式で格納したファイルである．以下の処理を行うプログラムを作成し，[popular-names.txt](https://nlp100.github.io/data/popular-names.txt)を入力ファイルとして実行せよ．さらに，同様の処理をUNIXコマンドでも実行し，プログラムの実行結果を確認せよ．

----

※参考unixコマンド一覧：http://www.ritsumei.ac.jp/~tomori/unix.html  
※Linuxコマンド：https://qiita.com/mtakehara21/items/43785df359eb276adee2  
unixコマンドだけで対応しきれない？Linuxコマンドも使用可？linuxコマンドもunixコマンドって捉えていいのか？  
でもLinuxコマンドだとWindows OS上で動作しないとかっていう問題も起こりうるよな、、？？

In [None]:
!wget https://nlp100.github.io/data/popular-names.txt -P ./section02/

In [None]:
!cat section02/popular-names.txt

## 10. 行数のカウント 
行数をカウントせよ．確認にはwcコマンドを用いよ．

In [None]:
def knock_10():
    print(np.loadtxt("section02/popular-names.txt", dtype="str").shape[0])
knock_10()

`wc` command returns -> numbers of lines, words, and letters, respectevily

In [None]:
!wc popular-names.txt

In [None]:
# pandas を使ってもおｋ
import pandas as pd
pd.read_csv("section02/popular-names.txt", delimiter="\t", header=None).shape[0]

## 11. タブをスペースに置換 
タブ1文字につきスペース1文字に置換せよ．確認にはsedコマンド，trコマンド，もしくはexpandコマンドを用いよ．

参考：https://qiita.com/shuntaro_tamura/items/e4e942e7186934fae5e7

In [None]:
def knock_11():
    with open("section02/popular-names.txt", "r") as f:
        lines = f.readlines()
    return [line.replace("\t", " ").strip() for line in lines]
knock_11()

In [None]:
# pandas ver
pd.read_csv("section02/popular-names.txt", delimiter="\t", header=None
           ).to_csv("section02/popular-names-space-delimiter.txt", sep=" ", index=False, header=None)
!cat section02/popular-names.txt | head -n3
!cat section02/popular-names-space-delimiter.txt | head -n3

In [None]:
!sed -e "s/\t/ /g" popular-names.txt

## 12. 1列目をcol1.txtに，2列目をcol2.txtに保存 
各行の1列目だけを抜き出したものをcol1.txtに，2列目だけを抜き出したものをcol2.txtとしてファイルに保存せよ．確認にはcutコマンドを用いよ．

In [None]:
def knock_12():
    with open("section02/popular-names.txt", "r") as f:
        lines = f.readlines()
    with open("section02/col1.txt", "w", encoding="utf-8") as f:
        f.writelines(
            [line.split("\t",1)[0]+"\n" for line in lines]
        )
    with open("section02/col2.txt", "w", encoding="utf-8") as f:
        f.writelines(
            [line.split("\t",2)[1]+"\n" for line in lines]
        )
    
knock_12()

In [None]:
# pandas ver
def knock_12_pd():
    df = pd.read_csv("section02/popular-names.txt", delimiter="\t", header=None)
    df[0].to_csv("section02/col1.txt", index=False, header=None)
    df[1].to_csv("section02/col2.txt", index=False, header=None)
    del df

In [None]:
with open("section02/col1.txt", "r") as f:
    print(f.readline().strip())
    #print(f.readlines())
with open("section02/col2.txt", "r") as f:
    print(f.readline().strip())
    #print(f.readlines())

In [None]:
!cut section02/popular-names.txt -f 1 > col1.txt
!cut section02/popular-names.txt -f 2 > col2.txt

## 13. col1.txtとcol2.txtをマージ 
12で作ったcol1.txtとcol2.txtを結合し，元のファイルの1列目と2列目をタブ区切りで並べたテキストファイルを作成せよ．確認にはpasteコマンドを用いよ．

In [None]:
import numpy as np
def knock_13():
    col1 = np.loadtxt("section02/col1.txt", dtype=str)
    col2 = np.loadtxt("section02/col2.txt", dtype=str)
    merged = np.vstack([col1, col2]).T
    print(merged)
    print(merged.shape)
    #np.savetxt("section02/merge_col1_2.txt", merged, delimiter="\t")
knock_13()

In [None]:
# pandas ver
def knock_13_pd():
    col1 = pd.read_csv("section02/col1.txt", header=None)
    col2 = pd.read_csv("section02/col2.txt", header=None)
    pd.concat([col1, col2], axis=1).to_csv("section02/marge_col1_2.txt", sep="\t", index=False, header=None)
    del col1, col2

In [None]:
# ref; https://www.atmarkit.co.jp/ait/articles/1704/07/news018.html
!paste -d "\t" section02/col[1-2].txt > section02/marge_col1_2.txt

## 14. 先頭からN行を出力 
自然数Nをコマンドライン引数などの手段で受け取り，入力のうち先頭のN行だけを表示せよ．確認にはheadコマンドを用いよ．

In [None]:
def knock_14(N: int = None):
    if N is None:
        N = int(input("plz input N (number of read lines)"))
    with open("section02/popular-names.txt", "r") as f:
#        for n_ in range(N):
#            print(f.readline().strip())
        for i, line in enumerate(f):
            if not i==N: print(line.strip())
            else:        break
knock_14()

In [None]:
# from u++ -> https://upura.hatenablog.com/entry/2020/04/14/174852
# コマンドライン引数は、`sys.argv`に格納される
# e.g. python hoge.py fuga -> sys.argv = [hoge.py, fuga]
# argparser を使用するのもアリ
import sys
def knock_14_pd():
    assert len(sys.argv)>1, 'plz set n (e.g. "python section02_14.py 7")'
    assert isinstance(sys.argv[1], int), f"input argment as n is not integer (sys.argv[1]={sys.argv[1]})."
    n = int(sys.argv[1])
    pd.read_csv("section02/popular-names.txt", delimiter="\t", dtype=object, header=None).head(n)
    
if __name__=="__main__":
    knock_14_pd()

In [None]:
# jupyter上だとreadに対して入力ができなかった、、、
#!echo -n N:
#!read num_lines
!head -n 7 section02/popular-names.txt

## 15. 末尾のN行を出力 
自然数Nをコマンドライン引数などの手段で受け取り，入力のうち末尾のN行だけを表示せよ．確認にはtailコマンドを用いよ．

In [None]:
# in case use pandas
def knock_15(N: int = None):
    if N is None:
        N = int(input("plz input N (number of read lines)"))
    import pandas as pd
    df = pd.read_csv("section02/popular-names.txt", delimiter="\t", dtype=object, header=None)
    return df.tail(N).values
knock_15()

In [None]:
# from u++ -> https://upura.hatenablog.com/entry/2020/04/14/175043
# コマンドライン引数は、`sys.argv`に格納される
# e.g. python hoge.py fuga -> sys.argv = [hoge.py, fuga]
# argparser を使用するのもアリ
import sys
def knock_15_pd():
    assert len(sys.argv)>1, 'plz set n (e.g. "python section02_14.py 7")'
    assert isinstance(sys.argv[1], int), f"input argment as n is not integer (sys.argv[1]={sys.argv[1]})."
    n = int(sys.argv[1])
    pd.read_csv("section02/popular-names.txt", delimiter="\t", dtype=object, header=None).tail(n)
    
if __name__=="__main__":
    knock_15_pd()

In [None]:
# in case use only default libraries
def knock_15(N: int = None):
    if N is None:
        N = int(input("plz input N (number of read lines)"))
    with open("section02/popular-names.txt", "r") as f:
        lines = f.readlines()
        for line in lines[-1*N:]:
            print(line.strip())
knock_15()

In [None]:
!tail -n 7 section02/popular-names.txt

## 16. ファイルをN分割する 
自然数Nをコマンドライン引数などの手段で受け取り，入力のファイルを行単位でN分割せよ．同様の処理をsplitコマンドで実現せよ．

In [None]:
with open("section02/xaa_knock16_split_by_line.txt", "r") as f:
    f.read()

In [None]:
def knock_16(N: int = None, splitby: str = "line"):
    """
    Parameters
    ----------
    splitby : str, default "line"
        if "line", then split file into files by each N line (create total_line/N files).
        if "block", then split file into N files.
    """
    if N is None:
        N = int(input("plz input N (number of read lines)"))
    if splitby=="line":
        with open("section02/popular-names.txt", "r") as f:
            lines = []
            for i, line in enumerate(f):
                lines.append(line)
                if i%N==N-1:
                    with open(f"section02/knock16_{i//N}_split_by_line.txt", "w") as fw:
                        fw.writelines(lines)
                        lines = []                    
            else:
                if len(lines):
                    with open(f"section02/knock16_{i//N}_split_by_line.txt", "w") as fw:
                        fw.writelines(lines)
    elif splitby=="block":
        with open("section02/popular-names.txt", "r") as f:
            lines = f.readlines()
        len_f = len(lines)
        N_lines = len_f//N
        idx = 0
        for i in range(N + (1 if len_f%N else 0)):
            with open(f"section02/knock16_{i}_split_in_block.txt", "w") as fw:
                fw.writelines(lines[idx:min(idx+N_lines, len_f)])
            idx += N_lines

knock_16(splitby="line")

In [None]:
# pandas ver
def knock_16_pd():
    assert len(sys.argv)>1, 'plz set n (e.g. "python section02_16.py 7")'
    assert isinstance(sys.argv[1], int), f"input argment as n is not integer (sys.argv[1]={sys.argv[1]})."
    n = int(sys.argv[1])
    df = pd.read_csv("section02/popular-names.txt", delimiter="\t", dtype=object, header=None)
    nrow = -(-len(df) // n)
    for i in range(n):
        df.iloc[nrow * i : nrow * (i + 1)].to_csv(f"section02/knock16_{i}_pandas-ver_popular-names.txt", 
                                                  delimiter="\t", index=False, header=None)
if __name__=="__main__":
    knock_16_pd()

In [None]:
# https://www.atmarkit.co.jp/ait/articles/1711/24/news016.html
# 問題文が難しい、N行ごとに1つのファイルを生成するのか、N個のファイルに分割するのか、、

# N行ごとなら、
!split -l 7 --additional-suffix "section02/_knock16_split_by_line.txt" section02/popular-names.txt

# N分割するなら、、
#!split -n 7 --additional-suffix "_knock16_split_in_block.txt" section02/popular-names.txt

In [None]:
# 削除してディレクトリ整理用
!find ./section02/ -name "knock16_*_split_by_line.txt"  | xargs rm
#!find ./section02/ -name "knock16_*_split_in_block.txt" | xargs rm

## 17. １列目の文字列の異なり 
1列目の文字列の種類（異なる文字列の集合）を求めよ．確認にはcut, sort, uniqコマンドを用いよ．

In [None]:
def knock_17():
    with open("section02/popular-names.txt", "r") as f:
        all_1st_strings = []
        for line in f:
            all_1st_strings.append(line.split("\t")[0])
    return set(all_1st_strings)
knock_17()

In [None]:
# pandas ver
def knock_17_pd():
    print(
        pd.read_csv("section02/popular-names.txt", sep="\t", header=None).iloc[:,0].unique()
    )
knock_17_pd()

In [None]:
!cut section02/popular-names.txt -f 1 | sort | uniq

## 18. 各行を3コラム目の数値の降順にソート 
各行を3コラム目の数値の逆順で整列せよ（注意: 各行の内容は変更せずに並び替えよ）．確認にはsortコマンドを用いよ（この問題はコマンドで実行した時の結果と合わなくてもよい）．

In [None]:
# 逆順って何、降順？？？
def knock_18():
    line_0, line_1, line_2, line_3 = [], [], [], []
    with open("section02/popular-names.txt", "r") as f:
        lines = [line.strip().split("\t") for line in f]
    return sorted(lines, key=lambda line: int(line[2]), reverse=True)
knock_18()

In [None]:
def knock_18_pd():
    df = pd.read_csv("section02/popular-names.txt", sep="\t", header=None)
    print(df.sort_values(2, ascending=False))

knock_18_pd()

In [None]:
#ref -> https://eng-entrance.com/linux-command-sort
# 「-t "\t"」->「-t$"\t"」で対応できるとのこと（ref->https://stackoverflow.com/questions/1037365/sorting-a-tab-delimited-file）
#!sort -t$'\t' -k3 -r popular-names.txt
# 上記コマンドを実行すると、エラーを吐いた「sort: multi-character tab ‘$\\t’」
# printfで出力した結果を用いることで対応 (ref ->https://qiita.com/miminashi/items/a0d22ada995b8bbdff16)
!sort -t "`printf '\t'`" -k3 -n -r section02/popular-names.txt

## 19. 各行の1コラム目の文字列の出現頻度を求め，出現頻度の高い順に並べる 
各行の1列目の文字列の出現頻度を求め，その高い順に並べて表示せよ．確認にはcut, uniq, sortコマンドを用いよ．

In [None]:
def knock_19():
    with open("popular-names.txt", "r") as f:
        col1 = [line.split("\t")[0] for line in f]
    col1_unis = set(col1)
    col1_freq = {}
    for col1_uni in col1_unis:
        col1_freq[col1_uni] = sum([c==col1_uni for c in col1])
    #return [key_and_val[0] for key_and_val in sorted(col1_freq.items(), key=lambda x: x[1], reverse=True)]
    return sorted(col1_freq.items(), key=lambda x: x[1], reverse=True)
knock_19()

In [None]:
def knock_19_pd():
    df = pd.read_csv("section02/popular-names.txt", sep="\t", header=None)
    print(df[0].value_counts())

knock_19_pd()

In [None]:
!cut popular-names.txt -f 1 | sort | uniq -c | sort -n -r

# 第３章 正規表現

Wikipediaの記事を以下のフォーマットで書き出したファイル[jawiki-country.json.gz](https://nlp100.github.io/data/jawiki-country.json.gz)がある．

- 1行に1記事の情報がJSON形式で格納される
- 各行には記事名が”title”キーに，記事本文が”text”キーの辞書オブジェクトに格納され，そのオブジェクトがJSON形式で書き出される
- ファイル全体はgzipで圧縮される  

以下の処理を行うプログラムを作成せよ．

----

In [None]:
!wget https://nlp100.github.io/data/jawiki-country.json.gz -P ./section03/
!gunzip section03/jawiki-country.json.gz

## 20. JSONデータの読み込み 
Wikipedia記事のJSONファイルを読み込み，「イギリス」に関する記事本文を表示せよ．問題21-29では，ここで抽出した記事本文に対して実行せよ

In [25]:
import pandas as pd
df = pd.read_json("section03/jawiki-country.json", lines=True)
# linesz=False(default) -> raise ValueError: Trailing data
df.head()

Unnamed: 0,title,text
0,エジプト,{{otheruses|主に現代のエジプト・アラブ共和国|古代|古代エジプト}}\n{{基礎...
1,オーストリア,{{基礎情報 国\n|略名 = オーストリア\n|日本語国名 = オーストリア共和国\n|公...
2,インドネシア,{{基礎情報 国\n| 略名 =インドネシア\n| 日本語国名 =インドネシア共和国\n| ...
3,イラク,{{複数の問題\n| 参照方法 = 2011年8月\n| 独自研究 = 2012年10月\n...
4,イラン,{{半保護}}\n{{未検証|date=2010年3月}}\n{{基礎情報 国\n | 略名...


In [26]:
df_uk = df[df.title=="イギリス"]
uk_texts = df_uk.text.values[0]
uk_texts.split("\n")

,
 '',
 '「イギリス民族」という民族は存在しない。主な民族はイングランドを中心に居住する[[ゲルマン人|ゲルマン民族]]系のイングランド人（[[アングロ・サクソン人]]）、[[ケルト人|ケルト]]系のスコットランド人、アイルランド人、ウェールズ人だが、旧植民地出身のインド系（[[印僑]]）、[[アフリカ系]]、カリブ系、[[アラブ系]]や[[華僑]]なども多く住む[[多民族国家]]である。',
 '',
 'イギリスの国籍法では、旧植民地関連の者も含め、自国民を次の六つの区分に分けている。',
 '*GBR:British Citizen - イギリス市民',
 '*:本国人',
 '*BOTC:[[:en:British Overseas Territories citizen|British Overseas Territories citizen]] - [[イギリス海外領土市民]]',
 '*:イギリスの海外領土出身者',
 '*BOC:[[:en:British Overseas Citizen|British Overseas Citizen]] - [[イギリス海外市民]]',
 '*:ギリシャ西岸の諸島・インド・パキスタン・マレーシアなどの旧植民地出身者のうち特殊な歴史的経緯のある者',
 '*GBS:[[:en:British Subject|British Subject]] - [[イギリス臣民]]',
 '*:アイルランド（北部以外）・ジブラルタルなどイギリス海外領土市民やイギリス海外市民とは別の経緯のある地域の住民で一定要件に該当する者',
 '*BNO:[[:en:British National (Overseas)|British National (Overseas)]] - [[イギリス国民（海外）]]※「BN(O)」とも書く。',
 '*:英国国籍で、香港の[[永住権|住民権]]も持つ人。',
 '*BPP:[[:en:British Protected Person|British Protected Person]] - [[イギリス保護民]]',
 '',
 'いずれの身分に属するかによって、国内での様々な取扱いで差異を生ずることがあるほか、パスポートにその区分が明示されるため、海外渡航の際も相手国により取扱いが異

## 21. カテゴリ名を含む行を抽出 
記事中でカテゴリ名を宣言している行を抽出せよ．

In [None]:
categories = [txt for txt in uk_texts.split("\n") if "[Category:" in txt]
categories

In [None]:
# u++ -> https://upura.hatenablog.com/entry/2020/04/14/232520
# filter(condition(like lambda), list) -> pick out only True data in list
list(filter(
    lambda x: "Category:" in x, uk_texts.split("\n")
))

## 22. カテゴリ名の抽出 
記事のカテゴリ名を（行単位ではなく名前で）抽出せよ．

In [1]:
import re
[re.sub("[\[\],.'\"\|*=a-zA-Z{}]", "", cat).split(":")[1] for cat in categories]

NameError: name 'categories' is not defined

In [24]:
import re

text = """
<html> 
<head> 
<meta charset="utf-8" />
<title>前略プロフィール</title>
</head> 
<body>
 <h2>昨日の夜ご飯</h2>
<ol> <li>ボクは　欲望と</li> 
<li>可能性を　食べました。</li> 
</ol> </body> </html>
"""

re.findall(r"(?<=<li>)(.+?)(?=</li>)", 
           re.sub(r"[\u3000 \t]", "", text))

['ボクは欲望と', '可能性を食べました。']

In [None]:
# u++ ref -> https://upura.hatenablog.com/entry/2020/04/14/232826
df = pd.read_json("section03/jawiki-country.json", lines=True)
ukText = df.query("title=='イギリス'")["text"].values[0]
ukTextList = ukText.split("\n")
cats = list(filter(lambda x: "Category:" in x, ukTextList))
cats = [cat.replace("[[Category:", "").replace("|*", "").replace("]]", "") for cat in cats]
print(cats)

## 23. セクション構造 
記事中に含まれるセクション名とそのレベル（例えば”== セクション名 ==”なら1）を表示せよ．

In [None]:
levels = {"="*(n+1)+"":n for n in range(5,0,-1)}
levels

In [None]:
level_sections = {}
added = []
for key, level in levels.items():
    sections = [txt for txt in uk_texts.split("\n") if key in txt]
    try:
        level_sections[level] = [ section for section in set(sections) if section not in added ]
        added += level_sections[level]
    except:
        level_sections[level] = section
print(pd.DataFrame.from_dict(level_sections, orient="index").fillna("").T)

In [None]:
# これよくわからなかった（何がどうなれば正解なのか）
# u++ ref -> https://upura.hatenablog.com/entry/2020/04/14/233246
import re
import pandas as pd
df = pd.read_json("section03/jawiki-country.json", lines=True)
ukText = df.query("title=='イギリス'")["text"].values[0]
for section in re.findall(r"(=+)([^=]+)\1\n", ukText):
    print(f"{section[1].strip()}\t{len(section[0]) - 1}")

In [None]:
# re.findalll(pattern, string, flags=0) -> https://itsakura.com/python-findall
reg_exps = [r"(=+)([^=]+)\1\n", 
#             r"(=+)([^=]+)\n",
            r"(=+)",
            r"(=+)\1",
            r"(=+)\n",
            r"(=+)\1\n",
#             r"([^=]+)",
#             r"([^=]+)\1", 
#             r"([^=]+)\n",
            r"([^=]+)\1\n"
           ]
for reg_exp in reg_exps:
    print("● ", reg_exp, " ●\n", re.findall(reg_exp, ukText), "\n\n")
    
"""
ここで使用されている正規表現について -> https://murashun.jp/blog/20190215-01.html
(...) -> 文字を1つのグループにまとめる
=+ -> +は直前の文字が1回以上繰り返す場合にマッチする（=+ だと、=が一回以上マッチする）
^= -> ^は直後の文字が行の先頭にある場合にマッチする（^= だと、=が行の先頭に存在する時にマッチ）
[^...] -> 角かっこ内に含まれる文字 以外 にマッチする（[^=]だと、 = を含まない文字列にマッチする）
\1 -> マッチした文字列の1文字目に対応する文字列に置換する（ここでは、一つ目の(=+)と同じ文字列が出現した場合）
\n -> 改行（textの中にベタ書きされている\nという文字列、特別な意味があるわけではない）
"""

In [None]:
# \1 とか \2 とかの振る舞い確認用
def test():
    text = "qwert====##asdfg##\nlkjh##====\npoiuy\nzxcvbnm"
    regular_expressions = [
        r"(=+)([^=]+)\1\n",
        r"(=+)(#+)([^=]+)\1\n",
        r"(=+)(#+)([^=]+)\2\1\n",
        r"(=+)(#+)([^=#]+)\2\1\n",
        r"(=+)(#+)([^=#]+)\2\n",
        r"(#+)([^#]+)\1\n",
    ]
    print("raw text: ", repr(text), "\n")
    for regular_expression in regular_expressions:
        print(regular_expression, "\t", re.findall(regular_expression, text))
test()

## 24. ファイル参照の抽出 
記事から参照されているメディアファイルをすべて抜き出せ．

In [None]:
[txt for txt in uk_texts.split("\n") if "<ref>" in txt]
# メディアファイル、か、、、ハイパーリンクだけのことじゃなかった

In [None]:
# u++ ref -> https://upura.hatenablog.com/entry/2020/04/14/233601
import re
import pandas as pd
df = pd.read_json("section03/jawiki-country.json", lines=True)
ukText = df.query("title=='イギリス'")["text"].values[0]
for file in re.findall(r"\[\[(ファイル|File):([^]|]+?)(\|.*?)+\]\]", ukText):
    print(file[1])

In [None]:
reg_exps = [r"\[\[(ファイル|File):([^]|]+?)(\|.*?)+\]\]",
            r"\[\[(ファイル|File):([^]|]+?)\]\]",
            r"\[\[(ファイル|File):\]\]",
           ]
for reg_exp in reg_exps:
    print(
        "● ", reg_exp, " ●\n", re.findall(reg_exp, ukText), "\n\n",
    )
"""
ここで使用されている正規表現について -> https://murashun.jp/blog/20190215-01.html
(...) -> 文字を1つのグループにまとめる
. -> 任意の一文字
* -> 直前の文字が０回以上（最長一致）
+ -> 直前の文字が１回以上（最長一致）
=+ -> +は直前の文字が1回以上繰り返す場合にマッチする（=+ だと、=が一回以上マッチする）
+? -> 直前の文字が１回以上繰り返す場合、この場合は ] が１回以上（最短一致）
*? -> 直前の文字が０回以上繰り返す場合、この場合は .(任意の一文字) が０回以上（最短一致）
| -> or演算子、含まれる文字が ファイル か File だったらマッチ、[^] か ] かだったらマッチ、って感じ
^= -> ^は直後の文字が行の先頭にある場合にマッチする（^= だと、=が行の先頭に存在する時にマッチ）
[...] -> 角かっこ内に含まれる何かしらの1文字にマッチ
[^...] -> 角かっこ内に含まれる文字 以外 にマッチする（[^=]だと、 = を含まない文字列にマッチする）

つまり、抽出しているのは、
[[ (ファイル or File):([ ( ]が行の先頭 or ]が１個以上)) (|の後に何かしらの文字が０文字以上)が１文字以上 ]]
となっている部分で、それぞれのかっこ（）内がfile[0:2]に順番に格納される
"""

## 25. テンプレートの抽出 
記事中に含まれる「基礎情報」テンプレートのフィールド名と値を抽出し，辞書オブジェクトとして格納せよ．

抽出したいのはこれ
```python
{{基礎情報 国
|略名  =イギリス
|日本語国名 = グレートブリテン及び北アイルランド連合王国
|公式国名 = {{lang|en|United Kingdom of Great Britain and Northern Ireland}}<ref>英語以外での正式国名:<br />
*{{lang|gd|An Rìoghachd Aonaichte na Breatainn Mhòr agus Eirinn mu Thuath}}（[[スコットランド・ゲール語]]）
*{{lang|cy|Teyrnas Gyfunol Prydain Fawr a Gogledd Iwerddon}}（[[ウェールズ語]]）
*{{lang|ga|Ríocht Aontaithe na Breataine Móire agus Tuaisceart na hÉireann}}（[[アイルランド語]]）
*{{lang|kw|An Rywvaneth Unys a Vreten Veur hag Iwerdhon Glédh}}（[[コーンウォール語]]）
*{{lang|sco|Unitit Kinrick o Great Breetain an Northren Ireland}}（[[スコットランド語]]）
**{{lang|sco|Claught Kängrick o Docht Brätain an Norlin Airlann}}、{{lang|sco|Unitet Kängdom o Great Brittain an Norlin Airlann}}（アルスター・スコットランド語）</ref>
|国旗画像 = Flag of the United Kingdom.svg
|国章画像 = [[ファイル:Royal Coat of Arms of the United Kingdom.svg|85px|イギリスの国章]]
|国章リンク =（[[イギリスの国章|国章]]）
|標語 = {{lang|fr|[[Dieu et mon droit]]}}<br />（[[フランス語]]:[[Dieu et mon droit|神と我が権利]]）
|国歌 = [[女王陛下万歳|{{lang|en|God Save the Queen}}]]{{en icon}}<br />''神よ女王を護り賜え''<br />{{center|[[ファイル:United States Navy Band - God Save the Queen.ogg]]}}
|地図画像 = Europe-UK.svg
|位置画像 = United Kingdom (+overseas territories) in the World (+Antarctica claims).svg
|公用語 = [[英語]]
|首都 = [[ロンドン]]（事実上）
|最大都市 = ロンドン
|元首等肩書 = [[イギリスの君主|女王]]
|元首等氏名 = [[エリザベス2世]]
|首相等肩書 = [[イギリスの首相|首相]]
|首相等氏名 = [[ボリス・ジョンソン]]
|他元首等肩書1 = [[貴族院 (イギリス)|貴族院議長]]
|他元首等氏名1 = [[:en:Norman Fowler, Baron Fowler|ノーマン・ファウラー]]
|他元首等肩書2 = [[庶民院 (イギリス)|庶民院議長]]
|他元首等氏名2 = {{仮リンク|リンゼイ・ホイル|en|Lindsay Hoyle}}
|他元首等肩書3 = [[連合王国最高裁判所|最高裁判所長官]]
|他元首等氏名3 = [[:en:Brenda Hale, Baroness Hale of Richmond|ブレンダ・ヘイル]]
|面積順位 = 76
|面積大きさ = 1 E11
|面積値 = 244,820
|水面積率 = 1.3%
|人口統計年 = 2018
|人口順位 = 22
|人口大きさ = 1 E7
|人口値 = 6643万5600<ref>{{Cite web|url=https://www.ons.gov.uk/peoplepopulationandcommunity/populationandmigration/populationestimates|title=Population estimates - Office for National Statistics|accessdate=2019-06-26|date=2019-06-26}}</ref>
|人口密度値 = 271
|GDP統計年元 = 2012
|GDP値元 = 1兆5478億<ref name="imf-statistics-gdp">[http://www.imf.org/external/pubs/ft/weo/2012/02/weodata/weorept.aspx?pr.x=70&amp;pr.y=13&amp;sy=2010&amp;ey=2012&amp;scsm=1&amp;ssd=1&amp;sort=country&amp;ds=.&amp;br=1&amp;c=112&amp;s=NGDP%2CNGDPD%2CPPPGDP%2CPPPPC&amp;grp=0&amp;a=IMF&gt;Data and Statistics>World Economic Outlook Databases>By Countrise>United Kingdom]</ref>
|GDP統計年MER = 2012
|GDP順位MER = 6
|GDP値MER = 2兆4337億<ref name="imf-statistics-gdp" />
|GDP統計年 = 2012
|GDP順位 = 6
|GDP値 = 2兆3162億<ref name="imf-statistics-gdp" />
|GDP/人 = 36,727<ref name="imf-statistics-gdp" />
|建国形態 = 建国
|確立形態1 = [[イングランド王国]]／[[スコットランド王国]]<br />（両国とも[[合同法 (1707年)|1707年合同法]]まで）
|確立年月日1 = 927年／843年
|確立形態2 = [[グレートブリテン王国]]成立<br />（1707年合同法）
|確立年月日2 = 1707年{{0}}5月{{0}}1日
|確立形態3 = [[グレートブリテン及びアイルランド連合王国]]成立<br />（[[合同法 (1800年)|1800年合同法]]）
|確立年月日3 = 1801年{{0}}1月{{0}}1日
|確立形態4 = 現在の国号「'''グレートブリテン及び北アイルランド連合王国'''」に変更
|確立年月日4 = 1927年{{0}}4月12日
|通貨 = [[スターリング・ポンド|UKポンド]] (£)
|通貨コード = GBP
|時間帯 = ±0
|夏時間 = +1
|ISO 3166-1 = GB / GBR
|ccTLD = [[.uk]] / [[.gb]]<ref>使用は.ukに比べ圧倒的少数。</ref>
|国際電話番号 = 44
|注記 = <references/>
}}
```

In [None]:
# u++ ref -> https://upura.hatenablog.com/entry/2020/04/14/234205
import re
import pandas as pd
def knock_25():
    df = pd.read_json("section03/jawiki-country.json", lines=True)
    ukText = df.query("title=='イギリス'")["text"].values[0]
    ls, fg = [], False
    template = "基礎情報"
    
    p1 = re.compile("\{\{" + template)
    p2 = re.compile("\}\}")
    p3 = re.compile("\|")
    p4 = re.compile("<ref(\s|>).+?(</ref>|$)") # $ ... 直前の文字が末尾にある場合
    for l in ukText.split("\n"):
        if fg:
            ml = [p2.match(l), p3.match(l)]
            if ml[0]:
                break
            if ml[1]:
                ls.append(p4.sub('', l.strip()))
        if p1.match(l):
            fg = True
    p = re.compile("\|(.+?)\s=\s(.+)")
    template_dict = {m.group(1):m.group(2) for m in [p.match(c) for c in ls]}
    print(template_dict)

knock_25() # raise Attribute Error

In [None]:
# ref Qiita -> https://qiita.com/yamaru/items/255d0c5dcb2d1d4ccc14#25-テンプレートの抽出
def knock_25():
    df = pd.read_json("section03/jawiki-country.json", lines=True)
    text_uk = df.query("title=='イギリス'")["text"].values[0]
    
    # テンプレートの抽出
    pattern = r'^\{\{基礎情報.*?$(.*?)^\}\}'
    template = re.findall(pattern, text_uk, re.MULTILINE + re.DOTALL)
    print(template)

    # フィールド名と値を辞書オブジェクトに格納
    pattern = r'^\|(.+?)\s*=\s*(.+?)(?:(?=\n\|)|(?=\n$))'
    result = dict(re.findall(pattern, template[0], re.MULTILINE + re.DOTALL))
    for k, v in result.items():
        print(k + ': ' + v + "\n")
knock_25()

## 26. 強調マークアップの除去 
25の処理時に，テンプレートの値からMediaWikiの強調マークアップ（弱い強調，強調，強い強調のすべて）を除去してテキストに変換せよ（参考: [マークアップ早見表](http://ja.wikipedia.org/wiki/Help:早見表)）．

In [None]:
# u++ ref -> https://upura.hatenablog.com/entry/2020/04/14/235025
import re
import pandas as pd
def knock_26():
    # make same dict with knock25
    df = pd.read_json("section03/jawiki-country.json", lines=True)
    text_uk = df.query("title=='イギリス'")["text"].values[0]
    pattern = r'^\{\{基礎情報.*?$(.*?)^\}\}'
    template = re.findall(pattern, text_uk, re.MULTILINE + re.DOTALL)
    pattern = r'^\|(.+?)\s*=\s*(.+?)(?:(?=\n\|)|(?=\n$))'
    result = dict(re.findall(pattern, template[0], re.MULTILINE + re.DOTALL))
    
    remove_stress = re.compile(r"'+")
    return {k: remove_stress.sub("", v) for k, v in result.items()}

knock_26()

## 27. 内部リンクの除去 
26の処理に加えて，テンプレートの値からMediaWikiの内部リンクマークアップを除去し，テキストに変換せよ（参考: [マークアップ早見表](http://ja.wikipedia.org/wiki/Help:早見表)）．

`[[ ]]`の括弧のペアを除去することを考える（[wikiの内部リンクについて](https://www.mediawiki.org/wiki/Help:Links/ja)）

In [None]:
import re
import pandas
def test():
    text = {'通貨': '[[スターリング・ポンド|UKポンド]] (£)',
            '通貨コード': 'GBP',
            '時間帯': '±0',
            '夏時間': '+1',
            'ISO 3166-1': 'GB / GBR',
            'ccTLD': '[[.uk]] / [[.gb]]<ref>使用は.ukに比べ圧倒的少数。</ref>',
            '国際電話番号': '44',
            '注記': '<references/>'
           }
    
    #rm_mu = re.compile("\[\[(.*)*\](\]$)")
    rm_heads = re.compile("\[\[")
    rm_tails = re.compile("\]\]")
    
    for k, v in text.items():
        print("k=",k,", v=",v)
        #print(rm_mu.sub("",v))
        if rm_heads.match(v):
            print("  ", rm_heads.sub("",v))
            print("  ", rm_tails.sub("", rm_heads.sub("",v)))
        else:
            print("  No regular expressions are matched.")
test()

In [None]:
# u++ ref -> https://upura.hatenablog.com/entry/2020/04/14/235509
import re
import pandas as pd
def knock_27():
    NoStress_26 = knock_26()
    remove_inner_markup = re.compile("\[\[.*\]\]")
    
    re.findall(r"", NoStress_26)

## 28. MediaWikiマークアップの除去 
27の処理に加えて，テンプレートの値からMediaWikiマークアップを可能な限り除去し，国の基本情報を整形せよ．

## 29. 国旗画像のURLを取得する 
テンプレートの内容を利用し，国旗画像のURLを取得せよ．（ヒント: [MediaWiki API](http://www.mediawiki.org/wiki/API:Main_page/ja)の[imageinfo](https://www.mediawiki.org/wiki/API:Imageinfo)を呼び出して，ファイル参照をURLに変換すればよい）

# 第４章 形態素解析

夏目漱石の小説『吾輩は猫である』の文章（[neko.txt](https://nlp100.github.io/data/neko.txt)）をMeCabを使って形態素解析し，その結果をneko.txt.mecabというファイルに保存せよ．このファイルを用いて，以下の問に対応するプログラムを実装せよ．

なお，問題37, 38, 39は[matplotlib](http://matplotlib.org/)もしくは[Gnuplot](Gnuplot)を用いるとよい

----

In [None]:
!wget https://nlp100.github.io/data/neko.txt -P ./section04/

Directory of dic file; mecab-ipadic-neologd
```
root@8583172500da:/usr/lib/x86_64-linux-gnu/mecab/dic# ls
mecab-ipadic-neologd
```

In [None]:
# create neko.txt.mecab ref: https://taku910.github.io/mecab/#usage-tools
!mecab section04/neko.txt -o section04/neko.txt.mecab -d /usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd

## 30. 形態素解析結果の読み込み 
形態素解析結果（neko.txt.mecab）を読み込むプログラムを実装せよ．ただし，各形態素は表層形（surface），基本形（base），品詞（pos），品詞細分類1（pos1）をキーとするマッピング型に格納し，1文を形態素（マッピング型）のリストとして表現せよ．第4章の残りの問題では，ここで作ったプログラムを活用せよ．  

----
mecab returns as below;  
表層形\t品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用形,活用型,原形,読み,発音

In [None]:
from collections import OrderedDict
from pprint import pprint

import numpy as np
import MeCab

def load_mecab_file(filename):
    with open(filename, "r") as f:
        mecab_file = f.readlines()
    
    mecab_file = mecab_file[1:] # initial line is header
    mecab_file = [s for s in mecab_file if s not in ["\n", "EOS\n"]] # remove lines if only \n or EOS\n
    mecab_file = [s for s in mecab_file if len(s.split("\t")[0])>0] # remove lines if target word is \n
    mecab_file = [s for s in mecab_file if s.split("\t")[0]!="\u3000"] # remove lines if target word is \u3000

    mecab_file = [s.replace("\n", "") for s in mecab_file] # replace "\n" into ""
    mecab_file = [s.replace("\t", ",") for s in mecab_file] # replace "\t" into ","
    
    return mecab_file

def morpheme_dict(sentence,i=None):
    """
    Parameters
    ----------
    sentence : str
        An input sentence formed as below;
            表層形,品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用形,活用型,原形,読み,発音
    i : int, default None
        For debug, if i==None then raise no assertion error.
    
    Returns
    -------
    dictionary

    Note
    ----
    　ここでは、形態素解析した文章をカンマ区切りで分割し、それをマッピングしたdictを返している。
    　特別な名詞（頸筋、など）の場合、読み仮名が登録されておらず、形態素解析の結果がそもそも10個ではなく
    8個しか要素を持っていない、というケースがある。その場合、未知（UNKnown）を意味する'UNK'を代わりに代入している。
    (このデバッグ作業を実施するときにのみ、argsのiにfor loopのinteration No.を渡す)
    """
    s = sentence.split(",")
    
    if len(s)!=10:
        for _ in range(10 - len(s)):
            s.append("UNK")
    
    # '頸筋,名詞,一般,*,*,*,*,*',
    # 特別な名詞（読み仮名が設定されていないもの）はそもそも出力値が10個にならない！
    if i is not None: assert len(s)==10, f"sentence hasn't enough components; i={i}, sentence={s}"

    return OrderedDict({"surface": s[0],
            "pos": s[1],
            "pos1": s[2],
            "pos2": s[3],
            "pos3": s[4],
            "conj": s[5],
            "type": s[6],
            "orig": s[7],
            "read": s[8],
            "pron": s[9]
            })

def knock_030():
    fmecab = load_mecab_file("section04/neko.txt.mecab")
    # pprint(fmecab[845:855])
    fmecab = [morpheme_dict(s) for i, s in enumerate(fmecab)]
    return fmecab

fmec = knock_030()
pprint(fmec[:10])


In [None]:
import pandas as pd
df = pd.DataFrame.from_dict(fmec)
df.head()

## 31. 動詞 
動詞の表層形をすべて抽出せよ

In [None]:
df[df.pos=="動詞"]["surface"].head()

In [None]:
def extract_word(morpheme_list, extract_key, **conditions):
    _key = [_ for _ in conditions.keys()]
    assert len(_key)==1, f"The allowed number of input key for extraction is 1 (not {len(_key)})."
    _key = _key[0]
    _val = [_ for _ in conditions.values()][0]
    return [m[extract_key] for m in morpheme_list if m[_key]==_val]

def knock_031():
    fmec = knock_030()
    return extract_word(fmec, extract_key="surface", pos="動詞")

knock_031()[:10]


## 32. 動詞の原形 
動詞の原形をすべて抽出せよ．

In [None]:
df[df.pos=="動詞"]["orig"].head()

In [None]:
def knock_032():
    fmec = knock_030()
    return extract_word(fmec, extract_key="orig", pos="動詞")

knock_032()[:10]

## 33. 「AのB」 
2つの名詞が「の」で連結されている名詞句を抽出せよ．

In [None]:
df.pos.unique()

In [None]:
df[df.pos=="名詞"]["pos1"].unique()

In [None]:
def knock_033():
    fmec = knock_030()
    extracts = []
    for i in range(len(fmec)-2):
        if fmec[i+1]["surface"]=="の":
            if fmec[i]["pos"]=="名詞" and fmec[i+2]["pos"]=="名詞":
                extracts.append(fmec[i]["surface"]+fmec[i+1]["surface"]+fmec[i+2]["surface"])
    return extracts

knock_033()[:10]

## 34. 名詞の連接
名詞の連接（連続して出現する名詞）を最長一致で抽出せよ．

In [None]:
def knock_34():
    fmec = knock_030()
    extracts = []
    i = 0
    while i < len(fmec):
        if fmec[i]["pos"]=="名詞":
            j = 1
            while True:
                if fmec[i+j]["pos"]=="名詞":
                    j += 1
                else:
                    break
            if j >= 2:
                noun = ""
                for k in range(i,i+j):
                    noun += fmec[k]["surface"]
                extracts.append(noun)
        i += j
    return exctracts

knock_34()[:20]

## 35. 単語の出現頻度
文章中に出現する単語とその出現頻度を求め，出現頻度の高い順に並べよ．

In [None]:
df["surface"].value_counts().items

## 36. 頻度上位10語
出現頻度が高い10語とその出現頻度をグラフ（例えば棒グラフなど）で表示せよ．

In [None]:
df["surface"].value_counts().head(10).plot(kind="bar")

## 37. 「猫」と共起頻度の高い上位10語
「猫」とよく共起する（共起頻度が高い）10語とその出現頻度をグラフ（例えば棒グラフなど）で表示せよ．

uppさんの回答を参照するに、狂気というのは近くで使用される単語、というわけではなくて、同じ文章中で使用されている単語、という意味らしい。違うことやってたわワロタ

In [None]:
from collections import defaultdict
import matplotlib.pyplot as plt

def upp_answer():
    def parse_mecab(block):
        res = []
        for line in block.split('\n'):
            if line == '':
                return res
            (surface, attr) = line.split('\t')
            attr = attr.split(',')
            lineDict = {
                'surface': surface,
                'base': attr[6],
                'pos': attr[0],
                'pos1': attr[1]
            }
            res.append(lineDict)


    def extract_base(block):
        return [b['base'] for b in block]


    filename = 'section04/neko.txt.mecab'
    with open(filename, mode='rt', encoding='utf-8') as f:
        blocks = f.read().split('EOS\n')
    blocks = list(filter(lambda x: x != '', blocks)); print(blocks[1])
    blocks = [parse_mecab(block) for block in blocks]; print(blocks[0])
    words = [extract_base(block) for block in blocks]; print(words[0])
    words = list(filter(lambda x: '猫' in x, words)); print(words[0])
    d = defaultdict(int)
    for word in words:
        for w in word:
            if w != '猫':
                d[w] += 1
    ans = sorted(d.items(), key=lambda x: x[1], reverse=True)[:10]
    labels = [a[0] for a in ans]
    values = [a[1] for a in ans]
    plt.figure(figsize=(8, 8))
    plt.barh(labels, values)
upp_answer()

In [None]:
def knock_037(n_range=2):
    assert n_range>0, 'n_range shoud be set >=1.'
    fmec = knock_030()
    extracts = {}
    df = pd.DataFrame.from_dict(fmec)
    fmec
    for i, suf in enumerate(df["surface"].values):
        if suf=="猫":
            # 前後何個の形態素を参照するかを決定している部分
            # 形態素群の先頭/末尾の n_range 個以内であれば、フルに指定した版を参照できるわけではにため、
            # ループの i と比較してその範囲を限定している
            n_tail = [-1*k for k in range(1, min(i, n_range)+1)] if i!=0 else []
            n_head = [k for k in range(1, min(len(fmec)-i, n_range)+1)] if i!=len(fmec) else []
            n_list = n_tail + n_head

            for n in n_list:
                # 上で決定した範囲の形態素を参照していく、もし既に猫の近傍に存在していた単語なら、その出現回数をインクリメントする
                # もしも初登場であったのなら、新たに作成する
                try:
                    extracts[fmec[i+n]["surface"]] += 1
                except KeyError:
                    extracts[fmec[i+n]["surface"]] = 1
    return pd.DataFrame(extracts, index=["freq"]).T

df = knock_037(n_range=1)
df.sort_values(by="freq", ascending=False).head(10).plot(kind="bar")


前後数単語、じゃなくて一つの文章中で一緒に使用されている単語、に変更する

In [None]:
def morpheme_dict_037(sentence,i=None):
    s_block = []
    for s in sentence.split('\n'):
        if s=='': return s_block
        s = s.replace('\t', ',').split(",")
        
        if len(s)!=10:
            for _ in range(10 - len(s)):
                s.append("UNK")
        
        # '頸筋,名詞,一般,*,*,*,*,*',
        # 特別な名詞（読み仮名が設定されていないもの）はそもそも出力値が10個にならない！
        if i is not None: assert len(s)==10, f"sentence hasn't enough components; i={i}, sentence={s}"

        s_block.append(
            OrderedDict({"surface": s[0],
                "pos": s[1],
                "pos1": s[2],
                "pos2": s[3],
                "pos3": s[4],
                "conj": s[5],
                "type": s[6],
                "orig": s[7],
                "read": s[8],
                "pron": s[9]
                })
        )
    else:
        # print(s_block)
        return s_block
            
def reconstruct_sentence(sentences):
    return [morpheme_dict_037(sentence) for sentence in sentences]

def extract_surface(morph, pos=None):
    """
    pos に何かを入れることで、それと一致する瀕死の surface のみを抽出する
    """
    if pos is None:
        return [m['surface'] for m in morph]
    else:
        return [m['surface'] for m in morph if m['pos']==pos]


def knock_037(corr_word='猫', pos=None):
    # fmecab = load_mecab_file("section04/neko.txt.mecab")
    with open("section04/neko.txt.mecab", "r", encoding='utf-8') as f:
        mecab_sentence = f.read().split('EOS\n')
        # mecab_file = f.readlines() # 今回は一行毎にリストとして格納するのではなく、まとめて１文として読み込んで、それをEOSで分割する
    # 連続した1文毎に `\n,\t,EOS\n` の3つで区切られているため、これらを利用して一文毎にまとめる
    mecab_sentence = list(filter(lambda x: x != '', mecab_sentence))
    mecab_sentence = [s for s in mecab_sentence if s.split('\n')[0] != '']

    mecab_sentence = reconstruct_sentence(mecab_sentence)
    surs = [extract_surface(ms, pos=pos) for ms in mecab_sentence]

    surs = list(filter(lambda x: corr_word in x, surs))
    d = defaultdict(int)
    for sur in surs:
        for s in sur:
            if s != corr_word:
                d[s] += 1
    ans = sorted(d.items(), key=lambda x: x[1], reverse=True)[:10]
    labels = [a[0] for a in ans]
    values = [a[1] for a in ans]
    plt.figure(figsize=(8, 8))
    plt.barh(labels, values)

knock_037(corr_word='猫', pos=None)
knock_037(corr_word='名', pos='名詞')

## 38. ヒストグラム  
単語の出現頻度のヒストグラム（ただし，横軸は出現頻度を表し，1から単語の出現頻度の最大値までの線形目盛とする．縦軸はx軸で示される出現頻度となった単語の異なり数（種類数）である）を描け。

In [None]:
def knock_038():
    fmec = knock_030()
    df = pd.Series([f['surface'] for f in fmec]) # extract sufaces
    df = df.value_counts().value_counts().sort_index() # 単語の出現頻度を数えて、その出現頻度をさらに数える

    xlabels = df.index.values.astype(str)
    kinds = df.values

    plt.bar(xlabels, kinds)
    plt.show()

    plt.bar(xlabels[:10], kinds[:10])
    plt.show()

knock_038()


## 39. Zipfの法則
単語の出現頻度順位を横軸，その出現頻度を縦軸として，両対数グラフをプロットせよ．  
ref; zipf's law -> [wiki](https://ja.wikipedia.org/wiki/ジップの法則)

In [None]:
def knock_039():
    fmec = knock_030()

    df = pd.Series([f['surface'] for f in fmec]) # extract sufaces
    df = df.value_counts().value_counts().sort_index() # 単語の出現頻度を数えて、その出現頻度をさらに数える

    xlabels = [np.log1p(idx) for idx in df.index.values]
    kinds = df.apply(np.log1p).values

    plt.plot(xlabels, kinds)
    plt.show()

knock_039()

# 第５章 係り受け解析

夏目漱石の小説『吾輩は猫である』の文章（[neko.txt](https://nlp100.github.io/data/neko.txt)）をCaboChaを使って係り受け解析し，その結果をneko.txt.cabochaというファイルに保存せよ．このファイルを用いて，以下の問に対応するプログラムを実装せよ．

----

In [3]:
!mkdir section05
!wget https://nlp100.github.io/data/neko.txt -P ./section05/

--2020-08-15 00:28:30--  https://nlp100.github.io/data/neko.txt
Resolving nlp100.github.io (nlp100.github.io)...185.199.109.153, 185.199.108.153, 185.199.110.153, ...
Connecting to nlp100.github.io (nlp100.github.io)|185.199.109.153|:443...connected.
HTTP request sent, awaiting response...200 OK
Length: 975789 (953K) [text/plain]
Saving to: ‘./section05/neko.txt’


2020-08-15 00:28:32 (940 KB/s) - ‘./section05/neko.txt’ saved [975789/975789]



In [4]:
import CaboCha

In [24]:
def test(sentence):

    parser = CaboCha.Parser('--charset=UTF8')
    print('parser.parse(sentence) -> ', parser.parse(sentence))    
    tree = parser.parse(sentence)
    print('tree = parser.parse(sentence) -> ', tree)
    print()

    print('tree.toString(CaboCha.FORMAT_TREE) -> \n', tree.toString(CaboCha.FORMAT_TREE))
    print('tree.toString(CaboCha.FORMAT_LATTICE) -> \n', tree.toString(CaboCha.FORMAT_LATTICE))
    print('tree.toString(CaboCha.FORMAT_XML) -> \n', tree.toString(CaboCha.FORMAT_XML))

    print()
    print('parser.parseToString(sentence) -> \n', parser.parseToString(sentence))

    print('tree.token(i).feature for i in range(tree.size()) -> ')
    for i in range(tree.size()):
        print('\t', tree.token(i).feature)

test('吾輩は猫である。まだ名はない。')


parser.parse(sentence) ->  <CaboCha.Tree; proxy of <Swig Object of type 'CaboCha::Tree *' at 0x7fd2355c3a50> >
tree = parser.parse(sentence) ->  <CaboCha.Tree; proxy of <Swig Object of type 'CaboCha::Tree *' at 0x7fd2355c3b40> >

tree.toString(CaboCha.FORMAT_TREE) -> 
     吾輩は-D      
  猫である。-----D
          まだ---D
            名は-D
            ない。
EOS

tree.toString(CaboCha.FORMAT_LATTICE) -> 
 * 0 1D 0/1 1.487499
吾輩	名詞,代名詞,一般,*,*,*,吾輩,ワガハイ,ワガハイ
は	助詞,係助詞,*,*,*,*,は,ハ,ワ
* 1 4D 0/2 -1.971376
猫	名詞,一般,*,*,*,*,猫,ネコ,ネコ
で	助動詞,*,*,*,特殊・ダ,連用形,だ,デ,デ
ある	助動詞,*,*,*,五段・ラ行アル,基本形,ある,アル,アル
。	記号,句点,*,*,*,*,。,。,。
* 2 4D 0/0 -1.971376
まだ	副詞,助詞類接続,*,*,*,*,まだ,マダ,マダ
* 3 4D 0/1 -1.971376
名	名詞,一般,*,*,*,*,名,ナ,ナ
は	助詞,係助詞,*,*,*,*,は,ハ,ワ
* 4 -1D 0/0 0.000000
ない	助動詞,*,*,*,特殊・ナイ,基本形,ない,ナイ,ナイ
。	記号,句点,*,*,*,*,。,。,。
EOS

tree.toString(CaboCha.FORMAT_XML) -> 
 <sentence>
 <chunk id="0" link="1" rel="D" score="1.487499" head="0" func="1">
  <tok id="0" feature="名詞,代名詞,一般,*,*,*,吾輩,ワガハイ,ワガハイ">吾輩</tok>
  <tok id="1" feature="

In [27]:
def create_cabocha_file(file):
    """
    e.g. sentence = '吾輩は猫である。'
    CaboCha analysis:
        吾輩は-D      
          猫である。-----D
                  まだ---D
                    名は-D
                    ない。
        EOS
         
    XML style: (ref -> https://qiita.com/nezuq/items/f481f07fc0576b38e81d)
        <sentence> 
            # 文 sentence 始まり
        <chunk id="0" link="1" rel="D" score="1.487499" head="0" func="1"> 
            # 文節 chunk 始まり (id; 文節番号、link; 係り先の文節番号、score; 係り関係のスコア（大きいほど係りやすい）、
            # 　　　　　　　　　　 head; 主辞の形態素番号、func; 機能語の形態素番号)
        <tok id="0" feature="名詞,代名詞,一般,*,*,*,吾輩,ワガハイ,ワガハイ">吾輩</tok>
            # 形態素 tok 始まり (id; 形態素番号、feature;　品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用形,活用型,原形,読み,発音
            # 　　　　　　　　　　値; 表層形)
        <tok id="1" feature="助詞,係助詞,*,*,*,*,は,ハ,ワ">は</tok>
        </chunk>
        <chunk id="1" link="4" rel="D" score="-1.971376" head="2" func="4">
        <tok id="2" feature="名詞,一般,*,*,*,*,猫,ネコ,ネコ">猫</tok>
        <tok id="3" feature="助動詞,*,*,*,特殊・ダ,連用形,だ,デ,デ">で</tok>
        <tok id="4" feature="助動詞,*,*,*,五段・ラ行アル,基本形,ある,アル,アル">ある</tok>
        <tok id="5" feature="記号,句点,*,*,*,*,。,。,。">。</tok>
        </chunk>
        <chunk id="2" link="4" rel="D" score="-1.971376" head="6" func="6">
        <tok id="6" feature="副詞,助詞類接続,*,*,*,*,まだ,マダ,マダ">まだ</tok>
        </chunk>
        <chunk id="3" link="4" rel="D" score="-1.971376" head="7" func="8">
        <tok id="7" feature="名詞,一般,*,*,*,*,名,ナ,ナ">名</tok>
        <tok id="8" feature="助詞,係助詞,*,*,*,*,は,ハ,ワ">は</tok>
        </chunk>
        <chunk id="4" link="-1" rel="D" score="0.000000" head="9" func="9">
        <tok id="9" feature="助動詞,*,*,*,特殊・ナイ,基本形,ない,ナイ,ナイ">ない</tok>
        <tok id="10" feature="記号,句点,*,*,*,*,。,。,。">。</tok>
        </chunk>
        </sentence>
    """
    import CaboCha
    parser = CaboCha.Parser('--charset=UTF8')
    
    with open(file, 'rt', encoding='utf-8') as f:
        sentences = f.readlines()
    
    # XML形式で構造解析結果を保存
    trees = [
        parser.parse(sentence).toString(CaboCha.FORMAT_XML) for sentence in sentences
        ]

    with open(file + '.cabocha', 'w') as f:
        f.writelines(trees)

create_cabocha_file('./section05/neko.txt')



## 40. 係り受け解析結果の読み込み（形態素）
形態素を表すクラスMorphを実装せよ．このクラスは表層形（surface），基本形（base），品詞（pos），品詞細分類1（pos1）をメンバ変数に持つこととする．さらに，CaboChaの解析結果（neko.txt.cabocha）を読み込み，各文をMorphオブジェクトのリストとして表現し，3文目の形態素列を表示せよ．

In [55]:
from typing import Dict, List, Optional, Sequence, Tuple, Union, Any, TYPE_CHECKING

class Morph:
    def __init__(self, sentence: str):
        self.sent = [s.strip() for s in sentence.split('\n')]
        self.toks = {}
        self.surface = []
        self.base = []
        self.pos = []
        self.pos1 = []

    
    def __call__(self):
        toks = self.extract_all_tok()
        self.surface = toks['surface']
        self.base = toks['base']
        self.pos = toks['pos']
        self.pos1 = toks['pos1']
        self.toks = toks


    def split_tok_sentence(self, sentence:str) -> Tuple:
        """
            <tok id="2" feature="名詞,一般,*,*,*,*,猫,ネコ,ネコ">猫</tok>
            feature;　品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用形,活用型,原形,読み,発音
        """
        id = int(sentence.split(' ')[1].split('=')[1].replace('"', ''))
        surface = sentence.split('>')[1].split('<')[0]
        feats = sentence.split('>')[0].split('=')[-1].replace('"', '').split(',')
        
        return (id, surface, feats)
                

    def extract_all_tok(self) -> Dict:
        toks = {'tokid': [], 'surface': [], 'base': [], 'pos': [], 'pos1': []}
        for s in self.sent:
            if s[:4] == '<tok':
                id, surface, feats = self.split_tok_sentence(s)
                toks['tokid'].append(id)
                toks['surface'].append(surface)
                toks['base'].append(feats[6])
                toks['pos'].append(feats[0])
                toks['pos1'].append(feats[1])

        return toks

In [56]:
def knock_040():
    with open('./section05/neko.txt.cabocha', 'rt', encoding='utf-8') as f:
        sentences = f.read().replace('<sentence>', '').split('</sentence>')

    neko_morphs = [
        Morph(sentence) for sentence in sentences
        ]
    
    for mor in neko_morphs:
        mor()

    print(neko_morphs[2].toks)

knock_040()

{'tokid': [0, 1, 2, 3, 4, 5, 6], 'surface': ['\u3000', '吾輩', 'は', '猫', 'で', 'ある', '。'], 'base': ['\u3000', '吾輩', 'は', '猫', 'だ', 'ある', '。'], 'pos': ['記号', '名詞', '助詞', '名詞', '助動詞', '助動詞', '記号'], 'pos1': ['空白', '代名詞', '係助詞', '一般', '*', '*', '句点']}


## 41. 係り受け解析結果の読み込み（文節・係り受け）
40に加えて，文節を表すクラスChunkを実装せよ．このクラスは形態素（Morphオブジェクト）のリスト（morphs），係り先文節インデックス番号（dst），係り元文節インデックス番号のリスト（srcs）をメンバ変数に持つこととする．さらに，入力テキストのCaboChaの解析結果を読み込み，１文をChunkオブジェクトのリストとして表現し，8文目の文節の文字列と係り先を表示せよ．第5章の残りの問題では，ここで作ったプログラムを活用せよ．

In [69]:
class Chunk:
    """
    A part of input sentence is shown below;
        <chunk id="1" link="4" rel="D" score="-1.971376" head="2" func="4">
        <tok id="2" feature="名詞,一般,*,*,*,*,猫,ネコ,ネコ">猫</tok>
        <tok id="3" feature="助動詞,*,*,*,特殊・ダ,連用形,だ,デ,デ">で</tok>
        <tok id="4" feature="助動詞,*,*,*,五段・ラ行アル,基本形,ある,アル,アル">ある</tok>
        <tok id="5" feature="記号,句点,*,*,*,*,。,。,。">。</tok>
        </chunk>
    """
    def __init__(self, sentence: str):
        self.sent = [s.strip() for s in sentence.split('</chunk>')]
        self.chunks = {}
        self.morphs = []
        self.dst = [] # link
        self.srcs = [] # is this mean the chunk id ??


    def __call__(self):
        chunks = self.extract_all_chunk()
        self.morphs = chunks['morph']
        self.dst = chunks['dst']
        self.srcs = chunks['srcs']
        self.chunks = chunks


    def split_chunk_sentence(self, sentence: str) -> Tuple:
        """
            <chunk id="1" link="4" rel="D" score="-1.971376" head="2" func="4">
                id; 文節番号、link; 係り先の文節番号、score; 係り関係のスコア（大きいほど係りやすい）、
                head; 主辞の形態素番号、func; 機能語の形態素番号
        """
        segments = sentence.split(' ')
        id    = int(segments[1].split('=')[1].replace('"', ''))
        link  = int(segments[2].split('=')[1].replace('"', ''))
        rel   =     segments[3].split('=')[1].replace('"', '')
        score = float(segments[4].split('=')[1].replace('"', ''))
        head  = int(segments[5].split('=')[1].replace('"', ''))
        func  = int(segments[6].split('=')[1].replace('"', '').rstrip('>'))
        
        return (id, link)
                

    def extract_all_chunk(self) -> Dict:
        chunks = {'chunkid': [], 'morph': [], 'dst': [], 'srcs': []}
        for s in self.sent: # splited by '</chunk>'
            if len(s)==0: continue
            (chunk_sent, tok_sent) = s.split('\n', 1)
            src, dst = self.split_chunk_sentence(chunk_sent)

            mor = Morph(tok_sent)
            mor()

            chunks['chunkid'].append(src) # chunk_id == srcs ...???
            chunks['srcs'].append(src)
            chunks['dst'].append(dst)
            chunks['morph'].append(mor)
        
        return chunks

In [75]:
def print_chunks(chunks: Dict):
    for i, id in enumerate(chunks['chunkid']):
        print(f"chunkid={chunks['chunkid'][i]}; src={chunks['srcs'][i]}, dst={chunks['dst'][i]}, \n\t morph={chunks['morph'][i].toks}")


In [76]:
def knock_041():
    with open('./section05/neko.txt.cabocha', 'rt', encoding='utf-8') as f:
        sentences = f.read().replace('<sentence>', '').split('</sentence>')

    neko_chunks = [
        Chunk(sentence) for sentence in sentences
        ]
    
    for chu in neko_chunks:
        chu()

    print_chunks(neko_chunks[7].chunks)

knock_041()

chunkid=0; src=0, dst=5, 
	 morph={'tokid': [0, 1], 'surface': ['吾輩', 'は'], 'base': ['吾輩', 'は'], 'pos': ['名詞', '助詞'], 'pos1': ['代名詞', '係助詞']}
chunkid=1; src=1, dst=2, 
	 morph={'tokid': [2, 3], 'surface': ['ここ', 'で'], 'base': ['ここ', 'で'], 'pos': ['名詞', '助詞'], 'pos1': ['代名詞', '格助詞']}
chunkid=2; src=2, dst=3, 
	 morph={'tokid': [4, 5], 'surface': ['始め', 'て'], 'base': ['始める', 'て'], 'pos': ['動詞', '助詞'], 'pos1': ['自立', '接続助詞']}
chunkid=3; src=3, dst=4, 
	 morph={'tokid': [6, 7], 'surface': ['人間', 'という'], 'base': ['人間', 'という'], 'pos': ['名詞', '助詞'], 'pos1': ['一般', '格助詞']}
chunkid=4; src=4, dst=5, 
	 morph={'tokid': [8, 9], 'surface': ['もの', 'を'], 'base': ['もの', 'を'], 'pos': ['名詞', '助詞'], 'pos1': ['非自立', '格助詞']}
chunkid=5; src=5, dst=-1, 
	 morph={'tokid': [10, 11, 12], 'surface': ['見', 'た', '。'], 'base': ['見る', 'た', '。'], 'pos': ['動詞', '助動詞', '記号'], 'pos1': ['自立', '*', '句点']}


## 42. 係り元と係り先の文節の表示
係り元の文節と係り先の文節のテキストをタブ区切り形式ですべて抽出せよ．ただし，句読点などの記号は出力しないようにせよ．

## 43. 名詞を含む文節が動詞を含む文節に係るものを抽出
名詞を含む文節が，動詞を含む文節に係るとき，これらをタブ区切り形式で抽出せよ．ただし，句読点などの記号は出力しないようにせよ．

## 44. 係り受け木の可視化
与えられた文の係り受け木を有向グラフとして可視化せよ．可視化には，係り受け木を[DOT言語](http://ja.wikipedia.org/wiki/DOT言語)に変換し，[Graphviz](http://www.graphviz.org/)を用いるとよい．また，Pythonから有向グラフを直接的に可視化するには，[pydot](https://code.google.com/p/pydot/)を使うとよい．

## 45. 動詞の格パターンの抽出
今回用いている文章をコーパスと見なし，日本語の述語が取りうる格を調査したい． 動詞を述語，動詞に係っている文節の助詞を格と考え，述語と格をタブ区切り形式で出力せよ． ただし，出力は以下の仕様を満たすようにせよ．

- 動詞を含む文節において，最左の動詞の基本形を述語とする
- 述語に係る助詞を格とする
- 述語に係る助詞（文節）が複数あるときは，すべての助詞をスペース区切りで辞書順に並べる

「吾輩はここで始めて人間というものを見た」という例文（neko.txt.cabochaの8文目）を考える． この文は「始める」と「見る」の２つの動詞を含み，「始める」に係る文節は「ここで」，「見る」に係る文節は「吾輩は」と「ものを」と解析された場合は，次のような出力になるはずである．
```python:
始める  で
見る    は を
```
このプログラムの出力をファイルに保存し，以下の事項をUNIXコマンドを用いて確認せよ．

- コーパス中で頻出する述語と格パターンの組み合わせ
- 「する」「見る」「与える」という動詞の格パターン（コーパス中で出現頻度の高い順に並べよ）

## 46. 動詞の格フレーム情報の抽出
45のプログラムを改変し，述語と格パターンに続けて項（述語に係っている文節そのもの）をタブ区切り形式で出力せよ．45の仕様に加えて，以下の仕様を満たすようにせよ．

- 項は述語に係っている文節の単語列とする（末尾の助詞を取り除く必要はない）
- 述語に係る文節が複数あるときは，助詞と同一の基準・順序でスペース区切りで並べる

「吾輩はここで始めて人間というものを見た」という例文（neko.txt.cabochaの8文目）を考える． この文は「始める」と「見る」の２つの動詞を含み，「始める」に係る文節は「ここで」，「見る」に係る文節は「吾輩は」と「ものを」と解析された場合は，次のような出力になるはずである．

```
始める  で      ここで
見る    は を   吾輩は ものを
```

## 47. 機能動詞構文のマイニング
動詞のヲ格にサ変接続名詞が入っている場合のみに着目したい．46のプログラムを以下の仕様を満たすように改変せよ．

- 「サ変接続名詞+を（助詞）」で構成される文節が動詞に係る場合のみを対象とする
- 述語は「サ変接続名詞+を+動詞の基本形」とし，文節中に複数の動詞があるときは，最左の動詞を用いる
- 述語に係る助詞（文節）が複数あるときは，すべての助詞をスペース区切りで辞書順に並べる
- 述語に係る文節が複数ある場合は，すべての項をスペース区切りで並べる（助詞の並び順と揃えよ）

例えば「別段くるにも及ばんさと、主人は手紙に返事をする。」という文から，以下の出力が得られるはずである．

```
返事をする      と に は        及ばんさと 手紙に 主人は
```

このプログラムの出力をファイルに保存し，以下の事項をUNIXコマンドを用いて確認せよ．

- コーパス中で頻出する述語（サ変接続名詞+を+動詞）
- コーパス中で頻出する述語と助詞パターン

## 48. 名詞から根へのパスの抽出
文中のすべての名詞を含む文節に対し，その文節から構文木の根に至るパスを抽出せよ． ただし，構文木上のパスは以下の仕様を満たすものとする．

- 各文節は（表層形の）形態素列で表現する
- パスの開始文節から終了文節に至るまで，各文節の表現を” -> “で連結する

「吾輩はここで始めて人間というものを見た」という文（neko.txt.cabochaの8文目）から，次のような出力が得られるはずである．

```
吾輩は -> 見た
ここで -> 始めて -> 人間という -> ものを -> 見た
人間という -> ものを -> 見た
ものを -> 見た
```

## 49. 名詞間の係り受けパスの抽出
文中のすべての名詞句のペアを結ぶ最短係り受けパスを抽出せよ．ただし，名詞句ペアの文節番号が$i$
と$j$（$i<j$）のとき，係り受けパスは以下の仕様を満たすものとする．

- 問題48と同様に，パスは開始文節から終了文節に至るまでの各文節の表現（表層形の形態素列）を” -> “で連結して表現する
- 文節$i$と$j$に含まれる名詞句はそれぞれ，XとYに置換する

また，係り受けパスの形状は，以下の2通りが考えられる．

- 文節$i$から構文木の根に至る経路上に文節$j$が存在する場合: 文節$i$から文節$j$のパスを表示
- 上記以外で，文節$i$と文節$j$から構文木の根に至る経路上で共通の文節$k$で交わる場合: 文節$i$から文節$k$に至る直前のパスと文節$j$から文節$k$に至る直前までのパス，文節$k$の内容を” | “で連結して表示

例えば，「吾輩はここで始めて人間というものを見た。」という文（neko.txt.cabochaの8文目）から，次のような出力が得られるはずである．

```
Xは | Yで -> 始めて -> 人間という -> ものを | 見た
Xは | Yという -> ものを | 見た
Xは | Yを | 見た
Xで -> 始めて -> Y
Xで -> 始めて -> 人間という -> Y
Xという -> Y
```

# 第６章 機械学習
本章では，Fabio Gasparetti氏が公開している[News Aggregator Data Set](https://archive.ics.uci.edu/ml/datasets/News+Aggregator)を用い，ニュース記事の見出しを「ビジネス」「科学技術」「エンターテイメント」「健康」のカテゴリに分類するタスク（カテゴリ分類）に取り組む．

----

## 50. データの入手・整形
[News Aggregator Data Set](https://archive.ics.uci.edu/ml/datasets/News+Aggregator)をダウンロードし、以下の要領で学習データ（train.txt），検証データ（valid.txt），評価データ（test.txt）を作成せよ．

1. ダウンロードしたzipファイルを解凍し，readme.txtの説明を読む．
1. 情報源（publisher）が”Reuters”, “Huffington Post”, “Businessweek”, “Contactmusic.com”, “Daily Mail”の事例（記事）のみを抽出する．
1. 抽出された事例をランダムに並び替える．
1. 抽出された事例の80%を学習データ，残りの10%ずつを検証データと評価データに分割し，それぞれ`train.txt`，`valid.txt`，`test.txt`というファイル名で保存する．ファイルには，１行に１事例を書き出すこととし，カテゴリ名と記事見出しのタブ区切り形式とせよ（このファイルは後に問題70で再利用する）．

学習データと評価データを作成したら，各カテゴリの事例数を確認せよ．

## 51. 特徴量抽出
学習データ，検証データ，評価データから特徴量を抽出し，それぞれ`train.feature.txt`，`valid.feature.txt`，`test.feature.txt`というファイル名で保存せよ． なお，カテゴリ分類に有用そうな特徴量は各自で自由に設計せよ．記事の見出しを単語列に変換したものが最低限のベースラインとなるであろう．

## 52. 学習
51で構築した学習データを用いて，ロジスティック回帰モデルを学習せよ．

## 53. 予測
52で学習したロジスティック回帰モデルを用い，与えられた記事見出しからカテゴリとその予測確率を計算するプログラムを実装せよ．

## 54. 正解率の計測
52で学習したロジスティック回帰モデルの正解率を，学習データおよび評価データ上で計測せよ．

## 55. 混同行列の作成
52で学習したロジスティック回帰モデルの混同行列（confusion matrix）を，学習データおよび評価データ上で作成せよ．

## 56. 適合率，再現率，F1スコアの計測
52で学習したロジスティック回帰モデルの適合率，再現率，F1スコアを，評価データ上で計測せよ．カテゴリごとに適合率，再現率，F1スコアを求め，カテゴリごとの性能をマイクロ平均（micro-average）とマクロ平均（macro-average）で統合せよ．

## 57. 特徴量の重みの確認
52で学習したロジスティック回帰モデルの中で，重みの高い特徴量トップ10と，重みの低い特徴量トップ10を確認せよ．

## 58. 正則化パラメータの変更
ロジスティック回帰モデルを学習するとき，正則化パラメータを調整することで，学習時の過学習（overfitting）の度合いを制御できる．異なる正則化パラメータでロジスティック回帰モデルを学習し，学習データ，検証データ，および評価データ上の正解率を求めよ．実験の結果は，正則化パラメータを横軸，正解率を縦軸としたグラフにまとめよ．

## 59. ハイパーパラメータの探索
学習アルゴリズムや学習パラメータを変えながら，カテゴリ分類モデルを学習せよ．検証データ上の正解率が最も高くなる学習アルゴリズム・パラメータを求めよ．また，その学習アルゴリズム・パラメータを用いたときの評価データ上の正解率を求めよ．

# 第７章 単語ベクトル
単語の意味を実ベクトルで表現する単語ベクトル（単語埋め込み）に関して，以下の処理を行うプログラムを作成せよ．

----

## 60. 単語ベクトルの読み込みと表示
Google Newsデータセット（約1,000億単語）での[学習済み単語ベクトル](https://drive.google.com/file/d/0B7XkCwpI5KDYNlNUTTlSS21pQmM/edit?usp=sharing)（300万単語・フレーズ，300次元）をダウンロードし，”United States”の単語ベクトルを表示せよ．ただし，”United States”は内部的には”United_States”と表現されていることに注意せよ．

## 61. 単語の類似度
“United States”と”U.S.”のコサイン類似度を計算せよ．

## 62. 類似度の高い単語10件
“United States”とコサイン類似度が高い10語と，その類似度を出力せよ．

## 63. 加法構成性によるアナロジー
“Spain”の単語ベクトルから”Madrid”のベクトルを引き，”Athens”のベクトルを足したベクトルを計算し，そのベクトルと類似度の高い10語とその類似度を出力せよ．

## 64. アナロジーデータでの実験
[単語アナロジーの評価データ](http://download.tensorflow.org/data/questions-words.txt)をダウンロードし，vec(2列目の単語) - vec(1列目の単語) + vec(3列目の単語)を計算し，そのベクトルと類似度が最も高い単語と，その類似度を求めよ．求めた単語と類似度は，各事例の末尾に追記せよ．

## 65. アナロジータスクでの正解率
64の実行結果を用い，意味的アナロジー（semantic analogy）と文法的アナロジー（syntactic analogy）の正解率を測定せよ．

## 66. WordSimilarity-353での評価
[The WordSimilarity-353 Test Collection](http://www.gabrilovich.com/resources/data/wordsim353/wordsim353.html)の評価データをダウンロードし，単語ベクトルにより計算される類似度のランキングと，人間の類似度判定のランキングの間のスピアマン相関係数を計算せよ．

## 67. k-meansクラスタリング
国名に関する単語ベクトルを抽出し，k-meansクラスタリングをクラスタ数k=5として実行せよ．

## 68. Ward法によるクラスタリング
国名に関する単語ベクトルに対し，Ward法による階層型クラスタリングを実行せよ．さらに，クラスタリング結果をデンドログラムとして可視化せよ．

## 69. t-SNEによる可視化
国名に関する単語ベクトルのベクトル空間をt-SNEで可視化せよ．

# 第８章 ニューラルネット
第6章で取り組んだニュース記事のカテゴリ分類を題材として，ニューラルネットワークでカテゴリ分類モデルを実装する．なお，この章ではPyTorch, TensorFlow, Chainerなどの機械学習プラットフォームを活用せよ．

----

## 70. 単語ベクトルの和による特徴量
問題50で構築した学習データ，検証データ，評価データを行列・ベクトルに変換したい．例えば，学習データについて，すべての事例$x_i$の特徴ベクトル$\boldsymbol{x}_i$を並べた行列$\boldsymbol{X}$
と，正解ラベルを並べた行列（ベクトル）$\boldsymbol{Y}$を作成したい．

$$
  X = \left(
    \begin{array}{ccc}
      \boldsymbol{x}_1 \\
      \boldsymbol{x}_2 \\
      \dots \\
      \boldsymbol{x}_4
    \end{array}
  \right) \in \mathbb{R}^{n \times d},　
  Y = \left(
    \begin{array}{ccc}
      y_1 \\
      y_2 \\
      \dots \\
      y_4
    \end{array}
  \right) \in \mathbb{N}^{n}
$$
 
ここで，$n$は学習データの事例数であり，$\boldsymbol{x}_{i} \in \mathbb{R}^{d}$と$y_{i} \in \mathbb{N}$はそれぞれ，${i} \in \{1, 2, ..., n\}$番目の事例の特徴量ベクトルと正解ラベルを表す．なお，今回は「ビジネス」「科学技術」「エンターテイメント」「健康」の4カテゴリ分類である．$\mathbb{N}_{<4}$で$4$未満の自然数（$0$を含む）を表すことにすれば，任意の事例の正解ラベル$y_i$は$y_{i} \in \mathbb{N}_{<4}$で表現できる． 以降では，ラベルの種類数を$L$で表す（今回の分類タスクでは$L=4$である）．

i番目の事例の特徴ベクトル$\boldsymbol{x}_i$は，次式で求める．

$$
\boldsymbol{x}_i = \frac{1}{T_i} \Sigma_{t=1}^{T_i} {{\rm emb}(w_{i,t})}
$$

ここで，i番目の事例は$T_i$個の（記事見出しの）単語列($w_{i,1},w_{i,2},…,w_{i,Ti}$)から構成され，${\rm emb}(w) \in \mathbb{R}^d$は単語$w$に対応する単語ベクトル（次元数はd）である．すなわち，i番目の事例の記事見出しを，その見出しに含まれる単語のベクトルの平均で表現したものが$x_i$である．今回は単語ベクトルとして，問題60でダウンロードしたものを用いればよい．300次元の単語ベクトルを用いたので，d=300である．

i番目の事例のラベル$y_i$は，次のように定義する．

$$
y_i = \left\{ \begin{array}{ll}
    0 & (記事 \boldsymbol{x}_i が「ビジネス」カテゴリの場合) \\
    1 & (記事 \boldsymbol{x}_i が「科学技術」カテゴリの場合) \\
    2 & (記事 \boldsymbol{x}_i が「エンターテイメント」カテゴリの場合) \\
    3 & (記事 \boldsymbol{x}_i が「健康」カテゴリの場合) \\
    \end{array} \right.
$$
 
なお，カテゴリ名とラベルの番号が一対一で対応付いていれば，上式の通りの対応付けでなくてもよい．

以上の仕様に基づき，以下の行列・ベクトルを作成し，ファイルに保存せよ．

- 学習データの特徴量行列: $ \boldsymbol{X}_{\rm train} \in \mathbb{R}^{N_t \times d} $
- 学習データのラベルベクトル: $ \boldsymbol{Y}_{\rm train} \in \mathbb{N}^{N_t} $
- 検証データの特徴量行列: $ \boldsymbol{X}_{\rm valid} \in \mathbb{R}^{N_v \times d} $
- 検証データのラベルベクトル: $ \boldsymbol{Y}_{\rm valid} \in \mathbb{N}^{N_v} $
- 評価データの特徴量行列: $ \boldsymbol{X}_{\rm test} \in \mathbb{R}^{N_e \times d} $
- 評価データのラベルベクトル: $ \boldsymbol{Y}_{\rm test} \in \mathbb{N}^{N_e} $

なお，$N_t$, $N_v$, $N_e$はそれぞれ，学習データの事例数，検証データの事例数，評価データの事例数である．

## 71. 単層ニューラルネットワークによる予測
問題70で保存した行列を読み込み，学習データについて以下の計算を実行せよ．
$$
\hat{y_1}={\rm softmax} (\boldsymbol{x}_1 W),　\hat{Y} ={\rm softmax} (X_{[1:4]} W)
$$

ただし，softmaxはソフトマックス関数，$X_{[1:4]} \in \mathbb{R}^{4 \times d}$ は特徴ベクトル$\boldsymbol{x}_1, \boldsymbol{x}_2, \boldsymbol{x}_3, \boldsymbol{x}_4$を縦に並べた行列である．

$$
  X_{[1:4]} = \left(
    \begin{array}{ccc}
      \boldsymbol{x}_1 \\
      \boldsymbol{x}_2 \\
      \boldsymbol{x}_3 \\
      \boldsymbol{x}_4
    \end{array}
  \right)
$$

行列 $W \in \mathbb{R}^{d \times L}$ は単層ニューラルネットワークの重み行列で，ここではランダムな値で初期化すればよい（問題73以降で学習して求める）．なお，$\hat{y_1} \in \mathbb{N}^L$ は未学習の行列$W$で事例$x_1$を分類したときに，各カテゴリに属する確率を表すベクトルである． 同様に，$ \hat{Y} \in \mathbb{N}_n^L$ は，学習データの事例$x_1,x_2,x_3,x_4$について，各カテゴリに属する確率を行列として表現している．

## 72. 損失と勾配の計算
学習データの事例$x_1$と事例集合$x_1$,$x_2$,$x_3$,$x_4$に対して，クロスエントロピー損失と，行列$W$に対する勾配を計算せよ．なお，ある事例$x_i$
に対して損失は次式で計算される．

$$
l_i = − {\rm log}[事例 x_i が y_i に分類される確率]
$$

ただし，事例集合に対するクロスエントロピー損失は，その集合に含まれる各事例の損失の平均とする．

## 73. 確率的勾配降下法による学習
確率的勾配降下法（SGD: Stochastic Gradient Descent）を用いて，行列$W$を学習せよ．なお，学習は適当な基準で終了させればよい（例えば「100エポックで終了」など）

## 74. 正解率の計測
問題73で求めた行列を用いて学習データおよび評価データの事例を分類したとき，その正解率をそれぞれ求めよ．

## 75. 損失と正解率のプロット
問題73のコードを改変し，各エポックのパラメータ更新が完了するたびに，訓練データでの損失，正解率，検証データでの損失，正解率をグラフにプロットし，学習の進捗状況を確認できるようにせよ．

## 76. チェックポイント
問題75のコードを改変し，各エポックのパラメータ更新が完了するたびに，チェックポイント（学習途中のパラメータ（重み行列など）の値や最適化アルゴリズムの内部状態）をファイルに書き出せ．

## 77. ミニバッチ化
問題76のコードを改変し，$ \boldsymbol{B}$ 事例ごとに損失・勾配を計算し，行列$ \boldsymbol{W}$の値を更新せよ（ミニバッチ化）．$ \boldsymbol{B}$の値を1,2,4,8,…と変化させながら，1エポックの学習に要する時間を比較せよ．

## 78. GPU上での学習
問題77のコードを改変し，GPU上で学習を実行せよ．

## 79. 多層ニューラルネットワーク
問題78のコードを改変し，バイアス項の導入や多層化など，ニューラルネットワークの形状を変更しながら，高性能なカテゴリ分類器を構築せよ．

# 第９章 RNNとCNN

----

## 80. ID番号への変換
問題51で構築した学習データ中の単語にユニークなID番号を付与したい．学習データ中で最も頻出する単語に1，2番目に頻出する単語に2，……といった方法で，学習データ中で2回以上出現する単語にID番号を付与せよ．そして，与えられた単語列に対して，ID番号の列を返す関数を実装せよ．ただし，出現頻度が2回未満の単語のID番号はすべて0とせよ．

## 81. RNNによる予測
ID番号で表現された単語列 $\boldsymbol{x}=(x_1,x_2,…,x_T)$
がある．ただし，$T$
は単語列の長さ，$x_t \in \mathbb{R}^{V} $
は単語のID番号のone-hot表記である（ $V$
は単語の総数である）．再帰型ニューラルネットワーク（RNN: Recurrent Neural Network）を用い，単語列$ \boldsymbol{x} $
からカテゴリ$y$
を予測するモデルとして，次式を実装せよ．

$$
\overrightarrow{h}_0 = 0 \\
\overrightarrow{h}_t = \overrightarrow{\rm RNN} ({\rm emb}(x_t), \overrightarrow{h}_{t-1}) \\
y = {\rm softmax}( \boldsymbol{W}^{(yh)} \overrightarrow{h}_t + b^{(y)}
$$

ただし，${\rm emb}(x_t) \in \mathbb{R}^{d_w} $
は単語埋め込み（単語のone-hot表記から単語ベクトルに変換する関数），$ \overrightarrow{h}_t \in \mathbb{R}^{d_h} $
は時刻$t$
の隠れ状態ベクトル，$ \overrightarrow{\rm RNN}(x,h) $
は入力$x$
と前時刻の隠れ状態$h$
から次状態を計算するRNNユニット，$ W^{(yh)} \in \mathbb{R}^{L \times d_h} $
は隠れ状態ベクトルからカテゴリを予測するための行列，$ b^{(y)}\in \mathbb{R}^{L} $
はバイアス項である（$ d_w,d_h,L $
はそれぞれ，単語埋め込みの次元数，隠れ状態ベクトルの次元数，ラベル数である）．RNNユニット $ \overrightarrow{\rm RNN}(x,h) $
には様々な構成が考えられるが，典型例として次式が挙げられる．

$$
\overrightarrow{\rm RNN}(x,h) = 
    g(\boldsymbol{W}^{(hx)} x + \boldsymbol{W}^{(hh)} h + b^{(h)})
$$
ただし，$ \boldsymbol{W}^{(hx)} \in \mathbb{R}^{d_h \times d_w}, \boldsymbol{W}^{(hh)} \in \mathbb{R}^{d_h \times d_h}, b^{(h)} \in \mathbb{R}^{d_h} $
はRNNユニットのパラメータ，$g$
は活性化関数（例えば$ \rm tanh $
やReLUなど）である．

なお，この問題ではパラメータの学習を行わず，ランダムに初期化されたパラメータでy
を計算するだけでよい．次元数などのハイパーパラメータは，$d_w=300,d_h=50$
など，適当な値に設定せよ（以降の問題でも同様である）．

## 82. 確率的勾配降下法による学習
確率的勾配降下法（SGD: Stochastic Gradient Descent）を用いて，問題81で構築したモデルを学習せよ．訓練データ上の損失と正解率，評価データ上の損失と正解率を表示しながらモデルを学習し，適当な基準（例えば10エポックなど）で終了させよ．

## 83. ミニバッチ化・GPU上での学習
問題82のコードを改変し，$B$
事例ごとに損失・勾配を計算して学習を行えるようにせよ（$B$の値は適当に選べ）．また，GPU上で学習を実行せよ．

## 84. 単語ベクトルの導入
事前学習済みの単語ベクトル（例えば，Google Newsデータセット(約1,000億単語）での[学習済み単語ベクトル](https://drive.google.com/file/d/0B7XkCwpI5KDYNlNUTTlSS21pQmM/edit?usp=sharing)）で単語埋め込み$ {\rm emb}(x)$を初期化し，学習せよ．

## 85. 双方向RNN・多層化
順方向と逆方向のRNNの両方を用いて入力テキストをエンコードし，モデルを学習せよ．

$$
\overrightarrow{h}_{T+1} = 0 \\
\overrightarrow{h}_t = \overrightarrow{\rm RNN} ({\rm emb}(x_t), \overrightarrow{h}_{t+1}) \\
y = {\rm softmax} \bigl( \boldsymbol{W}^{(yh)} \bigl[ \overrightarrow{h}_T ; \overleftarrow{h}_1 \bigr] + b^{(y)} \bigr)
$$

ただし，$\overrightarrow{h}_t \in \mathbb{R}^{d_h}, \overleftarrow{h}_t \in \mathbb{R}^{d_h} $
はそれぞれ，順方向および逆方向のRNNで求めた時刻$t$
の隠れ状態ベクトル，$ \overrightarrow{\rm RNN}(x,h) $
は入力$x$
と次時刻の隠れ状態$h$
から前状態を計算するRNNユニット，$ \boldsymbol{W}^{(yh)} \in \mathbb{R}^{L \times 2d_h} $
は隠れ状態ベクトルからカテゴリを予測するための行列，$ b^{(y)} \in \mathbb{R}^{L} $
はバイアス項である．また，$[a;b]$
はベクトル$a$
と$b$
の連結を表す。

さらに，双方向RNNを多層化して実験せよ．

## 86. 畳み込みニューラルネットワーク (CNN)
ID番号で表現された単語列$ \boldsymbol{x} =(x_1,x_2,…,x_T) $
がある．ただし，$T$
は単語列の長さ，$x_t \in \mathbb{R}^{V} $
は単語のID番号のone-hot表記である（$V$
は単語の総数である）．畳み込みニューラルネットワーク（CNN: Convolutional Neural Network）を用い，単語列$\boldsymbol{x}$
からカテゴリ$y$
を予測するモデルを実装せよ．

ただし，畳み込みニューラルネットワークの構成は以下の通りとする．

- 単語埋め込みの次元数: $d_w$
- 畳み込みのフィルターのサイズ: 3 トークン
- 畳み込みのストライド: 1 トークン
- 畳み込みのパディング: あり
- 畳み込み演算後の各時刻のベクトルの次元数: $d_h$
- 畳み込み演算後に最大値プーリング（max pooling）を適用し，入力文を$d_h$次元の隠れベクトルで表現

すなわち，時刻$t$
の特徴ベクトル$p_t \in \mathbb{R}^{d_h} $
は次式で表される．
$$
p_t g \bigl( 
    \boldsymbol{W}^{(px)} \bigl[ {\rm emb}(x_{t-1}) ; {\rm emb}(x_{t}) ; {\rm emb}(x_{t+1}) \bigr] + b^{(p)}
    \bigr)
$$

ただし，$ \boldsymbol{W}^{(px)} \in \mathbb{R}^{d_h \times 3d_w}, b^{(p)} \in \mathbb{R}^{d_h} $
はCNNのパラメータ，$g$
は活性化関数（例えば$ \rm tanh$
やReLUなど），$[a;b;c]$
はベクトル$a,b,c$
の連結である．なお，行列$ \boldsymbol{W}^{(px)} $
の列数が$3d_w$
になるのは，3個のトークンの単語埋め込みを連結したものに対して，線形変換を行うためである．

最大値プーリングでは，特徴ベクトルの次元毎に全時刻における最大値を取り，入力文書の特徴ベクトル $ c \in \mathbb{R}^{d_h} $
を求める．$c[i]$
でベクトル$c$
の$i$
番目の次元の値を表すことにすると，最大値プーリングは次式で表される．

$$
c[i] = \underset{1 \leq t \leq T}{\rm max} p_t[i]
$$

最後に，入力文書の特徴ベクトル$c$
に行列$ \boldsymbol{W}^{(yc)} \in \mathbb{R}^{L \times d_h} $
とバイアス項$ b^{(y)} \in \mathbb{R}^L $
による線形変換とソフトマックス関数を適用し，カテゴリ$y$
を予測する．

$$
y = {\rm softmax} \bigl( \boldsymbol{W}^{(yc)} c + b^{(y)} \bigr)
$$
なお，この問題ではモデルの学習を行わず，ランダムに初期化された重み行列で$y$
を計算するだけでよい．

## 87. 確率的勾配降下法によるCNNの学習
確率的勾配降下法（SGD: Stochastic Gradient Descent）を用いて，問題86で構築したモデルを学習せよ．訓練データ上の損失と正解率，評価データ上の損失と正解率を表示しながらモデルを学習し，適当な基準（例えば10エポックなど）で終了させよ．

## 88. パラメータチューニング
問題85や問題87のコードを改変し，ニューラルネットワークの形状やハイパーパラメータを調整しながら，高性能なカテゴリ分類器を構築せよ．

## 89. 事前学習済み言語モデルからの転移学習
事前学習済み言語モデル（例えば[BERT](https://github.com/google-research/bert)など）を出発点として，ニュース記事見出しをカテゴリに分類するモデルを構築せよ．

# 第１０章 機械翻訳
本章では，日本語と英語の翻訳コーパスである[京都フリー翻訳タスク (KFTT)](http://www.phontron.com/kftt/index-ja.html)を用い，ニューラル機械翻訳モデルを構築する．ニューラル機械翻訳モデルの構築には，[fairseq](https://github.com/pytorch/fairseq)，[Hugging Face Transformers](https://github.com/huggingface/transformers)，[OpenNMT-py](https://github.com/OpenNMT/OpenNMT-py)などの既存のツールを活用せよ．

## 90. データの準備
機械翻訳のデータセットをダウンロードせよ．訓練データ，開発データ，評価データを整形し，必要に応じてトークン化などの前処理を行うこと．ただし，この段階ではトークンの単位として形態素（日本語）および単語（英語）を採用せよ．

## 91. 機械翻訳モデルの訓練
90で準備したデータを用いて，ニューラル機械翻訳のモデルを学習せよ（ニューラルネットワークのモデルはTransformerやLSTMなど適当に選んでよい）．

## 92. 機械翻訳モデルの適用
91で学習したニューラル機械翻訳モデルを用い，与えられた（任意の）日本語の文を英語に翻訳するプログラムを実装せよ．

## 93. BLEUスコアの計測
91で学習したニューラル機械翻訳モデルの品質を調べるため，評価データにおけるBLEUスコアを測定せよ．

## 94. ビーム探索
91で学習したニューラル機械翻訳モデルで翻訳文をデコードする際に，ビーム探索を導入せよ．ビーム幅を1から100くらいまで適当に変化させながら，開発セット上のBLEUスコアの変化をプロットせよ．

## 95. サブワード化
トークンの単位を単語や形態素からサブワードに変更し，91-94の実験を再度実施せよ．

## 96. 学習過程の可視化
[Tensorboard](https://www.tensorflow.org/tensorboard)などのツールを用い，ニューラル機械翻訳モデルが学習されていく過程を可視化せよ．可視化する項目としては，学習データにおける損失関数の値とBLEUスコア，開発データにおける損失関数の値とBLEUスコアなどを採用せよ．

## 97. ハイパー・パラメータの調整
ニューラルネットワークのモデルや，そのハイパーパラメータを変更しつつ，開発データにおけるBLEUスコアが最大となるモデルとハイパーパラメータを求めよ．

## 98. ドメイン適応
[Japanese-English Subtitle Corpus (JESC)](https://nlp.stanford.edu/projects/jesc/index_ja.html)や[JParaCrawl](http://www.kecl.ntt.co.jp/icl/lirg/jparacrawl/)などの翻訳データを活用し，KFTTのテストデータの性能向上を試みよ．

## 99. 翻訳サーバの構築
ユーザが翻訳したい文を入力すると，その翻訳結果がウェブブラウザ上で表示されるデモシステムを構築せよ．