# 第４章: [形態素解析](https://nlp100.github.io/ja/ch04.html)

[脇田の回答例](https://colab.research.google.com/drive/1NIrvOIfSCH_v9drBXA9LTCoFchbU3xHq?usp=sharing)

## 参考資料

- [An Introduction to Natural Language in Python using spaCy](https://colab.research.google.com/github/DerwenAI/spaCy_tuTorial/blob/master/spaCy_tuTorial.ipynb#scrollTo=v95pjRb1H87Z)
    これは Google Colab とは独立した SpaCy の解説のようだ

- [How to get started with SpaCy and its module in Google Colab?](https://stackoverflow.com/questions/59484501/how-to-get-started-with-spacy-library-and-its-module-in-google-colab): (answered at S/O on 2019-12-28)

    SpaCy のアップグレード、モデルのダウンロード、などなどが必要。
    
- [How do I import the saved ~module~ model in Google Colab](https://stackoverflow.com/questions/67646437/how-do-i-import-the-saved-module-in-google-colab)

    この質問は Google Drive に保存したモデルを使って spaCy を利用する方法について。`drive.mount` してから、`nlp.to_disk("RCM.model")` と `spacy.load("RCM.model")` を使えばよいようだ。共有ドライブでこれらの機能が動けば嬉しい。

- [GoogleColabで日本語NLPライブラリGiNZAがloadできない](https://www.mojirca.com/2019/10/colab-load-ginza.html)

    日本語の場合は GiNZA を使う。

- [Colabで日本語対応したspaCyを動かしてみる](https://qiita.com/matsunori39/items/b7905bb3c838b5862c32): (Qiita on 2022-01-27)

    GiNZA についてはこちらの方がまとまっているかも

# データセット (`neko.txt`) へのアクセス

Google Drive 共有フォルダにデータセット (`neko.txt`) は保存してあるので第３章と同様にこれを読み込んで使う。

In [None]:
from pathlib import Path

# NLP100 のデータセットを共有するフォルダへのショートカットへの Path。
# 以下の行は自分の設定に応じて適宜修正すること。
DATADIR = Path('/drive/MyDrive/research/2022/nlp100_wakita/data')

# Google Drive を Google Colaboratory の仮想機械にマウントしてアクセス可能にする。
from google.colab import drive
drive.mount('/drive', force_remount=True)

with open(DATADIR.joinpath('neko.txt')) as f:
    print(''.join(f.readlines()[:10]))

Mounted at /drive
一

　吾輩は猫である。
名前はまだ無い。

　どこで生れたかとんと見当がつかぬ。
何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している。
吾輩はここで始めて人間というものを見た。
しかもあとで聞くとそれは書生という人間中で一番獰悪な種族であったそうだ。
この書生というのは時々我々を捕えて煮て食うという話である。



# spaCy のアップグレードと実行

日本語版の spaCy の利用には sudachi (`sudachipy` と `sudachidict_core`) が必要になる。これらを一括インストールするパッケージが `spacy[ja]` らしい。

In [None]:
# !pip show spacy   # Colaboratory 上のバージョンは v2.2.4 (2022-03-12)。最新版は v3.2
!pip install --upgrade spacy 'spacy[ja]' --quiet
!pip show spacy sudachipy

Name: spacy
Version: 3.2.3
Summary: Industrial-strength Natural Language Processing (NLP) in Python
Home-page: https://spacy.io
Author: Explosion
Author-email: contact@explosion.ai
License: MIT
Location: /usr/local/lib/python3.7/dist-packages
Requires: langcodes, jinja2, typer, pydantic, packaging, cymem, typing-extensions, tqdm, requests, spacy-legacy, setuptools, numpy, blis, catalogue, thinc, srsly, preshed, pathy, wasabi, spacy-loggers, murmurhash
Required-by: fastai, en-core-web-sm
---
Name: SudachiPy
Version: 0.6.3
Summary: Python version of Sudachi, the Japanese Morphological Analyzer
Home-page: https://github.com/WorksApplications/sudachi.rs/tree/develop/python
Author: Works Applications
Author-email: sudachi@worksap.co.jp
License: Apache-2.0
Location: /usr/local/lib/python3.7/dist-packages
Requires: 
Required-by: SudachiDict-core


In [None]:
import spacy
nlp = spacy.blank("ja")

doc = nlp('国境の長いトンネルを抜けると雪国であった。')
doc

国境の長いトンネルを抜けると雪国であった。

spaCy の `doc` オブジェクトは一見すると文字列に見えるけれども、実はトークン列を表現している。以下ではトークンが提供する属性を列挙している。

In [None]:
from IPython.display import HTML, Markdown, display

Markdown(', '.join([f'`{attr}`' for attr in dir(doc[0]) if not attr.startswith('_')]))

`ancestors`, `check_flag`, `children`, `cluster`, `conjuncts`, `dep`, `dep_`, `doc`, `ent_id`, `ent_id_`, `ent_iob`, `ent_iob_`, `ent_kb_id`, `ent_kb_id_`, `ent_type`, `ent_type_`, `get_extension`, `has_dep`, `has_extension`, `has_head`, `has_morph`, `has_vector`, `head`, `i`, `idx`, `iob_strings`, `is_alpha`, `is_ancestor`, `is_ascii`, `is_bracket`, `is_currency`, `is_digit`, `is_left_punct`, `is_lower`, `is_oov`, `is_punct`, `is_quote`, `is_right_punct`, `is_sent_end`, `is_sent_start`, `is_space`, `is_stop`, `is_title`, `is_upper`, `lang`, `lang_`, `left_edge`, `lefts`, `lemma`, `lemma_`, `lex`, `lex_id`, `like_email`, `like_num`, `like_url`, `lower`, `lower_`, `morph`, `n_lefts`, `n_rights`, `nbor`, `norm`, `norm_`, `orth`, `orth_`, `pos`, `pos_`, `prefix`, `prefix_`, `prob`, `rank`, `remove_extension`, `right_edge`, `rights`, `sent`, `sent_start`, `sentiment`, `set_extension`, `set_morph`, `shape`, `shape_`, `similarity`, `subtree`, `suffix`, `suffix_`, `tag`, `tag_`, `tensor`, `text`, `text_with_ws`, `vector`, `vector_norm`, `vocab`, `whitespace_`

In [None]:
for t in doc:
    print((t.text, t.lemma_, t.pos_, spacy.explain(t.pos_)))

('国境', '国境', 'NOUN', 'noun')
('の', 'の', 'ADP', 'adposition')
('長い', '長い', 'ADJ', 'adjective')
('トンネル', 'トンネル', 'NOUN', 'noun')
('を', 'を', 'ADP', 'adposition')
('抜ける', '抜ける', 'VERB', 'verb')
('と', 'と', 'SCONJ', 'subordinating conjunction')
('雪国', '雪国', 'NOUN', 'noun')
('で', 'だ', 'AUX', 'auxiliary')
('あっ', 'ある', 'AUX', 'auxiliary')
('た', 'た', 'AUX', 'auxiliary')
('。', '。', 'PUNCT', 'punctuation')


ところで、前述のトークンの属性を眺めると lemma と lemma_ のようによく似た属性があることに気付くだろう。spaCy は記憶領域を圧縮するためにカテゴリー値を Hash 値で表現している。_ を含まない属性名はそのような Hash 値を表し、それに対応した _ で終わる属性は元の値を表す。
たとえば、「雪国」のlemma について調べてみよう。

In [None]:
雪国 = [t for t in doc if t.text == '雪国'][0]

(雪国.lemma, 雪国.lemma_, 雪国.pos, 雪国.pos_)

(7845350659413489886, '雪国', 92, 'NOUN')

このように `_` で終わる属性名を持つ属性が Hash 表現されたものと考えられるので、それらを列挙すると spaCy のだいたいの機能がわかると思う。

In [None]:
token_attrs = dir(雪国)
NLP_ATTRS = sorted([attr[:-1] for attr in set(token_attrs) & set([attr + '_' for attr in token_attrs])])
NLP_ATTRS_ = [attr + '_' for attr in NLP_ATTRS]
Markdown(', '.join(NLP_ATTRS))

dep, ent_id, ent_iob, ent_kb_id, ent_type, lang, lemma, lower, norm, orth, pos, prefix, shape, suffix, tag

spaCy の `doc` を Pandas DataFrame に読み込むとアクセスが簡単なので、変換する。以下の例ではストップワードを除外している点に注意。

In [None]:
import pandas as pd

df = pd.DataFrame([[t.text, t.lemma_, t.pos_, spacy.explain(t.pos_)] for t in doc if not t.is_stop],
                  columns=["text", "lemma", "POS", "explain"])
display(df)

Unnamed: 0,text,lemma,POS,explain
0,国境,国境,NOUN,noun
1,長い,長い,ADJ,adjective
2,トンネル,トンネル,NOUN,noun
3,抜ける,抜ける,VERB,verb
4,雪国,雪国,NOUN,noun
5,。,。,PUNCT,punctuation


# 30. 形態素解析結果の読み込み

> 形態素解析結果（neko.txt.mecab）を読み込むプログラムを実装せよ．ただし，各形態素は表層形（surface），基本形（base），品詞（pos），品詞細分類1（pos1）をキーとするマッピング型に格納し，1文を形態素（マッピング型）のリストとして表現せよ．第4章の残りの問題では，ここで作ったプログラムを活用せよ．

---
Mecab のかわりに spaCy を利用し、マッピング型ではなく Pandas DataFrame を利用することとする。

| Mecab のデータ    | spaCy の属性 |
| --------------- | ----------- |
| 表層形（surface） | `text`      |
| 基本形（base）    | `lemma`     |
| 品詞（pos）       | `POS`       |
| 品詞細分類1       | `???`       |

ひとまずデータを読み込み、すべての属性を表示してみる。

In [None]:
df = pd.DataFrame([[t.text, t.dep_, t.ent_id_, t.ent_iob_, t.ent_kb_id_, t.ent_type_, t.lang_, t.lemma_,
                    t.lower_, t.norm_, t.orth_, t.pos_, t.prefix_, t.shape_, t.suffix_, t.tag_] for t in doc],
                  columns=['text'] + 'dep, ent_id, ent_iob, ent_kb_id, ent_type, lang, lemma, lower, norm, orth, pos, prefix, shape, suffix, tag'.split(', '))
display(df)

Unnamed: 0,text,dep,ent_id,ent_iob,ent_kb_id,ent_type,lang,lemma,lower,norm,orth,pos,prefix,shape,suffix,tag
0,国境,,,,,,ja,国境,国境,国境,国境,NOUN,国,xx,国境,名詞-普通名詞-一般
1,の,,,,,,ja,の,の,の,の,ADP,の,x,の,助詞-格助詞
2,長い,,,,,,ja,長い,長い,長い,長い,ADJ,長,xx,長い,形容詞-一般
3,トンネル,,,,,,ja,トンネル,トンネル,トンネル,トンネル,NOUN,ト,xxxx,ンネル,名詞-普通名詞-サ変可能
4,を,,,,,,ja,を,を,を,を,ADP,を,x,を,助詞-格助詞
5,抜ける,,,,,,ja,抜ける,抜ける,抜ける,抜ける,VERB,抜,xxx,抜ける,動詞-非自立可能
6,と,,,,,,ja,と,と,と,と,SCONJ,と,x,と,助詞-接続助詞
7,雪国,,,,,,ja,雪国,雪国,雪国,雪国,NOUN,雪,xx,雪国,名詞-普通名詞-一般
8,で,,,,,,ja,だ,で,だ,で,AUX,で,x,で,助動詞
9,あっ,,,,,,ja,ある,あっ,有る,あっ,AUX,あ,xx,あっ,動詞-非自立可能


先頭の方の5属性の値が空欄になっている。これは `spacy.blank("ja")` を利用していたため、該当する機能を不活化して spaCy を実行しているためかもしれない。（`spacy.black` について要調査）

In [None]:
NEKO_COLUMNS = 'sentence text norm POS tag'.split(' ')
with open(DATADIR.joinpath('neko.txt')) as f:
    sentences = []
    for i, line in enumerate(f.readlines()):
        sentences.append(list([i, t.text, t.norm_, t.pos_, t.tag_] for j, t in enumerate(nlp(line))))
    NEKO = pd.DataFrame(sum(sentences, []), columns=NEKO_COLUMNS)

In [None]:
# 冒頭の2文について表示してみる。

NEKO[4:16]

Unnamed: 0,sentence,text,norm,POS,tag
4,2,吾輩,我が輩,PRON,代名詞
5,2,は,は,ADP,助詞-係助詞
6,2,猫,猫,NOUN,名詞-普通名詞-一般
7,2,で,だ,AUX,助動詞
8,2,ある,有る,AUX,動詞-非自立可能
9,2,。,。,PUNCT,補助記号-句点
10,2,\n,\n,SPACE,空白
11,3,名前,名前,NOUN,名詞-普通名詞-一般
12,3,は,は,ADP,助詞-係助詞
13,3,まだ,未だ,ADV,副詞


課題は dictionary を構成することを求めているが、Pandas DataFrame の方が便利そうなので、これを使い続けることにする。

# 31. 動詞

> 動詞の表層形をすべて抽出せよ．

表層形は `text` 欄のこと。トークンが動詞か否かは品詞欄 (`POS`) で判定できる。

# 32. 動詞の基本形

> 動詞の基本形をすべて抽出せよ．

Pandas のフィルタ操作の練習。動詞の基本形は `norm` 欄っぽい。

# 33. 「AのB」

> 2つの名詞が「の」で連結されている名詞句を抽出せよ．

spacy について

- 品詞は `POS` 欄

    - 名詞は `NOUN`

    - 助詞は `ADP`

Pandas DataFrame `df` について

- インデックスは `df.index`

- `i` 番目のデータを取得するには `df.iloc[i]`

- `i1`番目から、`i2-1`番目の範囲のデータを取得するには `df.iloc[i1:i2]`

# 34. 名詞の連接

> 名詞の連接（連続して出現する名詞）を最長一致で抽出せよ．

# 35. 単語の出現頻度

> 文章中に出現する単語とその出現頻度を求め，出現頻度の高い順に並べよ．

- 出現頻度は単語をキー、出現頻度を値とする[辞書 - `dict()`](https://docs.python.org/3.10/library/stdtypes.html#dict)を用いるとよい。

In [None]:
d = dict()
d['a'] = 3
d['b'] = 1
d['c'] = 4

sorted(d.items())

[('a', 3), ('b', 1), ('c', 4)]

# 36. 頻度上位10語

> 出現頻度が高い10語とその出現頻度をグラフ（例えば棒グラフなど）で表示せよ．

- 頻度の順に並べるには[`sorted`関数](https://docs.python.org/3.10/library/functions.html#sorted)を用いるが、辞書 `d` をソートするときは `d.items()` により辞書をキーと値の組のリストに変換すること。

- 普通に `sorted(d.items())` を用いると、キーの辞書式順序に整列化するはず。値について整列化してもらうためには `sorted` 関数の `key=` 引数を用いて`sorted(d, key=lambda item: ...)` のように使うとよい。

- 出現頻度の高い順にするには `sorted` 関数の `reverse=` 引数を用いる。

- 脇田は Plotly を用いて描画した。

# 37. 「猫」と共起頻度の高い上位10語

> 「猫」とよく共起する（共起頻度が高い）10語とその出現頻度をグラフ（例えば棒グラフなど）で表示せよ．

- ふたつのトークンが同じ文のなかに出現するとき、この「ふたつのトークンは共起する」という

- あるトークンの「猫」との共起頻度とは、「猫」とそのトークンが共起する回数。ある「猫」を含む文のなかにそのトークンが二個以上出現したときに、共起回数を1回と勘定するか、出現したトークン数と勘定するかは微妙な問題。細かいことは気にせず、扱いやすい方の定義を採用すればよい。

# 38. ヒストグラム

>> 単語の出現頻度のヒストグラムを描け．ただし，横軸は出現頻度を表し，1から単語の出現頻度の最大値までの線形目盛とする．縦軸はx軸で示される出現頻度となった単語の異なり数（種類数）である．

つまりx回出現する単語が何種類あるかを表したグラフを表示すればよい。

# 39. Zipfの法則

[Zipfl/ジップの法則](https://ja.wikipedia.org/wiki/ジップの法則)は自然言語における単語の出現頻度についての非常に有名な経験則。出現頻度が k 番目に大きい要素が、1位のものの頻度と比較して \\(1/k\\) に比例する。このため両対数のスケールでは直線となる。

- 描画にあたっては散布図を使うこと。

- 最も順位の高いデータを 0 位にすると対数の計算で \\(-\infty\\) となってよくない。順位は高い順に \\(0, 1, \ldots\\) ではなく、\\(1, 2, \ldots\\) とすること