# 第４章: [形態素解析](https://nlp100.github.io/ja/ch04.html)

[脇田の回答例](https://colab.research.google.com/drive/1NIrvOIfSCH_v9drBXA9LTCoFchbU3xHq?usp=sharing)

## 参考資料

- [An Introduction to Natural Language in Python using spaCy](https://colab.research.google.com/github/DerwenAI/spaCy_tuTorial/blob/master/spaCy_tuTorial.ipynb#scrollTo=v95pjRb1H87Z)
    これは Google Colab とは独立した SpaCy の解説のようだ

- [How to get started with SpaCy and its module in Google Colab?](https://stackoverflow.com/questions/59484501/how-to-get-started-with-spacy-library-and-its-module-in-google-colab): (answered at S/O on 2019-12-28)

    SpaCy のアップグレード、モデルのダウンロード、などなどが必要。
    
- [How do I import the saved ~module~ model in Google Colab](https://stackoverflow.com/questions/67646437/how-do-i-import-the-saved-module-in-google-colab)

    この質問は Google Drive に保存したモデルを使って spaCy を利用する方法について。`drive.mount` してから、`nlp.to_disk("RCM.model")` と `spacy.load("RCM.model")` を使えばよいようだ。共有ドライブでこれらの機能が動けば嬉しい。

- [GoogleColabで日本語NLPライブラリGiNZAがloadできない](https://www.mojirca.com/2019/10/colab-load-ginza.html)

    日本語の場合は GiNZA を使う。

- [Colabで日本語対応したspaCyを動かしてみる](https://qiita.com/matsunori39/items/b7905bb3c838b5862c32): (Qiita on 2022-01-27)

    GiNZA についてはこちらの方がまとまっているかも

# Google Drive へのアクセス

第３章で経験したように Google Colaboratory はファイルの読み書きはできる。しかし、Colaboratory は一時的な仮想機械で動いているため、Colaboratory の仮想記憶を停止した時点でファイル群は消えてなくなる。これで恒久的に保存したいファイルへのアクセスができなくて困ることがある。

Colaboratory に Google Drive へのアクセス権限を付与することで Google Drive 上のファイルを読み書きできるようになる。このような利用例に繰り返し利用するデータセットがある。データセットを Google Drive に保存しておき、それに Colaboratory からアクセスすれば Colaboratory を起動するごとにデータセットをダウンロードしなくてすむ。

Google Drive から共有された巨大なデータセットについては、それを自分の Drive に保存しないでも直接読み込むことができるかもしれない。もし、それが可能なら自分の Google Drive の容量を圧迫しないですみそうだ。

In [None]:
# Google Drive は Google Colaboratory の仮想機械にマウントしてアクセス可能にする。

from google.colab import drive
drive.mount('/drive', force_remount=True)

with open('/drive/MyDrive/hello.txt', 'w') as w:
    w.write('Hello Google Colaboratory!\n')

# ちゃんと書き込まれているか確認する
with open('/drive/MyDrive/hello.txt') as r:
    print(r.read())

# spaCy のアップグレードと実行

In [1]:
# !pip show spacy   # Colaboratory 上のバージョンは v2.2.4 (2022-03-12)。最新版は v3.2
!pip install --upgrade spacy --quiet
!pip show spacy

You should consider upgrading via the '/Users/wakita/.venvs/book/bin/python3.9 -m pip install --upgrade pip' command.[0m
Name: spacy
Version: 3.2.3
Summary: Industrial-strength Natural Language Processing (NLP) in Python
Home-page: https://spacy.io
Author: Explosion
Author-email: contact@explosion.ai
License: MIT
Location: /Users/wakita/.venvs/book/lib/python3.9/site-packages
Requires: blis, catalogue, cymem, jinja2, langcodes, murmurhash, numpy, packaging, pathy, preshed, pydantic, requests, setuptools, spacy-legacy, spacy-loggers, srsly, thinc, tqdm, typer, wasabi
Required-by: 


日本語版の spaCy の利用には sudachi (`sudachipy` と `sudachidict_core`) が必要になる。これらを一括インストールするパッケージが `spacy[ja]` らしい。

In [8]:
!pip install --upgrade pip --quiet
!pip install 'spacy[ja]' --quiet
!pip show 'sudachipy'

Name: SudachiPy
Version: 0.6.3
Summary: Python version of Sudachi, the Japanese Morphological Analyzer
Home-page: https://github.com/WorksApplications/sudachi.rs/tree/develop/python
Author: Works Applications
Author-email: sudachi@worksap.co.jp
License: Apache-2.0
Location: /Users/wakita/.venvs/book/lib/python3.9/site-packages
Requires: 
Required-by: SudachiDict-core


In [10]:
import spacy
nlp = spacy.blank("ja")

doc = nlp('国境の長いトンネルを抜けると雪国であった。')

doc

国境の長いトンネルを抜けると雪国であった。

spaCy の `doc` オブジェクトは一見すると文字列に見えるけれども、実はトークン列を表現している。以下ではトークンが提供する属性を列挙している。

In [11]:
from IPython.display import HTML, Markdown

Markdown(', '.join([f'`{attr}`' for attr in dir(doc[0]) if not attr.startswith('_')]))

`ancestors`, `check_flag`, `children`, `cluster`, `conjuncts`, `dep`, `dep_`, `doc`, `ent_id`, `ent_id_`, `ent_iob`, `ent_iob_`, `ent_kb_id`, `ent_kb_id_`, `ent_type`, `ent_type_`, `get_extension`, `has_dep`, `has_extension`, `has_head`, `has_morph`, `has_vector`, `head`, `i`, `idx`, `iob_strings`, `is_alpha`, `is_ancestor`, `is_ascii`, `is_bracket`, `is_currency`, `is_digit`, `is_left_punct`, `is_lower`, `is_oov`, `is_punct`, `is_quote`, `is_right_punct`, `is_sent_end`, `is_sent_start`, `is_space`, `is_stop`, `is_title`, `is_upper`, `lang`, `lang_`, `left_edge`, `lefts`, `lemma`, `lemma_`, `lex`, `lex_id`, `like_email`, `like_num`, `like_url`, `lower`, `lower_`, `morph`, `n_lefts`, `n_rights`, `nbor`, `norm`, `norm_`, `orth`, `orth_`, `pos`, `pos_`, `prefix`, `prefix_`, `prob`, `rank`, `remove_extension`, `right_edge`, `rights`, `sent`, `sent_start`, `sentiment`, `set_extension`, `set_morph`, `shape`, `shape_`, `similarity`, `subtree`, `suffix`, `suffix_`, `tag`, `tag_`, `tensor`, `text`, `text_with_ws`, `vector`, `vector_norm`, `vocab`, `whitespace_`

In [12]:
for t in doc:
    print((t.text, t.lemma_, t.pos_, spacy.explain(t.pos_)))

('国境', '国境', 'NOUN', 'noun')
('の', 'の', 'ADP', 'adposition')
('長い', '長い', 'ADJ', 'adjective')
('トンネル', 'トンネル', 'NOUN', 'noun')
('を', 'を', 'ADP', 'adposition')
('抜ける', '抜ける', 'VERB', 'verb')
('と', 'と', 'SCONJ', 'subordinating conjunction')
('雪国', '雪国', 'NOUN', 'noun')
('で', 'だ', 'AUX', 'auxiliary')
('あっ', 'ある', 'AUX', 'auxiliary')
('た', 'た', 'AUX', 'auxiliary')
('。', '。', 'PUNCT', 'punctuation')


ところで、前述のトークンの属性を眺めると lemma と lemma_ のようによく似た属性があることに気付くだろう。spaCy は記憶領域を圧縮するためにカテゴリー値を Hash 値で表現している。_ を含まない属性名はそのような Hash 値を表し、それに対応した _ で終わる属性は元の値を表す。
たとえば、「雪国」のlemma について調べてみよう。

In [14]:
for t in doc:
    if t.text == '雪国':
        雪国 = t

(雪国.lemma, 雪国.lemma_, 雪国.pos, 雪国.pos_)

(7845350659413489886, '雪国', 92, 'NOUN')

このように `_` で終わる属性名を持つ属性が Hash 表現されたものと考えられるので、それらを列挙すると spaCy のだいたいの機能がわかると思う。

In [15]:
token_attrs = dir(雪国)
Markdown(', '.join(sorted([attr[:-1] for attr in set(token_attrs) & set([attr + '_' for attr in token_attrs])])))

dep, ent_id, ent_iob, ent_kb_id, ent_type, lang, lemma, lower, norm, orth, pos, prefix, shape, suffix, tag

spaCy の `doc` を Pandas DataFrame に読み込むとアクセスが簡単なので、変換する。以下の例ではストップワードを除外している点に注意。

In [16]:
import pandas as pd

df = pd.DataFrame([[t.text, t.lemma_, t.pos_, spacy.explain(t.pos_)] for t in doc if not t.is_stop],
                  columns=["text", "lemma", "POS", "explain"])
df

Unnamed: 0,text,lemma,POS,explain
0,国境,国境,NOUN,noun
1,長い,長い,ADJ,adjective
2,トンネル,トンネル,NOUN,noun
3,抜ける,抜ける,VERB,verb
4,雪国,雪国,NOUN,noun
5,。,。,PUNCT,punctuation


# 30. 形態素解析結果の読み込み

# 31. 動詞

# 32. 動詞の基本形

# 33. 「AのB」

# 34. 名詞の連接

# 35. 単語の出現頻度

# 36. 頻度上位10語

# 37. 「猫」と共起頻度の高い上位10語

# 38. ヒストグラム

# 39. Zipfの法則