# 第4章: 言語解析

In [16]:
import sudachipy
import numpy as np
import spacy

In [28]:
text = """
メロスは激怒した。
必ず、かの邪智暴虐の王を除かなければならぬと決意した。
メロスには政治がわからぬ。
メロスは、村の牧人である。
笛を吹き、羊と遊んで暮して来た。
けれども邪悪に対しては、人一倍に敏感であった。
"""

In [6]:
dict = sudachipy.Dictionary() 
tokenizer = dict.create() 
nlp = spacy.load('ja_ginza')

## 30. 動詞
文章textに含まれる動詞をすべて表示せよ。

In [6]:
morphs = tokenizer.tokenize(text, mode=sudachipy.SplitMode.B)
for m in morphs:
    if m.part_of_speech()[0] == "動詞":
        print(m.surface(), m.part_of_speech())

し ('動詞', '非自立可能', '*', '*', 'サ行変格', '連用形-一般')
除か ('動詞', '一般', '*', '*', '五段-カ行', '未然形-一般')
なら ('動詞', '非自立可能', '*', '*', '五段-ラ行', '未然形-一般')
し ('動詞', '非自立可能', '*', '*', 'サ行変格', '連用形-一般')
わから ('動詞', '一般', '*', '*', '五段-ラ行', '未然形-一般')
ある ('動詞', '非自立可能', '*', '*', '五段-ラ行', '終止形-一般')
吹き ('動詞', '一般', '*', '*', '五段-カ行', '連用形-一般')
遊ん ('動詞', '一般', '*', '*', '五段-バ行', '連用形-撥音便')
暮し ('動詞', '一般', '*', '*', '五段-サ行', '連用形-一般')
来 ('動詞', '非自立可能', '*', '*', 'カ行変格', '連用形-一般')
対し ('動詞', '一般', '*', '*', 'サ行変格', '連用形-一般')
あっ ('動詞', '非自立可能', '*', '*', '五段-ラ行', '連用形-促音便')


## 31. 動詞の原型
文章textに含まれる動詞と、その原型をすべて表示せよ。

In [7]:
morphs = tokenizer.tokenize(text, mode=sudachipy.SplitMode.B)
for m in morphs:
    if m.part_of_speech()[0] == "動詞":
        print(m.dictionary_form(), m.part_of_speech())

する ('動詞', '非自立可能', '*', '*', 'サ行変格', '連用形-一般')
除く ('動詞', '一般', '*', '*', '五段-カ行', '未然形-一般')
なる ('動詞', '非自立可能', '*', '*', '五段-ラ行', '未然形-一般')
する ('動詞', '非自立可能', '*', '*', 'サ行変格', '連用形-一般')
わかる ('動詞', '一般', '*', '*', '五段-ラ行', '未然形-一般')
ある ('動詞', '非自立可能', '*', '*', '五段-ラ行', '終止形-一般')
吹く ('動詞', '一般', '*', '*', '五段-カ行', '連用形-一般')
遊ぶ ('動詞', '一般', '*', '*', '五段-バ行', '連用形-撥音便')
暮す ('動詞', '一般', '*', '*', '五段-サ行', '連用形-一般')
来る ('動詞', '非自立可能', '*', '*', 'カ行変格', '連用形-一般')
対する ('動詞', '一般', '*', '*', 'サ行変格', '連用形-一般')
ある ('動詞', '非自立可能', '*', '*', '五段-ラ行', '連用形-促音便')


## 32. 「AのB」
文章textにおいて、2つの名詞が「の」で連結されている名詞句をすべて抽出せよ。

In [None]:
morphs = tokenizer.tokenize(text, mode=sudachipy.SplitMode.B)
noun_chain,results = [],[]
for m in morphs:
    if m.part_of_speech()[0] == "名詞":
        if "の" in noun_chain:
            noun_chain.append(m.surface())
            results.append("".join(noun_chain))
        noun_chain = [m.surface()]
    elif m.surface() == "の" and noun_chain != []:
        noun_chain.append(m.surface())
results

['暴虐の王', '村の牧人']

## 33. 係り受け解析
文章textに係り受け解析を適用し、係り元と係り先のトークン（形態素や文節などの単位）をタブ区切り形式ですべて抽出せよ。

In [34]:
doc = nlp(text)
for sent in doc.sents:
    for token in sent:
        print(f"{token.text}  {token.head.text}")


  メロス
メロス  激怒
は  メロス
激怒  激怒
し  激怒
た  激怒
。  激怒

  

必ず  除か
、  必ず
かの  暴虐
邪智  暴虐
暴虐  王
の  暴虐
王  除か
を  王
除か  決意
なけれ  除か
ば  なけれ
なら  なけれ
ぬ  なけれ
と  除か
決意  決意
し  決意
た  決意
。  決意

  メロス
メロス  わから
に  メロス
は  メロス
政治  わから
が  政治
わから  わから
ぬ  わから
。  わから

  メロス
メロス  牧人
は  メロス
、  メロス
村  牧人
の  村
牧人  牧人
で  牧人
ある  で
。  牧人

  笛
笛  吹き
を  笛
吹き  暮し
、  吹き
羊  遊ん
と  羊
遊ん  暮し
で  遊ん
暮し  暮し
て  暮し
来  て
た  暮し
。  暮し

  邪悪
けれど  

も  

邪悪  敏感
に  邪悪
対し  に
ては  に
、  邪悪
人  倍
一  倍
倍  敏感
に  倍
敏感  敏感
で  敏感
あっ  で
た  敏感
。  敏感

  



## 34. 主述の関係
文章textにおいて、「メロス」が主語であるときの述語を抽出せよ。

In [38]:
doc = nlp(text)
for sent in doc.sents:
    for token in sent:
        if token.text == "メロス" and token.dep_ == "nsubj":
            print(f"{token.text}  {token.head.text}")

メロス  激怒
メロス  牧人


## 35. 係り受け木
「メロスは激怒した。」の係り受け木を可視化せよ。

In [39]:
from spacy import displacy


doc = nlp("メロスは激怒した。")
for sent in doc.sents:
    svg = displacy.render(sent, style="dep", jupyter=True)

## 36. 単語の出現頻度
問題36から39までは、Wikipediaの記事を以下のフォーマットで書き出したファイルjawiki-country.json.gzをコーパスと見なし、統計的な分析を行う。

1行に1記事の情報がJSON形式で格納される

各行には記事名が”title”キーに、記事本文が”text”キーの辞書オブジェクトに格納され、そのオブジェクトがJSON形式で書き出される

ファイル全体はgzipで圧縮される

まず、第3章の処理内容を参考に、Wikipedia記事からマークアップを除去し、各記事のテキストを抽出せよ。そして、コーパスにおける単語（形態素）の出現頻度を求め、出現頻度の高い20語とその出現頻度を表示せよ。

In [15]:
import json
import re

text = ""
emphasis_pattern = re.compile(r'\'+(.+?)\'+')
internal_link_pattern = re.compile(r'\[\[(.+?)\]\]')
holaizon_pattern = re.compile(r'-+')
section_pattern = re.compile(r'={2,6}(.+)={2,6}')
br_pattern = re.compile(r'<br />')
ref_pattern = re.compile(r'<ref .+ />')
ref_pattern2 = re.compile(r'<ref.*>.+</ref>')

text = ""

## クリーニングが甘い状態
with open("./jawiki-country.json", mode="r", encoding="utf-8") as f:
    country_data =  [json.loads(l) for l in f.readlines()]
for c,country in enumerate(country_data):
    body = country["text"]
    body = emphasis_pattern.sub('\\1',body)
    body = internal_link_pattern.sub('\\1',body)
    body = section_pattern.sub('\\1',body)
    body = holaizon_pattern.sub('',body)
    body = br_pattern.sub('',body)
    body = ref_pattern.sub('',body)
    body = ref_pattern2.sub('',body)
    country_data[c]["text"] = body
    text += body


In [14]:
word_dict = {}
for b in text.split("\n"):
    morphs = tokenizer.tokenize(b, mode=sudachipy.SplitMode.B)
    for m in morphs:
        if m.surface() in word_dict.keys():
            word_dict[m.surface()] += 1
        else:
            word_dict[m.surface()] = 1
            
for key,value in sorted(word_dict.items(),key=lambda x:x[1],reverse=True)[:20]:
    print(key,value)

  152478
| 106733
の 87540
、 77662
に 57024
。 48647
は 47143
が 40129
{ 39812
} 39798
= 35086
を 34890
て 32651
た 32218
で 31397
と 31176
し 27282
年 25028
・ 24536
） 17424


## 37. 名詞の出現頻度
コーパスにおける名詞の出現頻度を求め、出現頻度の高い20語とその出現頻度を表示せよ。

In [13]:
noun_dict = {}
for b in text.split("\n"):
    morphs = tokenizer.tokenize(b, mode=sudachipy.SplitMode.B)
    for m in morphs:
        if m.part_of_speech()[0] == "名詞":
            if m.surface() in noun_dict.keys():
                noun_dict[m.surface()] += 1
            else:
                noun_dict[m.surface()] = 1
            
for key,value in sorted(noun_dict.items(),key=lambda x:x[1],reverse=True)[:20]:
    print(key,value)


年 25028
月 9864
en 6317
% 5164
1 4773
2 4400
リンク 4186
こと 4108
日本 3785
世界 3712
仮 3672
共和国 3551
語 3411
大統領 3350
of 3316
3 3217
アメリカ 3206
政府 3196
thumb 3047
ため 2888


## 38. TF・IDF
日本に関する記事における名詞のTF・IDFスコアを求め、TF・IDFスコア上位20語とそのTF, IDF, TF・IDFを表示せよ。

In [None]:
def tf(word,text):
    return text.count(word)

def idf(word,collections):
    count = 0
    for collection in collections:
        if word in collection:
            count += 1
    return np.log(1+len(collections)/count)

def tf_idf(word,text,collections):
    return tf(word,text)*idf(word,collections)