In [1]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
import pydot
plt.style.use('ggplot')
%matplotlib inline
# cabocha -f1 neko.txt > neko.txt.cabocha

In [2]:
with open('neko.txt.cabocha') as f:
    source = f.readlines()

# 40. 係り受け解析結果の読み込み（形態素）
 形態素を表すクラスMorphを実装せよ．このクラスは表層形（surface），基本形（base），品詞（pos），品詞細分類1（pos1）を
 メンバ変数に持つこととする．さらに，CaboChaの解析結果（neko.txt.cabocha）を読み込み，
 各文をMorphオブジェクトのリストとして表現し，3文目の形態素列を表示せよ．

In [3]:
class Morph:
    def __init__(self):
        self.surface = ""
        self.base = ""
        self.pos = ""
        self.pos1 = ""
    def set(self, line):
        line = line.split('\t')
        surface = line[0]
        line = line[1][:-1].split(",")
        self.surface = surface
        self.base = line[6]
        self.pos = line[0]
        self.pos1 = line[1]

In [4]:
neko = []
for line in source:
    if '* 0' in line:
        sentence = []
    if 'EOS' in line:
        neko.append(sentence)
    if '\t' in line:
        val = Morph()
        val.set(line)
        sentence.append(val)   

In [5]:
for morph in neko[2]:
    print(morph.surface)

　
吾輩
は
猫
で
ある
。


In [6]:
for morph in neko[2]:
    print(morph.pos1)

空白
代名詞
係助詞
一般
*
*
句点


# 41. 係り受け解析結果の読み込み（文節・係り受け）
 40に加えて，文節を表すクラスChunkを実装せよ．
 このクラスは形態素（Morphオブジェクト）のリスト（morphs），係り先文節インデックス番号（dst），係り元文節インデックス番号のリスト（srcs）を
 メンバ変数に持つこととする．さらに，入力テキストのCaboChaの解析結果を読み込み，
 １文をChunkオブジェクトのリストとして表現し，8文目の文節の文字列と係り先を表示せよ．第5章の残りの問題では，ここで作ったプログラムを活用せよ．

In [7]:
class Chunk:
    def __init__(self):
        self.id = 0 
        self.morphs = [] 
        self.dst = 0 
        self.srcs = []

In [8]:
def set_srcs(sentence):
    for chunk in sentence:
        if chunk.dst != -1:
            sentence[chunk.dst].srcs.append(chunk.id) 

In [9]:
neko = []
for line in source:
    if '* ' in line:
        id = int(line.split(" ")[1])
        if id == 0:
            sentence = []
        else:
            sentence.append(chunk)
        chunk = Chunk()
        chunk.id = id 
        chunk.dst = int(line.split(" ")[2][:-1])
    if 'EOS' in line:
        if chunk:
            sentence.append(chunk)
            set_srcs(sentence)
        neko.append(sentence)
        sentence = []
        chunk = None
    if '\t' in line:
        val = Morph()
        val.set(line)
        chunk.morphs.append(val)

In [10]:
for chunk in neko[7]:
    print(chunk.dst)
    for morph in chunk.morphs:
        print(morph.surface)

5
吾輩
は
2
ここ
で
3
始め
て
4
人間
という
5
もの
を
-1
見
た
。


# 42. 係り元と係り先の文節の表示
係り元の文節と係り先の文節のテキストをタブ区切り形式ですべて抽出せよ．ただし，句読点などの記号は出力しないようにせよ．

In [11]:
def chunk2word(chunk):
    return "".join([x.surface for x in chunk.morphs if not ("。" in x.surface) or ("、" in x.surface)])

def showSrcAndDst(sentence): 
    for chunk in sentence:
        if chunk.dst != -1:
            src = chunk2word(chunk)
            dst = chunk2word(sentence[chunk.dst])
            return src + "\t" + dst

with open('42.txt', 'w') as f:           
    for sentence in neko:
        word = showSrcAndDst(sentence)
        if word:
            f.write(word)
            f.write("\n")
# 9530件

# 43. 名詞を含む文節が動詞を含む文節に係るものを抽出
名詞を含む文節が，動詞を含む文節に係るとき，これらをタブ区切り形式で抽出せよ．ただし，句読点などの記号は出力しないようにせよ．

In [12]:
def showNounAndVerb(sentence): 
    def checkPos(chunk, pos):
        for morph in chunk.morphs:
            if morph.pos == pos:
                return True
        return False

    for chunk in sentence:
        if chunk.dst != -1:
            chunk2 = sentence[chunk.dst]
            if checkPos(chunk, "名詞") and checkPos(chunk2, "動詞"):
                src = chunk2word(chunk)
                dst = chunk2word(chunk2)
                return src + "\t" + dst

with open('43.txt', 'w') as f:           
    for sentence in neko:
        word = showNounAndVerb(sentence)
        if word:
            f.write(word)
            f.write("\n")
# 8079件

# 44. 係り受け木の可視化
与えられた文の係り受け木を有向グラフとして可視化せよ．
可視化には，係り受け木をDOT言語に変換し，Graphvizを用いるとよい．
また，Pythonから有向グラフを直接的に可視化するには，pydotを使うとよい．

In [13]:
def getSrcAndDst(sentence):
    for chunk in sentence:
        if chunk.dst != -1:
            src = chunk2word(chunk)
            dst = chunk2word(sentence[chunk.dst])
            return (src, dst)

edges = []
for sentence in neko[:50]:
    edge = getSrcAndDst(sentence)
    if edge:
        edges.append(edge)
g=pydot.graph_from_edges(edges, directed=True)
g.write_jpeg('44.jpg')
# 全部やると時間かかるので一部のみ

True

# 45. 動詞の格パターンの抽出
今回用いている文章をコーパスと見なし，日本語の述語が取りうる格を調査したい． 動詞を述語，動詞に係っている文節の助詞を格と考え，述語と格をタブ区切り形式で出力せよ． ただし，出力は以下の仕様を満たすようにせよ．

+ 動詞を含む文節において，最左の動詞の基本形を述語とする
+ 述語に係る助詞を格とする
+ 述語に係る助詞（文節）が複数あるときは，すべての助詞をスペース区切りで辞書順に並べる

「吾輩はここで始めて人間というものを見た」という例文（neko.txt.cabochaの8文目）を考える． この文は「始める」と「見る」の２つの動詞を含み，「始める」に係る文節は「ここで」，「見る」に係る文節は「吾輩は」と「ものを」と解析された場合は，次のような出力になるはずである．

```
始める  で
見る    は を
```
このプログラムの出力をファイルに保存し，以下の事項をUNIXコマンドを用いて確認せよ．

コーパス中で頻出する述語と格パターンの組み合わせ
「する」「見る」「与える」という動詞の格パターン（コーパス中で出現頻度の高い順に並べよ）

In [24]:
def getVerbAndCase(chunk, sentence): 
    def checkPos(chunk, pos):
        for morph in chunk.morphs:
            if morph.pos == pos:
                return True
        return False

    if checkPos(chunk, "動詞"):
        case = []
        for id in chunk.srcs:
            for morph in sentence[id].morphs:
                if morph.pos == "助詞":
                    case.append(morph.surface)
            verb = chunk.morphs[0].base
            if len(case) > 0:
                return verb + " " + " ".join(sorted(case))

with open('45.txt', 'w') as f:           
    for sentence in neko:
        for chunk in sentence:
            word = getVerbAndCase(chunk, sentence)
            if word:
                f.write(word)
                f.write("\n")

# unixコマンド

`sort 45.txt | uniq -c | sort`

```
    196 なる に
    221 見る て
    249 ある が
    263 思う と
    268 する を
    615 云う と
```

`grep する 45.txt | sort | uniq -c | sort`

```
    107 する て
    113 する が
    126 する に
    138 する と
    268 する を
```

`grep 見る 45.txt | sort | uniq -c | sort`

```
     25 見る と
     29 見る が
     38 見る は
     42 見る から
    102 見る を
    221 見る て
```

`grep 与える 45.txt | sort | uniq -c | sort`

```
    　1 与える に は
      1 与える ば
      2 与える て
      2 与える は
      4 与える に
```

# 46. 動詞の格フレーム情報の抽出
45のプログラムを改変し，述語と格パターンに続けて項（述語に係っている文節そのもの）をタブ区切り形式で出力せよ．45の仕様に加えて，以下の仕様を満たすようにせよ．

+ 項は述語に係っている文節の単語列とする（末尾の助詞を取り除く必要はない）
+ 述語に係る文節が複数あるときは，助詞と同一の基準・順序でスペース区切りで並べる

「吾輩はここで始めて人間というものを見た」という例文（neko.txt.cabochaの8文目）を考える． この文は「始める」と「見る」の２つの動詞を含み，「始める」に係る文節は「ここで」，「見る」に係る文節は「吾輩は」と「ものを」と解析された場合は，次のような出力になるはずである．

```
始める  で      ここで
見る    は を   吾輩は ものを
```

In [32]:
def getVerbAndCaseFrame(chunk, sentence): 
    def checkPos(chunk, pos):
        for morph in chunk.morphs:
            if morph.pos == pos:
                return True
        return False

    if checkPos(chunk, "動詞"):
        case = []
        for id in chunk.srcs:
            for morph in sentence[id].morphs:
                if morph.pos == "助詞":
                    case.append(morph.surface)
            if len(case) > 0:
                verb = chunk.morphs[0].base
                frame = [chunk2word(sentence[i]) for i in chunk.srcs]
                return verb + " " + " ".join(sorted(case)) + " " + " ".join(sorted(frame))

with open('46.txt', 'w') as f:           
    for sentence in neko:
        for chunk in sentence:
            word = getVerbAndCaseFrame(chunk, sentence)
            if word:
                f.write(word)
                f.write("\n")