# 事前処理

jumanとknpをインストールした後に下記でparse後のファイルを作成した

```
while read line
do
  echo $line | jumanpp | knp -tab >> ./ai.ja/ai.ja.parsed
done < /ai.ja/ai.ja.txt
```

In [33]:
with open("../ai.ja/ai.ja.parsed") as f:
    texts = f.read()

# 40. 係り受け解析結果の読み込み（形態素）

In [17]:
from pydantic import BaseModel

class Morph(BaseModel):
    surface: str
    base: str
    pos: str
    pos1: str

In [49]:
# EOSごとに区切った上で、 \n で区切る
sentences = list(map(lambda x: x.split("\n"), texts.split("EOS")))
# 空の要素削除
sentences = [[element for element in sentence if element != ""] for sentence in sentences]
sentences[:1]

[['# S-ID:1 KNP:4.19-CF1.1 DATE:2021/06/05 SCORE:-1.74640',
  '* -1D <文頭><文末><体言><用言:判><体言止><レベル:C><区切:5-5><ID:（文末）><裸名詞><提題受:30><主節><状態述語><正規化代表表記:人工/じんこう+知能/ちのう><主辞代表表記:知能/ちのう>',
  '+ 1D <文節内><係:文節内><文頭><体言><名詞項候補><先行詞候補><正規化代表表記:人工/じんこう>',
  '人工 じんこう 人工 名詞 6 普通名詞 1 * 0 * 0 "代表表記:人工/じんこう カテゴリ:抽象物" <代表表記:人工/じんこう><カテゴリ:抽象物><正規化代表表記:人工/じんこう><文頭><漢字><かな漢字><名詞相当語><自立><内容語><タグ単位始><文節始>',
  '+ -1D <文末><体言><用言:判><体言止><レベル:C><区切:5-5><ID:（文末）><裸名詞><提題受:30><主節><状態述語><判定詞><名詞項候補><先行詞候補><正規化代表表記:知能/ちのう><用言代表表記:知能/ちのう><Wikipedia上位語:基礎技術><時制-無時制><格解析結果:知能/ちのう:判0:ガ/U/-/-/-/-;トスル/U/-/-/-/-;外の関係/U/-/-/-/->',
  '知能 ちのう 知能 名詞 6 普通名詞 1 * 0 * 0 "代表表記:知能/ちのう カテゴリ:抽象物" <代表表記:知能/ちのう><カテゴリ:抽象物><正規化代表表記:知能/ちのう><文末><Wikipedia上位語:基礎技術:0-1><表現文末><漢字><かな漢字><名詞相当語><自立><複合←><内容語><タグ単位始><文節主辞>']]

In [61]:
# 冒頭の説明文をMorphsにする
morphs = []
for result in sentences[1]:
    if result.startswith(("#", "*", "+")):
        continue
    else:
        elements = result.split()
        morph = Morph(surface=elements[0], base=elements[2], pos=elements[3], pos1=elements[5])
        morphs.append(morph)

In [62]:
morphs

[Morph(surface='人工', base='人工', pos='名詞', pos1='普通名詞'),
 Morph(surface='知能', base='知能', pos='名詞', pos1='普通名詞'),
 Morph(surface='（', base='（', pos='特殊', pos1='括弧始'),
 Morph(surface='じんこう', base='じんこう', pos='名詞', pos1='普通名詞'),
 Morph(surface='ちのう', base='ちのう', pos='名詞', pos1='普通名詞'),
 Morph(surface='、', base='、', pos='特殊', pos1='読点'),
 Morph(surface='、', base='、', pos='特殊', pos1='読点'),
 Morph(surface='AI', base='AI', pos='名詞', pos1='組織名'),
 Morph(surface='〈', base='〈', pos='特殊', pos1='括弧始'),
 Morph(surface='エーアイ', base='エーアイ', pos='名詞', pos1='組織名'),
 Morph(surface='〉', base='〉', pos='特殊', pos1='括弧終'),
 Morph(surface='）', base='）', pos='特殊', pos1='括弧終'),
 Morph(surface='と', base='と', pos='助詞', pos1='格助詞'),
 Morph(surface='は', base='は', pos='助詞', pos1='副助詞'),
 Morph(surface='、', base='、', pos='特殊', pos1='読点'),
 Morph(surface='「', base='「', pos='特殊', pos1='括弧始'),
 Morph(surface='『', base='『', pos='特殊', pos1='括弧始'),
 Morph(surface='計算', base='計算', pos='名詞', pos1='サ変名詞'),
 Morph(surface='（）',