# ginzaの使い方

## 基本的な使い方

モデルを指定して解析器を読み込む．

In [None]:
import spacy

nlp = spacy.load("ja_ginza")

その解析器を用いて，文章を単語に分割することができる．

In [None]:
text = "昨日の天気は雨でした。晴れてほしかった。"
doc = nlp(text)

for token in doc:
    print(token)

分割された単語には，出現形(text)，原形(lemma_)，品詞(tag_)が属性として付与される[<sup>1</sup>](#id1)．

In [None]:
for token in doc:
    print(f"{token.text}\t{token.lemma_}\t{token.pos_}\t{token.tag_}")

pandasのDataFrameに解析結果を格納する方法はこのようになる．

In [None]:
import pandas as pd

df = pd.DataFrame({
    'text': token.text,
    'lemma_': token.lemma_,
    'pos_': token.pos_,
    'tag_': token.tag_
    } for token in doc)

display(df)

さきほど用意した小説を単語に分割してみよう．

In [None]:
input_fn = 'text/kageotoko.corpus.txt'
output_fn = 'text/kageotoko.wakati.txt'

with open(input_fn, 'r') as fin, open(output_fn, 'w') as fout:
    for line in fin:
        tokens = [token.text for token in nlp(line.rstrip())]
        fout.write(' '.join(tokens)+'\n')

!head text/kageotoko.wakati.txt

単語の出現頻度を数えてみよう．活用する語の活用形を別々に数えるのではなく，原形で集計する．

In [None]:
from collections import Counter

include_pos = ('NOUN', 'VERB', 'ADJ')
stopwords = ('する', 'ある', 'ない', 'いう', 'もの', 'こと', 'よう', 'なる', 'ほう')

In [None]:
with open(input_fn, 'r') as f:
    text = f.read()

doc = nlp(text)
counter = Counter(token.lemma_ for token in doc
                  if token.pos_ in include_pos and token.lemma_ not in stopwords)

print('count word')
for word, count in counter.most_common(10):
     print(f'{count:>5} {word}')

## 注釈
<sup>1</sup> <span id=id1>pos_属性は，Universal Dependencyの品詞体系．</span>