# ginzaの使い方

## 基本的な使い方

モデルを指定して解析器を読み込む．

In [2]:
import spacy

nlp = spacy.load("ja_ginza")

その解析器を用いて，文章を単語に分割することができる．

In [3]:
text = "昨日の天気は雨でした。晴れてほしかった。"
doc = nlp(text)

for token in doc:
    print(token)

昨日
の
天気
は
雨
でし
た
。
晴れ
て
ほしかっ
た
。


分割された単語には，出現形(text)，原形(lemma_)，品詞(tag_)が属性として付与される[<sup>1</sup>](#id1)．

In [4]:
for token in doc:
    print(f"{token.text}\t{token.lemma_}\t{token.pos_}\t{token.tag_}")

昨日	昨日	NOUN	名詞-普通名詞-副詞可能
の	の	ADP	助詞-格助詞
天気	天気	NOUN	名詞-普通名詞-一般
は	は	ADP	助詞-係助詞
雨	雨	NOUN	名詞-普通名詞-一般
でし	です	AUX	助動詞
た	た	AUX	助動詞
。	。	PUNCT	補助記号-句点
晴れ	晴れる	VERB	動詞-一般
て	て	SCONJ	助詞-接続助詞
ほしかっ	ほしい	ADJ	形容詞-非自立可能
た	た	AUX	助動詞
。	。	PUNCT	補助記号-句点


pandasのDataFrameに解析結果を格納する方法はこのようになる．

In [5]:
import pandas as pd

df = pd.DataFrame({
    'text': token.text,
    'lemma_': token.lemma_,
    'pos_': token.pos_,
    'tag_': token.tag_
    } for token in doc)

display(df)

Unnamed: 0,text,lemma_,pos_,tag_
0,昨日,昨日,NOUN,名詞-普通名詞-副詞可能
1,の,の,ADP,助詞-格助詞
2,天気,天気,NOUN,名詞-普通名詞-一般
3,は,は,ADP,助詞-係助詞
4,雨,雨,NOUN,名詞-普通名詞-一般
5,でし,です,AUX,助動詞
6,た,た,AUX,助動詞
7,。,。,PUNCT,補助記号-句点
8,晴れ,晴れる,VERB,動詞-一般
9,て,て,SCONJ,助詞-接続助詞


さきほど用意した小説を単語に分割してみよう．

In [1]:
input_fn = 'text/kageotoko.corpus.txt'
output_fn = 'text/kageotoko.wakati.txt'

with open(input_fn, 'r',encoding="utf-8") as fin, open(output_fn, 'w',encoding="utf-8") as fout:
    for line in fin:
        tokens = [token.text for token in nlp(line.rstrip())]
        fout.write(' '.join(tokens)+'\n')


NameError: name 'nlp' is not defined

単語の出現頻度を数えてみよう．活用する語の活用形を別々に数えるのではなく，原形で集計する．

In [7]:
from collections import Counter

include_pos = ('NOUN', 'VERB', 'ADJ')
stopwords = ('する', 'ある', 'ない', 'いう', 'もの', 'こと', 'よう', 'なる', 'ほう')

In [8]:
with open(input_fn, 'r',encoding="utf-8") as f:
    text = f.read()

doc = nlp(text)
counter = Counter(token.lemma_ for token in doc
                  if token.pos_ in include_pos and token.lemma_ not in stopwords)

print('count word')
for word, count in counter.most_common(10):
     print(f'{count:>5} {word}')

count word
  224 お
  212 中
  206 人
  199 男
  176 顔
  172 ふたり
  137 つ
  135 わかる
  129 目
  127 見える


In [9]:
cnt=Counter(["a","a","b","c"])
print(cnt.most_common(2))

[('a', 2), ('b', 1)]


## 注釈
<sup>1</sup> <span id=id1>pos_属性は，Universal Dependencyの品詞体系．</span>