# 1.janome の使い方
***

janomeを用いて日本語の文字列を形態素解析する。

## 1.1 janomeの基本

TokenizerをインポートしてTokenizerオブジェクトのインスタンスを生成、tokenize()メソッドに対象の文字列を渡す。tokenize()メソッドはjanome.tokenizer.Tokenオブジェクトを要素とするリストを返す。

In [1]:
#janomeのインポート
from janome.tokenizer import Tokenizer
t=Tokenizer()

In [2]:
#試しに文字列を形態素解析してみる
print(t.tokenize('すもももももももものうち')[0])

すもも	名詞,一般,*,*,*,*,すもも,スモモ,スモモ


In [3]:
for token in t.tokenize('すもももももももものうち'):
    print(token)

すもも	名詞,一般,*,*,*,*,すもも,スモモ,スモモ
も	助詞,係助詞,*,*,*,*,も,モ,モ
もも	名詞,一般,*,*,*,*,もも,モモ,モモ
も	助詞,係助詞,*,*,*,*,も,モ,モ
もも	名詞,一般,*,*,*,*,もも,モモ,モモ
の	助詞,連体化,*,*,*,*,の,ノ,ノ
うち	名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ


In [4]:
for token in t.tokenize('きっと彼女も喜んでくれると思います'):
    print(token)

きっと	副詞,一般,*,*,*,*,きっと,キット,キット
彼女	名詞,代名詞,一般,*,*,*,彼女,カノジョ,カノジョ
も	助詞,係助詞,*,*,*,*,も,モ,モ
喜ん	動詞,自立,*,*,五段・バ行,連用タ接続,喜ぶ,ヨロコン,ヨロコン
で	助詞,接続助詞,*,*,*,*,で,デ,デ
くれる	動詞,非自立,*,*,一段・クレル,基本形,くれる,クレル,クレル
と	助詞,格助詞,引用,*,*,*,と,ト,ト
思い	動詞,自立,*,*,五段・ワ行促音便,連用形,思う,オモイ,オモイ
ます	助動詞,*,*,*,特殊・マス,基本形,ます,マス,マス


試しに動詞を含む文章でやってみた。
動詞の場合、活用の種類等もデータとして返ってくる事がわかる。

***
## 1.2 名詞だけ抜き取る

In [5]:
#データ型の確認
tt=t.tokenize('すもももももももものうち')
type(tt)

list

In [6]:
#データ型の確認
type(tt[0])

janome.tokenizer.Token

In [7]:
#中身を見てみる
vars(tt[0])

{'surface': 'すもも',
 'part_of_speech': '名詞,一般,*,*',
 'infl_type': '*',
 'infl_form': '*',
 'base_form': 'すもも',
 'reading': 'スモモ',
 'phonetic': 'スモモ',
 'node_type': 'SYS_DICT'}

In [8]:
tt[0].base_form

'すもも'

In [9]:
for token in t.tokenize('すもももももももものうち'):
    if token.part_of_speech.split(',')[0]=='名詞':
        print(token)

すもも	名詞,一般,*,*,*,*,すもも,スモモ,スモモ
もも	名詞,一般,*,*,*,*,もも,モモ,モモ
もも	名詞,一般,*,*,*,*,もも,モモ,モモ
うち	名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ


token内のデータ型を確認し、名詞のみを抜き出す事ができた。
part_of_speechに単語情報が文字列として入っているので、これをカンマ区切りにし
最初の要素を見ることで名詞かどうかを判定している。
単語自体を見たいばあいはbase_formを用いる。

In [10]:
#リスト内包表記
tt=[token.base_form for token in t.tokenize('すもももももももものうち') if token.part_of_speech.split(',')[0]=='名詞']

In [11]:
#構造化されていたらこっち
for token in tt:
    print(token)

すもも
もも
もも
うち


In [12]:
tt

['すもも', 'もも', 'もも', 'うち']

***

## 1.3 単語のカウント
以下２種類の方法で単語のカウントができる。
Python標準ライブラリcollectionsのCounterクラスはリスト内の単語を自動でカウントし、出現回数の多い順に要素を取得できる。
defaultdictはキーがなかった際に自動で初期値0（intの場合）で要素を作ってくれる辞書型である。　[参考](https://qiita.com/xza/items/72a1b07fcf64d1f4bdb7)

In [13]:
from collections import Counter
tc=Counter(tt)
print(tc)

Counter({'もも': 2, 'すもも': 1, 'うち': 1})


In [14]:
from collections import defaultdict
d=defaultdict(int)
for ttt in tt:
    d[ttt]+=1
print(d)

defaultdict(<class 'int'>, {'すもも': 1, 'もも': 2, 'うち': 1})


In [15]:
#分かち書きだしたければ、　wakati=True を指定する
for token in t.tokenize('すもももももももものうち',wakati=True):
    print(token)

すもも
も
もも
も
もも
の
うち


***
## 1.4 ファイルからの入力

ファイルから入力したい時、codecsを使う。
codecsは文字コードを気にするファイル入力である。
fはファイルポインタのように用いる事ができ、
ファイルをクローズしなくていいというメリットがある。

In [16]:
import codecs
with codecs.open('input.txt','r','utf8') as f:
    text=f.read()
    for token in t.tokenize(text,stream=True):
        print(token)

Stardew	名詞,固有名詞,組織,*,*,*,Stardew,*,*
 	記号,空白,*,*,*,*, ,*,*
Valley	名詞,固有名詞,組織,*,*,*,Valley,*,*
は	助詞,係助詞,*,*,*,*,は,ハ,ワ
，	記号,読点,*,*,*,*,，,，,，
農地	名詞,一般,*,*,*,*,農地,ノウチ,ノーチ
を	助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
開拓	名詞,サ変接続,*,*,*,*,開拓,カイタク,カイタク
し	動詞,自立,*,*,サ変・スル,連用形,する,シ,シ
て	助詞,接続助詞,*,*,*,*,て,テ,テ
さまざま	名詞,形容動詞語幹,*,*,*,*,さまざま,サマザマ,サマザマ
な	助動詞,*,*,*,特殊・ダ,体言接続,だ,ナ,ナ
作物	名詞,一般,*,*,*,*,作物,サクモツ,サクモツ
を	助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
栽培	名詞,サ変接続,*,*,*,*,栽培,サイバイ,サイバイ
，	記号,読点,*,*,*,*,，,，,，
収穫	名詞,サ変接続,*,*,*,*,収穫,シュウカク,シューカク
し	動詞,自立,*,*,サ変・スル,連用形,する,シ,シ
たり	助詞,並立助詞,*,*,*,*,たり,タリ,タリ
，	記号,読点,*,*,*,*,，,，,，
動物	名詞,一般,*,*,*,*,動物,ドウブツ,ドーブツ
を	助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
飼育	名詞,サ変接続,*,*,*,*,飼育,シイク,シイク
し	動詞,自立,*,*,サ変・スル,連用形,する,シ,シ
たり	助詞,並立助詞,*,*,*,*,たり,タリ,タリ
，	記号,読点,*,*,*,*,，,，,，
鉱山	名詞,一般,*,*,*,*,鉱山,コウザン,コーザン
を	助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
探検	名詞,サ変接続,*,*,*,*,探検,タンケン,タンケン
し	動詞,自立,*,*,サ変・スル,連用形,する,シ,シ
たり	助詞,並立助詞,*,*,*,*,たり,タリ,タリ
と	助詞,格助詞,引用,*,*,*,と,ト,ト
，	記号,読点,*,*,*,*,，,，,，
さまざま	名詞,形容動詞語幹,*,*,*,*,さまざま,サマザマ,サマザマ
な	助動詞,*,*,*,特殊・ダ,体言接続,だ,ナ,ナ
コンテンツ	名詞,一般,*,*,*,*

ツイート1000件で試してみた。（一度データが大きすぎて怒られた　[参考](https://qiita.com/inoue0426/items/071c127428112f498421)）

In [20]:
import codecs
with codecs.open('tweet.txt','r','utf8') as f:
    text=f.read()
    twe=[token.base_form for token in t.tokenize(text,stream=True) if token.part_of_speech.split(',')[0]=='名詞']
    twec=Counter(twe)
    print(twec)

