# 単語の自動認識　（形態素解析）
- 単語認識には形態素解析というAI的なエンジンが必要
- 以下、形態素解析エンジン Janomeを利用したコーディング
- 単語どのもの以外に、品詞などの属性も認識できる
- tokenize(' ')内にいろいろ文章をタイプインして結果を確認すること

In [1]:
!pip install janome



In [5]:
from janome.tokenizer import Tokenizer
word_split = Tokenizer() # 形態素解析を行うための準備（インスタンス化、オブジェクト化と呼ばれる）
for token in word_split.tokenize('今日の授業は眠い'): # 形態素解析をした結果を１つ１つ取り出す繰り返し
	print(token)

今日	名詞,副詞可能,*,*,*,*,今日,キョウ,キョー
の	助詞,連体化,*,*,*,*,の,ノ,ノ
授業	名詞,サ変接続,*,*,*,*,授業,ジュギョウ,ジュギョー
は	助詞,係助詞,*,*,*,*,は,ハ,ワ
眠い	形容詞,自立,*,*,形容詞・アウオ段,基本形,眠い,ネムイ,ネムイ


In [4]:
!pip install janome

Defaulting to user installation because normal site-packages is not writeable


- 特定の品詞だけを取り出すこともできる
- \## は何をやっているか？

In [7]:
from janome.tokenizer import Tokenizer

t = Tokenizer()
words=[]
for token in t.tokenize('すもももももももものうち'):
    
    hinshi = token.part_of_speech.split(',') ## 
    if hinshi[0] =='名詞' :
       print(token)

名詞,一般,*,*
すもも	名詞,一般,*,*,*,*,すもも,スモモ,スモモ
助詞,係助詞,*,*
名詞,一般,*,*
もも	名詞,一般,*,*,*,*,もも,モモ,モモ
助詞,係助詞,*,*
名詞,一般,*,*
もも	名詞,一般,*,*,*,*,もも,モモ,モモ
助詞,連体化,*,*
名詞,非自立,副詞可能,*
うち	名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ


In [11]:
from janome.tokenizer import Tokenizer
from collections import Counter

sentence = 'スモモとよばれる栽培種は多数あり、日本に多く見られる中国原産の日本スモモと、ヨーロッパ・コーカサス原産の \
ヨーロッパスモモ・アメリカスモモに大別できる。日本のスモモはニホンスモモが多品種と交雑してできた品種で、総称して「プラム」とよばれている。\
19世紀にアメリカに渡ったスモモは育種家のルーサー・バーバンクの手により「ソルダム」「サンタローザ」「ビューティー」などの品種として改良され、 \
再び日本に「プラム」として輸入された。それらを元に日本では「大石早生」「月光」などに発展させていった[6]。一方、ヨーロッパスモモは、青紫色の \
楕円タイプが多く、日本ではプルーンがよく知られている'
t = Tokenizer()
words=[]
for token in t.tokenize(sentence):
    print(token)
    words.append(token.surface)
print(len(words))
w_dict = dict(Counter(words))
print(w_dict['スモモ'])

スモモ	名詞,一般,*,*,*,*,スモモ,スモモ,スモモ
と	助詞,格助詞,引用,*,*,*,と,ト,ト
よば	動詞,自立,*,*,五段・バ行,未然形,よぶ,ヨバ,ヨバ
れる	動詞,接尾,*,*,一段,基本形,れる,レル,レル
栽培	名詞,サ変接続,*,*,*,*,栽培,サイバイ,サイバイ
種	名詞,接尾,一般,*,*,*,種,シュ,シュ
は	助詞,係助詞,*,*,*,*,は,ハ,ワ
多数	名詞,副詞可能,*,*,*,*,多数,タスウ,タスー
あり	動詞,自立,*,*,五段・ラ行,連用形,ある,アリ,アリ
、	記号,読点,*,*,*,*,、,、,、
日本	名詞,固有名詞,地域,国,*,*,日本,ニッポン,ニッポン
に	助詞,格助詞,一般,*,*,*,に,ニ,ニ
多く	形容詞,自立,*,*,形容詞・アウオ段,連用テ接続,多い,オオク,オーク
見	動詞,自立,*,*,一段,未然形,見る,ミ,ミ
られる	動詞,接尾,*,*,一段,基本形,られる,ラレル,ラレル
中国	名詞,固有名詞,地域,国,*,*,中国,チュウゴク,チューゴク
原産	名詞,一般,*,*,*,*,原産,ゲンサン,ゲンサン
の	助詞,連体化,*,*,*,*,の,ノ,ノ
日本	名詞,固有名詞,地域,国,*,*,日本,ニッポン,ニッポン
スモモ	名詞,一般,*,*,*,*,スモモ,スモモ,スモモ
と	助詞,並立助詞,*,*,*,*,と,ト,ト
、	記号,読点,*,*,*,*,、,、,、
ヨーロッパ・コーカサス	名詞,一般,*,*,*,*,ヨーロッパ・コーカサス,*,*
原産	名詞,一般,*,*,*,*,原産,ゲンサン,ゲンサン
の	助詞,連体化,*,*,*,*,の,ノ,ノ
 	記号,空白,*,*,*,*, ,*,*
ヨーロッパ	名詞,固有名詞,地域,一般,*,*,ヨーロッパ,ヨーロッパ,ヨーロッパ
スモモ	名詞,一般,*,*,*,*,スモモ,スモモ,スモモ
・	記号,一般,*,*,*,*,・,・,・
アメリカ	名詞,固有名詞,地域,国,*,*,アメリカ,アメリカ,アメリカ
スモモ	名詞,一般,*,*,*,*,スモモ,スモモ,スモモ
に	助詞,格助詞,一般,*,*,*,に,ニ,ニ
大別	名詞,サ変接続,*,*,*,*,大別,タイベツ,タイベツ
できる	動詞,自立,*,*,一段,基本形,できる,デキル,デキル
。