## janomeによる形態素解析

https://note.nkmk.me/python-janome-tutorial/

https://mocobeta.github.io/janome/

#### import

In [2]:
from janome.tokenizer import Tokenizer
import re

In [2]:
t = Tokenizer()

text = '結構疲れたしね'
text2 = '結構疲れた死ね'

for tokens in t.tokenize(text):
    print(tokens)
print('---'*20)
for tokens in t.tokenize(text2):
    print(tokens)
print('---'*20)
for tokens in t.tokenize(text2):
    print(tokens.infl_form)

結構	副詞,一般,*,*,*,*,結構,ケッコウ,ケッコー
疲れ	動詞,自立,*,*,一段,連用形,疲れる,ツカレ,ツカレ
た	助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
し	助詞,接続助詞,*,*,*,*,し,シ,シ
ね	助詞,終助詞,*,*,*,*,ね,ネ,ネ
------------------------------------------------------------
結構	副詞,一般,*,*,*,*,結構,ケッコウ,ケッコー
疲れ	動詞,自立,*,*,一段,連用形,疲れる,ツカレ,ツカレ
た	助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
死ね	動詞,自立,*,*,五段・ナ行,命令ｅ,死ぬ,シネ,シネ
------------------------------------------------------------
*
連用形
基本形
命令ｅ


### 死ね、くたばれ、等命令形はまず検出できる

In [3]:
text3 = '結構疲れた死ね'
import re
for tokens in t.tokenize(text3):
    if '命令' in tokens.infl_form:
        text3 = re.sub(tokens.surface, str('🐤' * int(len(tokens.surface))), text3)
print(text3)

結構疲れた🐤🐤


In [4]:
text4 = '産廃がさっさとくたばれ'
import re
for tokens in t.tokenize(text4):
    if '命令' in tokens.infl_form:
        text4 = re.sub(tokens.surface, str('🐤' * int(len(tokens.surface))), text4)
print(text4)

産廃がさっさと🐤🐤🐤🐤


In [5]:
text = '来いよ'
for tokens in t.tokenize(text):
    print(tokens)

来い	動詞,自立,*,*,カ変・来ル,命令ｉ,来る,コイ,コイ
よ	助詞,終助詞,*,*,*,*,よ,ヨ,ヨ


## テキストを読み込む

In [6]:
t = Tokenizer()
fp = open("tweet.txt", encoding='utf8')
tweet = fp.read()
for tokens in t.tokenize(tweet):
    print(tokens)

東洋大	名詞,固有名詞,組織,*,*,*,東洋大,トウヨウダイ,トーヨーダイ
生	名詞,接尾,一般,*,*,*,生,セイ,セイ
の	助詞,連体化,*,*,*,*,の,ノ,ノ
みなさん	名詞,代名詞,一般,*,*,*,みなさん,ミナサン,ミナサン


	記号,空白,*,*,*,*,

,*,*
明日	名詞,副詞可能,*,*,*,*,明日,アシタ,アシタ
は	助詞,係助詞,*,*,*,*,は,ハ,ワ
抽選	名詞,サ変接続,*,*,*,*,抽選,チュウセン,チューセン
実施	名詞,サ変接続,*,*,*,*,実施,ジッシ,ジッシ
科目	名詞,一般,*,*,*,*,科目,カモク,カモク
の	助詞,連体化,*,*,*,*,の,ノ,ノ
発表	名詞,サ変接続,*,*,*,*,発表,ハッピョウ,ハッピョー
日	名詞,接尾,一般,*,*,*,日,ビ,ビ
です	助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
。	記号,句点,*,*,*,*,。,。,。

	記号,空白,*,*,*,*,
,*,*
自分	名詞,一般,*,*,*,*,自分,ジブン,ジブン
の	助詞,連体化,*,*,*,*,の,ノ,ノ
履修	名詞,サ変接続,*,*,*,*,履修,リシュウ,リシュー
科目	名詞,一般,*,*,*,*,科目,カモク,カモク
が	助詞,格助詞,一般,*,*,*,が,ガ,ガ
該当	名詞,サ変接続,*,*,*,*,該当,ガイトウ,ガイトー
する	動詞,自立,*,*,サ変・スル,基本形,する,スル,スル
か	助詞,副助詞／並立助詞／終助詞,*,*,*,*,か,カ,カ
、	記号,読点,*,*,*,*,、,、,、
必ず	副詞,助詞類接続,*,*,*,*,必ず,カナラズ,カナラズ
確認	名詞,サ変接続,*,*,*,*,確認,カクニン,カクニン
する	動詞,自立,*,*,サ変・スル,基本形,する,スル,スル
よう	名詞,非自立,助動詞語幹,*,*,*,よう,ヨウ,ヨー
に	助詞,格助詞,一般,*,*,*,に,ニ,ニ
し	動詞,自立,*,*,サ変・スル,連用形,する,シ,シ
て	助詞,接続助詞,*,*,*,*,て,テ,テ
ください	動詞,非自立,*,*,五段・ラ行特殊,命令ｉ,くださる,クダサイ,クダサイ
‼	名詞,サ変接続,*,*,*,*,‼,*,*
️	記号,一般,*,*,*,*,️,*,*


	記号

In [7]:
import re
for tokens in t.tokenize(tweet):
    if '名詞' in tokens.part_of_speech.split(',')[0]:
        tweet = re.sub(tokens.surface, str('🐤' * int(len(tokens.surface))), tweet)
print(tweet)

🐤🐤🐤🐤の🐤🐤🐤🐤

🐤🐤は🐤🐤🐤🐤🐤🐤の🐤🐤🐤です。
🐤🐤の🐤🐤🐤🐤が🐤🐤するか、必ず🐤🐤する🐤🐤にしてください🐤️

🐤🐤🐤と🐤🐤であれば、🐤🐤🐤🐤は🐤🐤🐤🐤です。

ご🐤🐤までに🐤🐤🐤の🐤🐤🐤🐤🐤🐤


##### 名詞はやはり独自の辞書を用意する必要がある

In [8]:
%%timeit
import re
t = Tokenizer()
fp = open("tweet.txt", encoding='utf8')
tweet = fp.read()
for tokens in t.tokenize(tweet):
    if '名詞' in tokens.part_of_speech.split(',')[0]:
        tweet = re.sub(tokens.surface, str('🐤' * int(len(tokens.surface))), tweet)
#print(tweet)

145 ms ± 17.9 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


#### 時短？

In [9]:
%%timeit
import re
tweet = open("tweet.txt", encoding='utf8').read()
for tokens in Tokenizer().tokenize(tweet):
    if '名詞' in tokens.part_of_speech.split(',')[0]:
        tweet = re.sub(tokens.surface, str('🐤' * int(len(tokens.surface))), tweet)
#print(tweet)

141 ms ± 6.77 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


#### tweet2

In [5]:
import re
tweet = open("tweet2.txt", encoding='utf8').read()
for tokens in Tokenizer().tokenize(tweet):
    if '名詞' in tokens.part_of_speech.split(',')[0]:
        tweet = re.sub(tokens.surface, str('🐤' * int(len(tokens.surface))), tweet)
print(tweet)

話し長い🐤🐤が
