### Mecab&Neologdがインストールされている確認

In [2]:
import MeCab

In [3]:
# Mac用
tagger = MeCab.Tagger ('-d /usr/local/lib/mecab/dic/mecab-ipadic-neologd')

In [4]:
text = 'アイドルマスター'
print(tagger.parse(text))

アイドルマスター	名詞,固有名詞,一般,*,*,*,THE IDOLM@STER,アイドルマスター,アイドルマスター
EOS



In [5]:
tagger2 = MeCab.Tagger ()

In [6]:
text = 'アイドルマスター'
print(tagger2.parse(text))

アイドル	名詞,一般,*,*,*,*,アイドル,アイドル,アイドル
マスター	名詞,一般,*,*,*,*,マスター,マスター,マスター
EOS



### mojimojiがインストールされているか確認

In [7]:
import mojimoji

In [8]:
# 全角文字を半角文字に変換
text=mojimoji.zen_to_han(text)

In [9]:
text

'ｱｲﾄﾞﾙﾏｽﾀｰ'

In [10]:
# 半角文字を全角文字に変換
text=mojimoji.han_to_zen(text)

In [11]:
text

'アイドルマスター'

### cabochaがインストールされているか確認
参考URL：https://qiita.com/musaprg/items/9a572ad5c4e28f79d2ae

In [12]:
from cabocha.analyzer import CaboChaAnalyzer

In [13]:
analyzer = CaboChaAnalyzer()

In [14]:
tree = analyzer.parse("日本語の形態素解析はすごい")

In [15]:
for chunk in tree:
    for token in chunk:
        print(token)

Token("日本語")
Token("の")
Token("形態素")
Token("解析")
Token("は")
Token("すごい")


### [チャンクの係り先は以下のようにして取得]

In [16]:
chunks = tree.chunks

In [17]:
start_chunk = chunks[0]

In [18]:
start_chunk.next_link

Chunk("形態素解析は")

In [19]:
start_chunk.next_link.next_link

Chunk("すごい")

### fuzzywuzzyがインストールされているか確認
fuzzywuzzyはファジーな文字列マッチングツールで、比較対象の文字列がどのくらい似ているかをレーベンシュタイン距離によって計算してくれる
参考URL：https://qiita.com/cvusk/items/7fe24e7fd74516ea3cba

In [20]:
from fuzzywuzzy import fuzz
from fuzzywuzzy import process

In [21]:
# シンプルレシオ
fuzz.ratio("this is a test", "this is a test!")

97

In [22]:
# 部分比率
fuzz.partial_ratio("this is a test", "this is a test!")

100

In [23]:
# プロセス
choices = ["Atlanta Falcons", "New York Jets", "New York Giants", "Dallas Cowboys"]
process.extract("new york jets", choices, limit=2)

[('New York Jets', 100), ('New York Giants', 79)]

In [24]:
process.extractOne("cowboys", choices)

('Dallas Cowboys', 90)

In [25]:
# トークンのソート率
fuzz.ratio("fuzzy wuzzy was a bear", "wuzzy fuzzy was a bear")

91

In [26]:
# トークンのソート率
fuzz.token_sort_ratio("fuzzy wuzzy was a bear", "wuzzy fuzzy was a bear")

100

In [27]:
fuzz.ratio("サンタさんは良い子の家にきます。", "サンタさんは良い子の家にきます")

97

In [28]:
fuzz.ratio("サンタさんは良い子の家にきます", "サンタさんは悪い子の家にきます")

93

In [29]:
fuzz.ratio("サンタさんは良い子の家にきます", "サタンさんは悪い子の家にきます")

87

### neologdnがインストールされているか確認
日本語テキストに対して、Mecab+neologd辞書を用いる前に推奨される正規化（表記ゆれの是正）を加える

In [30]:
import neologdn

In [31]:
neologdn.normalize('おいし〜〜〜〜い')

'おいしい'

In [32]:
neologdn.normalize('Ｃ++ 完全に 理解した')

'C++完全に理解した'

In [33]:
neologdn.normalize('あなたと Ｊａｖａ　今すぐ ダウンローーード')

'あなたとJava今すぐダウンロード'

In [34]:
neologdn.normalize("　　　ＰＲＭＬ　　副　読　本　　　")

'PRML副読本'

In [35]:
neologdn.normalize("かわいいいいいいいいい", repeat=6)

'かわいいいいいい'