# n-gram
n-gramとは任意の文字数で分割する手法のことである。

「歯茎が歯垢だらけやん。歯をみがきなさないよ！！」

のような文書があったとき

|$n$|結果|
|:----|:----|
|1|歯/茎/が/歯/垢/だ/ら/け/や/ん/。/歯/を/み/が/き/な/さ/な/い/よ/！/！|
|2|歯茎/茎が/が歯/歯垢/垢だ/だら/らけ/けや/やん/ん。/。歯/歯を/をみ/みが/がき/きな/なさ/さな/ない/いよ/よ！/！！|
|3|歯茎が/茎が歯/が歯垢/歯垢だ/垢だら/だらけ/らけや/けやん/やん。/ん。歯/。歯を/歯をみ/をみが/みがき/がきな/きなさ/なさな/さない/ないよ/いよ！/よ！！|

のような形で開始点をずらしながら$n$の文字数で分割する。実装例は以下の通り。

In [None]:
def n_gram(text, n):
    return [text[x:x+n] for x in range(len(text) -n +1)]

In [None]:
n_gram('歯茎が歯垢だらけやん。歯をみがきなさないよ！！', 2)

# MeCabのオプションのあれこれ
MeCabを使用するには、python用のパッケージを用いる。オプションによってparseした時の結果が異なる。

In [1]:
import MeCab
m = MeCab.Tagger('')
print(m.parse('坂本勇人選手チャンスで打ち損じる'))
print()
m = MeCab.Tagger('-Ochasen')
print(m.parse('坂本勇人選手チャンスで打ち損じる'))
print()
m = MeCab.Tagger('-Owakati')
print(m.parse('坂本勇人選手チャンスで打ち損じる'))

坂本	名詞,固有名詞,人名,姓,*,*,坂本,サカモト,サカモト
勇人	名詞,固有名詞,人名,名,*,*,勇人,ハヤト,ハヤト
選手	名詞,一般,*,*,*,*,選手,センシュ,センシュ
チャンス	名詞,一般,*,*,*,*,チャンス,チャンス,チャンス
で	助詞,格助詞,一般,*,*,*,で,デ,デ
打ち	動詞,自立,*,*,五段・タ行,連用形,打つ,ウチ,ウチ
損じる	動詞,自立,*,*,一段,基本形,損じる,ソンジル,ソンジル
EOS


坂本	サカモト	坂本	名詞-固有名詞-人名-姓		
勇人	ハヤト	勇人	名詞-固有名詞-人名-名		
選手	センシュ	選手	名詞-一般		
チャンス	チャンス	チャンス	名詞-一般		
で	デ	で	助詞-格助詞-一般		
打ち	ウチ	打つ	動詞-自立	五段・タ行	連用形
損じる	ソンジル	損じる	動詞-自立	一段	基本形
EOS


坂本 勇人 選手 チャンス で 打ち 損じる 



# MeCabの辞書を使ってみる

In [2]:
import MeCab
m = MeCab.Tagger('')
print(m.parse('坂本勇人選手チャンスで打ち損じる'))
m = MeCab.Tagger('-d /usr/local/lib/mecab/dic/mecab-ipadic-neologd')
print(m.parse('坂本勇人選手チャンスで打ち損じる'))

坂本	名詞,固有名詞,人名,姓,*,*,坂本,サカモト,サカモト
勇人	名詞,固有名詞,人名,名,*,*,勇人,ハヤト,ハヤト
選手	名詞,一般,*,*,*,*,選手,センシュ,センシュ
チャンス	名詞,一般,*,*,*,*,チャンス,チャンス,チャンス
で	助詞,格助詞,一般,*,*,*,で,デ,デ
打ち	動詞,自立,*,*,五段・タ行,連用形,打つ,ウチ,ウチ
損じる	動詞,自立,*,*,一段,基本形,損じる,ソンジル,ソンジル
EOS

坂本勇人	名詞,固有名詞,人名,一般,*,*,坂本勇人,サカモトハヤト,サカモトハヤト
選手	名詞,一般,*,*,*,*,選手,センシュ,センシュ
チャンス	名詞,一般,*,*,*,*,チャンス,チャンス,チャンス
で	助詞,格助詞,一般,*,*,*,で,デ,デ
打ち	動詞,自立,*,*,五段・タ行,連用形,打つ,ウチ,ウチ
損じる	動詞,自立,*,*,一段,基本形,損じる,ソンジル,ソンジル
EOS



# mojimoji

In [3]:
import mojimoji
text = 'カッコいいｉＰｈｏｎｅ１１を買ったんだ'
print(mojimoji.zen_to_han(text).lower())
print(mojimoji.zen_to_han(text, kana=False).lower())
text = 'ｶｯｺいいiphone11を買ったんだ'
print(mojimoji.han_to_zen(text).upper())
print(mojimoji.han_to_zen(text, kana=False).upper())

ｶｯｺいいiphone11を買ったんだ
カッコいいiphone11を買ったんだ
カッコいいＩＰＨＯＮＥ１１を買ったんだ
ｶｯｺいいＩＰＨＯＮＥ１１を買ったんだ


# Stopwordの削除
slothlib:http://svn.sourceforge.jp/svnroot/slothlib/CSharp/Version1/SlothLib/NLP/Filter/StopWord/word/Japanese.txt  
こちらを各自wgetで取得して、stopwords以下に保管しておいてください。  
$ wget http://svn.sourceforge.jp/svnroot/slothlib/CSharp/Version1/SlothLib/NLP/Filter/StopWord/word/Japanese.txt 

In [4]:
def text_to_words(text, stop_word_pass='../stopwords/Japanese.txt'):
    # stopword listをつくる
    stopword_list = []
    with open(stop_word_pass, 'r') as f:
        stopword_list = f.readlines()
        
    stopword_list = [x.strip() for x in stopword_list if x.strip()] 
    #形態素解析を始める
    m = MeCab.Tagger('-d /usr/local/lib/mecab/dic/mecab-ipadic-neologd')
    m.parse('')
    #text = normalize_text(text)
    text = mojimoji.zen_to_han(text, kana=False)
    m_text = m.parse(text)
    basic_words = []
    #mecabの出力結果を単語ごとにリスト化
    m_text = m_text.split('\n')
    for row in m_text:
        #Tab区切りで形態素、その品詞等の内容と分かれているので単語部のみ取得
        word = row.split("\t")[0]
        #最終行はEOS
        if word == 'EOS':
            break
        else:
            pos = row.split('\t')[1]
            slice_ = pos.split(',')
            #品詞を取得する
            parts = slice_[0]
            if parts == '記号':
                continue

            #活用語の場合は活用指定ない原型を取得する。
            elif slice_[0] in ('形容詞', '動詞') and slice_[-3] not in stopword_list:
                    basic_words.append(slice_[-3])

            #活用しない語についてはそのままの語を取得する
            elif slice_[0] =='名詞' and word not in stopword_list:
                basic_words.append(word)

    basic_words = ' '.join(basic_words)
    return basic_words

In [5]:
text_to_words('坂本勇人選手チャンスで打ち損じる')

'坂本勇人 選手 チャンス 打つ 損じる'