### 1. 簡単な文字列処理 ###

In [1]:
### リスト1 ###

# 文字の並びを逆にして表示する
string = '今日は良い天気です'

# 指定した文字列をそのまま表示
print('*** 文字列をそのまま表示 ***')
print(string)

# 指定した文字列を逆順にして表示する
print('*** 文字列を逆順で表示 ***')
print(string[::-1])

*** 文字列をそのまま表示 ***
今日は良い天気です
*** 文字列を逆順で表示 ***
すで気天い良は日今


### 2. 文字コード ###

In [2]:
### リスト2 ###

# in 演算子: 条件に合致するとTrue, そうでない場合はFalse を返す
query = '大阪'
s1 = '万博公園は大阪にある'
s2 = 'スカイツリーは東京にある'
print(query in s1)
print(query in s2)

True
False


In [3]:
### リスト3 ###

# encode メソッド: 文字列を対応する文字コードの列（バイト列）に変換する。
# encode の引数を省略すると、UTF-8でエンコードされる

# 文字コードの例（英語）
print(list('a'.encode()))
print(list('abc'.encode()))

print(list('apple'.encode()))
print(list('orange'.encode()))

[97]
[97, 98, 99]
[97, 112, 112, 108, 101]
[111, 114, 97, 110, 103, 101]


In [4]:
### リスト4 ###

# 文字コードの例（日本語）
# UTF-8では、漢字などの1文字を3バイトで表現する
print(list('大'.encode('EUC-JP')))
print(list('大'.encode('SHIFT_JIS')))
print(list('大'.encode('UTF-8')))

print(list('大阪'.encode('EUC-JP')))
print(list('大阪'.encode('SHIFT_JIS')))
print(list('大阪'.encode('UTF-8')))

[194, 231]
[145, 229]
[229, 164, 167]
[194, 231, 186, 229]
[145, 229, 141, 227]
[229, 164, 167, 233, 152, 170]


### 3. 文字Nグラム ###

In [15]:
### リスト5 ###

# Nグラム：文字や単語を隣り合うN個ごとにまとめたもの
# 文字Nグラム：長さNの部分文字列の集合のこと
# 単語Nグラム：N個からなる単語の集合のこと
# N=1: ユニグラム (uni-gram)
# N=2: バイグラム (bi-gram)
# N=3: トライグラム (tri-gram)

def get_ngram(string, N=1):
    return [string[i:i+N] for i in range(len(string) - N + 1)]

#string = '大阪成蹊'
string = '大阪市東淀川区相川'
print(get_ngram(string, N=1))
print(get_ngram(string, N=2))
print(get_ngram(string, N=3))

['大', '阪', '市', '東', '淀', '川', '区', '相', '川']
['大阪', '阪市', '市東', '東淀', '淀川', '川区', '区相', '相川']
['大阪市', '阪市東', '市東淀', '東淀川', '淀川区', '川区相', '区相川']


### 4. 形態素解析 ###

In [6]:
pip install janome

Note: you may need to restart the kernel to use updated packages.


In [7]:
### リスト6 ###

# 形態素解析の例

from janome.tokenizer import Tokenizer

tokenizer = Tokenizer()
string = 'すもももももももものうち'
for t in tokenizer.tokenize(string):
    print('{}\t{}'.format(t.surface, t.part_of_speech))

すもも	名詞,一般,*,*
も	助詞,係助詞,*,*
もも	名詞,一般,*,*
も	助詞,係助詞,*,*
もも	名詞,一般,*,*
の	助詞,連体化,*,*
うち	名詞,非自立,副詞可能,*


In [8]:
### リスト7 ###

# 形態素解析の復習1（補足：単語と品詞名のみを得る（品詞細分類を除く）表示方法）
# part of speech: 品詞

from janome.tokenizer import Tokenizer

tokenizer = Tokenizer()
string = 'すもももももももものうち'
for t in tokenizer.tokenize(string):
    #print('{}\t{}'.format(t.surface, t.part_of_speech))
    # 単語と品詞名のみを得る場合、次のように記述する
      print('{}\t{}'.format(t.surface, t.part_of_speech.split(',')[0]))  

すもも	名詞
も	助詞
もも	名詞
も	助詞
もも	名詞
の	助詞
うち	名詞


In [9]:
### リスト8 ###

# 形態素解析の復習2: やや長めの文の形態素解析

from janome.tokenizer import Tokenizer

tokenizer = Tokenizer()
string = '四天王寺の境内は広大で、その日本庭園は都心にあるとは思えないほどの静寂に包まれている。'
for t in tokenizer.tokenize(string):
    print('{}\t{}'.format(t.surface, t.part_of_speech))

四天王寺	名詞,固有名詞,地域,一般
の	助詞,連体化,*,*
境内	名詞,一般,*,*
は	助詞,係助詞,*,*
広大	名詞,形容動詞語幹,*,*
で	助動詞,*,*,*
、	記号,読点,*,*
その	連体詞,*,*,*
日本	名詞,固有名詞,地域,国
庭園	名詞,一般,*,*
は	助詞,係助詞,*,*
都心	名詞,一般,*,*
に	助詞,格助詞,一般,*
ある	動詞,自立,*,*
と	助詞,格助詞,引用,*
は	助詞,係助詞,*,*
思え	動詞,自立,*,*
ない	助動詞,*,*,*
ほど	助詞,副助詞,*,*
の	助詞,連体化,*,*
静寂	名詞,一般,*,*
に	助詞,格助詞,一般,*
包ま	動詞,自立,*,*
れ	動詞,接尾,*,*
て	助詞,接続助詞,*,*
いる	動詞,非自立,*,*
。	記号,句点,*,*


### 5. 形態素解析ができない場合の対処法：ユーザ辞書の構築

In [10]:
### リスト9 ###

# 形態素解析が正しくできない例（「ひこにゃん」が正しく解析されない）

from janome.tokenizer import Tokenizer

tokenizer = Tokenizer()
string = 'ひこにゃんは滋賀県彦根市のキャラクターだ'
for t in tokenizer.tokenize(string):
    print('{}\t{}'.format(t.surface, t.part_of_speech))

ひこ	動詞,自立,*,*
にゃ	助詞,特殊,*,*
ん	名詞,非自立,一般,*
は	助詞,係助詞,*,*
滋賀	名詞,固有名詞,地域,一般
県	名詞,接尾,地域,*
彦根	名詞,固有名詞,地域,一般
市	名詞,接尾,地域,*
の	助詞,連体化,*,*
キャラクター	名詞,一般,*,*
だ	助動詞,*,*,*


#### 上記の場合、「ひこにゃん」が正しく形態素解析されていないことがわかる。このような場合には、ユーザ辞書を構築する。例えば、dataフォルダを作成し、次のように記入したcsvファイル（userdic.csv）を用意する。

ひこにゃん, 名詞, ヒコニャン

In [11]:
### リスト10 ###

# ユーザ辞書を利用した形態素解析（「ひこにゃん」が正しく解析されるようになる）

string = 'ひこにゃんは滋賀県彦根市のキャラクターだ'
tokenizer = Tokenizer('./data/userdic.csv', udic_type='simpledic')
for t in tokenizer.tokenize(string):
    print('{}\t{}'.format(t.surface, t.part_of_speech))

ひこにゃん	 名詞,*,*,*
は	助詞,係助詞,*,*
滋賀	名詞,固有名詞,地域,一般
県	名詞,接尾,地域,*
彦根	名詞,固有名詞,地域,一般
市	名詞,接尾,地域,*
の	助詞,連体化,*,*
キャラクター	名詞,一般,*,*
だ	助動詞,*,*,*
