### 1. 簡単な文字列処理 ###

In [1]:
### リスト1 ###

# 文字の並びを逆にして表示する
string = '今日は良い天気です'

# 指定した文字列をそのまま表示
print('*** 文字列をそのまま表示 ***')
print(string)

# 指定した文字列を逆順にして表示する
print('*** 文字列を逆順で表示 ***')
print(string[::-1])

*** 文字列をそのまま表示 ***
今日は良い天気です
*** 文字列を逆順で表示 ***
すで気天い良は日今


### 2. 文字コード ###

In [2]:
### リスト2 ###

# in 演算子: 条件に合致するとTrue, そうでない場合はFalse を返す
query = '大阪'
s1 = '万博公園は大阪にある'
s2 = 'スカイツリーは東京にある'
print(query in s1)
print(query in s2)

True
False


In [3]:
### リスト3 ###

# encode メソッド: 文字列を対応する文字コードの列（バイト列）に変換する。
# encode の引数を省略すると、UTF-8でエンコードされる

# 文字コードの例（英語）
print(list('a'.encode()))
print(list('abc'.encode()))

print(list('apple'.encode()))
print(list('orange'.encode()))

[97]
[97, 98, 99]
[97, 112, 112, 108, 101]
[111, 114, 97, 110, 103, 101]


In [4]:
### リスト4 ###

# 文字コードの例（日本語）
# UTF-8では、漢字などの1文字を3バイトで表現する
print(list('大'.encode('EUC-JP')))
print(list('大'.encode('SHIFT_JIS')))
print(list('大'.encode('UTF-8')))

print(list('大阪'.encode('EUC-JP')))
print(list('大阪'.encode('SHIFT_JIS')))
print(list('大阪'.encode('UTF-8')))

[194, 231]
[145, 229]
[229, 164, 167]
[194, 231, 186, 229]
[145, 229, 141, 227]
[229, 164, 167, 233, 152, 170]


### 3. 文字Nグラム ###

In [5]:
### リスト5 ###

# Nグラム：文字や単語を隣り合うN個ごとにまとめたもの
# 文字Nグラム：長さNの部分文字列の集合のこと
# 単語Nグラム：N個からなる単語の集合のこと
# N=1: ユニグラム (uni-gram)
# N=2: バイグラム (bi-gram)
# N=3: トライグラム (tri-gram)

def get_ngram(string, N=1):
    return [string[i:i+N] for i in range(len(string) - N + 1)]

string = '大阪成蹊'
print(get_ngram(string, N=1))
print(get_ngram(string, N=2))
print(get_ngram(string, N=3))

['大', '阪', '成', '蹊']
['大阪', '阪成', '成蹊']
['大阪成', '阪成蹊']


### 4. 形態素解析 ###

In [6]:
pip install janome

Note: you may need to restart the kernel to use updated packages.


In [7]:
### リスト6 ###

# 形態素解析の例

from janome.tokenizer import Tokenizer

tokenizer = Tokenizer()
string = 'すもももももももものうち'
for t in tokenizer.tokenize(string):
    print('{}\t{}'.format(t.surface, t.part_of_speech))

すもも	名詞,一般,*,*
も	助詞,係助詞,*,*
もも	名詞,一般,*,*
も	助詞,係助詞,*,*
もも	名詞,一般,*,*
の	助詞,連体化,*,*
うち	名詞,非自立,副詞可能,*
