# 文字

## エンコーディング

テキストデータとはそれを構成する文字と文字コードを並べたものである. 

文字を文字コードに変換することをエンコードという. 文字コードを文字に変換することをデコードという. 

文字コードは次のように複数種類ある．



In [3]:
codes = ["EUC-JP", "Shift_JIS", "UTF-8"]
for cd in codes:
    print(list("京".encode(cd)))

[181, 254]
[139, 158]
[228, 186, 172]


エンコードされた文字，つまり数値から文字コードを推定するには次のようにする. 

In [5]:
import chardet

string = "明日，京都へ行きます"
encoded = string.encode("UTF-8")
chardet.detect(encoded)

{'encoding': 'utf-8', 'confidence': 0.99, 'language': ''}

上記があれば次のようなエンコーディングに応じて読み込むの対応が可能なプログラムをかける. 

In [45]:
import chardet

def get_string_from_file(filename):
    with open(filename, "rb") as f:
        d = f.read()
        e = chardet.detect(d)["encoding"]
        if e is None:
            e = "UTF-8"
        return d.decode(e)

## 文字 N グラム

文字Nグラムとは長さNの部分文字列のことである．

通常は単にNグラムといえば，単語のNグラム，つまり単語がN個並んだものを指す．



In [8]:
def get_ngram(string, N=1):
    return [string[i:(i+N)] for i in range(len(string) - N + 1)]

string = "情報検索"
get_ngram(string, 1)


['情', '報', '検', '索']

In [9]:

get_ngram(string, 2)

['情報', '報検', '検索']

文字Nグラムは，索引や検索に使われるほか，文字Nグラムの頻度分布を文章の特徴量として使うことがある. 

In [46]:
from collections import Counter
def get_most_common_ngram(filename, N = 1, k = 1):
    s = get_string_from_file(filename)
    return Counter(get_ngram(s, N)).most_common(k)

In [47]:
from pathlib import Path
data_dir = Path("irpb-files/data")
target_files = data_dir.glob("ch01/0[0-9].txt")


In [48]:
for f in target_files:
    print(get_most_common_ngram(f))


[('祭', 3)]
[('は', 4)]
[('す', 6)]
[('0', 2)]


In [49]:
get_most_common_ngram(data_dir / "ch01" / "melos.txt", N = 3, k = 5)

[('メロス', 76), ('った。', 53), ('ロスは', 47), ('のだ。', 37), ('。メロ', 33)]

文字Nグラムは作者の推定などにも役立つ. 