In [1]:
# change the cell width
from IPython.core.display import display, HTML
display(HTML("<style>.container { width:100% !important; }</style>"))

**版本说明**

* Python 3.x
* chardet 3.0.4

## 字符编码检测
在处理文本数据的过程中，经常会遇到因使用的字符编码不正确而导致数据不能进行数据处理。为了解决这个问题，可以先检测出文本数据的编码方式，之后再采用相应的解码方式来读取数据。这里可以通过 `chardet` 包来完成检测编码类型的工作。可以检查的编码类型为：

* Big5, GB2312/GB18030, EUC-TW, HZ-GB-2312, ISO-2022-CN (繁简中文字体)
* EUC-JP, SHIFT_JIS, ISO-2022-JP (日文字体)
* EUC-KR , ISO-2022-KR (韩文字体)
* KOI8-R, MacCyrillic, IBM855, IBM866, ISO-8859-5, windows-1251 (俄文字体)
* ISO-8859-2 , windows-1250 (匈牙利字体)
* ISO-8859-5 , windows-1251 (保加利亚字体)
* ISO-8859-1 , windows-1252 (西欧语言字体)
* ISO-8859-7 , windows-1253 (希腊字体)
* ISO-8859-8 , windows-1255 (Visual , Logical Hebrew)
* TIS-620 (泰文字体)
* UTF-32 BE, LE, 3412-ordered, or 2143-ordered (with a BOM)
* UTF-16 BE or LE (with a BOM)
* UTF-8 (with or without a BOM)
* ASCII


In [2]:
# 解码不正确
'這個語句是用於測試的語句'.encode('Big5').decode("ISO-8859-1")

'³o\xadÓ»y¥y¬O¥Î©ó´ú¸Õªº»y¥y'

In [3]:
"Cette phrase est la déclaration utilisée pour tester".encode("windows-1252")

b'Cette phrase est la d\xe9claration utilis\xe9e pour tester'

In [4]:
import chardet
from chardet.universaldetector import UniversalDetector

In [5]:
print("Chardet version is:", chardet.__version__)

Chardet version is: 3.0.4


### 常用的检测方法
使用的检测方法包括了，`detect()` 方法和 `UniversalDetector` 类。其中 chardet 中的 detect 方法，可以用于检测二进制文件的编码类型。此外得到的結果可以对应数据内容的编码方式，推测置信水平以及推测的语言：

```
{'encoding': 'EUC-JP', 'confidence': 0.99, 'language': 'Japanese'}
```
之后使用字符串的 `decode()` 方法进行解码即可得到相应的数据，虽然解码方式可能和原有编码方式不一致

#### `dectect()` 方法

In [6]:
data = 'この文はテストに使用される文です'.encode('euc-jp')
chardet.detect(data)

{'encoding': 'EUC-JP', 'confidence': 0.99, 'language': 'Japanese'}

In [7]:
data.decode("EUC-JP")

'この文はテストに使用される文です'

In [8]:
data='这个句子是用于测试的语句'.encode('gbk')
chardet.detect(data)

{'encoding': 'GB2312', 'confidence': 0.99, 'language': 'Chinese'}

In [9]:
# decode the data
data.decode("gb2312")

'这个句子是用于测试的语句'

In [10]:
data='這個語句是用於測試的語句'.encode('Big5')
chardet.detect(data)

{'encoding': 'Big5', 'confidence': 0.99, 'language': 'Chinese'}

In [11]:
data="Cette phrase est la déclaration utilisée pour tester".encode("windows-1252")
chardet.detect(data)

{'encoding': 'ISO-8859-1', 'confidence': 0.73, 'language': ''}

In [12]:
# 解码文件
data.decode("ISO-8859-1")

'Cette phrase est la déclaration utilisée pour tester'

In [13]:
with open("./data/jp.txt", "br") as file:
    data = file.read()
    print("Context is:\n\t", data)
    print("Char encoding:\n\t", chardet.detect(data))

Context is:
	 b'\xa4\xb3\xa4\xce\xca\xb8\xa4\xcf\xa5\xc6\xa5\xb9\xa5\xc8\xa4\xcb\xbb\xc8\xcd\xd1\xa4\xb5\xa4\xec\xa4\xeb\xca\xb8\xa4\xc7\xa4\xb9\xa1\xa3\xa4\xb3\xa4\xec\xa4\xcf\xc6\xfc\xcb\xdc\xb8\xec\xa4\xce\xa5\xc6\xa5\xad\xa5\xb9\xa5\xc8\xa4\xc7\xa4\xb9\n\xa4\xb3\xa4\xce\xca\xb8\xa4\xcf\xa5\xc6\xa5\xb9\xa5\xc8\xa4\xcb\xbb\xc8\xcd\xd1\xa4\xb5\xa4\xec\xa4\xeb\xca\xb8\xa4\xc7\xa4\xb9\xa1\xa3\xa4\xb3\xa4\xec\xa4\xcf\xc6\xfc\xcb\xdc\xb8\xec\xa4\xce\xa5\xc6\xa5\xad\xa5\xb9\xa5\xc8\xa4\xc7\xa4\xb9\n\xa4\xb3\xa4\xce\xca\xb8\xa4\xcf\xa5\xc6\xa5\xb9\xa5\xc8\xa4\xcb\xbb\xc8\xcd\xd1\xa4\xb5\xa4\xec\xa4\xeb\xca\xb8\xa4\xc7\xa4\xb9\xa1\xa3\xa4\xb3\xa4\xec\xa4\xcf\xc6\xfc\xcb\xdc\xb8\xec\xa4\xce\xa5\xc6\xa5\xad\xa5\xb9\xa5\xc8\xa4\xc7\xa4\xb9\n\xa4\xb3\xa4\xce\xca\xb8\xa4\xcf\xa5\xc6\xa5\xb9\xa5\xc8\xa4\xcb\xbb\xc8\xcd\xd1\xa4\xb5\xa4\xec\xa4\xeb\xca\xb8\xa4\xc7\xa4\xb9\xa1\xa3\xa4\xb3\xa4\xec\xa4\xcf\xc6\xfc\xcb\xdc\xb8\xec\xa4\xce\xa5\xc6\xa5\xad\xa5\xb9\xa5\xc8\xa4\xc7\xa4\xb9\n'
Char encoding:

In [14]:
data.decode('EUC-JP')

'この文はテストに使用される文です。これは日本語のテキストです\nこの文はテストに使用される文です。これは日本語のテキストです\nこの文はテストに使用される文です。これは日本語のテキストです\nこの文はテストに使用される文です。これは日本語のテキストです\n'

#### `UniversalDetector`
它是一个类，可以调用 `reset()` 方法将对象重置，之后通过 `feed()` 方法接收二进制数据进行检测，完成之后可以使用 `close()` 停止分析文件并对文件编码类型进行预测。通过 `result` 属性可以得到文件编码信息

In [15]:
# 使用 glob 库来搜索文件
import glob

In [16]:
# 初始化类
detector = UniversalDetector()

# 得到文件名
for filename in glob.glob('./data/*.txt'):
    print(filename)
    detector.reset()
    for line in open(filename, 'br'):
        detector.feed(line)
        if detector.done: break
    detector.close()
    
    # 调用 result 属性得到相应的结果
    print(detector.result)

./data/jp.txt
{'encoding': 'EUC-JP', 'confidence': 1.0, 'language': 'Japanese'}
./data/jp_copy.txt
{'encoding': 'EUC-JP', 'confidence': 1.0, 'language': 'Japanese'}


In [17]:
with open(filename, "r", encoding="EUC-JP") as file:
    print(file.read())
#     for i in file.readlines():
#         print(i)

この文はテストに使用される文です。これは日本語のテキストです
この文はテストに使用される文です。これは日本語のテキストです
この文はテストに使用される文です。これは日本語のテキストです
この文はテストに使用される文です。これは日本語のテキストです
This is test line 1
This is test line 2


In [18]:
with open(filename, "br") as file:
    print(file.read())
#     for i in file.readlines():
#         print(i)

b'\xa4\xb3\xa4\xce\xca\xb8\xa4\xcf\xa5\xc6\xa5\xb9\xa5\xc8\xa4\xcb\xbb\xc8\xcd\xd1\xa4\xb5\xa4\xec\xa4\xeb\xca\xb8\xa4\xc7\xa4\xb9\xa1\xa3\xa4\xb3\xa4\xec\xa4\xcf\xc6\xfc\xcb\xdc\xb8\xec\xa4\xce\xa5\xc6\xa5\xad\xa5\xb9\xa5\xc8\xa4\xc7\xa4\xb9\n\xa4\xb3\xa4\xce\xca\xb8\xa4\xcf\xa5\xc6\xa5\xb9\xa5\xc8\xa4\xcb\xbb\xc8\xcd\xd1\xa4\xb5\xa4\xec\xa4\xeb\xca\xb8\xa4\xc7\xa4\xb9\xa1\xa3\xa4\xb3\xa4\xec\xa4\xcf\xc6\xfc\xcb\xdc\xb8\xec\xa4\xce\xa5\xc6\xa5\xad\xa5\xb9\xa5\xc8\xa4\xc7\xa4\xb9\n\xa4\xb3\xa4\xce\xca\xb8\xa4\xcf\xa5\xc6\xa5\xb9\xa5\xc8\xa4\xcb\xbb\xc8\xcd\xd1\xa4\xb5\xa4\xec\xa4\xeb\xca\xb8\xa4\xc7\xa4\xb9\xa1\xa3\xa4\xb3\xa4\xec\xa4\xcf\xc6\xfc\xcb\xdc\xb8\xec\xa4\xce\xa5\xc6\xa5\xad\xa5\xb9\xa5\xc8\xa4\xc7\xa4\xb9\n\xa4\xb3\xa4\xce\xca\xb8\xa4\xcf\xa5\xc6\xa5\xb9\xa5\xc8\xa4\xcb\xbb\xc8\xcd\xd1\xa4\xb5\xa4\xec\xa4\xeb\xca\xb8\xa4\xc7\xa4\xb9\xa1\xa3\xa4\xb3\xa4\xec\xa4\xcf\xc6\xfc\xcb\xdc\xb8\xec\xa4\xce\xa5\xc6\xa5\xad\xa5\xb9\xa5\xc8\xa4\xc7\xa4\xb9\nThis is test line 1\nThis is t

## 参考
1. [chardet 3.0.4 documentation](https://chardet.readthedocs.io/en/latest/usage.html)