# 字符集检测

Chardet：通用字符编码检测器，检测字符集范围：

ASCII，UTF-8，UTF-16（2种变体），UTF-32（4种变体）

Big5，GB2312，EUC-TW，HZ-GB-2312，ISO-2022-CN（繁体中文和简体中文）

EUC-JP，SHIFT_JIS，CP932，ISO-2022-JP（日文）

EUC-KR，ISO-2022-KR（韩文）

KOI8-R，MacCyrillic，IBM855，IBM866，ISO-8859-5，windows-1251（西里尔文）

ISO-8859-5，windows-1251（保加利亚语）

ISO-8859-1，windows-1252（西欧语言）

ISO-8859-7，windows-1253（希腊语）

ISO-8859-8，windows-1255（视觉和逻辑希伯来语）

TIS-620（泰国语）

## chardet在使用前，我们需要安装它：pip install chardet即可

## 检测网址

In [3]:
import requests
import chardet
# 检测网址
urls = ['https://www.jb51.net', 'https://www.baidu.com/']
for url in urls:
    r = requests.get(url)
    print(url, chardet.detect(r.content))

https://www.jb51.net {'encoding': 'GB2312', 'confidence': 0.99, 'language': 'Chinese'}
https://www.baidu.com/ {'encoding': 'utf-8', 'confidence': 0.99, 'language': ''}


## 检测文本

In [5]:
import chardet
# 检测文本
with open('123.md','rb') as f:
   print(chardet.detect(f.read()))
# 对于文本的编码的未知性，我们需要使用二进制的方式打开文本，之后再获取字符集。

{'encoding': 'utf-8', 'confidence': 0.99, 'language': ''}


## 逐步检测编码

对于简短的网页或者文本内容，我们可以按照上述的方式进行操作，但如果我的文本是以G为单位计算的,如何能快速的获取文本的字符集内容呢？我们可以使用chardet模块的逐步检测编码方式，

In [7]:
# 原始方法
import chardet
import time

t0 = time.process_time()
with open("大主宰.txt",'rb') as f:
    print(chardet.detect(f.read()))
t1 = time.process_time()
print(t1-t0)

{'encoding': 'utf-8', 'confidence': 0.99, 'language': ''}
147.40460163699998


In [9]:
# 逐步检索方法：
import time
from chardet.universaldetector import UniversalDetector

detector = UniversalDetector()

t0 = time.process_time()
for line in open("大主宰.txt", 'rb'):
    detector.feed(line)
    if detector.done:
        break
detector.close()
print(detector.result)
t1 = time.process_time()
print(t1 - t0)

{'encoding': 'utf-8', 'confidence': 0.99, 'language': ''}
64.959393114


如果要检测多个文本的编码（例如单独的文件），则可以重复使用单个UniversalDetector对象。只需detector.reset()在每个文件的开头调用 ，根据需要调用detector.feed 多次，然后调用detector.close()并检查detector.result字典中的文件结果。

之前版本大家在进行时间计时是，经常使用到的就是time.time()和time.clock()两个模块。两者的差异在于time.clock()计算的是cpu时间差，而time.time()计算的是电脑的系统时间差。

time.clock在python3.3以后不被推荐使用，该方法依赖操作系统，建议使用per_counter(返回系统运行时间)或process_time(返回进程运行时间)代替。