# Python Codec Summary 字符编码总结
字符串编码一直是令人非常头疼的问题，尤其是我们在处理一些不规范的第三方网页的时候。虽然Python提供了Unicode表示的str和bytes两种数据类型，并且可以通过encode()和decode()方法转换，但是，在不知道编码的情况下，对bytes做decode()不好做。

对于未知编码的bytes，要把它转换成str，需要先“猜测”编码。猜测的方式是先收集各种编码的特征字符，根据特征字符判断，就能有很大概率“猜对”。

当然，我们肯定不能从头自己写这个检测编码的功能，这样做费时费力。chardet这个第三方库正好就派上了用场。用它来检测编码，简单易用。



## chardet
- 安装: pip install chardet
- 它能以一定的概率判断出字符的编码方式，可能是Bayers也可能是NN算法，相信未来一定会越来越准

In [1]:
import chardet

In [2]:
s1 = b'Hello, world'

In [3]:
type(s1)

bytes

In [4]:
chardet.detect(s1)

{'encoding': 'ascii', 'confidence': 1.0, 'language': ''}

In [5]:
chardet.detect(s1)['encoding']

'ascii'

In [6]:
data = '今天北京天气真不错'

In [7]:
type(data)

str

In [8]:
data = data.encode('gbk')

In [9]:
type(data)

bytes

In [10]:
data

b'\xbd\xf1\xcc\xec\xb1\xb1\xbe\xa9\xcc\xec\xc6\xf8\xd5\xe6\xb2\xbb\xb4\xed'

In [11]:
chardet.detect(data)

{'encoding': 'GB2312', 'confidence': 0.99, 'language': 'Chinese'}

In [12]:
codec = chardet.detect(data)['encoding']
codec

'GB2312'

In [13]:
data.decode(codec)

'今天北京天气真不错'

# Python 获取当前环境的编码

In [14]:
import sys
import locale

In [15]:
def p(f):
    print('{0}.{1}(): \033[1;31;48m{2}'.format(f.__module__,f.__name__,f()))

### 返回当前系统所使用的默认字符编码

In [16]:
p(sys.getdefaultencoding)

sys.getdefaultencoding(): [1;31;48mutf-8


### 返回用于转换Unicode文件名至系统文件名所使用的编码

In [17]:
p(sys.getfilesystemencoding)

sys.getfilesystemencoding(): [1;31;48mutf-8


### 获取默认的区域设置并返回元组(语言，编码)

In [18]:
p(locale.getdefaultlocale)

locale.getdefaultlocale(): [1;31;48m('en_US', 'UTF-8')


### 返回用户设定的文本数据编码格式 
(this function only return a guess)

In [19]:
p(locale.getpreferredencoding)

locale.getpreferredencoding(): [1;31;48mUTF-8


## bytes(), ord(),chr(),bin(),int(),hex(),oct(),ascii()函数 

In [20]:
bytes(data)

b'\xbd\xf1\xcc\xec\xb1\xb1\xbe\xa9\xcc\xec\xc6\xf8\xd5\xe6\xb2\xbb\xb4\xed'

In [21]:
data

b'\xbd\xf1\xcc\xec\xb1\xb1\xbe\xa9\xcc\xec\xc6\xf8\xd5\xe6\xb2\xbb\xb4\xed'

In [22]:
data2 = data

In [23]:
data2 = data2.decode('gbk').encode('utf-8')

In [24]:
data2

b'\xe4\xbb\x8a\xe5\xa4\xa9\xe5\x8c\x97\xe4\xba\xac\xe5\xa4\xa9\xe6\xb0\x94\xe7\x9c\x9f\xe4\xb8\x8d\xe9\x94\x99'

In [25]:
data2.decode('utf-8')

'今天北京天气真不错'

In [26]:
help(chr)

Help on built-in function chr in module builtins:

chr(i, /)
    Return a Unicode string of one character with ordinal i; 0 <= i <= 0x10ffff.



In [27]:
chr(115)

's'

In [28]:
ord('s')

115

In [29]:
help(ord)

Help on built-in function ord in module builtins:

ord(c, /)
    Return the Unicode code point for a one-character string.



In [30]:
ascii(0x73)

'115'

In [31]:
ascii('wangliang,阿傻')

"'wangliang,\\u963f\\u50bb'"

In [32]:
int(0x963f)

38463

In [33]:
chr(38463)

'阿'

In [34]:
str('s')

's'

In [35]:
hex(115)

'0x73'

In [36]:
int(0x73)

115

In [37]:
oct(115)

'0o163'

In [38]:
int(0o163)

115

In [39]:
bin(115)

'0b1110011'

In [40]:
bin(0x73)

'0b1110011'

In [41]:
bin(0o163)

'0b1110011'

In [42]:
int(0b1110011)

115

In [43]:
help(ascii)

Help on built-in function ascii in module builtins:

ascii(obj, /)
    Return an ASCII-only representation of an object.
    
    As repr(), return a string containing a printable representation of an
    object, but escape the non-ASCII characters in the string returned by
    repr() using \\x, \\u or \\U escapes. This generates a string similar
    to that returned by repr() in Python 2.



## 同一份byte，解码方式不同，得到的表示就不同，用错了解码方式就产生乱码

In [44]:
letters = "αβγδ"

In [45]:
raw = letters.encode('utf-8')

In [46]:
raw

b'\xce\xb1\xce\xb2\xce\xb3\xce\xb4'

In [47]:
raw.decode('utf-8')

'αβγδ'

In [48]:
raw.decode('utf-16')

'뇎닎돎듎'

In [49]:
tmp =b'\xce\xb1\xce\xb2\xce\xb3\xce\xb4'
tmp.decode('utf-8')

'αβγδ'

### 中英混合，非ASCII的字符就会被转换

In [50]:
tmp = 'Hello,Liang,你好'

In [51]:
ascii(tmp)

"'Hello,Liang,\\u4f60\\u597d'"

In [52]:
tmp = tmp.encode('utf-8')

In [53]:
chardet.detect(tmp)

{'encoding': 'utf-8', 'confidence': 0.7525, 'language': ''}

In [54]:
tmp.decode('utf-8')

'Hello,Liang,你好'

In [55]:
tmp

b'Hello,Liang,\xe4\xbd\xa0\xe5\xa5\xbd'

# Python读写文件
- 参考：https://realpython.com/read-write-files-python/

In [56]:
import os
os.getcwd()

'/Users/liang/Downloads/考题'

In [57]:
filepath = os.getcwd()+'/test/'+'1.txt'
filepath

'/Users/liang/Downloads/考题/test/1.txt'

In [58]:
codec =''
with open(filepath,'rb') as reader:
    codec = chardet.detect(reader.readline())['encoding']

with open(filepath, 'rb') as reader:
    print(reader.readline().decode(codec))

变压器（Transformer）是利用电磁感应的原理来改变交流电压的装置，主要构件是初级线圈、次级线圈和铁芯（磁芯）。主要功能有：电压变换、电流变换、阻抗变换、隔离、稳压（磁饱和变压器）等。


In [59]:
file4 = os.getcwd()+'/test/'+'4.txt'

In [60]:
codec = ''
with open(file4, 'rb') as reader:
    codec = chardet.detect(reader.readline())['encoding']
print(codec)

utf-8


#### read() 一次性全部读完

In [61]:
with open(file4, 'rb') as reader:
    print(reader.read().decode(codec))

工作原理
变压器由铁芯（或磁芯）和线圈组成，线圈有两个或两个以上的绕组，其中接电源的绕组叫初级线圈，其余的绕组叫次级线圈。它可以变换交流电压、电流和阻抗。最简单的铁心变压器由一个软磁材料做成的铁心及套在铁心上的两个匝数不等的线圈构成，如图所示。
变压器原理
变压器原理
铁心的作用是加强两个线圈间的磁耦合。为了减少铁内涡流和磁滞损耗，铁心由涂漆的硅钢片叠压而成;两个线圈之间没有电的联系，线圈由绝缘铜线（或铝线）绕成。一个线圈接交流电源称为初级线圈（或原线圈），另一个线圈接用电器称为次级线圈（或副线圈）。实际的变压器是很复杂的，不可避免地存在铜损（线圈电阻发热）、铁损（铁心发热）和漏磁（经空气闭合的磁感应线）等，为了简化讨论这里只介绍理想变压器。理想变压器成立的条件是：忽略漏磁通，忽略原、副线圈的电阻，忽略铁心的损耗，忽略空载电流（副线圈开路原线圈线圈中的电流）。例如电力变压器在满载运行时（副线圈输出额定功率）即接近理想变压器情况。


- 19 传入的是字节数bytes， 若恰好合适，decode不会报错，截断打出

In [62]:
with open(file4, 'rb') as reader:
    print(reader.read(19).decode(codec))

工作原理
变压


#### readline() 读一行

In [63]:
with open(file4, 'rb') as reader:
    print(reader.readline().decode(codec))

工作原理



- 读出一行中的3个bytes(3个bytes 表出一个汉字 utf-8)

In [64]:
with open(file4, 'rb') as reader:
    print(reader.readline(3).decode(codec))

工


In [65]:
with open(file4, 'rb') as reader:
    print(reader.readline(6).decode(codec))

工作


- 18 超出行总字节数不会报错

In [66]:
with open(file4, 'rb') as reader:
    print(reader.readline(18).decode(codec))

工作原理



#### readlines() 读出每行，并返回列表

In [67]:
with open(file4, 'rb') as reader:
    for e in reader.readlines():
        print(e.decode(codec))

工作原理

变压器由铁芯（或磁芯）和线圈组成，线圈有两个或两个以上的绕组，其中接电源的绕组叫初级线圈，其余的绕组叫次级线圈。它可以变换交流电压、电流和阻抗。最简单的铁心变压器由一个软磁材料做成的铁心及套在铁心上的两个匝数不等的线圈构成，如图所示。

变压器原理

变压器原理

铁心的作用是加强两个线圈间的磁耦合。为了减少铁内涡流和磁滞损耗，铁心由涂漆的硅钢片叠压而成;两个线圈之间没有电的联系，线圈由绝缘铜线（或铝线）绕成。一个线圈接交流电源称为初级线圈（或原线圈），另一个线圈接用电器称为次级线圈（或副线圈）。实际的变压器是很复杂的，不可避免地存在铜损（线圈电阻发热）、铁损（铁心发热）和漏磁（经空气闭合的磁感应线）等，为了简化讨论这里只介绍理想变压器。理想变压器成立的条件是：忽略漏磁通，忽略原、副线圈的电阻，忽略铁心的损耗，忽略空载电流（副线圈开路原线圈线圈中的电流）。例如电力变压器在满载运行时（副线圈输出额定功率）即接近理想变压器情况。


### 若已知文件编码格式与default解码(utf-8)致，则可以直接'r'模式打开，不必'b'字节形式追加

In [68]:
with open(file4, 'r') as reader:
    for line in reader.readlines():
        print(line,end='')

工作原理
变压器由铁芯（或磁芯）和线圈组成，线圈有两个或两个以上的绕组，其中接电源的绕组叫初级线圈，其余的绕组叫次级线圈。它可以变换交流电压、电流和阻抗。最简单的铁心变压器由一个软磁材料做成的铁心及套在铁心上的两个匝数不等的线圈构成，如图所示。
变压器原理
变压器原理
铁心的作用是加强两个线圈间的磁耦合。为了减少铁内涡流和磁滞损耗，铁心由涂漆的硅钢片叠压而成;两个线圈之间没有电的联系，线圈由绝缘铜线（或铝线）绕成。一个线圈接交流电源称为初级线圈（或原线圈），另一个线圈接用电器称为次级线圈（或副线圈）。实际的变压器是很复杂的，不可避免地存在铜损（线圈电阻发热）、铁损（铁心发热）和漏磁（经空气闭合的磁感应线）等，为了简化讨论这里只介绍理想变压器。理想变压器成立的条件是：忽略漏磁通，忽略原、副线圈的电阻，忽略铁心的损耗，忽略空载电流（副线圈开路原线圈线圈中的电流）。例如电力变压器在满载运行时（副线圈输出额定功率）即接近理想变压器情况。

In [69]:
with open(file4, 'r') as reader:
    for line in reader.readlines():
        print(line)

工作原理

变压器由铁芯（或磁芯）和线圈组成，线圈有两个或两个以上的绕组，其中接电源的绕组叫初级线圈，其余的绕组叫次级线圈。它可以变换交流电压、电流和阻抗。最简单的铁心变压器由一个软磁材料做成的铁心及套在铁心上的两个匝数不等的线圈构成，如图所示。

变压器原理

变压器原理

铁心的作用是加强两个线圈间的磁耦合。为了减少铁内涡流和磁滞损耗，铁心由涂漆的硅钢片叠压而成;两个线圈之间没有电的联系，线圈由绝缘铜线（或铝线）绕成。一个线圈接交流电源称为初级线圈（或原线圈），另一个线圈接用电器称为次级线圈（或副线圈）。实际的变压器是很复杂的，不可避免地存在铜损（线圈电阻发热）、铁损（铁心发热）和漏磁（经空气闭合的磁感应线）等，为了简化讨论这里只介绍理想变压器。理想变压器成立的条件是：忽略漏磁通，忽略原、副线圈的电阻，忽略铁心的损耗，忽略空载电流（副线圈开路原线圈线圈中的电流）。例如电力变压器在满载运行时（副线圈输出额定功率）即接近理想变压器情况。


In [70]:
with open(file4, 'r') as reader:
    print(reader.read())

工作原理
变压器由铁芯（或磁芯）和线圈组成，线圈有两个或两个以上的绕组，其中接电源的绕组叫初级线圈，其余的绕组叫次级线圈。它可以变换交流电压、电流和阻抗。最简单的铁心变压器由一个软磁材料做成的铁心及套在铁心上的两个匝数不等的线圈构成，如图所示。
变压器原理
变压器原理
铁心的作用是加强两个线圈间的磁耦合。为了减少铁内涡流和磁滞损耗，铁心由涂漆的硅钢片叠压而成;两个线圈之间没有电的联系，线圈由绝缘铜线（或铝线）绕成。一个线圈接交流电源称为初级线圈（或原线圈），另一个线圈接用电器称为次级线圈（或副线圈）。实际的变压器是很复杂的，不可避免地存在铜损（线圈电阻发热）、铁损（铁心发热）和漏磁（经空气闭合的磁感应线）等，为了简化讨论这里只介绍理想变压器。理想变压器成立的条件是：忽略漏磁通，忽略原、副线圈的电阻，忽略铁心的损耗，忽略空载电流（副线圈开路原线圈线圈中的电流）。例如电力变压器在满载运行时（副线圈输出额定功率）即接近理想变压器情况。


## Write() 写文件
- .write(string) write string to the file
- .writelines(seq) This writes the sequence to the file. No line endings are appended to each sequence item. It’s up to you to add the appropriate line ending(s).

In [71]:
with open(file4, 'r') as reader, open('comb.txt', 'w') as writer:
    writer.write(reader.read())

In [72]:
with open(file4, 'rb') as reader, open('cb.txt', 'wb') as writer:
    writer.write(reader.read())

In [73]:
with open(filepath, 'rb') as reader, open('1.txt', 'w') as writer:
    writer.write(reader.read().decode('gbk'))

In [74]:
with open(file4, 'r') as reader, open('4.txt', 'w') as writer:
    writer.writelines(reader.readlines())

In [75]:
with open(file4, 'r') as reader, open('4half.txt', 'w') as writer:
    linelist = reader.readlines()
    for i in range(len(linelist)//2):
        writer.writelines(linelist[i])

In [76]:
os.getcwd()

'/Users/liang/Downloads/考题'

In [77]:
testdir = os.getcwd()+'/test'

In [78]:
testdir

'/Users/liang/Downloads/考题/test'

In [79]:
fileslist=os.listdir(testdir)

In [80]:
codec = ''
fw = open('liang','w')
for file in fileslist:
    absfile = testdir+'/'+file
    print(absfile)
    with open(absfile,'rb') as reader:
        codec = chardet.detect(reader.readline())['encoding']
        
    with open(absfile,'rb') as reader:
        contents = reader.read().decode(codec,'ignore')
        fw.write(contents)
fw.close()
        

/Users/liang/Downloads/考题/test/4.txt
/Users/liang/Downloads/考题/test/3.txt
/Users/liang/Downloads/考题/test/2.txt
/Users/liang/Downloads/考题/test/1.txt


In [81]:
codestyle = ''
with open('wang', 'w+') as writer:
    for file in fileslist:
        absfile = testdir+'/'+file
        with open(absfile, 'rb') as reader:
            codestyle = chardet.detect(reader.readline())['encoding']
        with open(absfile,'rb') as reader:
            writer.write(reader.read().decode(codestyle))
            writer.write('\r\n\r\n')