# 单个字符串编码


1. ord()函数获取字符的整数表示
2. chr()函数把编码转换为对应的字符
3. 但是无法处理多个字符串


In [1]:
print("ord对A编码：",ord('A'))
print("ord对优编码：",ord('优'))
print("chr对66解码：",chr(66))
print("chr对20248解码：",chr(20248))
try:
    print(ord('优秀'))
except TypeError as e:
    print(e)
    print(ord('秀'))

ord对A编码： 65
ord对优编码： 20248
chr对66解码： B
chr对20248解码： 优
ord() expected a character, but string of length 2 found
31168


# 字符串转换为二进制

为了方便传输文件或者二进制方式读取

通过字符串的str.encode方法，指定编码格式，即可转换为二进制编码

对于中文，无法使用ascii编码，因为ascii编码仅2^8=256位，对于可以编码的符号，请参考对照表

https://baike.baidu.com/item/ASCII/309296

同样的道理，其他特殊符号，需要依赖编码格式本身就包含相应字符串

In [2]:
str2ascii='达芬奇'
try:
    print(str2ascii.encode('ascii'))
except UnicodeEncodeError as e:
    print(e)
    print(str2ascii.encode('utf-8'))
    print(str2ascii.encode('gbk'))

'ascii' codec can't encode characters in position 0-2: ordinal not in range(128)
b'\xe8\xbe\xbe\xe8\x8a\xac\xe5\xa5\x87'
b'\xb4\xef\xb7\xd2\xc6\xe6'


# 二进制解码

对于b开头的二进制编码，通过decode方式解码，需要匹配正确的编码方式

如果解码选择编码错误，则会报异常

In [3]:

ascii2uni=b'\xe8\xbe\xbe\xe8\x8a\xac\xe5\xa5\x87'
try:
    print(ascii2uni.decode('ascii'))
except UnicodeDecodeError as e:
    print(e)
    print(ascii2uni.decode('utf-8'))

'ascii' codec can't decode byte 0xe8 in position 0: ordinal not in range(128)
达芬奇


# 二八十六进制整数

为了将整数转换为二进制、八进制或十六进制的文本串， 可以分别使用 bin() , oct() 或 hex() 函数：


In [4]:
t=8041
print("十进制输出为二进制：",bin(t))
print("十进制输出为八进制：",oct(t))
print("十六进制输出为二进制：",hex(t))

十进制输出为二进制： 0b1111101101001
十进制输出为八进制： 0o17551
十六进制输出为二进制： 0x1f69


# 二八十六进制整数无前缀标识

In [5]:
print(format(t, 'b'))

print(format(t, 'o'))

print(format(t, 'x'))


1111101101001
17551
1f69


# 非10进制转换为10进制

对于其他进制数据，需要转换为十进制整数,通过int(),第一个参数为需转换数据的字符串形式，参数base表示原始数据进制。


In [6]:
print(int(format(t, 'b'),base=2))
print(int(oct(t),base=8))
print(int(hex(t),base=16))

8041
8041
8041


# 汉字转码为\u格式的unicode编码

对于不支持汉字显示的系统，我们可以先转换为unicode表示。unicode编码的字符实际是十六进制表示，外加前缀\u

1. 通过encode('unicode_escape')转换为二进制表示
2. 再使用utf-8进行解码

In [7]:
s = "香江天赋"
se = s.encode('unicode_escape')
print(se)
sd = se.decode('utf-8') 
print(sd)

b'\\u9999\\u6c5f\\u5929\\u8d4b'
\u9999\u6c5f\u5929\u8d4b


# 解码\\u类型的字符串

对于网站爬取下来的数据，可能存在如\\u745b如何直接输出中文，屏蔽多余的\

和上节操作步骤相反

In [8]:
x='\\u745b'
print (x.encode('utf-8').decode('unicode_escape'))

瑛


# 一个字符串的unicode,十进制，十六进制转换

In [9]:
# 中文转十进制
print(ord('瑛'))
# 十进制转十六进制
print(hex(29787))
# 十六进制+\u
print('\u745b')
# 十六进制转十进制
print(int('745b',16))

29787
0x745b
瑛
29787


# 处理url编码

1. python3 中的urllib.parse.urlencode函数，将字典形式的参数，返回成url所需的格式，`user=yunye&name=天赋`转换，默认转换为`utf-8`，可以进行指定
2. unquote进行解码,quote对字符串直接编码


In [10]:
from urllib.parse import quote, unquote, urlencode
data = {
    'user': 'yunye',
    'name': '天赋'
}
aften=urlencode(data,encoding='utf-8')
print(aften)

aftde=unquote(aften)
print(aftde)

print(quote(data['name']))

user=yunye&name=%E5%A4%A9%E8%B5%8B
user=yunye&name=天赋
%E5%A4%A9%E8%B5%8B


# base64编码

**基本概念**

1. 基于64个字符的查码表

`['A', 'B', 'C', ... 'a', 'b', 'c', ... '0', '1', ... '+', '/']`

2. 对于待编码的字符串，以字节统计
3. 每3个字节作为一组，每个字节为8bit，即每组24bit
4. 再对每组划分4段，每段6bit，那么2^6=64

**notes**

1. 对每组可以用4段，即4个码表示，码源于64字符查码表。即base64编码永远是4的倍数

2. 对于待编码字符串每组不足3个字节，末位补充`\x00`，编码后末位补充`=`表示补充的字节

3. 无法直接对非二进制进行编码



In [11]:
import base64
try:
    ste = base64.b64encode(u'你好')
except TypeError as e:
    print(e)
    st = '你好'.encode('utf-8')
    print("字符utf-8编码后字节数：",len(st))
    ste = base64.b64encode(st)

std=base64.b64decode(ste)
print("b64编码：",ste)
print("b64解码：",std)
print("二进制解码：",std.decode('utf-8'))

a bytes-like object is required, not 'str'
字符utf-8编码后字节数： 6
b64编码： b'5L2g5aW9'
b64解码： b'\xe4\xbd\xa0\xe5\xa5\xbd'
二进制解码： 你好


由于标准的Base64编码后可能出现字符+和/，

在URL中就不能直接作为参数，

通过"url safe"的base64编码，

把字符`+`和`/`分别变成`-`和`_`

In [12]:
t1 = base64.b64encode(b'i\xb7\x1d\xfb\xef\xff')

t2 = base64.urlsafe_b64encode(b'i\xb7\x1d\xfb\xef\xff')

t3 = base64.urlsafe_b64decode('abcd--__')

print(f"{t1}\n{t2}\n{t3}")

b'abcd++//'
b'abcd--__'
b'i\xb7\x1d\xfb\xef\xff'


# 十六进制二进制binascii转换

'b2a_hex', 'hexlify'  字符串转16进制

'a2b_hex', 'unhexlify' 16进制转字符串

'b2a_base64'base64加密

'a2b_base64' base64解密

'crc32' #增量计算 CRC-32

In [33]:
import binascii
string = "蒂花之秀"
# 先将字符串编码为二进制，在进行二进制转换为十六进制
bst=string.encode('utf-8')
print(bst)
print(binascii.b2a_hex(bst))
print(binascii.hexlify(bst))


b'\xe8\x92\x82\xe8\x8a\xb1\xe4\xb9\x8b\xe7\xa7\x80'
b'e89282e88ab1e4b98be7a780'
b'e89282e88ab1e4b98be7a780'


In [31]:
# 十六进制转换回二进制
print(binascii.a2b_hex('e89282e88ab1e4b98be7a780').decode('utf-8'))
print(binascii.unhexlify('e89282e88ab1e4b98be7a780'))

蒂花之秀
b'\xe8\x92\x82\xe8\x8a\xb1\xe4\xb9\x8b\xe7\xa7\x80'


In [43]:
# base64编码
print(binascii.b2a_base64('你好'.encode('utf-8')))
# base64解码
print(binascii.a2b_base64(b'5L2g5aW9\n').decode('utf-8'))

b'5L2g5aW9\n'
你好
