In [3]:
#Python的字符串使用Unicode编码来表示文本
#使用Unicode字符的16或32位的十六进制来表示（加上前缀\u或\U），或使用字符的Unicode名称（\N{name}）

In [4]:
"\u00C6"

'Æ'

In [6]:
"\U0001F60A"

'😊'

In [7]:
"This is a cat: \N{Cat}"

'This is a cat: 🐈'

In [1]:
#更多Unicode的码点和名称在
#http://unicode-table.com

In [3]:
#在内存和磁盘中，所有对象都是以0和1（二进制数字）表示，这些二进制数字每8个为一组为1字节。
#与C语言交互，或文件处理，或对网络处理进行数据交互，Python提供两种类似的数据类型：不可变的bytes和可变的bytearray
#使用b'content'，创建'content'的字节对象
b'Hi'

b'Hi'

In [4]:
# 由于Python bytes字面量只支持ASCII标准中的128个字符，余下的128个值必须用转义序列表示，如\xf0表示十六进制值0xf0(十进制的240)
# 但是如果单个字符串超过一个字节后（如安纳托利亚象形文字或皇家亚兰字母），直接将每个码点表示为相应的二进制数便不可行

In [5]:
#进行单字节编码时，以便与与较旧的系统兼容，可以用ASCII进行编码
"Hi".encode("ascii")    

b'Hi'

In [6]:
#UTF-8
"Hi".encode("UTF-8")

b'Hi'

In [7]:
'HI'.encode("UTF-32")

b'\xff\xfe\x00\x00H\x00\x00\x00I\x00\x00\x00'

In [12]:
#但是如果使用了叫怪异的字符，ASCII无法对其编码

In [13]:
"Hællå, wørld!".encode("ASCII")

UnicodeEncodeError: 'ascii' codec can't encode character '\xe6' in position 1: ordinal not in range(128)

In [14]:
"Hællå, wørld!".encode("ASCII", "ignore")

b'Hll, wrld!'

In [15]:
"Hællå, wørld!".encode("ASCII", "replace")

b'H?ll?, w?rld!'

In [17]:
#所以最好使用UTF-8进行字符串的编码，它是最普遍使用的编码，也是默认的编码
"Hællå, wørld!".encode("UTF-8")

b'H\xc3\xa6ll\xc3\xa5, w\xc3\xb8rld!'

In [25]:
#相比于普通的Hello，World，UTF-8编码结果不一样，明显更长一些
#但如果用UTF-32对Hello, World编码时，结果和对Hællå, wørld!一样

In [26]:
len("Hello, World!".encode("UTF-32"))

56

In [27]:
len("Hællå, wørld!".encode("UTF-32"))

56

In [30]:
byte ="Hællå, wørld!".encode("UTF-8")

In [31]:
print(byte)

b'H\xc3\xa6ll\xc3\xa5, w\xc3\xb8rld!'


In [33]:
str(byte, encoding = 'utf-8')   #将二进制Hællå, wørld!转为字符串

'Hællå, wørld!'

In [34]:
#编码和解码最重要的用途之一是 将文本储存到磁盘文件中。
#而python进行文件读写通常不需要再对文件中的信息进行解码，python会自动处理解码的工作，只要文件使用的是utf-8编码。
#如果文件正常的文本时乱码，说明文件用的编码可能不是utf-8。
#python代码文件默认使用的时utf-8编码，如果想用其它编码，可以用特殊的注释来指定编码
# -*- coding: encoding name -*-
#如# -*- coding: utf-8 -*-

In [37]:
#-*- coding: utf-8 -*-

In [38]:
#python的bytearray()，可以修改指定位置的字符串
x = "Hello".encode()

In [39]:
print(x)

b'Hello'


In [40]:
x[1]

101

In [42]:
x[1] = 10   

TypeError: 'bytes' object does not support item assignment

In [45]:
type(x) #此时x是byte类型

bytes

In [49]:
x = bytearray(x)    #将byte转为bytearray

In [50]:
x[1]

101

In [53]:
x[1] = 100  #100是utf-8编码中字母b对应的数字

In [54]:
x

bytearray(b'Hdllo')

In [56]:
#如果不想查找要替换字符串具体对应的数字，可以ord() (ordinal value)获取对应的数字
x[2] = ord(b'd')

In [57]:
x

bytearray(b'Hddlo')