## 8.1.1 python3中的字符串修改

## 8.1.2 字符串基础知识

In [2]:
# 查看ascii码
print(ord('a'))
# 查看16进制信息
print(hex(97))
# 查看ascii对应的字符串
print(chr(97))

97
0x61
a


In [3]:
# python提供了一些特殊的非ascii
print(chr(196))

Ä


In [4]:
s = 'ni'
# 下面我们可以对这些字符串进行编码
print(s.encode('ascii'))
print(s.encode('latin1'))
print(s.encode('utf8'))

b'ni'
b'ni'
b'ni'


In [5]:
# 我们也可以使用更宽的格式去编码
print(s.encode('utf16'))
print(s.encode('utf32'))

b'\xff\xfen\x00i\x00'
b'\xff\xfe\x00\x00n\x00\x00\x00i\x00\x00\x00'


## 8.1.3 编写基本的字符串

In [6]:
# 创建一个字节类型的变量
b = b'spam'
s = 'eggs'
# 我们可以看一下类型
print(type(b),type(s))

<class 'bytes'> <class 'str'>


In [7]:
# bytes对象实际上是一个短整数序列
print(b[0],s[0])
print(b[1:],s[1:])
print(list(b), list(s))

115 e
b'pam' ggs
[115, 112, 97, 109] ['e', 'g', 'g', 's']


In [8]:
# 字节和字符串都不能修改
b[1] = 10
s[0] = 's'

TypeError: 'bytes' object does not support item assignment

In [9]:
# 下面我们可以创建一个Unicode字符串
u = u'spam'
# 实际上本质上还是字符串，只是为了向前兼容而已
print(type(u))

<class 'str'>


In [10]:
# 把字符串转换为字节
s = 'eggs'
print(s.encode())

b'eggs'


In [11]:
# 也可以这样
print(bytes(s,encoding='ascii'))

b'eggs'


In [12]:
# 字节转换为字符串
b = b'spam'
print(b.decode())
print(str(b,encoding='ascii'))

spam
spam


In [13]:
# 我们可以查看系统默认的编码
import sys
print(sys.platform)
print(sys.getdefaultencoding())

win32
utf-8


In [14]:
# 不同编码方式长度不一样
b = b'spam'
# 因为第一个是使用了utf8的编码
print(len(str(b)))
print(len(str(b,encoding='ascii')))

7
4


## 8.1.4 编写Unicode字符串

In [15]:
s = 'XYZ'
# 这个默认为ascii码
print(len(s))
# 然后我们可以看每一位的ascii码值
print([ord(c) for c in s])
# 我们可以先使用第一个编码
print(list(s.encode('latin-1')))
# 使用其他的编码
print(list(s.encode('utf8')))
print(list(s.encode('utf16')))

3
[88, 89, 90]
[88, 89, 90]
[88, 89, 90]
[255, 254, 88, 0, 89, 0, 90, 0]


In [16]:
# 我们可以让python显示非ascii码
print(chr(0xc4))
print(chr(0xe8))

Ä
è


In [17]:
# 也可这样写
s = '\u00c4\u00e8'
print(s)

Äè


In [18]:
# 注意，我们不能使用上面的去编码成ascii码，会提示不支持
print(s.encode('ascii'))

UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)

In [19]:
# 但是可以编码成其他的
print(s.encode('latin-1'))
print(s.encode('utf-8'))

b'\xc4\xe8'
b'\xc3\x84\xc3\xa8'


In [20]:
# 所以我们也可以直接这些写字节编码
b = b'\xc4\xe8'
print(b)
print(b.decode('latin-1'))

b'\xc4\xe8'
Äè


In [21]:
# 现在我们可以把不同的编码混合起来使用
s = 'A\u00c4B\U000000e8C'
print(s)
print(s.encode('latin-1'))
print(s.encode('utf-8'))

AÄBèC
b'A\xc4B\xe8C'
b'A\xc3\x84B\xc3\xa8C'


In [22]:
# python3允许特殊字符以16进制和Unicode转义的方式编码到str字符串中
s = 'A\xc48\xE8C'
print(s)
s= 'A\u00c4B\U000000e8C'
print(s)
# 字节也可以这样表示
b = b'A\xc48\xE8C'
print(b)
b= b'A\u00c4B\U000000e8C'
print(b)

AÄ8èC
AÄBèC
b'A\xc48\xe8C'
b'A\\u00c4B\\U000000e8C'


In [23]:
# 下面我们来进行编码转换
b = b'A\xc3\x84B\xc3\xa8C'
print(b.decode('utf-8'))

AÄBèC


In [24]:
# 我们使用另外一种方式来编码
t = s.encode('cp500')
print(t)
u = t.decode('cp500')
print(u)
# 我们重新编码,番编码是一致的
print(u.encode())

b'\xc1c\xc2T\xc3'
AÄBèC
b'A\xc3\x84B\xc3\xa8C'


In [None]:
# 我们可以在首行注释里加上文本的编码方式
# _*_ coding: latin-1 _*_

## 8.1.5 使用python3 bytes对象

In [25]:
# 我们可以通过集合运算来确定字符串的拥有哪些字节数组没有的属性
print(set(dir('abc'))-set(dir(b'abc')))

{'isnumeric', 'encode', 'casefold', 'isidentifier', 'format_map', 'isdecimal', 'isprintable', 'format'}


In [26]:
# 字节对象和字符串一样，是不能修改的
b = b'spam'
print(b.find(b'pa'))
print(b.replace(b'pa',b'xy'))
print(b.split(b'pa'))
print(b)
# 不能修改，下面会报错
b[0] = 'x'

1
b'sxym'
[b's', b'm']
b'spam'


TypeError: 'bytes' object does not support item assignment

In [27]:
# 我们直接查看某一位实际上会打印ascii码值
print(b[2])
# 可以这样
print(chr(b[0]))
# 字节支持拼接和重复
print(b+b'aaaaa')
print(b * 4)

97
s
b'spamaaaaa'
b'spamspamspamspam'


In [28]:
# 使用下面的方式来初始化字节对象
print( b'abc')
# 可以使用bytes函数
print(bytes('abc', 'ascii'))
# 可以是ord
print(ord('a'))
# 也可以直接输入ascii
print(bytes([97,98,99]))
# 也可以直接使用encode
print('abc'.encode())

b'abc'
b'abc'
97
b'abc'
b'abc'


## 8.1.6 使用bytearray对象

In [29]:
s='spam'
c = bytearray(s,'latin1')
print(c)

bytearray(b'spam')


In [30]:
# bytearray和byte的区别就是array支持修改
print(c[0])
c[0] = ord('x')
print(c)

115
bytearray(b'xpam')


In [31]:
c[0] = b'Y'[0]
print(c)

bytearray(b'Ypam')


In [32]:
c = bytearray(b'xYam')
c.extend(b'xYam')
print(c)
# 如果只添加一个字符，需要这样操作
c.append(ord('l'))
print(c)

bytearray(b'xYamxYam')
bytearray(b'xYamxYaml')


In [33]:
# 也可以直接使用+的操作符
print(c+b'!#$%')

bytearray(b'xYamxYaml!#$%')


In [34]:
print(c[1:])

bytearray(b'YamxYaml')


## 8.1.7 使用文本和二进制文件

In [None]:
# 写文本文件
file = open('tmp.txt','w')
# 读文本文件
file = open('tmp.txt','r')
# 写二进制文件
file = open('tmp.txt','wb')
# 读二进制文件
file = open('tmp.txt','rb')

In [35]:
#写二进制文件需要写入二进制格式
with open("tmp.txt","wb") as f:
    # 这样写写入失败
    # f.write("12")
    # 需要这样
    f.write(b'123\n')
    # 或者使用bytearray
    f.write(bytearray(b'456'))

## 8.1.8 使用Unicode文件

In [36]:
# 我们写文件的时候可以直接指定编码
open("tmp.txt","w",encoding='latin-1').write("abcdef")

6

In [37]:
# 读也可以指定编码
print(open('tmp.txt','r',encoding='utf-8').read())

abcdef


## 8.1.9 其他字符串工具的修改

In [38]:
# re正则匹配模块
import re
s = 'Bugger all down here on earth'
print(re.match('(.*) down (.*) on (.*)',s).groups())

('Bugger all', 'here', 'earth')


In [None]:
# struct处理二进制数据的模块
import struct

In [None]:
# 对象序列化模块
import pickle