# 文本字符串

## Unicode

In [1]:
def unicode_test(value):
    import unicodedata
    name = unicodedata.name(value)
    value2 = unicodedata.lookup(name)
    print('value = "%s" , name = "%s" , value2 = "%s" ' % (value, name, value2))

unicode_test('A')
unicode_test('$')
unicode_test('\u00a2')
unicode_test('\u20ac')
unicode_test('\u2603')

value = "A" , name = "LATIN CAPITAL LETTER A" , value2 = "A" 
value = "$" , name = "DOLLAR SIGN" , value2 = "$" 
value = "¢" , name = "CENT SIGN" , value2 = "¢" 
value = "€" , name = "EURO SIGN" , value2 = "€" 
value = "☃" , name = "SNOWMAN" , value2 = "☃" 


## 使用`UTF-8`进行编码和解码

In [2]:
snowman = '\u2603'
print("len(snowman =)",len(snowman))
ds = snowman.encode('utf-8')
print("len(ds) = " , len(ds))
print("ds = ", ds)
es = ds.decode('utf-8')
print("es = ", es)

len(snowman =) 1
len(ds) =  3
ds =  b'\xe2\x98\x83'
es =  ☃


## 格式化

### 使用%的旧式格式化

In [3]:
cat = 'Chester'
weight = 28

print("Our cat %s weighs %2.1f pounds." % (cat, weight))

Our cat Chester weighs 28.0 pounds.


### 使用\{\} 和 `format` 的新式格式化

In [4]:
d = {'n' : 42, 'f' : 7.03, 's' : 'string cheese'}

print('first: {0[n]} second: {0[f]} {1} third: {0[s]}'.format(d, 'other'))

first: 42 second: 7.03 other third: string cheese


In [5]:
n = 42
f = 7.03
s = 'string cheese'
# 右对齐
print('{0:>10d}{1:>10f}{2:>10s}'.format(n, f, s))
# 左对齐
print('{0:<10d}{1:<10f}{2:<10s}'.format(n, f, s))
# 居中
print('{0:^10d}{1:^10f}{2:^10s}'.format(n, f, s))

        42  7.030000string cheese
42        7.030000  string cheese
    42     7.030000 string cheese


## 使用正则表达式匹配
`match()`用于查看`source`是否以`pattern`开头。
* `search()`会返回第一次成功匹配，如果存在的话
* `findall()`会返回所有不重叠的匹配，如果存在的话
* `split()` 会根据`pattern`将`source`切分成若干段，返回由这些片段组成的列表
* `sub()` 还需要一个额外的参数`replacement`，它会把`source`中所有匹配的`pattern`改成`replacement`

### 使用`match()`和`search()`进行准确匹配

In [6]:
import re
source = 'Young Frankenstein'
m = re.match('You', source)
if m:
    print("1. match() :", m.group())
    
# 可以对 pattern 进行编译后匹配
youpattern = re.compile('You')
m = youpattern.match(source)
if m:
    print("2. match() + compile() :", m.group())

m = re.match('Frank', source)
if m:
    print("3. match() :", m.group())

m = re.search('Frank', source)
if m:
    print("4. search() :", m.group())

m = re.match('.*Frank', source)
if m:
    print("5. match() :", m.group())

1. match() : You
2. match() + compile() : You
4. search() : Frank
5. match() : Young Frank


对 `5. match()`的解释：
* `.`代表任意单字符
* `*`代表任意一个它之前的字符，`.*`代表任意多个字符，`.?`代表字符是可选的

### 使用`findall()`寻找所有匹配

In [7]:
m = re.findall('n.?', source)
print('Found', len(m), 'maches:',m)

Found 4 maches: ['ng', 'nk', 'ns', 'n']


### 使用`split()`按匹配划分

In [8]:
m = re.split('n', source)
print('After split:', m)

After split: ['You', 'g Fra', 'ke', 'stei', '']


### 使用`sub()`替换匹配

In [9]:
m = re.sub('n', '?',source)
print('After replace:', m)

After replace: You?g Fra?ke?stei?


### 模式: 特殊字符

基本模式
* 普通文本值代表自身
* `.`代表任意除`\n`外的字符
* `*`表示任意多个字符(包括0个)
* `?`表示可选字符(1个或0个)

特殊字符
* `\d`   一个数字字符
* `\D`    一个非数字字符
* `\w`    一个字母或数字字符
* `\W`    一个非字母且非数字字符
* `\s`    空白符
* `\S`    非空白符
* `\b`    单词边界
* `\B`    非单词边界

In [10]:
import string
printable = string.printable
print('len(printable):', len(printable))
print(printable[0:50],'\n',printable[50:])

len(printable): 100
0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMN 
 OPQRSTUVWXYZ!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~ 	



`printable`中的数字

In [11]:
p_dight = re.findall('\d', printable)
print('dight in printable:', p_dight)

dight in printable: ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9']


`printable`中的数字，字符以及下划线

In [12]:
p_word = re.findall('\w', printable)
print('word in printable:', p_word)

word in printable: ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z', '_']


`printable`中的空白符

In [13]:
p_space = re.findall('\s', printable)
print('space in printable:', p_space)

space in printable: [' ', '\t', '\n', '\r', '\x0b', '\x0c']


### 模式： 使用标识符

* `abc`文本值abc
* `(expr)`expr
* `expr1|expr2` expr1或expr2
* `^`源字符串开头
* `$`源字符串结尾
* `prev?`  0个或1个`prev`
* `prev*`  0个或多个`prev`，尽可能多地匹配
* `prev*?`  0个或多个`prev`，尽可能少地匹配
* `prev+`  1个或多个`prev`，尽可能多地匹配
* `prev+?`  1个或多个`prev`，尽可能少地匹配
* `prev\{m\}`m个连续的`prev`
* `prev\{m,n \}` m到n个连续的`prev`， 尽可能多地匹配
* `prev\{m,n \}?` m到n个连续的`prev`， 尽可能少地匹配
* `\[abc\]`a或b或c
* `\[^abc\]`非(a或b或c)
* `prev(?=next)`如果后面为`next`，返回`prev`
* `prev(?!next)`如果后面非`next`，返回`prev`
* `(?<=prev)next`如果前面为`prev`，返回`next`
* `(?<!prev)next`如果前面非`prev`，返回`next`


定义源字符串(source)

In [14]:
source = '''I wish I may, I wish I might
Have a dish of fish tonight.'''

检索`wish`:

In [15]:
re.findall('wish', source)

['wish', 'wish']

检索`wish`或`fish`:

In [16]:
re.findall('wish|fish', source)

['wish', 'wish', 'fish']

从字符串开头匹配`wish`:

In [17]:
re.findall('^wish',source)

[]

从字符串开头匹配`I'wish`:

In [18]:
re.findall('^I wish', source)

['I wish']

从字符串结尾匹配`fish tonight.`:

In [19]:
re.findall('fish tonight\.$', source)

['fish tonight.']

`^`和`$`称为锚点(anchor)，分别将搜索域定位到开头和结尾。

接下来查询以`w`或`f`开头，后面紧接着`ish`的匹配：

In [20]:
re.findall('[wf]ish', source)

['wish', 'wish', 'fish']

查询以若干个w，s或h组合的匹配：

In [21]:
re.findall('[wsh]+', source)

['w', 'sh', 'w', 'sh', 'h', 'sh', 'sh', 'h']

查询以`ght`开头，后面紧跟一个非数字非字母字符的匹配:

In [22]:
re.findall('ght\W', source)

['ght\n', 'ght.']

查询以`I`开头，后面跟着`wish`的匹配(`wish`出现次数尽量少)

In [23]:
re.findall('I (?=wish)',source)

['I ', 'I ']

查询以`wish`结尾，前面为`I`的匹配(`I`出现次数尽量少)

In [24]:
re.findall('(?<=I) wish', source)

[' wish', ' wish']

### 模式：定义匹配的输出

匹配时，如果用括号将某一模式包裹起来，括号中模式匹配得到的结果归入自己的group(未命名)中，调用`m.groups`可以得到包含这些匹配的元组，还可通过`(?P< name > expr)`的形式给匹配结果命名。

In [25]:
m = re.search(r'(. dish\b).*(\bfish)', source)
print(m.group())
print(m.groups())

a dish of fish
('a dish', 'fish')


In [26]:
m = re.search(r'(?P<DISH>. dish\b).*(?P<FISH>\bfish)', source)
print(m.group())
print(m.groups())
print(m.group('DISH'))
print(m.group('FISH'))

a dish of fish
('a dish', 'fish')
a dish
fish


# 二进制数据
## 字节和字节数组

字节可变，字节数组不可变。类似于`C`中字符数组可变，字符串常量不可变。

In [28]:
blist = [1, 2, 3, 255]
#字节
the_bytes = bytes(blist)
print('the bytes=', the_bytes)
the_bytes[1] = 127
print('the bytes=', the_bytes)

the bytes= b'\x01\x02\x03\xff'


TypeError: 'bytes' object does not support item assignment

In [29]:
#字节数组
the_byte_array = bytearray(blist)
print('the byte array=', the_byte_array)
the_byte_array[1] = 127
print('the byte array=', the_byte_array)

the byte array= bytearray(b'\x01\x02\x03\xff')
the byte array= bytearray(b'\x01\x7f\x03\xff')


## 使用`struct`转换二进制数据

`struct.pack()`可将Python数据转换为字节，而`struct.unpack()`可以实现其逆过程。

In [33]:
import struct

struct.pack('>L', 154)
struct.unpack('<L', b'\x9a\x00\x00\x00')

(154,)

字节序标识符
* `<` 小端方案
* `>` 大端方案

格式标识符
* `x` 跳过一个字节
* `b`有符号字节
* `B` 无符号字节
* `h` 有符号短整数
* `H` 无符号短整数
* `i`有符号整数
* `I`无符号整数
* `l`有符号长整数
* `L`无符号长整数
* `Q`无符号long long型整数
* `f`单精度浮点数
* `d`双精度浮点数
* `p` 数量和字符
* `s`字符