## 字符串操作

*** 去掉空格和符号 *** <br>
Python strip() 方法用于移除字符串头尾指定的字符（默认为空格）。注意，中间的空格并不去除。

In [15]:
s = '  Hello,   World!'
print(s.strip())
print(s.lstrip('Helo, ')) #也可以是字符集
print(s.rstrip('!'))

Hello,   World!
World!
  Hello,   World


*** 字符串连接 ***

In [16]:
s1 = 'Hello '
s2 = 'World'
s1 += s2
print(s1)

Hello World


*** 查找字符 ***

In [32]:
# index找不到会报错，find找不到返回-1
str1 = 'zhanjunlang'
str2 = 'an'
nPos = str1.index(str2)
nPos2 = str1.find(str2)
nPos3 = str1.find('sfa')
print(nPos)
print(nPos2)
print(nPos3)

2
2
-1


***比较字符串***

In [33]:
import operator as op
str1 = 'long'
str2 = 'longer'
print(op.lt(str1,str2)) # <
print(op.le(str1,str2)) # <=
print(op.eq(str1,str2)) # =
print(op.ne(str1,str2)) # !=
print(op.gt(str1,str2)) # >
print(op.ge(str1,str2)) # >=

True
True
False
True
False
False


*** 字符串的大小写转换 ***

In [34]:
str1 = 'CHINA'
str2 = 'usa'
print(str1.lower())
print(str2.upper())

china
USA


*** 翻转字符串 ***

In [35]:
str1 = 'abc'
str2 = str1[::-1]
print(str2)

cba


***分割字符串***

In [36]:
s = 'abc,def,ghi'
print(s.split(','))

['abc', 'def', 'ghi']


## 正则表达式

推荐在线校验工具<a>http://regexr.com</a> <br>
练习网站 <a>https://alf.nu/RegexGolf</a>

基本模式 | 说明
---|---
. | 匹配除\n外的所有字符
\d | 匹配所有数字
\D | 除数字外的所有字符
\s | 匹配任何空白字符，包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]
\S | \s的补集
\w | [A-Za-z0-9_] 
\W | \w的补集
[ ] | 表示或，[abe]即匹配a或b或e

组合功能 | 说明
---|---
\d{2} | 匹配两个连续的数字
\d{2,4} | 匹配2到4个数字，优先匹配4个连续的数字
？ | 匹配前一个字符0次或1次，等价于{0,1}
* | 0次或无限次
+ | 1次或无限次
( )| 括号内的所有内容作为一个整体
&#x7C; |   表示或，匹配竖线前的表达式或者竖线后的表达式
^ | 如^A是匹配大写字母A，这个字母必须在一行的开头,如果多行标示被设置成了true
[^] | 注意这里的^出现在[ ]即一个字符集内，这种情况下表示非得意思，即匹配除字符集外的字符
\$ | 如b$是匹配小b，这个b要在一行的结尾,如果多行标示被设置成了true
分组 | 凡是被括号括起来的表达式都会自动被分配一个编号，后面可以用\\+编号来引用,注意：反向引用，引用的是前面捕获组中的文本而不是正则，也就是说反向引用处匹配的文本应和前面捕获组中的文本相同，这一点很重要

***代码*** <br>
Python通过re模块提供对正则表达式的支持。<br>
使用re的一般步骤为<br>
* 将正则表达式的字符串形式编译为Pattern实例
* 使用Pattern实例处理文本并获得匹配结果(一个Match实例)
* 使用Match实例获得信息，进行其他操作

In [96]:
import re

pattern = re.compile(r'hello.*!')

'''
re.match只匹配字符串的开始，如果字符串开始不符合正则表达式，
则匹配失败，函数返回None；
而re.search匹配整个字符串，直到找到一个匹配。
'''
match = pattern.match('hello, zhanjunlang! How are you?')
search = pattern.search('hello, zhanjunlang! How are you?')

if(match):
    print(match.group())

if(search):
    print(search.group())

hello, zhanjunlang!
hello, zhanjunlang!


其实search和match方法返回的都是Match对象

In [97]:
print(search)
print(match)

<_sre.SRE_Match object; span=(0, 19), match='hello, zhanjunlang!'>
<_sre.SRE_Match object; span=(0, 19), match='hello, zhanjunlang!'>


compile中还可以加flag参数<br>
flags : 可选，表示匹配模式，比如忽略大小写，多行模式等，具体参数为：<br>
* re.I 忽略大小写
* re.L 表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境
* re.M 多行模式
* re.S 即为 . 并且包括换行符在内的任意字符（. 不包括换行符）
* re.U 表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依赖于 Unicode 字符属性数据库
* re.X 为了增加可读性，忽略空格和 # 后面的注释

*** Match对象的一些属性和方法 ***

In [101]:
pattern = re.compile(r'(\w+) (\w+)(!)') #每个括号代表一个分组
match = pattern.match('hello zhanjunlang!')


print(match.string)
print(match.re)
print(match.pos)
print(match.endpos)
print(match.lastindex)
print(match.lastgroup)


print(match.group())
print(match.groups())
print(match.group(1,2))
#第二个分组的起始位置
print(match.start(2))
print(match.end(2))
#第二个分组的起始和终结位置
print(match.span(2))
#重新排列不同的分组
print(match.expand(r'\2 \1\3'))

hello zhanjunlang!
re.compile('(\\w+) (\\w+)(!)')
0
18
3
None
hello zhanjunlang!
('hello', 'zhanjunlang', '!')
('hello', 'zhanjunlang')
6
17
(6, 17)
zhanjunlang hello!


*** pattern对象的一些方法 ***

In [103]:
p = re.compile(r'\d+')

#以pattern匹配到的字符串作为分割依据
print(p.split('one1two2three3four')) 

#以列表形式返回全部能匹配的子串
print(p.findall('one1two2three3four'))

#替换匹配到的字符串，下面的例子是将数字用空白代替
print(p.sub('','one1two2three3four'))

['one', 'two', 'three', 'four']
['1', '2', '3']
onetwothreefour
