# 字符串和正则表达式（Strings & Regular expressions）
## 浙江理工大学 沈炜

## 字符串
### 字符序列，不可变对象

In [7]:
a='abc'
a="abc"
#a[0]
a[0]='1'    # error

'a'

### 字符串操作

In [9]:
b='a'
len(a), a+b
#a-b    # error

(3, 'abca')

In [10]:
a[1:],a    # 切片，其实就是求子串

('bc', 'abc')

In [11]:
a.index('a')

0

In [12]:
a.index('dd') # index会出错

ValueError: substring not found

In [13]:
a.find('a'), a.find('d')  # 找一个子串，尽量用find

(0, -1)

In [14]:
s1='abc'
s2='abd'
s1>s2, s1>=s2, s1<=s2

(False, False, True)

In [15]:
'ab' in 'abc', 'j' in 'abcde'

(True, False)

In [16]:
'abc'*3,'abc'*0

('abcabcabc', '')

In [17]:
max(s1), min(s2)

('c', 'a')

### 格式化输出

![3.png](attachment:3.png)

![1.jpg](attachment:1.jpg)

![2.jpg](attachment:2.jpg)

In [18]:
x = 1235
"%o" % x, "%x" % x, "%e" % x

('2323', '4d3', '1.235000e+03')

In [19]:
"%s" % 65, "%s" % 65333  # 带有隐含的转换

('65', '65333')

In [20]:
"%d" % "555"  # error

TypeError: %d format: a number is required, not str

![format_string_value_set.png](attachment:format_string_value_set.png)

In [21]:
print("Art: %-5d, Price per Unit:%-8.2f" % (453, 59.058))

Art: 453  , Price per Unit:59.06   


### format方法
### str.format 基本语法
#### 格式化字符串使用<font color=red>大括号 {}</font>来包围替换字段，也就是待替换的字符串。而未被大括号包围的字符会原封不动地出现在结果中。

In [22]:
"Hello, {} and {}!".format("John", "Mary")

'Hello, John and Mary!'

In [23]:
"Hello, {0} and {1}!".format("John", "Mary")

'Hello, John and Mary!'

#### 使用<font color=red>关键字</font>索引：除了通过位置来指定目标字符串，我们还可以通过<font color=red>关键字</font>来指定它。

![format_method_keyword_parameters.png](attachment:format_method_keyword_parameters.png)

In [24]:
"Art: {a:5d}, Price: {p:8.2f}".format(p=59.058,a=453)

'Art:   453, Price:    59.06'

In [25]:
"Hello,{{}} {boy} and {girl}!".format(boy="John", girl="Mary")

'Hello,{} John and Mary!'

使用关键字索引的好处是，我们无需关心参数的位置，且字符串的最终结果能够一目了然。在以后的代码维护中，我们能够快速地修改对应的参数，而不用对照字符串挨个去寻找相应的参数。

注意：如果字符串本身含有花括号，则需要将其重复两次来转义。例如，字符串本身含有 {，为了让 Python 知道这是一个普通字符，而不是用于包围替换字段的花括号，我们只需将它改写成 {{ 即可。

### str.format 高级语法
#### 访问参数的属性或元素：在格式化字符串中访问参数的某个属性或某个元素

In [26]:
weather = [("Monday","rainy"),("Tuesday","sunny"),
           ("Wednesday", "sunny"),("Thursday","rainy"),
           ("Friday","cloudy")]
"Weather of '{0[0][0]}' is '{0[1][1]}'".format(weather)

"Weather of 'Monday' is 'sunny'"

更进一步的用法，参考：http://www.codebelief.com/article/2017/03/python-elegant-programming-str-format/

#### 常用方法：<font color=red>find()、rfind()、index()、rindex()、count()</color>

In [27]:
s="apple,peach,banana,peach,pear"
s.find("peach")

6

In [28]:
s.find("peach"),s.find("peach",7),s.find("peach",7,20),s.rfind('p')

(6, 19, -1, 25)

In [24]:
s.index('p'),s.index('pe')

(1, 6)

In [19]:
s.find('ppp')

-1

In [20]:
s.index('ppp')    # 有异常

ValueError: substring not found

In [21]:
s.count('p'),s.count('pp'),s.count('ppp')

(5, 1, 0)

#### <font color=red>split()、rsplit()、partition()、rpartition()</color>
split()和rsplit()方法分别用来以指定字符为分隔符，把当前字符串从左往右或从右往左分隔成多个字符串，并返回包含分隔结果的列表；<br>
partition()和rpartition()用来以指定字符串为分隔符将原字符串分隔为3部分，即分隔符串前的字符串、分隔符字符串、分隔符串后的字符串，如果指定的分隔符不在原字符串中，则返回原字符串和两个空字符串

In [29]:
s = "apple,peach,banana,pear"
s.split(","),s.partition(','),s.rpartition(','),s.rpartition('banana')

(['apple', 'peach', 'banana', 'pear'],
 ('apple', ',', 'peach,banana,pear'),
 ('apple,peach,banana', ',', 'pear'),
 ('apple,peach,', 'banana', ',pear'))

In [30]:
s = "2017-10- 31"
s.split(),s.split("-")  # 注意指定分隔符的差异

(['2017-10-', '31'], ['2017', '10', ' 31'])

In [31]:
s = 'hello world \n\n My name,is D\to;ng   '  # 注意里面的字符
s.split()    # 注意结果，看看split以什么为分隔符

['hello', 'world', 'My', 'name,is', 'D', 'o;ng']

#### 字符串连接<font color=red>join()</font>

In [32]:
li = ["apple", "peach", "banana", "pear"]
sorted(li)
print(li)
'.'.join(li),''.join([a,b]),a+b
#'-'.join([year,mon,day])

['apple', 'peach', 'banana', 'pear']


('apple.peach.banana.pear', 'abca', 'abca')

#### <font color=red>lower()、upper()、capitalize()、title()、swapcase()、replace()</font>

In [30]:
s = "what is Your Name?"
s.lower()                   #返回小写字符串

'what is your name?'

In [31]:
s.upper()                   #返回大写字符串

'WHAT IS YOUR NAME?'

In [33]:
s.capitalize()              #字符串首字符大写

'What is your name?'

In [34]:
s.title()                   #每个单词的首字母大写

'What Is Your Name?'

In [35]:
s.swapcase()                #大小写互换

'WHAT IS yOUR nAME?'

In [33]:
s = "中国，中国"
s.replace("中国", "中华人民共和国")  

'中华人民共和国，中华人民共和国'

---------------------------------

#### <font color=red>maketrans()</font>方法用来生成字符映射表
#### <font color=red>translate()</font>方法用来根据映射表中定义的对应关系转换字符串并替换其中的字符
#### 使用这两个方法的组合可以同时处理多个字符

In [34]:
table = str.maketrans('abcdef123', 'uvwxyz@#$')
s = "Python is a great programming language. I like it!"
#按映射表进行替换
s.translate(table)

'Python is u gryut progrumming lunguugy. I liky it!'

#### <font color=red>strip()、rstrip()、lstrip()</font>

In [35]:
s = " ab c  "
s.strip()                             #删除空白字符

'ab c'

In [36]:
'\n\nhello \t world   \n\n'.strip('\n')      #删除空白字符

'hello \t world   '

In [37]:
"aaaassddf".strip("a")                #删除指定字符

'ssddf'

In [38]:
"aaaassaddf".strip("af")  # "aaaassaddf".strip("afs")

'ssadd'

In [39]:
"aaaassddfaaa".rstrip("a")            #删除字符串右端指定字符

'aaaassddf'

In [40]:
"aaaassddfaaa".lstrip("sa")  

'ddfaaa'

In [48]:
'aabbccddeeeffg'.strip('af')  #字母f不在字符串两侧，所以不删除

'bbccddeeeffg'

In [49]:
'aabbccddeeeffg'.strip('gaf')

'bbccddeee'

In [50]:
'aabbccddeeeffg'.strip('gaef')

'bbccdd'

In [56]:
'aabbccddeeeffg'.strip('gbaef')

'ccdd'

In [57]:
'aabbccddeeeffg'.strip('gbaefcd')

''

#### <font color=red>eval()</font>

In [51]:
eval("3+4")

7

In [53]:
a = '3'
b = '5'
eval('a+b'),eval('{a:5}+{b:5}'.format(a=a,b=b)),print('{a:5}+{b:5}'.format(a=a,b=b))

3    +5    


('35', 8, None)

## 正则表达式
#### 正则表达式使用某种预定义的模式去匹配一类具有共同特征的字符串，主要用于处理字符串，可以快速、准确地完成复杂的查找、替换等处理要求，在文本编辑与处理、网页爬虫之类的场合中有重要应用
<img src="./r1.webp" width=600 height=240>

#### Python中，re模块提供了正则表达式操作所需要的功能

In [1]:
import re
text = 'alpha. beta....gamma delta'  #测试用的字符串
re.findall('[a-zA-Z]+',text)

['alpha', 'beta', 'gamma', 'delta']

#### <font color=red>什么叫元字符，就是描述字符的字符；什么叫元数据，就是描述数据的数据。</font>
![r3.png](attachment:r3.png)

![r4.png](attachment:r4.png)

![r2.png](attachment:r2.png)

修饰符 | 描述
-|-
re.I | 使匹配对大小写不敏感
re.L|做本地化识别（locale-aware）匹配
re.M|多行匹配，影响 ^ 和 $
re.S|使 . 匹配包括换行在内的所有字符
re.U|根据Unicode字符集解析字符。这个标志影响 \w, \W, \b, \B.
re.X|该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解。

#### 几个正则表达式测试网站
https://www.debuggex.com/ <br>
http://tool.oschina.net/regex/<br>

In [2]:
print(re.match('.p','_python')) # [0,2)

<re.Match object; span=(0, 2), match='_p'>


In [9]:
print(re.match('p', 'i love python')) # flags：标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。

None


In [10]:
re.search('p', 'i love python')

<re.Match object; span=(7, 8), match='p'>

In [11]:
re.match('(\\w+\\.){2}\\w+','tool.chinaz.com|888')

<re.Match object; span=(0, 15), match='tool.chinaz.com'>

In [13]:
example = 'This is a big_big deal!'
re.search('\\bb.+?\\b',example)

<re.Match object; span=(10, 17), match='big_big'>

In [14]:
re.findall('\\bb.+?\\b', example)

['big_big']

In [15]:
re.findall('\\b\w.+?\\b', example) # example.split()

['This', 'is', 'a ', 'big_big', 'deal']

In [16]:
re.findall(r'\b\w.+?\b', example)    # 另一种写法，这样\b不表示退格,

['This', 'is', 'a ', 'big_big', 'deal']

In [18]:
re.findall('\d+\.\d+\.\d+', 'Python 2.7.13,Python 3.6.0')

['2.7.13', '3.6.0']

In [19]:
s = 'a s ds'
re.sub('a|s|d', 'good', s)          #字符串替换

'good good goodgood'

In [22]:
s = "It's a very good good good idea"
re.sub(r'(\b\w+) \1', r'\1', s)     

"It's a very good good idea"

### 正则表达式对象
#### 首先使用re模块的compile()方法将正则表达式编译生成正则表达式对象，然后再使用正则表达式对象提供的方法进行字符串处理
#### 使用编译后的正则表达式对象可以提高字符串处理速度，也提供了更强大的文本处理功能

In [70]:
import re
example = 'Zhejiang Sci-Tech Univesity'
pattern = re.compile(r'\bS\w+\b')  #查找以S开头的单词
pattern.findall(example)

['Sci']

In [71]:
pattern = re.compile(r'\b[a-zA-Z]{3}\b')#查找3个字母长的单词
pattern.findall(example)

['Sci']

正则表达式对象的match方法和search方法匹配成功后返回match对象。match对象的主要方法有：<br>
group(index=0)：返回匹配的一个或多个子模式内容<br>
groups()：返回一个包含匹配的所有子模式内容的元组<br>
groupdict()：返回包含匹配的所有命名子模式内容的字典<br>
start()：返回指定子模式内容的起始位置<br>
end()：返回指定子模式内容的结束位置的前一个位置<br>
span()：返回一个包含指定子模式内容起始位置和结束位置前一个位置的元组<br>

In [16]:
s = 'ab134ab98723jafjweoruiagab'
y = '12345678901234567890123456'
m = re.search(r'((ab).*){2}.*(ab)', s)
print(m)
m.group(), m.group(3)
#m.groups()

<re.Match object; span=(0, 26), match='ab134ab98723jafjweoruiagab'>


('ab134ab98723jafjweoruiagab', 'ab')

In [17]:
m.span(3)

(24, 26)

### 实验题1
#### 验证这些字符串方法的作用
#### isalnum()、isalpha()、isdigit()、isdecimal()、isnumeric()、isspace()、isupper()、islower()
#### zfill()、center()、ljust()、rjust()、s.startswith()、s.endswith()

### 实验题2
#### 测试字符串连接是用+快，还是使用join快。

### 实验题3
#### 以下是一个html文本，请将其中所有的html标签去除

In [None]:
这是一个例子，正式的原文在下一个Cell
原文：
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
  <meta property="qc:admins" content="465267610762567726375" />
	<meta name="viewport" content="width=device-width, initial-scale=1.0" />
	<title>Python3 正则表达式 | 菜鸟教程</title>
去除以后：
Python3 正则表达式 | 菜鸟教程

In [None]:
<div id="topics">
	<div class = "post">
		<h1 class = "postTitle">
			<a id="cb_post_title_url" class="postTitle2" href="https://www.cnblogs.com/cq90/p/6959567.html">python学习-字符串前面添加u,r,b的含义</a>
		</h1>
		<div class="clear"></div>
		<div class="postBody">
			<div id="cnblogs_post_body" class="blogpost-body"><p>u/U:表示unicode字符串&nbsp;<br>不是仅仅是针对中文, 可以针对任何的字符串，代表是对字符串进行unicode编码。&nbsp;<br>一般英文字符在使用各种编码下, 基本都可以正常解析, 所以一般不带u；但是中文, 必须表明所需编码, 否则一旦编码转换就会出现乱码。&nbsp;<br>建议所有编码方式采用utf8</p>
<p>r/R:非转义的原始字符串&nbsp;<br>与普通字符相比，其他相对特殊的字符，其中可能包含转义字符，即那些，反斜杠加上对应字母，表示对应的特殊含义的，比如最常见的”\n”表示换行，”\t”表示Tab等。而如果是以r开头，那么说明后面的字符，都是普通的字符了，即如果是“\n”那么表示一个反斜杠字符，一个字母n，而不是表示换行了。&nbsp;<br>以r开头的字符，常用于正则表达式，对应着re模块。</p>
<p>b:bytes&nbsp;<br>python3.x里默认的str是(py2.x里的)unicode, bytes是(py2.x)的str, b”“前缀代表的就是bytes&nbsp;<br>python2.x里, b前缀没什么具体意义， 只是为了兼容python3.x的这种写法</p>
<p>&nbsp;</p>
<p>参考：http://blog.csdn.net/u010496169/article/details/70045895</p></div><div id="MySignature"></div>
<div class="clear"></div>
<div id="blog_post_info_block">
<div id="BlogPostCategory"></div>
<div id="EntryTag"></div>
<div id="blog_post_info">
</div>
<div class="clear"></div>
<div id="post_next_prev"></div>
</div>