<a href="https://colab.research.google.com/github/legendsonldh/diff_spider/blob/main/Tutorial_regex.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### 导入 
\\
本次实验的参考链接如下：
[正则表达式1](https://www.cnblogs.com/zhaof/p/6925674.html)
[正则表达式2](https://mofanpy.com/tutorials/python-basic/basic/regular-expression/)

In [None]:
import re
import time
import os

我们解析一个简单点的网页
"https://morvanzhou.github.io/static/scraping/basic-structure.html"

In [None]:
import requests
url = "https://morvanzhou.github.io/static/scraping/basic-structure.html"

#### try和except的请求函数

In [None]:
def get(url):
  try:
    r = requests.get(url)
    r.encoding = "utf-8"
  except requests.exceptions.ConnectionError:
    print('ConnectionError -- please wait 120 seconds')
    time.sleep(120)
    r = requests.get(url)
    r.encoding = "utf-8"
    print('Connection Rest')
  return r

输出打印页面

In [None]:
html = get(url).text
print(html)

<!DOCTYPE html>
<html lang="cn">
<head>
	<meta charset="UTF-8">
	<title>Scraping tutorial 1 | 莫烦Python</title>
	<link rel="icon" href="https://morvanzhou.github.io/static/img/description/tab_icon.png">
</head>
<body>
	<h1>爬虫测试1</h1>
	<p>
		这是一个在 <a href="https://morvanzhou.github.io/">莫烦Python</a>
		<a href="https://morvanzhou.github.io/tutorials/data-manipulation/scraping/">爬虫教程</a> 中的简单测试.
	</p>

</body>
</html>


虽然有个对应的目标，但是我们还是从简单处入手，了解正则表达式 \\
###re.match(pattern,string,flag)
1. 返回两个匹配值，其中span代表位置下标，group代表匹配内容。
2. match只能从开头进行匹配，否则会报错 

### re.search(pattern,string,flag)
1. 返回两个匹配值，其中span代表位置下标，group代表匹配内容。
2. search返回第一个匹配的结果


In [None]:
string = "abc,jkl"
res = re.match("jkl",string)
print(res)
res = re.search("jkl",string)
print(res)

None
<re.Match object; span=(4, 7), match='jkl'>


### re.search 与 re.findall区别
1. search匹配第一个式子，不能完全匹配括号内的内容。
2. findall可以匹配括号内内容，并且只匹配括号内的内容

### Tips
1. r'...'可以解决转义字符混淆问题
2. 推荐使用re.complie(r'..')的方式构造正则表达式，优点是易读、效率高。[一些讨论](https://stackoverflow.com/questions/452104/is-it-worth-using-pythons-re-compile)


In [None]:
res = re.search(r'href="(.*?)">(.*?)</a>',html)
print(res)
res = re.findall(r'href="(.*?)">(.*?)</a>',html)
print(res)

<re.Match object; span=(249, 298), match='href="https://morvanzhou.github.io/">莫烦Python</a>>
[('https://morvanzhou.github.io/', '莫烦Python'), ('https://morvanzhou.github.io/tutorials/data-manipulation/scraping/', '爬虫教程')]


### re.split and re.sub
1. re.split(pattern,string)  -> list 
2. re.sub(pattern,string)

In [None]:
print(re.split(r'[,;\.]', "a;b,c.d;e"))
print(re.sub(r'r[au]ns', "catches", "dog runs to cat"))  

['a', 'b', 'c', 'd', 'e']
dog catches to cat


### 正则表达式参考对应表 



```
\w      匹配字母数字及下划线
\W      匹配f非字母数字下划线
\s      匹配任意空白字符，等价于[\t\n\r\f]
\S      匹配任意非空字符
\d      匹配任意数字
\D      匹配任意非数字
\A      匹配字符串开始
\Z      匹配字符串结束，如果存在换行，只匹配换行前的结束字符串
\z      匹配字符串结束
\G      匹配最后匹配完成的位置
\n      匹配一个换行符
\t      匹配一个制表符
^       匹配字符串的开头
$       匹配字符串的末尾
.       匹配任意字符，除了换行符，re.DOTALL标记被指定时，则可以匹配包括换行符的任意字符
[....]  用来表示一组字符，单独列出：[amk]匹配a,m或k
[^...]  不在[]中的字符：[^abc]匹配除了a,b,c之外的字符
*       匹配0个或多个的表达式
+       匹配1个或者多个的表达式
?       匹配0个或1个由前面的正则表达式定义的片段，非贪婪方式
{n}     精确匹配n前面的表示
{m,m}   匹配n到m次由前面的正则表达式定义片段，贪婪模式
a|b     匹配a或者b
()      匹配括号内的表达式，也表示一个组
```
\\
![图片.png](https://static.mofanpy.com/results/basic/13-10-01.png)

## Example in python
1. 使用[]匹配()内外字符

In [None]:
import re
string = "华夏沪深300ETF联接A(000051) 查看相关ETF>"
s = re.compile('(.*?)[()]')
print(re.findall(s,str))

['华夏沪深300ETF联接A', '000051']
