## 正则表达式（regular expression，简称regex）是一种用于匹配特定模式（pattern）字符串的工具，这么说可能有点抽象，要想理解正则表达式及其功用，最好的办法是了解它们可以解决什么样的问题。

### 那么，请考虑以下几个场景：

你正在搜索一个文件，这个文件里包含着单词car（不区分字母大小写），但你并不想把包含着字符串car的其他单词（比如scar、carry和incarcerate等）也找出来。

你打算用一种应用服务器来动态地生成一个Web网页以显示从某个数据库里检索出来的文本。在那些文本里可能包含着一些URL地址字符串，而你希望那些URL地址在最终生成的页面里是可点击的（也就是说，你打算生成一些合法的HTML代码—— ——而不仅仅是普通的文本）。 

你创建了一份包含着一张表单的Web页面，这张表单用来收集用户信息，其中包括一个电子邮件地址。你需要检查用户给出的电子邮件地址是否符合正确的语法格式。 

你正在编辑一段源代码并且要把所有的size都替换为isize，但这种替换仅限于单词size本身而不涉及那些包含着字符串size的其他单词。 

你正在显示一份计算机文件系统中所有文件的清单，但你只想把文件名里包含着Application字样的文件列举出来。 

你正在把一些数据导入应用程序。那些数据以制表符作为分隔符，但你的应用程序要支持CSV格式（每条记录独占一行，同一条记录里的各项数据之间用逗号分隔并允许被括在引号里面）。

你需要在文件里搜索某个特定的文本，但你只想把出现在特定位置的（比如每行的开头或是每条语句的结尾）找出来。

以上场景都是大家在日常生活中经常会遇到的问题，对于不会编程的人，这种看似简单的任务如果手动执行，将会是一场噩梦。
即使你会编程，这些问题的解决方案也可能会十分复杂。比较朴素的办法是，用一些循环来依次遍历那些单词或字符，用一系列if语句来进行检查，这往往意味着你需要使用大量的标志来标记你已经找到了什么，你还没有找到什么，还需要检查空白字符和特殊字符，等等。而这一切都需要以手工方式来进行。比手动执行还是好不了多少。

为了解决这个问题，正则表达式应运而生。上述问题实际上都有都可用某种特定的模式表达，换成人话，就是一些精心构造的语句，或者说一些由文本和特殊指令构成的高度简练的字符串来解决，比如像下面这样的语句：
\b[Cc][Aa][Rr]\b
当然，你现在多半还看不懂这一行，先别着急。你很快就会知道它的含义是什么。

In [2]:
# 首先，要在python中使用正则表达式的话 re模块是必要的
import re

## 从最简单的开始

In [26]:
# 这是最简单的正则表达式，即纯文本
cat = 'cat' # 它将会匹配文本中的'cat'字符
text = 'I love cats, any cat, every cat.'
re.findall(cat,text) 

['cat', 'cat', 'cat']

In [16]:
# 当然，上面的做法没什么意义，这回我们可以升个级，来匹配任意字符(字母、数字……各种各样的都可以)
c_any_for_once_t = 'c.t' # 注意，此处的点号（.）是通配符，表达匹配任意字符【一次】！
text = 'cat,cot,coot' # 猜猜coot会被匹配到吗？
re.findall(c_any_for_once_t,text)
# 注意，通配符用起来虽然爽，但可能会让你匹配过多，当你的正则表达式匹配了太多东西，检查下表达式里是否出现了.！

['cat', 'cot']

In [28]:
# 从上面的例子中，我们可以发现.的威力非常强大，当如果我们只想匹配出.本身怎么办？
string_with_dot = 'I need to find the dot.'
# 仅仅这样可以吗？
pure_dot = '.'
re.findall(pure_dot,text)


['I',
 ' ',
 'l',
 'o',
 'v',
 'e',
 ' ',
 'c',
 'a',
 't',
 's',
 ',',
 ' ',
 'a',
 'n',
 'y',
 ' ',
 'c',
 'a',
 't',
 ',',
 ' ',
 'e',
 'v',
 'e',
 'r',
 'y',
 ' ',
 'c',
 'a',
 't',
 '.']

In [29]:
# 从上面例子来看，完全不行！想来也是，单纯的点号只能匹配单个任意字符
# 为了强调我们只想要单纯的点本身，而不让它带有任何含义，我们要对其进行转义
# 请出转义字符\
trans_dot = '\.'
re.findall(trans_dot,text) # 这下终于能找出.了

['.']

## 匹配一组字符

### 1. 匹配多个字符中的某一个

In [30]:
# 这次，我们更进一步地提出新的需求，我们想要匹配的不只是猫（cat），还有蝙蝠（bat）
cats_and_bats_and_more = 'cat,bat,dog,pig,rat'
# 你能只用一个表达式满足新的需求吗？

In [31]:
# 答案是当然可以，在我们引入字符集合[]
find_cat_and_rat = '[bc]at' # 匹配三个字符，第一个属于bc其中之一即可
re.findall(find_cat_and_rat,cats_and_bats_and_more)

['cat', 'bat']

In [32]:
# 一个小练习，假如我们想匹配宿舍号：A101，B102,B345
dom = 'We have valid domitories:A101,B101,A102,B02,B345,B967,'
find_dom = '[AB][0123456789][0123456789][0123456789]' # 引出*
re.findall(find_dom,dom)
# 

['A101', 'B101', 'A102', 'B345', 'B967']

# ENDS HERE! BOOK P18（书内），匹配一组字符

In [None]:
# 转义字符：之前写得挺，当问题来了，如果我们只想匹配字符本身呢？
# 于是就得请出我们的转义字符——反斜杠\
# 一个特殊字符前加\就表示转义，告诉系统，\后跟的字符只是表达该字符本身的意思，而不是特殊功能


In [None]:
6. [] 单字符取一个，比如[abc]会匹配a或b或c
但是，如果[]里面加上^则会变成排除这个字符，如[^abc]就表示不是a、不是b、也不是c
另外，在[]里面可以使用-表示一个范围，如[0-9]表示从0到9，类似的还有[a-zA-Z]，如果要包含-字符，可以给它加上转义[\-]。
关于[]常见的错误用法是：[ab|bc]用来表示ab或bc，实际上，它得到的结果是[abc|]，即a或b或c或|这4个字符（单字符）的任意一个。这里可以改成(ab|bc)。
总结：[]里面的特殊符有五个：[]-\^，其他字符都是普通字符，包括*.?等。
说明：
* ^在[^ 的首位时候才有特殊意义
* [0-9 -在不是首尾的时候有特殊意义
* \[ \] 因为占用[] 本身字符，所以有特殊意义
* \本身是转义符，有特殊意义

In [25]:
#  匹配字符串开始(^)与结束($)
#  ^表示整个字符串的开始，比如^www表示以www开头的字符串，注意区分，不在[]里面的是开始符，在里面的排除
websites = 'www.qq.com, taobao.com, www.jd.com' # 我们想找出以www开头的网址
start_with_www = '^www\..*\w'
re.findall(start_with_www,websites)
# $ 字符串结束


['www.qq.com, taobao.com, www.jd.com']

In [None]:
9. {1,3} 循环次数
[0-9]{1,3}表示在0-9的范围里面循环1个、2个或者3个，可能结果有5、20、415等。
如果循环指定次数，如3次，则{3,3}可以简写成{3}。
如果刚好需要匹配字符{1}，则正则需要给{进行转义，得到\{1}的正则。
如果{}中间不是数字，则{}本身不需要转义。

In [None]:
# 有了通配符，我们就能用正则表达式找出自己记忆模糊的文件了。
# 来做个小练习练手吧！
# 假设我们有个文件夹，存放了乱七八糟的excel，你对你想找的文件只有模糊的印象：
# 这个文件以
files = 'software_engineering.xlsx,\n
computer science.xls,\n


'


In [None]:
# 练习：
# URL地址匹配
# 

In [None]:
# 最后，如何学好正则表达式？实践再实践，无它，唯手熟尔。给大家提供一个挺好用的正则表达式测试网站：
# https://regex101.com/
# 这个网站在境外，加载可能有点慢