In [25]:
import re

In [26]:
>>> phoneNumRegex = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d')
# 变量名 mo 是一个通用的名称， 用于 Match 对象
>>> mo = phoneNumRegex.search('My number is 415-555-4242.')
#在 mo 变量上调用 group()， 返回匹配的结果
>>> print('Phone number found: ' + mo.group())

Phone number found: 415-555-4242


## 向 re.compile()传递原始字符串
回忆一下， Python 中转义字符使用倒斜杠（\）。字符串'\n'表示一个换行字符，而不是倒斜杠加上一个小写的 n。
你需要输入转义字符 '\\\\'，才能打印出一个倒斜杠。所以'\\n'表示一个倒斜杠加上一个小写的 n。但是，通过在字符串的第一个引号之前加上 r，
可以将该字符串标记为原始字符串，它不包括转义字符。因为正则表达式常常使用倒斜杠，向 re.compile()函数传入原始字符串就很方
便 ， 而不是输入额外得到斜杠。输 入 r'\d\d\d-\d\d\d-\d\d\d\d'，比输入'\\d\\d\\d-\\d\\d\\d-\\d\\d\\d\\d'要容易得多。

In [27]:
# 假定想要将区号从电话号码中分离。添加括号将在正则表达式中创建“ 分组”：
>>> phoneNumRegex = re.compile(r'(\d\d\d)-(\d\d\d-\d\d\d\d)')
>>> mo = phoneNumRegex.search('My number is 415-555-4242.')
>>> mo.group(1)

'415'

In [28]:
mo.group(2)

'555-4242'

In [29]:
#返回匹配到的整个字符串（忽视分组）
mo.group(0)

'415-555-4242'

In [30]:
#如果想要一次就获取所有的分组， 请使用 groups()方法
mo.groups()

('415', '555-4242')

In [31]:
# 括号在正则表达式中有特殊的含义， 但是如果你需要在文本中匹配括号， 怎么
# 办？例如， 你要匹配的电话号码， 可能将区号放在一对括号中。在这种情况下， 就
# 需要用倒斜杠对(和)进行字符转义。
phoneNumRegex = re.compile(r'(\(\d\d\d\)) (\d\d\d-\d\d\d\d)')
mo = phoneNumRegex.search('My phone number is (415) 555-4242.')

In [32]:
mo.group(1)

'(415)'

In [33]:
mo.group(2)

'555-4242'

In [34]:
# 字符|称为“ 管道”。希望匹配许多表达式中的任何一个时， 就可以使用它
# 使用search()方法时，第一次出现的匹配文本，将作为 Match 对象返回，后面可能的匹配被忽略

heroRegex = re.compile (r'Batman|Tina Fey')
mo1 = heroRegex.search('Batman and Tina Fey.')
mo1.group()

'Batman'

In [35]:
>>> mo2 = heroRegex.search('Tina Fey and Batman.')
>>> mo2.group()

'Tina Fey'

In [36]:
# 用 sub()方法替换字符串
namesRegex = re.compile(r'Agent \w+')
namesRegex.sub('CENSORED', 'Agent Alice gave the secret documents to Agent Bob.')

'CENSORED gave the secret documents to CENSORED.'

In [37]:
agentNamesRegex = re.compile(r'Agent (\w)\w*')
agentNamesRegex.sub(r'\1****', 'Agent Alice told Agent Carol that Agent Eve knew Agent Bob was a double agent.')
# 这个替换操作的意思是将符合r'Agent (\w)\w*'的文本替换为其中第一个分组加上****，所以得到下面替换的结果

'A**** told C**** that E**** knew B**** was a double agent.'

In [38]:
# 可以向 re.compile()传入变量 re.VERBOSE作为第二个参数，从而可以把正则表达式写成更容易看懂的形式
phoneRegex = re.compile(r'((\d{3}|\(\d{3}\))?(\s|-|\.)?\d{3}(\s|-|\.)\d{4}(\s*(ext|x|ext.)\s*\d{2,5})?)')
# 把上式写成更易懂的形式, re.VERBOSE参数可以使得python忽略正则表达式中的空白符和注释
phoneRegex = re.compile(r'''(    #这里使用了三重引号('")， 创建了一个多行字符串。这样就可以将正则表达式定义放在多行中
        (\d{3}|\(\d{3}\))?                 # area code，三位数字或者带括号的三位数字
        (\s|-|\.)?                                # separator  空白符 或 - 或 . 作为分隔符
        \d{3}                                     # first 3 digits 三位数字
        (\s|-|\.)                                   # separator   空白符 或 - 或 . 作为分隔符
        \d{4}                                      # last 4 digits  四位数字
        (\s*(ext|x|ext.)\s*\d{2,5})?       # extension
        )''', re.VERBOSE)

In [39]:
# 使用re.DOTALL使得句点 . 可以匹配换行符，这样 . 就可以匹配任意字符
# re.compile()只接受一个参数作为它的第二参数，可以使用管道字符（ |）将变量组合起来，实现多种要求
someRegexValue = re.compile('foo', re.IGNORECASE | re.DOTALL | re.VERBOSE)
# or
someRegexValue = re.compile('foo', re.IGNORECASE | re.DOTALL | re.VERBOSE)

In [40]:
mo = someRegexValue.search('FOODODDD')

In [41]:
mo.group()

'FOO'

In [42]:
myEmail = 'scut321@126.com'

In [43]:
# 写出一个可以匹配email的正则表达式
ePattern = re.compile(r'\w+@(\w+\.([a-z]|[A-Z])+)')
# 书上给出的例子，会匹配你遇到的大多数典型的电子邮件地址
emailRegex = re.compile(r'''(
     [a-zA-Z0-9._%+-]+   # username
    @ # @ symbol
    [a-zA-Z0-9.-]+          # domain name
    (\.[a-zA-Z]{2,4})         # dot-something
)''', re.VERBOSE)

In [44]:
mo = ePattern.search(myEmail)

In [45]:
mo.group()

'scut321@126.com'

In [46]:
mo.groups()

('126.com', 'm')

In [47]:
mo.group(2)
# 怎么匹配到这个分组？

'm'

In [50]:
#开始了解os模块
import os

* 调用 os.listdir(path)将返回文件名字符串的列表，包含 path 参数中的每个文件（请注意，这个函数在 os 模块中，而不是 os.path）。
* 调用 os.path.getsize(path)将返回 path 参数中文件的字节数
* 如果 path 参数所指的文件或文件夹存在， 调用 os.path.exists(path)将返回 True，否则返回 False。
* 如果 path 参数存在，并且是一个文件， 调用 os.path.isfile(path)将返回 True， 否则返回 False。
* 如果 path 参数存在， 并且是一个文件夹， 调用 os.path.isdir(path)将返回 True，否则返回 False。
* 每个运行在计算机上的程序， 都有一个“当前工作目录”， 或 cwd
* 利用 os.getcwd()函数，可以取得当前工作路径的字符串， 并可以利用 os.chdir()改变它

* “绝对路径”， 总是从根文件夹开始。
* “相对路径”，它相对于程序的当前工作目录。
* 还有点（ .）和点点（ ..）文件夹。它们不是真正的文件夹，而是可以在路径中使用的特殊名称。单个的句点（“.”）用作文件夹目名称时，是“ 这个目录”的缩写。两个句点（“..”）意思是这个目录的父文件夹。


* 调用 os.path.abspath(path)将返回参数的绝对路径的字符串。这是将相对路径转换为绝对路径的简便方法。
* 调用 os.path.isabs(path)，如果参数是一个绝对路径，就返回 True，如果参数是一个相对路径，就返回 False。
* 调用 os.path.relpath(path, start)将返回从 start 路径到 path 的相对路径的字符串。如果没有提供 start，就使用当前工作目录作为开始路径。

In [51]:
>>> os.path.abspath('.')

'E:\\DataAnalysis'

In [52]:
>>> os.path.abspath('.\\Scripts') #传入的路径不一定存在

'E:\\DataAnalysis\\Scripts'

In [53]:
>>> os.path.isabs('.')

False

In [54]:
>>> os.path.isabs(os.path.abspath('.'))

True

In [None]:
# os.path.relpath() rel->relative，相对路径
3