# 正则表达式re

- 正则表达式是一个特殊的字符序列，它能帮助你方便的检查一个字符串是否与某种模式匹配。

- re 模块使 Python 语言拥有全部的正则表达式功能。

- compile 函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象。该对象拥有一系列方法用于正则表达式匹配和替换。

- re 模块也提供了与这些方法功能完全一致的函数，这些函数使用一个模式字符串做为它们的第一个参数。

参考菜鸟教程：http://www.runoob.com/python3/python3-reg-expressions.html

## re.match函数

- re.match 尝试从字符串的起始位置匹配一个模式，匹配成功re.match方法返回一个匹配的对象，否则返回None。

- 函数语法：
    
        re.match(pattern, string, flags=0)
    
- 函数参数说明：
        参数	   描述

        pattern	 匹配的正则表达式

        string	 要匹配的字符串。

        flags	 标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。参见：正则表达式修饰符 - 可选标志

- 可以使用group(num) 或 groups() 匹配对象函数来获取匹配表达式。

        匹配对象方法	   描述

        group(num=0)	匹配的整个表达式的字符串，group() 可以一次输入多个组号，在这种情况下它将返回一个包含那些组所对应值的元组。

        groups()	   返回一个包含所有小组字符串的元组，从 1 到 所含的小组号。


In [3]:
# re.match()
import re

print(re.match('www', 'www.runoob.com'))  # 在起始位置匹配   # <_sre.SRE_Match object; span=(0, 3), match='www'>
print(re.match('www', 'www.runoob.com').span())  # (0, 3)
print(re.match('com', 'www.runoob.com'))  # 不在起始位置匹配  # None

<_sre.SRE_Match object; span=(0, 3), match='www'>
(0, 3)
None


In [4]:
# group()
# group([group1, ...]) -> str or tuple.
# Return subgroup(s) of the match by indices or names.
# For 0 returns the entire match.
import re

line = "Cats are smarter than dogs"

# .* 表示任意匹配除换行符（\n、\r）之外的任何单个或多个字符
matchObj = re.match( r'(.*) are (.*?) .*', line, re.M|re.I)  # re.M:多行匹配，影响 ^ 和 $ ;  re.I:使匹配对大小写不敏感.

if matchObj:
    print("matchObj.group() : ", matchObj.group())
    print("matchObj.group(1) : ", matchObj.group(1))
    print("matchObj.group(2) : ", matchObj.group(2))
else:
    print("No match!!")

matchObj.group() :  Cats are smarter than dogs
matchObj.group(1) :  Cats
matchObj.group(2) :  smarter


In [5]:
# groups():Return a tuple containing all the subgroups of the match, from 1.
print(matchObj.groups())

('Cats', 'smarter')


## re.search方法

- re.search 扫描整个字符串并返回第一个成功的匹配。匹配成功re.search方法返回一个匹配的对象，否则返回None。

- 函数语法：

        re.search(pattern, string, flags=0)
        
- 可以使用group(num) 或 groups() 匹配对象函数来获取匹配表达式。

In [6]:
# re.search()
import re
 
print(re.search('www', 'www.runoob.com').span())  # 在起始位置匹配
print(re.search('com', 'www.runoob.com').span())  # 不在起始位置匹配

(0, 3)
(11, 14)


In [7]:
# group()  \ groups()
import re
 
line = "Cats are smarter than dogs"
 
searchObj = re.search( r'(.*) are (.*?) .*', line, re.M|re.I)

if searchObj:
    print ("searchObj.group() : ", searchObj.group())
    print ("searchObj.group(1) : ", searchObj.group(1))
    print ("searchObj.group(2) : ", searchObj.group(2))
else:
    print ("Nothing found!!")

searchObj.group() :  Cats are smarter than dogs
searchObj.group(1) :  Cats
searchObj.group(2) :  smarter


In [8]:
# groups()
print(searchObj.groups())

('Cats', 'smarter')


## re.match与re.search的区别

1、re.match只匹配字符串的开始，如果字符串开始不符合正则表达式，则匹配失败，函数返回None；
 
2、而re.search匹配整个字符串，直到找到一个匹配。

In [9]:
import re
line = "Cats are smarter than dogs";

matchObj = re.match( r'dogs', line, re.M|re.I)
if matchObj:
    print("match --> matchObj.group() : ", matchObj.group())
else:
    print("No match!!")


matchObj = re.search( r'dogs', line, re.M|re.I)
if matchObj:
    print("search --> matchObj.group() : ", matchObj.group())
else:
    print("No match!!")

No match!!
search --> matchObj.group() :  dogs


## 检索和替换

- Python 的re模块提供了re.sub用于替换字符串中的匹配项。

- 语法：

        re.sub(pattern, repl, string, count=0)
        
    参数：
    
    pattern : 正则中的模式字符串。
    
    repl : 替换的字符串，也可为一个函数。
    
    string : 要被查找替换的原始字符串。
    
    count : 模式匹配后替换的最大次数，默认 0 表示替换所有的匹配。

In [10]:
# repl 参数是 字符串

import re
 
phone = "2004-959-559 # 这是一个电话号码"
 
# 删除注释
num = re.sub(r'#.*$', "", phone)
print ("电话号码 : ", num)
 
# 移除非数字的内容
num = re.sub(r'\D', "", phone)
print ("电话号码 : ", num)

电话号码 :  2004-959-559 
电话号码 :  2004959559


In [11]:
# repl 参数是 函数

import re
 
# 将匹配的数字乘于 2
def double(matched):
    value = int(matched.group('value'))
    return str(value * 2)
 
s = 'A23G4HFD567'
print(re.sub('(?P<value>\d+)', double, s))

A46G8HFD1134


## compile 函数

- compile 函数用于编译正则表达式，生成一个正则表达式（ Pattern ）对象，供 match() 和 search() 这两个函数使用。

- 语法格式为：

        re.compile(pattern[, flags])
        
    参数：
    
    pattern : 一个字符串形式的正则表达式
    
    flags 可选，表示匹配模式，比如忽略大小写，多行模式等，具体参数为：
    
        re.I 忽略大小写

        re.L 表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境

        re.M 多行模式

        re.S 即为' . '并且包括换行符在内的任意字符（' . '不包括换行符）

        re.U 表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依赖于 Unicode 字符属性数据库

        re.X 为了增加可读性，忽略空格和' # '后面的注释

In [12]:
# 实例一
import re

pattern = re.compile(r'\d+')                    # 用于匹配至少一个数字

m = pattern.match('one12twothree34four')        # 查找头部，没有匹配
print(m)

m = pattern.match('one12twothree34four', 2, 10)  # 从'e'的位置开始匹配，没有匹配
print(m)

m = pattern.match('one12twothree34four', 3, 10)  # 从'1'的位置开始匹配，正好匹配
print(m)                                         # 返回一个 Match 对象
print(m.group(0))   # 可省略 0
print(m.start(0))   # 可省略 0  # m.start():Return index of the start of the substring matched by group.
print(m.end(0))     # 可省略 0  # m.end():Return index of the end of the substring matched by group. 【不包括end在内】
print(m.span(0))    # 可省略 0  # m.span():For MatchObject m, return the 2-tuple (m.start(group), m.end(group)).  【遵循左闭右开】

None
None
<_sre.SRE_Match object; span=(3, 5), match='12'>
12
3
5
(3, 5)


> 在上面，当匹配成功时返回一个 Match 对象，其中：

>        group([group1, …]) 方法用于获得一个或多个分组匹配的字符串，当要获得整个匹配的子串时，可直接使用 group() 或 group(0)；

>        start([group]) 方法用于获取分组匹配的子串在整个字符串中的起始位置（子串第一个字符的索引），参数默认值为 0；

>        end([group]) 方法用于获取分组匹配的子串在整个字符串中的结束位置（子串最后一个字符的索引+1），参数默认值为 0；

>        span([group]) 方法返回 (start(group), end(group))。

In [13]:
# 实例二
import re

pattern = re.compile(r'([a-z]+) ([a-z]+)', re.I)   # re.I 表示忽略大小写

m = pattern.match('Hello World Wide Web')
print(m)                                           # 匹配成功，返回一个 Match 对象

print(m.group(0))                            # 返回匹配成功的整个子串
print(m.span(0))                             # 返回匹配成功的整个子串的索引

print(m.group(1))                            # 返回第一个分组匹配成功的子串
print(m.span(1))                             # 返回第一个分组匹配成功的子串的索引

print(m.group(2))                            # 返回第二个分组匹配成功的子串
print(m.span(2))                             # 返回第二个分组匹配成功的子串

print(m.groups())                            # 等价于 (m.group(1), m.group(2), ...)

print(m.group(3))                            # 不存在第三个分组，会报错：IndexError: no such group

<_sre.SRE_Match object; span=(0, 11), match='Hello World'>
Hello World
(0, 11)
Hello
(0, 5)
World
(6, 11)
('Hello', 'World')


IndexError: no such group

## findall

- 在字符串中找到正则表达式所匹配的所有子串，并返回一个列表，如果没有找到匹配的，则返回空列表。

注意： match 和 search 是匹配一次, findall 匹配所有。

- 语法格式为：

        findall(string[, pos[, endpos]])

    参数：

    string 待匹配的字符串。

    pos 可选参数，指定字符串的起始位置，默认为 0。

    endpos 可选参数，指定字符串的结束位置，默认为字符串的长度。【不包括endpos在内，即遵循左闭右开。】

In [14]:
# findall()  实例：查找字符串中的所有数字：
import re

pattern = re.compile(r'\d+')   # 查找数字
result1 = pattern.findall('runoob 123 google 456')
result2 = pattern.findall('run88oob123google456', 0, 10)

print(result1)
print(result2)

['123', '456']
['88', '12']


## re.finditer

- 和 findall 类似，在字符串中找到正则表达式所匹配的所有子串，并把它们作为一个迭代器返回。

- 语法：

        re.finditer(pattern, string, flags=0)
        
    参数	   描述
    
    pattern	 匹配的正则表达式
    
    string	 要匹配的字符串。
    
    flags	 标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。参见：正则表达式修饰符 - 可选标志

In [15]:
import re
 
it = re.finditer(r"\d+","12a32bc43jf3") 
print(it,type(it))  # 把match对象放在迭代器内

for match in it:
    print(match)   # 返回一个match对象
    print(match.group())

<callable_iterator object at 0x000001C797A59198> <class 'callable_iterator'>
<_sre.SRE_Match object; span=(0, 2), match='12'>
12
<_sre.SRE_Match object; span=(3, 5), match='32'>
32
<_sre.SRE_Match object; span=(7, 9), match='43'>
43
<_sre.SRE_Match object; span=(11, 12), match='3'>
3


## re.split

- split 方法按照能够匹配的子串将字符串分割后返回列表，它的使用形式如下：

        re.split(pattern, string[, maxsplit=0, flags=0])

    参数：
    
    pattern	    匹配的正则表达式
   
    string	    要匹配的字符串。
    
    maxsplit	 分隔次数，maxsplit=1 分隔一次，默认为 0，不限制次数。
    
    flags	    标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。参见：正则表达式修饰符 - 可选标志

In [16]:
import re

print(re.split('\W+', 'runoob, runoob, runoob.'))  # \W 匹配非数字字母下划线
print(re.split('\W+', ' runoob, runoob, runoob.', 1))
print(re.split('a*', 'hello world'))   # 对于一个找不到匹配的字符串而言，split 不会对其作出分割)

['runoob', 'runoob', 'runoob', '']
['', 'runoob, runoob, runoob.']
['hello world']


  return _compile(pattern, flags).split(string, maxsplit)


## 正则表达式对象

- ** re.RegexObject **

    re.compile() 返回 RegexObject 对象。  
    
    
- ** re.MatchObject **

    group() 返回被 RE 匹配的字符串。
    
    - start() 返回匹配开始的位置
    
    - end() 返回匹配结束的位置
    
    - span() 返回一个元组包含匹配 (开始,结束) 的位置
    

## 正则表达式修饰符 - 可选标志

- 正则表达式可以包含一些可选标志修饰符来控制匹配的模式。

- 修饰符被指定为一个可选的标志。

- 多个标志可以通过按位 OR(|) 它们来指定。如 re.I | re.M 被设置成 I 和 M 标志：

        修饰符	 描述

        re.I	使匹配对大小写不敏感

        re.L	做本地化识别（locale-aware）匹配

        re.M	多行匹配，影响 ^ 和 `$` 

        re.S	使 . 匹配包括换行在内的所有字符

        re.U	根据Unicode字符集解析字符。这个标志影响 \w, \W, \b, \B.

        re.X	该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解。


## 正则表达式模式

- 模式字符串使用特殊的语法来表示一个正则表达式：

- 字母和数字表示他们自身。一个正则表达式模式中的字母和数字匹配同样的字符串。

- 多数字母和数字前加一个反斜杠时会拥有不同的含义。

- 标点符号只有被转义时才匹配自身，否则它们表示特殊的含义。

- 反斜杠本身需要使用反斜杠转义。

- 由于正则表达式通常都包含反斜杠，所以你最好使用原始字符串来表示它们。模式元素(如 r'\t'，等价于 \\t )匹配相应的特殊字符。

**下表列出了正则表达式模式语法中的特殊元素。如果你使用模式的同时提供了可选的标志参数，某些模式元素的含义会改变。**

In [None]:
'''

^	匹配字符串的开头
$	匹配字符串的末尾。
.	匹配任意字符，除了换行符，当re.DOTALL标记被指定时，则可以匹配包括换行符的任意字符。

用*表示任意个字符（包括0个），用+表示至少一个字符，用?表示0个或1个字符.

[...]	用来表示一组字符,单独列出：[amk] 匹配 'a'，'m'或'k'
[^...]	不在[]中的字符：[^abc] 匹配除了a,b,c之外的字符。

re*	匹配0个或多个的表达式。
re+	匹配1个或多个的表达式。
re?	匹配0个或1个由前面的正则表达式定义的片段，非贪婪方式

re{ n}	匹配n个前面表达式。例如，"o{2}"不能匹配"Bob"中的"o"，但是能匹配"food"中的两个o。
re{ n,}	精确匹配n个前面表达式。例如，"o{2,}"不能匹配"Bob"中的"o"，但能匹配"foooood"中的所有o。"o{1,}"等价于"o+"。"o{0,}"则等价于"o*"。
re{ n, m}	匹配 n 到 m 次由前面的正则表达式定义的片段，贪婪方式

a | b	匹配a或b

(re)	匹配括号内的表达式，也表示一个组
(?imx)	正则表达式包含三种可选标志：i, m, 或 x 。只影响括号中的区域。
(?-imx)	正则表达式关闭 i, m, 或 x 可选标志。只影响括号中的区域。
(?: re)	类似 (...), 但是不表示一个组
(?imx: re)	在括号中使用i, m, 或 x 可选标志
(?-imx: re)	在括号中不使用i, m, 或 x 可选标志
(?#...)	注释.
(?= re)	前向肯定界定符。如果所含正则表达式，以 ... 表示，在当前位置成功匹配时成功，否则失败。但一旦所含表达式已经尝试，匹配引擎根本没有提高；模式的剩余部分还要尝试界定符的右边。
(?! re)	前向否定界定符。与肯定界定符相反；当所含表达式不能在字符串当前位置匹配时成功。
(?> re)	匹配的独立模式，省去回溯。

\w	匹配数字字母下划线
\W	匹配非数字字母下划线
\s	匹配任意空白字符，等价于 [\t\n\r\f]。
\S	匹配任意非空字符
\d	匹配任意数字，等价于 [0-9]。
\D	匹配任意非数字
\A	匹配字符串开始
\Z	匹配字符串结束，如果是存在换行，只匹配到换行前的结束字符串。
\z	匹配字符串结束
\G	匹配最后匹配完成的位置。
\b	匹配一个单词边界，也就是指单词和空格间的位置。例如， 'er\b' 可以匹配"never" 中的 'er'，但不能匹配 "verb" 中的 'er'。
\B	匹配非单词边界。'er\B' 能匹配 "verb" 中的 'er'，但不能匹配 "never" 中的 'er'。
\n, \t, 等。	匹配一个换行符。匹配一个制表符, 等
\1...\9	匹配第n个分组的内容。
\10	匹配第n个分组的内容，如果它经匹配。否则指的是八进制字符码的表达式。

'''

In [None]:
'''字符匹配

python	匹配 "python".

'''

In [None]:
'''字符类

[Pp]ython	匹配 "Python" 或 "python"
rub[ye]	匹配 "ruby" 或 "rube"
[aeiou]	匹配中括号内的任意一个字母
[0-9]	匹配任何数字。类似于 [0123456789]
[a-z]	匹配任何小写字母
[A-Z]	匹配任何大写字母
[a-zA-Z0-9]	匹配任何字母及数字
[^aeiou]	除了aeiou字母以外的所有字符
[^0-9]	匹配除了数字外的字符

'''

In [None]:
'''特殊字符类

.	匹配除 "\n" 之外的任何单个字符。要匹配包括 '\n' 在内的任何字符，请使用象 '[.\n]' 的模式。
\d	匹配一个数字字符。等价于 [0-9]。
\D	匹配一个非数字字符。等价于 [^0-9]。
\s	匹配任何空白字符，包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。
\S	匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。
\w	匹配包括下划线的任何单词字符。等价于'[A-Za-z0-9_]'。
\W	匹配任何非单词字符。等价于 '[^A-Za-z0-9_]'。

'''

# os模块

- os 模块提供了非常丰富的方法用来处理文件和目录。常用的方法如下表所示：

参考链接：http://www.runoob.com/python3/python3-os-file-methods.html

序号	方法及描述

1	os.access(path, mode) 检验权限模式

2	os.chdir(path) 改变当前工作目录

3	os.chflags(path, flags) 设置路径的标记为数字标记。

4	os.chmod(path, mode) 更改权限

5	os.chown(path, uid, gid) 更改文件所有者

6	os.chroot(path) 改变当前进程的根目录

7	os.close(fd) 关闭文件描述符 fd

8	os.closerange(fd_low, fd_high) 关闭所有文件描述符，从 fd_low (包含) 到 fd_high (不包含), 错误会忽略

9	os.dup(fd) 复制文件描述符 fd

10	os.dup2(fd, fd2) 将一个文件描述符 fd 复制到另一个 fd2

11	os.fchdir(fd) 通过文件描述符改变当前工作目录

12	os.fchmod(fd, mode) 改变一个文件的访问权限，该文件由参数fd指定，参数mode是Unix下的文件访问权限。

13	os.fchown(fd, uid, gid) 修改一个文件的所有权，这个函数修改一个文件的用户ID和用户组ID，该文件由文件描述符fd指定。

14	os.fdatasync(fd) 强制将文件写入磁盘，该文件由文件描述符fd指定，但是不强制更新文件的状态信息。

15	os.fdopen(fd[, mode[, bufsize]]) 通过文件描述符 fd 创建一个文件对象，并返回这个文件对象

16	os.fpathconf(fd, name) 返回一个打开的文件的系统配置信息。name为检索的系统配置的值，它也许是一个定义系统值的字符串，这些名字在很多标准中指定（POSIX.1, Unix 95, Unix 98, 和其它）。

17	os.fstat(fd) 返回文件描述符fd的状态，像stat()。

18	os.fstatvfs(fd) 返回包含文件描述符fd的文件的文件系统的信息，像 statvfs()

19	os.fsync(fd) 强制将文件描述符为fd的文件写入硬盘。

20	os.ftruncate(fd, length) 裁剪文件描述符fd对应的文件, 所以它最大不能超过文件大小。

21	os.getcwd() 返回当前工作目录

22	os.getcwdu() 返回一个当前工作目录的Unicode对象

23	os.isatty(fd) 如果文件描述符fd是打开的，同时与tty(-like)设备相连，则返回true, 否则False。

24	os.lchflags(path, flags) 设置路径的标记为数字标记，类似 chflags()，但是没有软链接

25	os.lchmod(path, mode) 修改连接文件权限

26	os.lchown(path, uid, gid) 更改文件所有者，类似 chown，但是不追踪链接。

27	os.link(src, dst) 创建硬链接，名为参数 dst，指向参数 src

28	os.listdir(path) 返回path指定的文件夹包含的文件或文件夹的名字的列表。

29	os.lseek(fd, pos, how) 设置文件描述符 fd当前位置为pos, how方式修改: SEEK_SET 或者 0 设置从文件开始的计算的pos; SEEK_CUR或者 1 则从当前位置计算; os.SEEK_END或者2则从文件尾部开始. 在unix，Windows中有效

30	os.lstat(path) 像stat(),但是没有软链接

31	os.major(device) 从原始的设备号中提取设备major号码 (使用stat中的st_dev或者st_rdev field)。

32	os.makedev(major, minor) 以major和minor设备号组成一个原始设备号

33	os.makedirs(path[, mode])  递归文件夹创建函数。像mkdir(), 但创建的所有intermediate-level文件夹需要包含子文件夹。

34	os.minor(device) 从原始的设备号中提取设备minor号码 (使用stat中的st_dev或者st_rdev field )。

35	os.mkdir(path[, mode]) 以数字mode的mode创建一个名为path的文件夹.默认的 mode 是 0777 (八进制)。

36	os.mkfifo(path[, mode]) 创建命名管道，mode 为数字，默认为 0666 (八进制)

37	os.mknod(filename[, mode=0600, device]) 创建一个名为filename文件系统节点（文件，设备特别文件或者命名pipe）。

38	os.open(file, flags[, mode]) 打开一个文件，并且设置需要的打开选项，mode参数是可选的

39	os.openpty() 打开一个新的伪终端对。返回 pty 和 tty的文件描述符。

40	os.pathconf(path, name) 返回相关文件的系统配置信息。

41	os.pipe() 创建一个管道. 返回一对文件描述符(r, w) 分别为读和写

42	os.popen(command[, mode[, bufsize]]) 从一个 command 打开一个管道

43	os.read(fd, n) 从文件描述符 fd 中读取最多 n 个字节，返回包含读取字节的字符串，文件描述符 fd对应文件已达到结尾, 返回一个空字符串。

44	os.readlink(path) 返回软链接所指向的文件

45	os.remove(path) 删除路径为path的文件。如果path 是一个文件夹，将抛出OSError; 查看下面的rmdir()删除一个 directory。

46	os.removedirs(path) 递归删除目录。

47	os.rename(src, dst) 重命名文件或目录，从 src 到 dst

48	os.renames(old, new)  递归地对目录进行更名，也可以对文件进行更名。

49	os.rmdir(path) 删除path指定的空目录，如果目录非空，则抛出一个OSError异常。

50	os.stat(path) 获取path指定的路径的信息，功能等同于C API中的stat()系统调用。

51	os.stat_float_times([newvalue]) 决定stat_result是否以float对象显示时间戳

52	os.statvfs(path) 获取指定路径的文件系统统计信息

53	os.symlink(src, dst) 创建一个软链接

54	os.tcgetpgrp(fd) 返回与终端fd（一个由os.open()返回的打开的文件描述符）关联的进程组

55	os.tcsetpgrp(fd, pg) 设置与终端fd（一个由os.open()返回的打开的文件描述符）关联的进程组为pg。

56	os.tempnam([dir[, prefix]]) Python3 中已删除。返回唯一的路径名用于创建临时文件。

57	os.tmpfile() Python3 中已删除。返回一个打开的模式为(w+b)的文件对象 .这文件对象没有文件夹入口，没有文件描述符，将会自动删除。

58	os.tmpnam() Python3 中已删除。为创建一个临时文件返回一个唯一的路径

59	os.ttyname(fd) 返回一个字符串，它表示与文件描述符fd 关联的终端设备。如果fd 没有与终端设备关联，则引发一个异常。

60	os.unlink(path) 删除文件路径

61	os.utime(path, times) 返回指定的path文件的访问和修改的时间。

62	os.walk(top[, topdown=True[, onerror=None[, followlinks=False]]]) 输出在文件夹中的文件名通过在树中游走，向上或者向下。

63	os.write(fd, str) 写入字符串到文件描述符 fd中. 返回实际写入的字符串长度

64	os.path 模块  获取文件的属性信息。

# datetime模块

- datetime是Python处理日期和时间的标准库。

参考廖雪峰课程：https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000/001431937554888869fb52b812243dda6103214cd61d0c2000

## 获取当前日期和时间

- 注意到datetime是模块，datetime模块还包含一个datetime类，通过from datetime import datetime导入的才是datetime这个类。

- 如果仅导入import datetime，则必须引用全名datetime.datetime。

- datetime.now()返回当前日期和时间，其类型是datetime。

In [17]:
from datetime import datetime
now = datetime.now() # 获取当前datetime

print(now)
print(type(now))

2019-01-30 16:39:18.588589
<class 'datetime.datetime'>


## 获取指定日期和时间

- 要指定某个日期和时间，我们直接用参数构造一个datetime：

        datetime(year, month, day[, hour[, minute[, second[, microsecond[,tzinfo]]]]])

In [19]:
from datetime import datetime
dt1 = datetime(2015, 4, 19, 12, 20) # 用指定日期时间创建datetime
print(dt1)
print(type(dt1))

2015-04-19 12:20:00
<class 'datetime.datetime'>


## datetime转换为timestamp

- 在计算机中，时间实际上是用数字表示的。我们把1970年1月1日 00:00:00 UTC+00:00时区的时刻称为epoch time，记为0（1970年以前的时间timestamp为负数），当前时间就是相对于epoch time的秒数，称为timestamp。

- **把一个datetime类型转换为timestamp只需要简单调用timestamp()方法。**


- 可以认为：  timestamp = 0 = 1970-1-1 00:00:00 UTC+0:00
        
- 对应的北京时间是： timestamp = 0 = 1970-1-1 08:00:00 UTC+8:00


- 可见timestamp的值与时区毫无关系，因为timestamp一旦确定，其UTC时间就确定了，转换到任意时区的时间也是完全确定的，这就是为什么计算机存储的当前时间是以timestamp表示的，因为全球各地的计算机在任意时刻的timestamp都是完全相同的（假定时间已校准）。

In [27]:
from datetime import datetime
dt1 = datetime(2015, 4, 19, 12, 20)  # 用指定日期时间创建datetime
print(dt1)

print(dt1.timestamp())  # 把datetime转换为timestamp
print(type(dt1.timestamp()))  # 注意Python的timestamp是一个浮点数。如果有小数位，小数位表示毫秒数。

2015-04-19 12:20:00
1429417200.0
<class 'float'>


## timestamp转换为datetime

- **要把timestamp转换为datetime，使用datetime提供的fromtimestamp()方法。**

In [28]:
from datetime import datetime
t = 1429417200.0
print(datetime.fromtimestamp(t))

2015-04-19 12:20:00


>  - 注意到timestamp是一个浮点数，它没有时区的概念，而datetime是有时区的。上述转换是在timestamp和本地时间做转换。

>  - 本地时间是指当前操作系统设定的时区。

In [30]:
# timestamp也可以直接被转换到UTC标准时区的时间：
from datetime import datetime
t = 1429417200.0

print(datetime.fromtimestamp(t))  # 本地时间

print(datetime.utcfromtimestamp(t))  # UTC时间

2015-04-19 12:20:00
2015-04-19 04:20:00


## str转换为datetime

- 转换方法是通过 **datetime.strptime()** 实现，需要一个日期和时间的格式化字符串。

In [31]:
from datetime import datetime
cday = datetime.strptime('2015-6-1 18:19:59', '%Y-%m-%d %H:%M:%S')  # 字符串'%Y-%m-%d %H:%M:%S'规定了日期和时间部分的格式。注意转换后的datetime是没有时区信息的。
print(cday)
print(type(cday))

2015-06-01 18:19:59
<class 'datetime.datetime'>


> 日期和时间格式化：参考文档：https://docs.python.org/3/library/datetime.html#strftime-strptime-behavior

>     Directive	      Meaning	                          Example

>     %a	Weekday as locale’s abbreviated name.   Sun, Mon, …, Sat (en_US);So, Mo, …, Sa (de_DE)

>     %A	Weekday as locale’s full name.        Sunday, Monday, …, Saturday (en_US);Sonntag, Montag, …, Samstag (de_DE)

>     %w	Weekday as a decimal number, where 0 is Sunday and 6 is Saturday.   0, 1, …, 6

>     %d	Day of the month as a zero-padded decimal number.     01, 02, …, 31

>     %b	Month as locale’s abbreviated name.     Jan, Feb, …, Dec (en_US); Jan, Feb, …, Dez (de_DE)

>     %B	Month as locale’s full name.          January, February, …, December (en_US); Januar, Februar, …, Dezember (de_DE)

>     %m	Month as a zero-padded decimal number.	   01, 02, …, 12

>     %y	Year without century as a zero-padded decimal number.	 00, 01, …, 99

>     %Y	Year with century as a decimal number.	   0001, 0002, …, 2013, 2014, …, 9998, 9999

>     %H	Hour (24-hour clock) as a zero-padded decimal number.	00, 01, …, 23

>     %I	Hour (12-hour clock) as a zero-padded decimal number.	01, 02, …, 12

>     %p	Locale’s equivalent of either AM or PM.	    AM, PM (en_US);  am, pm (de_DE)

>     %M	Minute as a zero-padded decimal number.	    00, 01, …, 59

>     %S	Second as a zero-padded decimal number.	    00, 01, …, 59

>     %f	Microsecond as a decimal number, zero-padded on the left.	000000, 000001, …, 999999

>     %z	UTC offset in the form ±HHMM[SS[.ffffff]] (empty string if the object is naive).  (empty), +0000, -0400, +1030, +063415, -030712.345216

>     %Z	Time zone name (empty string if the object is naive).	(empty), UTC, EST, CST

>     %j	Day of the year as a zero-padded decimal number.	001, 002, …, 366

>     %U	Week number of the year (Sunday as the first day of the week) as a zero padded decimal number. All days in a new year preceding the first Sunday are considered to be in week 0.	00, 01, …, 53

>     %W	Week number of the year (Monday as the first day of the week) as a decimal number. All days in a new year preceding the first Monday are considered to be in week 0.	00, 01, …, 53

>     %c	Locale’s appropriate date and time representation.	  Tue Aug 16 21:30:00 1988 (en_US); Di 16 Aug 21:30:00 1988 (de_DE)

>     %x	Locale’s appropriate date representation.	  08/16/88 (None);  08/16/1988 (en_US);  16.08.1988 (de_DE)

>     %X	Locale’s appropriate time representation.	  21:30:00 (en_US);  21:30:00 (de_DE)

>     %%	A literal '%' character.	              %

## datetime转换为str

- 如果已经有了datetime对象，要把它格式化为字符串显示给用户，就需要转换为str，转换方法是通过 **strftime()** 实现的，同样需要一个日期和时间的格式化字符串。

In [32]:
from datetime import datetime

dt_now = datetime.now()
print(dt_now)

print(dt_now.strftime('%a, %b %d %H:%M'))

2019-01-30 17:09:30.714500
Wed, Jan 30 17:09


## datetime加减

- 对日期和时间进行加减实际上就是把datetime往后或往前计算，得到新的datetime。加减可以直接用+和-运算符，不过需要导入 **timedelta** 这个类。

In [35]:
from datetime import datetime,timedelta

dt_now = datetime.now()
print(dt_now)

print(dt_now + timedelta(1))  # timedelta() 默认days是第一个参数
print(dt_now + timedelta(hours=5))
print(dt_now - timedelta(days=1))
print(dt_now + timedelta(days=2, hours=5))

2019-01-30 17:13:36.414890
2019-01-31 17:13:36.414890
2019-01-30 22:13:36.414890
2019-01-29 17:13:36.414890
2019-02-01 22:13:36.414890


## 本地时间转换为UTC时间

- 本地时间是指系统设定时区的时间，例如北京时间是UTC+8:00时区的时间，而UTC时间指UTC+0:00时区的时间。

- 一个datetime类型有一个时区属性tzinfo，但是默认为None，所以无法区分这个datetime到底是哪个时区，除非强行给datetime设置一个时区。

In [37]:
from datetime import datetime, timedelta, timezone

tz_utc_8 = timezone(timedelta(hours=8))   # 创建时区UTC+8:00
print(tz_utc_8)

dt_now =datetime.now()
print(dt_now)

dt_utc_8 = dt_now.replace(tzinfo=tz_utc_8)  # 强制设置为UTC+8:00
print(dt_utc_8)

UTC+08:00
2019-01-30 17:16:23.006607
2019-01-30 17:16:23.006607+08:00


> - 如果系统时区恰好是UTC+8:00，那么上述代码就是正确的，否则，不能强制设置为UTC+8:00时区。

## 时区转换

- 先通过 **utcnow()** 拿到当前的UTC时间，再转换为任意时区的时间，通过 **astimezone()** 转化时区。

In [38]:
# 拿到UTC时间，并强制设置时区为UTC+0:00:
utc_dt = datetime.utcnow().replace(tzinfo=timezone.utc)
print(utc_dt)

# astimezone()将转换时区为北京时间:
bj_dt = utc_dt.astimezone(timezone(timedelta(hours=8)))
print(bj_dt)

# astimezone()将转换时区为东京时间:
tokyo_dt = utc_dt.astimezone(timezone(timedelta(hours=9)))
print(tokyo_dt)

# astimezone()将bj_dt转换时区为东京时间:
tokyo_dt2 = bj_dt.astimezone(timezone(timedelta(hours=9)))
print(tokyo_dt2)

2019-01-30 09:20:51.730983+00:00
2019-01-30 17:20:51.730983+08:00
2019-01-30 18:20:51.730983+09:00
2019-01-30 18:20:51.730983+09:00


>  - 时区转换的关键在于，拿到一个datetime时，要获知其正确的时区，然后强制设置时区，作为基准时间。

>  - 利用带时区的datetime，通过astimezone()方法，可以转换到任意时区。

 **- 小结 -** 
 
 **- datetime 表示的时间需要时区信息才能确定一个特定的时间，否则只能视为本地时间。**

 **- 如果要存储 datetime ，最佳方法是将其转换为 timestamp 再存储，因为 timestamp 的值与时区完全无关。**

# http请求

- urllib提供了一系列用于操作URL的功能。

参考廖雪峰课程：https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000/001432688314740a0aed473a39f47b09c8c7274c9ab6aee000

参考博客内容：https://www.jianshu.com/p/9a9dd097d282

## python urllib包

python内置了urllib包来处理http请求，主要是一下几个模块：

    urllib.error
    处理异常模块

    urllib.parse
    解析url模块

    urllib.request
    请求url模块

    urllib.response
    响应模块

    urllib.robotparser
    解析 robots.txt文件

    主要方法

    - urlopen(url, data=None, [timeout, ]`*`, cafile=None, capath=None, cadefault=False, context=None)打开url或者对象

## get请求

In [41]:
import urllib
# import urllib2 # python3中没有 urllib2 用urllib.request替代

# get请求
resu = urllib.request.urlopen('https://hao.360.cn', data=None, timeout=10)
data = resu.read().decode()

#打开文件
fo = open('test.txt','a+',encoding = 'utf-8') # 打开文件 这里网络数据流的编码需要和写入的文件编码一致
fo.write(data)   # 写入文件
fo.close()       # 关闭文件

590460

In [45]:
# 如果get的请求携带参数需要通过url方式传值
import urllib
import json

def getExpressInfo(num):
    """
    通过快递单号获取快递详情方法
    :param num: Numbers 快递单号
    :return: mixed      快递详细
    """
    # get请求
    url = 'http://www.kuaidi100.com/autonumber/autoComNum?text=' + num # get请求通过url传值
    basicInfo = urllib.request.urlopen(url, data=None, timeout=10) # python3应该可以通过检测data是否携带参数来判断是get请求还是post请求
    data = json.loads(basicInfo.read().decode()) #解析返回对象获取

    comInfo = data['auto'][0]['comCode'] # 获取快递公司信息

    # 通过公司名称和快递单号请求快速100的API
    url2 = 'http://api.kuaidi100.com/api?id=be2205c7c55b54eb&com=' + comInfo + '&nu=' + num
    result = urllib.request.urlopen(url2, data=None, timeout=10)
    expressInfo = result.read().decode()

    print(expressInfo)
    #返回快递信息
    return(expressInfo)


num = '3396776919306' # 快递单号

#调用快递信息方法
getExpressInfo(num)

{"status":"2","message":"快递公司网络异常，请稍后查询."}


'{"status":"2","message":"快递公司网络异常，请稍后查询."}'

## post请求

In [46]:
import urllib
import json

url = 'https://www.dictionary.com/'
values = {
            "abc":"XXXXX",
            "efg":"XXXXX"
            }

headers = {'Content-Type': 'application/json'} # 设置请求头 告诉服务器请求携带的是json格式的数据
request = urllib.request.Request(url=url, headers=headers, data=json.dumps(values).encode(encoding='UTF8')) # 需要通过encode设置编码 要不会报错

response = urllib.request.urlopen(request) # 发送请求

logInfo = response.read().decode() # 读取对象 将返回的二进制数据转成string类型
print(logInfo)

<!DOCTYPE html>
    <html lang="en" prefix="og: http://ogp.me/ns#">
      <head>
        
  <meta charSet="utf-8">
  <link rel="canonical" href="https://www.dictionary.com/">
  <title>Dictionary.com | Meanings and Definitions of Words at Dictionary.com</title>
  <meta name="description" content="Dictionary.com is the world’s leading online source for English definitions, synonyms, word origins and etymologies, audio pronunciations, example sentences, slang phrases, idioms, word games, legal and medical terms, Word of the Day and more. For over 20 years, Dictionary.com has been helping millions of people improve their use of the English language with its free digital services.">
  
  
  <meta property="og:title" content="Dictionary.com - The world’s favorite online dictionary!">
  <meta property="og:image" content="https://www.dictionary.com/hp-assets/dcom_favicon-1bff2f1b49c077ed504e55c3649f2a4b.png">
  <meta property="og:type" content="Website">
  <meta property="og:url" content="http

# 作业

1、请用户输入一个时间，输出选项所对应的现在时间，告诉用户这两个时间相隔的天数，小时数，分钟数和秒数。


In [1]:
from datetime import datetime,timedelta

dt_input = input('请按照yyyy-mm-dd hh:mm:ss 的格式输入公式：')
dt_input = datetime.strptime(dt_input,'%Y-%m-%d %H:%M:%S')
dt_now = datetime.now()
time_diff = dt_now - dt_input

print('输入时间：','\n',dt_input)
print('当前时间：','\n',dt_now)
print('时间间隔{}天{}小时{}分钟{}秒'.format(time_diff.days,time_diff.seconds//(60*60),time_diff.seconds%(60*60)//60,time_diff.seconds%(60*60)%60))

请按照yyyy-mm-dd hh:mm:ss 的格式输入公式：2019-01-20 19:34:06
输入时间： 
 2019-01-20 19:34:06
当前时间： 
 2019-01-30 19:34:46.994565
时间间隔10天0小时0分钟40秒


2、请用户输入电话及邮箱，判断用户输入是否合法。


In [12]:
import re


pattern1_1 = re.compile(r'^1\d{10}$')
pattern1_2 = re.compile(r'(^\d{3,4})(\W|_)*(\d{7,8})$')
while True:
    num = input('请输入您的电话号码：')
    if len(num) == 11 and re.match(pattern1_1,num):
        print('格式正确！您输入的是手机，且号码为：{}'.format(num))
        break
    elif re.match(pattern1_2,num):
        print('格式正确！您输入的是固定电话，且号码为：{}'.format(num))
        break
    else:
        print('号码输入有错，请重新输入。')
        continue


pattern2 = re.compile(r'^[A-Za-z0-9_-]+@[A-Za-z0-9_-]+\.com$')
while True: 
    mail = input('请输入您的电子邮箱地址,形如 xxxxxxx@xxx.com：')
    if re.match(pattern2,mail):
        print('格式正确！您输入的邮箱是:{}'.format(mail))
        break
    else:
        print('邮箱输入有错，请重新输入。')
        continue


请输入您的电话号码：25356
号码输入有错，请重新输入。
请输入您的电话号码：12345678965
格式正确！您输入的是手机，且号码为：12345678965
请输入您的电子邮箱地址,形如 xxxxxxx@xxx.com：ccc@525com
邮箱输入有错，请重新输入。
请输入您的电子邮箱地址,形如 xxxxxxx@xxx.com：ccc@2523.com
格式正确！您输入的邮箱是:ccc@2523.com


3、对http://www.baidu.com 进行请求，并用正则化匹配图片内容。将百度图标爬取下来保存至本地。


In [14]:
#对http://www.baidu.com 进行请求，并用正则化匹配图片内容。将百度图标爬取下来保存至本地
import re
import urllib

response = urllib.request.urlopen("http://www.baidu.com")
response = response.read()
response = response.decode('utf-8') #python3
reg = r'src="(.+\.png)"'    #正则表达式，得到图片地址
imgre = re.compile(reg)      #re.compile() 可以把正则表达式编译成一个正则表达式对象.   
imglist = re.findall(imgre,response)      #re.findall() 方法读取response 中包含 imgre（正则表达式）的数据
x = 0
for imgurl in imglist:
    imgurl='https:'+ imgurl
    urllib.request.urlretrieve(imgurl,'%s.png' % x)
    x += 1

('0.png', <http.client.HTTPMessage at 0x1a9b817c2e8>)