# 【Day 5】

## 1、正则表达式re

### 1.1 概念

正则表达式，简称regex，是文本模式的描述方法。它的设计思想是用一种描述性的语言来给字符串定义一个规则，凡是符合规则的字符串，我们就认为它“匹配”了，否则，该字符串就是不合法的。

### 1.2 创建与匹配Regex对象

* **创建：** Python中所有正则表达式的函数都在re模块，向re.coompile()传入一个正则表达式，它将返回一个Regex对象。
* **search匹配：** Regex对象的search()方法查找传入的字符串，寻找该正则表达式的所有匹配。未找到则返回None，找到则返回Match对象，它有一个group()方法。
* **findall匹配：** Regex对象的search()将返回一个Match对象，包含被查找字符串中的“第一次”匹配的文本，而 findall()方法将返回一组字符串列表(不是Match对象)，包含被查找字符串中的所有匹配。

**注意：** 正则表达式经常使用倒斜杠(\\)，但同时它也是Python中的转义字符，所以通过在字符串第一个引号前加r，可以将该字符串标记为原始字符串，从而简写。

In [1]:
import re

phoneNumRegex = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d')  # \d表示一个数字字符
mo = phoneNumRegex.search('My number is 415-555-4242.')
print('Found:', mo.group())

Found: 415-555-4242


### 1.3 正则表示式的更多模式
#### 1.3.1 利用括号分组
添加括号将在正则表达式中创建“分组”。第一对括号是第 1 组，第二对括号是第 2 组。向 group()匹配对象方法传入整数 1 或 2，就可以取得匹配文本的不同部分。向 group()方法传入 0 或不传入参数，将返回整个匹配的文本。

In [2]:
phoneNumRegex = re.compile(r'(\d\d\d)-(\d\d\d-\d\d\d\d)')
mo = phoneNumRegex.search('My number is 415-555-4242.')
print(mo.group())
print(mo.group(1))
print(mo.group(2))
print(mo.groups())  # 如果想要一次就获取所有的分组，可使用 groups()方法

phoneNumRegex = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d')
print('findall:', phoneNumRegex.findall('Cell: 415-555-9999 Work: 212-555-0000'))

415-555-4242
415
555-4242
('415', '555-4242')
findall: ['415-555-9999', '212-555-0000']


#### 1.3.2 用管道匹配多个分组
字符&#160;|&#160;称为“管道”。希望匹配许多表达式中的一个时，就可以使用它。

**注意：** 如果模式1和模式2都出现在被查找的字符串中，第一次出现的匹配文本，将作为 Match 对象返回。利用findall()可找到所有匹配。

In [3]:
batRegex = re.compile(r'Bat(man|mobile|copter|bat)')
mo = batRegex.search('Batmobile lost a wheel')
print(mo.group())
print(mo.group(1))

Batmobile
mobile


### 1.4 用 sub()方法替换字符串
Regex对象的 sub()方法需要传入两个参数。第一个参数是一个字符串，用于取代发现的匹配。第二个参数是完整字符串。

In [4]:
namesRegex = re.compile(r'Agent \w+')
namesRegex.sub('SOMEONE', 'Agent Alice gave the secret documents to Agent Bob.')

'SOMEONE gave the secret documents to SOMEONE.'

### 1.5 贪心和非贪心匹配

Python 的正则表达式默认是“贪心”的，这表示在有二义的情况下，它们会尽可能匹配最长的字符串。花括号的“非贪心”版本匹配尽可能最短的字符串，即在结束的花括号后跟着一个问号。

In [5]:
greedyHaRegex = re.compile(r'(Ha){3,5}')
mo1 = greedyHaRegex.search('HaHaHaHaHa')
print('默认贪心：', mo1.group())

nongreedyHaRegex = re.compile(r'(Ha){3,5}?')  # 花括号后加了?
mo2 = nongreedyHaRegex.search('HaHaHaHaHa')
print('非贪心：', mo2.group())

默认贪心： HaHaHaHaHa
非贪心： HaHaHa


### 1.6 常用正则表达式符号、re.compile()的参数

**表示法** | **含义**
------------ | -------------
？ | 匹配零次或一次前面的分组
\* | 匹配零次或多次前面的分组
\+ | 匹配一次或多次前面的分组
{n} | 匹配 n 次前面的分组
{n,} | 匹配 n 次或更多前面的分组
{,m} | 匹配零次到 m 次前面的分组
{n,m} | 匹配至少 n 次、至多 m 次前面的分组
{n,m}? 或 \*? 或 \+? | 对前面的分组进行非贪心匹配
^spam | 意味着字符串必须以 spam 开始
spam$ | 意味着字符串必须以 spam 结束
. | 匹配所有字符，换行符除外。传入re.DOTALL，可以匹配所有字符，包括换行符
\\d | 0 到 9 的任何数字
\\D | 除 0 到 9 的数字以外的任何字符
\\w | 任何字母、数字或下划线字符（可以认为是匹配“单词”字符）
\\W | 除字母、数字和下划线以外的任何字符
\\s | 空格、制表符或换行符（可以认为是匹配“空白”字符）
\\S | 除空格、制表符和换行符以外的任何字符
\[abc\] | 匹配方括号内的任意字符（诸如 a、b 或 c）
\[^abc\] | 匹配不在方括号内的任意字符

**参数** | **含义**
------------ | -------------
re.IGNORECASE | 忽略大小写
re.DOTALL | 让.可以匹配所有字符，包括换行符
re.VERBOSE | 编写注释

## 2、os模块

### 2.1 简介

os模块是Python标准库中的一个用于**访问操作系统功能**的模块。

### 2.2 常用指令

**函数** | **含义**
------------ | -------------
os.getcwd() | 获取当前目录,，相当于shell的(pwd)
os.chdir(path) | 改变当前目录，(cd)
os.curdir | 返回当前目录，(.)
os.pardir | 获取当前目录的父目录，(..)
os.mkdir(dir) | 生成单级目录，(mkdir)
os.makedirs(path) | 可生成多层递归目录
os.rmdir(dir) | 删除单级空目录
os.removedirs(path) | 可删除多层递归的空目录，若目录中有文件则无法删除
os.listdir(path) | 以列表形式，列出目录下所有文件和子目录，包括隐藏文件
os.remove(file) | 删除一个文件，(rm)
os.rename(old, new) | 重命名文件、目录，(mv old new)
os.stat(path/file) | 获取目录/文件信息
os.sep | 输出当前操作系统特定的路径分隔符，win(\\\\)，linux(/)
os.linesep | 输出当前平台使用的行终止符，win(\\r\\n),linux(\\n)
os.pathsep | 输出用于分隔文件路径的字符串
os.name | 输出字符串表示当前平台，win(nt)，linux(posix)
os.environ | 获取系统环境变量
os.system('shell command') | 运行shell命令，直接显示
os.path.abspath(path) | 返回path规范化的绝对路径
os.path.split(path) | 将path分隔为目录和文件名，返回元组
os.path.dirname(path)和os.path.basename(path)| 返回path的目录或文件名,即split的第一或二个返回值
os.path.exists(path) | 根据path是否存在返回True或False
os.path.isabs(path) | 如果是绝对路径，返回True
os.path.isfile(path)和os.path.isdir(path) | 如果path是已经存在的文件或目录，则返回True
os.path.join(path1, \[path2\], ...) | 将多个路径组合返回，第一个绝对路径前的参数将被忽略
os.path.getatime(path)和os.path.getmtime(path) | 返回path指向的文件或目录最后存取或修改时间

In [6]:
import os

print(os.getcwd())

D:\python_basic


## 3、datetime模块

### 3.1 简介

datetime模块用于是date和time模块的合集，datetime有两个常量，MAXYEAR和MINYEAR，分别是9999和1。Python的内置起始时间是1970年1月1日0时。

**datetime模块定义了5个类：**
* datetime.date：表示日期的类
* datetime.time：表示时间的类
* datetime.datetime：表示日期时间的类
* datetime.timedelta：表示时间间隔，即两个时间点的间隔
* datetime.tzinfo：时区的相关信息

### 3.2 datetime.date类
date类由year、month、day三部分组成。

**函数** | **含义**
------------ | -------------
datetime.date(2019,1,30) | 构造日期对象，得到datetime.date(2019, 1, 30)
datetime.date.today() | 获取当天日期，得到datetime.date(2019, 1, 30)
dt.isocalendar() | ISO标准化格式，返回一个包含三个值的元组(年份, 第几周，星期几)，其中周一至周日为1-7
dt.isoweekday(...) | 根据周一到周一返回1-7
dt\.year/dt\.month/dt\.day | 返回年月日


### 3.3 datetime.time类
time类由hour小时、minute分钟、second秒、microsecond毫秒和tzinfo五部分组成。

**函数** | **含义**
------------ | -------------
datetime.time(12, 20, 59, 899) | 构造时间对象，datetime.time(12, 20, 59, 899)
dt\.hour/dt\.minute/dt\.second/dt\.microsecond/dt\.tzinfo | 返回对应的五部分


### 3.4 datetime.datetime类
datetime类其实是可以看做是date类和time类的合体，其大部分的方法和属性都继承于这二个类。  
datetime类有很多参数，datetime(year, month, day\[, hour\[, minute\[, second\[, microsecond\[,tzinfo\]\]\]\]\])，返回年月日，时分秒。

**函数** | **含义**
------------ | -------------
datetime.datetime(2019,1,12,12,30,40) | 构造日期时间对象
dt.date()和dt.time() | 返回日期或时间部分
datetime.datetime.fromtimestamp(1200000000) | 表示1970年1月1日0时后1200000000秒的时刻
datetime.datetime.now()等同datetime.datetime.today() | 获取当前时间，如2019-01-30 07\:42\:13\. 967525
datetime.datetime.strptime('2019-1-30 15:25','%Y-%m-%d %H:%M') | 将字符串解析为datetime对象（p代表parse）
datetime.datetime.strftime(datetime.datetime(2019,1,30), '%Y-%m-%d') | 将datetime对象格式化输出（f代表format）


### 3.5 datetime.timedelta类
timedelta类是用来计算两个datetime对象的差值。  
datetime.timedelta(days=0, seconds=0, microseconds=0, milliseconds=0, minutes=0, hours=0, weeks=0)

**此类中包含如下属性：**

* days:天数,整数
* seconds：秒数(>=0 并且 <1天），不足一天的部分以秒计
* microseconds：微秒数(>=0 并且 <1秒） ，不足一秒的部分以毫秒计

### 3.6 日期时间格式化符号

**符号** | **说明**
------------ | -------------
%y | 两位数的年份表示（00-99）
%Y | 四位数的年份表示（000-9999）
%m | 月份（01-12）
%d | 月内中的一天（0-31）
%H | 24小时制小时数（0-23）
%I | 12小时制小时数（01-12）
%M | 分钟数（00-59）
%S | 秒（00-59）
%a | 简化的星期名称（Mon、Tue、Wed...）
%A | 完整的星期名称（Monday、Tuesday、Wednesday...）
%b | 简化的月份名称（Jan、Feb、Mar...）
%B | 完整的月份名称（January、February、March...）
%c | 本地相应的日期表示和时间表示（'Wed Jan 30 08\:26\:16 2019'）
%j | 年内的一天（001-366）
%p | AM或PM的等价符
%U | 一年中的星期数（00-53）星期天为星期的开始
%w | 星期（0-6），星期天为星期的开始
%W | 一年中的星期数（00-53）星期一为星期的开始
%x | 相应的日期表示（'01/30/19'）
%X | 两位数的年份表示（'08\:28\:31'）
%Z | 当前时区的名称
%% | %号本身

In [7]:
import datetime
dt = datetime.datetime(2019,1,12,12,30,40)
print(dt.year,dt.month,dt.day,dt.hour,dt.minute,dt.second)

2019 1 12 12 30 40


## 4、HTTP请求
### 4.1 HTTP简介
HTTP协议是Hyper Text Transfer Protocol（超文本传输协议）的缩写,是用于从万维网（WWW\:World Wide Web ）服务器传输超文本到本地浏览器的传送协议。  
HTTP是一个基于TCP/IP通信协议来传递数据（HTML 文件, 图片文件, 查询结果等）。

* 客户端发送一个HTTP请求到服务器的请求消息包括以下格式：请求行（request line）、请求头部（header）、空行和请求数据四个部分组成。
* HTTP响应也由四个部分组成，分别是：状态行、消息报头、空行和响应正文。

### 4.2 HTTP请求方法


**方法** | **描述**
------------ | -------------
GET | 请求指定的页面信息，并返回实体主体
HEAD | 类似于get请求，只不过返回的响应中没有具体的内容，用于获取报头
POST | 向指定资源提交数据进行处理请求（例如提交表单或者上传文件）。数据被包含在请求体中。POST请求可能会导致新的资源的建立和/或已有资源的修改
PUT | 从客户端向服务器传送的数据取代指定的文档的内容
DELETE | 请求服务器删除指定的页面
CONNECT | HTTP/1.1协议中预留给能够将连接改为管道方式的代理服务器
OPTIONS | 允许客户端查看服务器的性能
TRACE | 回显服务器收到的请求，主要用于测试或诊断


### 4.3 HTTP状态码
当浏览者访问一个网页时，浏览者的浏览器会向网页所在服务器发出请求。当浏览器接收并显示网页前，此网页所在的服务器会返回一个包含HTTP状态码的信息头（server header）用以响应浏览器的请求。

**状态码** | **描述**
------------ | -------------
200 | 请求成功
301 | 资源（网页等）被永久转移到其它URL
404 | 请求的资源（网页等）不存在
500 | 内部服务器错误

## 【Day 5 Task】

1\. 请用户输入一个时间，输出选项所对应的现在时间，告诉用户这两个时间相隔的天数，小时数，分钟数和秒数。


2\. 请用户输入电话及邮箱，判断用户输入是否合法。

3\. 对http\://www\.baidu\.com 进行请求，并用正则化匹配图片内容，将百度图标爬取下来保存至本地。

In [8]:
# TASK 1
from datetime import datetime

while True:
    dt = input('请输入一个时间，形如 2019-01-30 08:30:09 ')
    try:
        dt = datetime.strptime(dt, '%Y-%m-%d %H:%M:%S')
        break
    except ValueError:
        print('输入不符合要求，', end='')

now = datetime.now()
interval = now - dt if now > dt else dt - now
days = interval.days
hours = interval.seconds // 3600
minutes = (interval.seconds - hours * 3600) // 60
seconds = interval.seconds - hours * 3600 - minutes * 60
print('您输入的时间与现在间隔：{}天{}小时{}分钟{}秒'.format(days, hours, minutes, seconds))

请输入一个时间，形如 2019-01-30 08:30:09 what
输入不符合要求，请输入一个时间，形如 2019-01-30 08:30:09 2019-01-22 06:15:03
您输入的时间与现在间隔：8天15小时47分钟8秒


In [9]:
# TASK 2.1
# 创建识别电话的正则表达式
import re

phoneRegex = re.compile(r'^1\d{10}$')
while True:
    phone = input('请输入11位手机号：')
    mo = phoneRegex.search(phone)
    if mo is not None:
        print('您的手机号是:', phone)
        break
    else:
        print('输入不符合要求，', end='')
        continue

请输入11位手机号：what
输入不符合要求，请输入11位手机号：13800
输入不符合要求，请输入11位手机号：13800138000
您的手机号是: 13800138000


In [10]:
# TASK 2.2
# 创建识别邮箱的正则表达式
emailRegex = re.compile(r'[a-zA-Z0-9_-]+@[a-zA-Z0-9_-]+\.com$')
while True:
    email = input('请输入邮箱，形如 xxxxxxx@xxx.com：')
    mo = emailRegex.search(email)
    if mo is not None:
        print('您的邮箱是:', email)
        break
    else:
        print('输入不符合要求，', end='')
        continue

请输入邮箱，形如 xxxxxxx@xxx.com：what
输入不符合要求，请输入邮箱，形如 xxxxxxx@xxx.com：mymail@126
输入不符合要求，请输入邮箱，形如 xxxxxxx@xxx.com：mymail@126.com
您的邮箱是: mymail@126.com


In [12]:
# TASK 3
import requests

headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'}
response = requests.get('https://www.baidu.com', headers=headers)
response.encoding = "utf-8"
html = response.text
picRegex = re.compile(r'src="//(.+\.png)"')
herfs = picRegex.findall(html)

for herf in herfs:
    img_name = herf.split('/')[-1]
    img_file = requests.get('https://{}'.format(herf), headers=headers).content
    with open(img_name, 'wb') as f:
        f.write(img_file)
print('DOWNLOAD TASK SUC!')

DOWNLOAD TASK SUC!
