# 场景一 目标站点网页分析

In [5]:
## 任务一 向站点发送请求

### 步骤 1	导入网页请求库requests

# requests是Python中的HTTP库，在导入requests库之前，需确认在Python中已安装。
import requests
from requests.exceptions import RequestException


### 步骤 2	配置请求信息


# 通过requests.get(url,headers)方法请求网页，其中传入的参数是url和headers。
# 	url：目标站点地址信息；
# 	headers：浏览器信息，若不添加headers信息，服务器无法识别浏览器信息，则将该请求视为非法请求，无法获取正常的响应结果。最后打印出状态码status_code的返回结果。注意：每个浏览器的请求信息不同，需要根据实际情况传入该参数信息。
url = 'https://movie.douban.com/subject/27119724/comments?sort=new_score&status=P'
headers = {
        'User-Agent':'Mozilla/5.0(Macintosh;Intel Mac OS X 10_14_6)AppleWebKit/537.36(KHTML, like Gecko)Chrome/79.0.3945.130Safari/537.36' }
response = requests.get(url,headers = headers)
print(response.status_code)


## 任务二获取网页内容


# 获取网页内容。
# 	requests.get()方法请求返回参数text获取网页源代码内容。
html = response.text
print(type(response.text))


## 任务三 网页结构 解析


# 请根据网页内容在下表中填写采集数据字段用户名、评论时间、评论内容的标签信息：
# 字段	标签名称	标签类型
# user		
# time		
# comment		

# 【参考答案】
# 字段	标签名称	标签类型
# user	<a>	Null
# time	<span>	comment-time
# comment	<span>	short


## 任务四 构造网页获取函数


# 构造网页获取函数。
# 将以上代码封装为函数，以便于多次调用，自定义函数名称为get_page()，将url作为传入参数。在函数体中，使用if条件语句判断响应状态，若状态码为正常，则返回网页内容；若网页请求失败，则返回None。
def get_page(url):
    headers = {
        'User-Agent':'Mozilla/5.0(Macintosh;Intel Mac OS X 10_14_6)AppleWebKit/537.36(KHTML, like Gecko)Chrome/79.0.3945.130Safari/537.36'
        }
    try:
        response = requests.get(url,headers=headers)
        if response.status_code == 200:
            return response.text
        return None
    except RequestException:
        return None

200
<class 'str'>


# 场景二

## 任务一 网页解析

### 步骤 1	导入BeautifulSoup库

In [2]:

# 本次实验采用BeautifulSoup库对网页进行解析，相比于直接提取和正则表达式匹配的方法，
# 使用BeautifulSoup更加简洁、高效，导入前需确认已安装BeautifulSoup库。
from bs4 import BeautifulSoup


## 步骤 2	解析网页

In [6]:

# 声明BeautifulSoup对象为soup，并传入html代码和解析方式，BeautifulSoup提供以下4种解析库：
# 解析器	使用方法	说明
# Python标准库	BeautifulSoup(makeup,”html.parser”)	Python的内置标准库
# lxml HTML解析器	BeautifulSoup(makeup,”lxml”)	常用HTML代码解析器
# lxml XML解析器	BeautifulSoup(makeup,”xml”)	唯一支持XML的解析器
# html5lib	BeautifulSoup(makeup,”html5lib”)	以浏览器的方式解析文档并生成HTML5格式的文档
soup = BeautifulSoup(html, 'lxml')


## 任务二 网页数值提取

### 步骤 1	提取数据

In [7]:
# 	find_all()：查找标签，通过class_设置标签类型，class_="comment"和attrs={"class": "comment-info"}两种写法实现结果相同。
# 注意：class在Python中属于关键字， 因此class需要添加下划线。

items = soup.find_all("div", class_="comment")
for item in items:
    info = item.find_all(name='span', attrs={"class": "comment-info"})
    for users in info:
        user = users.find_all(name='a', attrs={"class": ""})[0].string


### 步骤 2	生成格式化数据

In [8]:

# 	yield{}：yield方法为生成器，迭代地将数据返回结果写入字典中；
# 	strip()：strip方法用于去掉字符串中多余的空格。
def parse_page(html):
    soup = BeautifulSoup(html, 'lxml')
    items = soup.find_all("div", class_="comment")
    for item in items:
        info = item.find_all(name='span', attrs={"class": "comment-info"})
        for users in info:
            user = users.find_all(name='a', attrs={"class": ""})[0].string
        yield{
            "user":user,
            "time":item.find_all(name='span', attrs={"class":"comment-time"})[0].string.strip(),
            "comment":item.find_all(name='span', attrs={"class":"short"})[0].string
        }


In [10]:
for i in parse_page(html):
    print(i)

<generator object parse_page at 0x7f09c22b67d0>
