# 场景 一 二

In [3]:
# 场景一 目标站点网页分析

## 任务一 向站点发送请求

### 步骤 1	导入网页请求库requests

# requests是Python中的HTTP库，在导入requests库之前，需确认在Python中已安装。
import requests
from requests.exceptions import RequestException


### 步骤 2	配置请求信息


# 通过requests.get(url,headers)方法请求网页，其中传入的参数是url和headers。
# 	url：目标站点地址信息；
# 	headers：浏览器信息，若不添加headers信息，服务器无法识别浏览器信息，则将该请求视为非法请求，无法获取正常的响应结果。最后打印出状态码status_code的返回结果。注意：每个浏览器的请求信息不同，需要根据实际情况传入该参数信息。
url = 'https://movie.douban.com/subject/27119724/comments?sort=new_score&status=P'
headers = {
        'User-Agent':'Mozilla/5.0(Macintosh;Intel Mac OS X 10_14_6)AppleWebKit/537.36(KHTML, like Gecko)Chrome/79.0.3945.130Safari/537.36' }
response = requests.get(url,headers = headers)
print(response.status_code)


## 任务二获取网页内容


# 获取网页内容。
# 	requests.get()方法请求返回参数text获取网页源代码内容。
html = response.text
print(type(response.text))


## 任务三 网页结构 解析


# 请根据网页内容在下表中填写采集数据字段用户名、评论时间、评论内容的标签信息：
# 字段	标签名称	标签类型
# user		
# time		
# comment		

# 【参考答案】
# 字段	标签名称	标签类型
# user	<a>	Null
# time	<span>	comment-time
# comment	<span>	short


## 任务四 构造网页获取函数


# 构造网页获取函数。
# 将以上代码封装为函数，以便于多次调用，自定义函数名称为get_page()，将url作为传入参数。在函数体中，使用if条件语句判断响应状态，若状态码为正常，则返回网页内容；若网页请求失败，则返回None。
def get_page(url):
    headers = {
        'User-Agent':'Mozilla/5.0(Macintosh;Intel Mac OS X 10_14_6)AppleWebKit/537.36(KHTML, like Gecko)Chrome/79.0.3945.130Safari/537.36'
        }
    try:
        response = requests.get(url,headers=headers)
        if response.status_code == 200:
            return response.text
        return None
    except RequestException:
        return None

# 场景二

## 任务一 网页解析

### 步骤 1	导入BeautifulSoup库


# 本次实验采用BeautifulSoup库对网页进行解析，相比于直接提取和正则表达式匹配的方法，
# 使用BeautifulSoup更加简洁、高效，导入前需确认已安装BeautifulSoup库。
from bs4 import BeautifulSoup


## 步骤 2	解析网页


# 声明BeautifulSoup对象为soup，并传入html代码和解析方式，BeautifulSoup提供以下4种解析库：
# 解析器	使用方法	说明
# Python标准库	BeautifulSoup(makeup,”html.parser”)	Python的内置标准库
# lxml HTML解析器	BeautifulSoup(makeup,”lxml”)	常用HTML代码解析器
# lxml XML解析器	BeautifulSoup(makeup,”xml”)	唯一支持XML的解析器
# html5lib	BeautifulSoup(makeup,”html5lib”)	以浏览器的方式解析文档并生成HTML5格式的文档
soup = BeautifulSoup(html, 'lxml')


## 任务二 网页数值提取

### 步骤 1	提取数据

# 	find_all()：查找标签，通过class_设置标签类型，class_="comment"和attrs={"class": "comment-info"}两种写法实现结果相同。
# 注意：class在Python中属于关键字， 因此class需要添加下划线。

items = soup.find_all("div", class_="comment")
for item in items:
    info = item.find_all(name='span', attrs={"class": "comment-info"})
    for users in info:
        user = users.find_all(name='a', attrs={"class": ""})[0].string


### 步骤 2	生成格式化数据


# 	yield{}：yield方法为生成器，迭代地将数据返回结果写入字典中；
# 	strip()：strip方法用于去掉字符串中多余的空格。
def parse_page(html):
    soup = BeautifulSoup(html, 'lxml')
    items = soup.find_all("div", class_="comment")
    for item in items:
        info = item.find_all(name='span', attrs={"class": "comment-info"})
        for users in info:
            user = users.find_all(name='a', attrs={"class": ""})[0].string
        yield{
            "user":user,
            "time":item.find_all(name='span', attrs={"class":"comment-time"})[0].string.strip(),
            "comment":item.find_all(name='span', attrs={"class":"short"})[0].string
        }






200
<class 'str'>


# 场景 三 采集数据导入数据库

## 任务一 数据库配置

In [None]:

# 启动MondoDB数据库。
# 启动数据库前请确认已安装MongoDB数据库，并已配置好系统环境变量。具体安装操作请参考附件《基于华为云的1+X项目应用开发软件安装参考手册》。
# 进入命令提示符界面输入以下命令：
# 	--dpath:指定数据库路径。
# mongod –dpath ‘数据库路径’
# 数据库启动后打开浏览器，输入数据库地址信息，如：localhost：27017，默认端口号为27017，
# 若页面信息提示：It looks like you are trying to access MongoDB over HTTP on the native driver port，则数据库启动成功。


## 任务二 导入pymongo库。

In [1]:
# pymongo库用于Python操作MongoDB数据库，导入之前需确认已正确安装pymongo库。
import pymongo

# 创建链接。
# 	pymongo.MongoClient():创建数据库连接对象，并传入数据库地址信息；
# 	mongo_url:数据库地址；
# 	mongo_db:数据库名称；
# 	mongo_table:表名称。
mongo_url = "118.25.57.174"
mongo_db = "movie"
mongo_table = "comment"
client = pymongo.MongoClient(mongo_url)
db = client[mongo_db]




In [4]:
# 创建数据库写入函数。
# 使用insert()方法向数据库中插入数据。
def save_to_mongo(content):
    if db[mongo_table].insert(content):
        print('Successful', content)
        return True
    return False
for i in parse_page(html):
    save_to_mongo(i)

Successful {'user': '谋杀游戏机', 'time': '2019-08-31', 'comment': '完全不是超英片，就是一个以普通底层小市民为主角的犯罪片，大概也是这些年漫威DC所有电影里人性剖析最深刻的一部。影片对哥谭市有着出色的氛围营造，阴暗潮湿的道路，满目垃圾的街头，一触即发的暴动气息，这样的环境，再加上悲惨的身世、糟糕的一天，足以把一个老实的可怜人逼向深渊，从理性善良一点点变得麻木和疯癫，每一步转变都真实可信。杰昆·菲尼克斯瘦骨嶙峋的样子让人心疼，毫无疑问，影帝级的表演，“希斯·莱杰后再无小丑”的话可以收回了。', '_id': ObjectId('5f068f2f755284fc0c521465')}
Successful {'user': '小小明月几时有', 'time': '2019-09-04', 'comment': '漫威:制造一个大坏蛋，首先要给他超高的智慧，强大的肉体，绝顶的战斗技能，对了，还有无限宝石\n\n DC: 给他一个糟糕的人生吧', '_id': ObjectId('5f068f2f755284fc0c521466')}
Successful {'user': 'ryan', 'time': '2019-09-02', 'comment': '30年前，制造小丑需要推进化学池；\n30年后，制造小丑只需要推进社会。', '_id': ObjectId('5f068f2f755284fc0c521467')}
Successful {'user': '今天道', 'time': '2019-10-03', 'comment': '我在hk看的。听到了后面的掌声，有点害怕。', '_id': ObjectId('5f068f2f755284fc0c521468')}
Successful {'user': '桃桃林林', 'time': '2019-10-03', 'comment': '9分，菲尼克斯值得一座奥斯卡，表演太带情绪了，以无法抑制的狂笑表达痛苦，竟然笑到让人难过。影片与之前大部分超级英雄电影截然不同，没有特效、没有奇观、甚至没太多动作场面。而是以略复古的方式，讲小丑为什么会成为那个小丑。其实是挺严肃的一部片子，包括去关注社会问题。片子还挺邪恶的，会让你有些同情这个小丑。另外，这片应该是无法续集

  after removing the cwd from sys.path.
