# 小学期·爬虫笔记（一）

## 终极目标：爬取豆瓣的电视剧

<div class="alert alert-info">
<strong>目标</strong>：学习将网页爬下来并处理
</div>

### urllib库

在Python3.x中，我们可以使用 **urllib** 这个组件抓取网页，urllib是一个URL处理包，这个包中集合了一些处理URL的模块：
* urllib.request：用来打开和读取URL
* urllib.error：包含一些urllib.request产生的错误，可以用try进行捕捉处理
* urllib.parse：包含了一些解析URLs的方法
* urllib.robotparser：用来解析robots.txt文本文件。它提供了一个单独的RobotFileParser类，通过该类提供的can_fetch()方法测试爬虫是否可以下载一个页面

#### urllib.request

In [1]:
# 载入库
from urllib import request
from urllib import error

可以用**help(request)**来查看request的用法
* 可以用request.urlopen()
* 相比于直接用urlopen打开url，Reuqest类能够构建更为完善的请求
* 用request.Request()来构建网页请求

In [2]:
#  打开豆瓣页面，以Rick and Mroity为例
#  url = "https://movie.douban.com/subject/11537954/"
url = "https://movie.douban.com/subject/11537954/"
req = request.Request(url)
try:
    response = request.urlopen(req)
except error.URLError as e:
    print(e.reason)
    
#  读取主页（read）并解码（decode）
douban_html = response.read()
douban_html = douban_html.decode("utf-8")

<div class="alert alert-success" role="alert">用 print(douban_html) 查看结果</div>

In [None]:
# your code here

### Requests库

Requests库是基于urllib编写的http库，比urllib更加的简洁、易读，[Requests官方文档](http://docs.python-requests.org/zh_CN/latest/user/quickstart.html)

In [3]:
import requests

HTML请求类型**get**，**post**，**put**，**delete**，**head**，**options**
* 用**requests.get()**获取某个网页

In [4]:
#  打开豆瓣页面
url = "https://movie.douban.com/subject/11537954/"
r = requests.get(url)

* r.encoding获取编码信息
* r.content获取编码
* r.text文本内容

In [None]:
# your coode here

***
## 对得到的页面结果进行处理

### BeautifulSoup库
BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库.[官方文档](https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html)

In [5]:
from bs4 import BeautifulSoup

In [6]:
#  传递爬取的豆瓣主页
soup = BeautifulSoup(douban_html,"lxml")

用 soup.head来查看文档head
* douban_head = soup.head

用soup.head.contents查看head的所有子节点
* print(douban_head.meta)

用**find_all()**查找想要的文档内容：
``` python
for tag in soup.find_all(True):
    print(tag.name)
```
也可通过正则表达式来精确查找

In [7]:
#  正则表达式
import re
#  找到所有以p为开头的标签
tag = soup.find_all(re.compile("^p"))
tag

[<p class="appintro-title">豆瓣</p>, <p class="qrcode">扫码直接下载</p>, <p class="">
 <span class="short">5.0。1.第三集人体内部之旅好宏大，巨型男体悬浮美利坚，顶住洛杉基。2.宅人体里的鼹鼠，开肠破肚掏糖果，克隆伯格怪物梗，这些平行宇宙都迷幻得令人兴奋。3.大面积科幻脑洞逼迫我想出一个吃声音迎接末日的故事。</span>
 </p>, <p class="">
 <span class="short">好好看啊好好看啊！！！！！看到制作人竟然是Dan Harmon果然啊妈呀！！！！哈哈哈哈哈哈哈哈哈哈哈！Awww Biiitch, i dunno what to say..哈哈哈哈</span>
 </p>, <p class="">
 <span class="short">这是我今年看过的最好的东西之一，在A站配着弹幕看，效果类似跑步、抽大麻，喝威士忌，睡漂亮小姑娘，专治抑郁和偏头痛。</span>
 </p>, <p class="">
 <span class="short">用屎尿屁的方式站在了碾压星际穿越盗梦空间的智商上热爱着这个缤纷血腥的世界。/9.2/第十集的结尾一定要好好想哦...</span>
 </p>, <p class="">
 <span class="short">有残暴恶趣味，有精彩反转，还有Rick Dance！惨了突然很期待有人把Rick Dance搬到广场舞上。《Futurama》之后最牛的科幻卡通剧集</span>
 </p>, <p class="spoiler-tip">这篇剧评可能有剧透</p>, <p class="spoiler-tip">这篇剧评可能有剧透</p>, <p class="spoiler-tip">这篇剧评可能有剧透</p>, <p class="spoiler-tip">这篇剧评可能有剧透</p>, <p class="pl">
                 &gt;
                 <a href="reviews">
                     更多剧评77篇
                 </a>
 </p>, <p class="discussion_lin

**find_all()**参数：find_all( name , attrs , recursive , text , **kwargs )

* name参数可查找所有tag为name的项目
* 对于其他关键词，可以进行指定以搜索，如find_all(id = 'info')，查找所有id为info的项目，herf = ""，查找链接为....
* 对于class，由于其为python保留字，搜索时应使用class_ = “xx”
* text，查找文本
* recursive，是否递归查找，默认为True

In [8]:
for item in soup.body.find_all(id="info",recursive=True):
    print(item)

<div id="info">
<span><span class="pl">导演</span>: <span class="attrs"><a href="/celebrity/1344761/" rel="v:directedBy">贾斯汀·罗兰</a></span></span><br/>
<span><span class="pl">编剧</span>: <span class="attrs"><a href="/celebrity/1344761/">贾斯汀·罗兰</a> / <a href="/celebrity/1306169/">丹·哈萌</a></span></span><br/>
<span class="actor"><span class="pl">主演</span>: <span class="attrs"><a href="/celebrity/1344761/" rel="v:starring">贾斯汀·罗兰</a> / <a href="/celebrity/1113456/" rel="v:starring">汤姆·肯尼</a> / <a href="/celebrity/1004763/" rel="v:starring">克里斯·帕内尔</a> / <a href="/celebrity/1027277/" rel="v:starring">斯宾瑟·格拉默</a> / <a href="/celebrity/1049516/" rel="v:starring">萨拉·乔克</a> / <a href="/celebrity/1326196/" rel="v:starring">凯瑞·华格伦</a></span></span><br/>
<span class="pl">类型:</span> <span property="v:genre">动画</span><br/>
<span class="pl">官方网站:</span> <a href="http://www.rickandmorty.com" rel="nofollow" target="_blank">www.rickandmorty.com</a><br/>
<span class="pl">制片国家/地区:</span> 美国<br/>
<span class="

上面即为该剧所有id为info的片段，可以看出，这个就是我们要找的电影的详细内容

### 提取信息及写入文件

分析网页源码，得到了如上包含电影信息的代码，接下来需要提取代码中的文本信息

In [16]:
# 获取信息的源码
info_html = soup.body.find(id="info",recursive=True)

In [20]:
# 获得文本
info_text = info_html.text
print(info_text)


导演: 贾斯汀·罗兰
编剧: 贾斯汀·罗兰 / 丹·哈萌
主演: 贾斯汀·罗兰 / 汤姆·肯尼 / 克里斯·帕内尔 / 斯宾瑟·格拉默 / 萨拉·乔克 / 凯瑞·华格伦
类型: 动画
官方网站: www.rickandmorty.com
制片国家/地区: 美国
语言: 英语
首播: 2013-12-02(美国)
季数: 1234
集数: 11
单集片长: 22分钟
又名: 瑞奇和莫迪 / 瑞克与莫蒂
IMDb链接: tt2861424



In [29]:
# 去除文本两端的空格
doc = info_text.strip( )

# 将文本按'\n'分段，放入列表中
doc_list = doc.split('\n')
print(doc_list)

['导演: 贾斯汀·罗兰', '编剧: 贾斯汀·罗兰 / 丹·哈萌', '主演: 贾斯汀·罗兰 / 汤姆·肯尼 / 克里斯·帕内尔 / 斯宾瑟·格拉默 / 萨拉·乔克 / 凯瑞·华格伦', '类型: 动画', '官方网站: www.rickandmorty.com', '制片国家/地区: 美国', '语言: 英语', '首播: 2013-12-02(美国)', '季数: 1234', '集数: 11', '单集片长: 22分钟', '又名: 瑞奇和莫迪 / 瑞克与莫蒂', 'IMDb链接: tt2861424']


得到装有信息的列表后，可以将其写入表格中（略去）

目前为止，已经得到了将豆瓣电影中单个页面包含的电影信息提取的方法，解下来需要考虑如何爬去豆瓣电影中的所有内容