# 爬取下厨房的数据

本节课，我们通过爬取下厨房网站的菜谱数据，继续进行爬虫技术的学习。

In [18]:
import requests  # 导入request 库
# 指定请求头
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'}
# 获取网页源代码
url = 'https://www.xiachufang.com/category/957/'
res = requests.get(url,headers = headers)
res.encoding='utf-8'
#print(res.text)

接下来，我们对请求回来的文本数据，使用lxml进行解析。

lxml是python的一个解析库，支持HTML和XML的解析，支持XPath解析方式，而且解析效率非常高。

XPath，全称**XML Path Language**，即**XML**路径语言，它是一门在XML文档中查找信息的语言，它最初是用来搜寻XML文档的，但是它同样适用于HTML文档的搜索

XPath的选择功能十分强大，它提供了非常简明的路径选择表达式，另外，它还提供了超过100个内建函数，用于字符串、数值、时间的匹配以及节点、序列的处理等，几乎所有我们想要定位的节点，都可以用XPath来选择

In [4]:
from lxml import etree
parsed = etree.HTML(res.text)
# parsed("") 这里给出路径

XPath 的调用语法为：`parsed.xpath('your xpath')`

爬虫的时候，记得拦截广告，不然可能会出现结果为空的情况。


这里我们可以使用谷歌浏览器的`Adblock Plus`插件进行广告的拦截。


此外，这里我们还需要下载`XpathHelper`插件,方便后续的分析。

下面来看一个例子

In [10]:
parsed.xpath('/html/body/div[4]/div/div/div[1]/div[1]/div/div[2]/div[2]/div[2]/ul/li[1]/div/div/p[1]/a/text()')

['\n                家常红烧鱼\n            ']

In [8]:
parsed.xpath('//p/a[@href="/recipe/103739083/"]/text()')

['\n                家常红烧鱼\n            ']

Xpath 是一个路径语言

- `/`单个斜杠是绝对路径

- `//`两个斜杠是相对路径

- `[]`方括号是属性条件
- `@`是选择属性

通过修改最后一个路径，我们还可以获取菜谱的href属性，也就是菜谱编号。

In [7]:
parsed.xpath('//p/a[@href="/recipe/103739083/"]/@href')

['/recipe/103739083/']

更多的时候，我们关心如何拿到该页面所有的菜谱信息。

去掉[1]就可以出现所有的菜名

In [12]:
parsed.xpath('/html/body/div[4]/div/div/div[1]/div[1]/div/div[2]/div[2]/div[2]/ul/li/div/div/p[1]/a/text()')

['\n                家常红烧鱼\n            ',
 '\n                红烧鱼这么做，也太好吃了叭！\n            ',
 '\n                就是这个味儿！上海熏鱼（爆鱼）\n            ',
 '\n                啤酒鱼\n            ',
 '\n                庆有余年 三春珍脍鱼\n            ',
 '\n                不用煎的红烧黄花鱼\n            ',
 '\n                清蒸黄花鱼\n            ',
 '\n                外婆秘方 红烧鱼 啥鱼都可以这么做\n            ',
 '\n                草鱼最好吃的做法，比酸菜鱼水煮鱼还好吃\n            ',
 '\n                好吃到舔盘的焗鱼\n            ',
 '\n                三文鱼田园豆浆炖杂蔬【健康一锅端】\n            ',
 '\n                糖醋鱼（家庭简易版）\n            ',
 '\n                啫啫鱼煲\n            ',
 '\n                清蒸桂花鱼(鳜鱼)，适合各种清蒸鱼，超级鲜美\n            ',
 '\n                黄老师豆瓣鱼\n            ',
 '\n                蒜蓉沙巴鱼\n            ',
 '\n                奶白鲫鱼豆腐汤|一条鱼最后的温柔\n            ',
 '\n                番茄鱼\n            ',
 '\n                家常红烧鱼\n            ',
 '\n                红烧鱼\n            ']

上面的路径过于冗杂了，我们采用相对路径写法

In [150]:
parsed.xpath('//div[@class="ing-recipe"]/div[@class="normal-recipe-list"]/ul/li/div/div/p[1]/a/text()')

['\n                家常红烧鱼\n            ',
 '\n                红烧鱼这么做，也太好吃了叭！\n            ',
 '\n                就是这个味儿！上海熏鱼（爆鱼）\n            ',
 '\n                庆有余年 三春珍脍鱼\n            ',
 '\n                啤酒鱼\n            ',
 '\n                酸汤沸腾鱼\n            ',
 '\n                清蒸黄花鱼\n            ',
 '\n                外婆秘方 红烧鱼 啥鱼都可以这么做\n            ',
 '\n                三文鱼田园豆浆炖杂蔬【健康一锅端】\n            ',
 '\n                草鱼最好吃的做法，比酸菜鱼水煮鱼还好吃\n            ',
 '\n                好吃到舔盘的焗鱼\n            ',
 '\n                糖醋鱼（家庭简易版）\n            ',
 '\n                啫啫鱼煲\n            ',
 '\n                清蒸桂花鱼(鳜鱼)，适合各种清蒸鱼，超级鲜美\n            ',
 '\n                黄老师豆瓣鱼\n            ',
 '\n                长江边的清蒸刀鱼\n            ',
 '\n                奶白鲫鱼豆腐汤|一条鱼最后的温柔\n            ',
 '\n                番茄鱼\n            ',
 '\n                家常红烧鱼\n            ',
 '\n                糖醋鱼\n            ']

对于菜谱编号也是一样的

In [151]:
parsed.xpath('//div[@class="ing-recipe"]/div[@class="normal-recipe-list"]/ul/li/div/div/p[1]/a/@href')

['/recipe/103739083/',
 '/recipe/103937238/',
 '/recipe/104142227/',
 '/recipe/104249869/',
 '/recipe/104160466/',
 '/recipe/104447137/',
 '/recipe/103905117/',
 '/recipe/104249026/',
 '/recipe/103918425/',
 '/recipe/104379986/',
 '/recipe/104032774/',
 '/recipe/103903105/',
 '/recipe/104150365/',
 '/recipe/104119887/',
 '/recipe/103899579/',
 '/recipe/104445971/',
 '/recipe/104105293/',
 '/recipe/103982088/',
 '/recipe/261654/',
 '/recipe/100343976/']

接下来，我们使用DataFrame将其保存起来

In [14]:
import requests  # 导入request 库
# 指定请求头
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'}
# 获取网页源代码
res = requests.get('https://www.xiachufang.com/category/957/',headers = headers)
res.encoding='utf-8'
#print(res.text)

from lxml import etree
parsed = etree.HTML(res.text)
# parsed("") 这里给出路径

name = parsed.xpath('/html/body/div[4]/div/div/div[1]/div[1]/div/div[2]/div[2]/div[2]/ul/li/div/div/p[1]/a/text()')
href = parsed.xpath('//div[@class="ing-recipe"]/div[@class="normal-recipe-list"]/ul/li/div/div/p[1]/a/@href')

import pandas as pd 
recipe = pd.DataFrame()
recipe['name'] = name
recipe['href'] = href
recipe
# recipe.to_csv('recipe.csv',index = False,encoding = 'gbk')  # 这一行可以把数据存储到csv文件中

Unnamed: 0,name,href
0,\n 家常红烧鱼\n,/recipe/103739083/
1,\n 红烧鱼这么做，也太好吃了叭！\n,/recipe/103937238/
2,\n 就是这个味儿！上海熏鱼（爆鱼）\n,/recipe/104142227/
3,\n 啤酒鱼\n,/recipe/104160466/
4,\n 庆有余年 三春珍脍鱼\n,/recipe/104249869/
5,\n 不用煎的红烧黄花鱼\n,/recipe/104455204/
6,\n 清蒸黄花鱼\n,/recipe/103905117/
7,\n 外婆秘方 红烧鱼 啥鱼都可以这么做\n,/recipe/104249026/
8,\n 草鱼最好吃的做法，比酸菜鱼水煮鱼还好吃\n ...,/recipe/104379986/
9,\n 好吃到舔盘的焗鱼\n,/recipe/104032774/


# 实现翻页功能

通过上面的代码，我们已经爬取了一个页面的菜谱信息，接下来我们学习如何翻页     

In [29]:
res = requests.get(url+'?page='+str(2),headers = headers)
res.text

'\n<!DOCTYPE html>\n\n<!--[if lt IE 7]> <html class="lt-ie9 lt-ie8 lt-ie7 show-anti-ie"> <![endif]-->\n<!--[if IE 7]>    <html class="lt-ie9 lt-ie8 show-anti-ie"> <![endif]-->\n<!--[if IE 8]>    <html xmlns:ng="http://angularjs.org" class="lt-ie9"> <![endif]-->\n<!--[if gt IE 8]><!--> <html class=""> <!--<![endif]-->\n\n<head>\n  \n\n\n    <title>鱼的家常做法大全_鱼怎么做好吃_菜谱大全_第2页_下厨房</title>\n\n    <meta charset="utf-8">\n    <meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1">\n    <meta http-equiv="content-type" content="text/html;charset=UTF-8;">\n    <meta http-equiv="x-dns-prefetch-control" content="on">\n    <link rel="dns-prefetch" href="//s.chuimg.com">\n    <meta name="viewport" content="width=device-width">\n    <meta name="apple-itunes-app" content="app-id=460979760"/>\n    <meta name="baidu-site-verification" content="HNAbHIxmbo" />\n    <meta name="renderer" content="webkit">\n    <link href="https://s.chuimg.com/favicon.ico" rel="shortcut icon">\n\n    <script src="//dup

In [27]:
import requests  # 导入request 库
# 指定请求头
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'}
# 获取网页源代码
url = 'https://www.xiachufang.com/category/957/'
data_all = pd.DataFrame()
for i in range(1,11+1):
    res = requests.get(url+'?page='+str(i),headers = headers)
    res.encoding='utf-8'
    #print(res.text)

    from lxml import etree
    parsed = etree.HTML(res.text)
    # parsed("") 这里给出路径

    name = parsed.xpath('/html/body/div[4]/div/div/div[1]/div[1]/div/div[2]/div[2]/div[2]/ul/li/div/div/p[1]/a/text()')
    href = parsed.xpath('//div[@class="ing-recipe"]/div[@class="normal-recipe-list"]/ul/li/div/div/p[1]/a/@href')

    import pandas as pd 
    recipe = pd.DataFrame()
    recipe['name'] = name
    recipe['href'] = href
    data_all = pd.concat([data_all,recipe],ignore_index = True)
data_all
# recipe.to_csv('recipe.csv',index = False,encoding = 'gbk')

Unnamed: 0,name,href
0,\n 家常红烧鱼\n,/recipe/103739083/
1,\n 红烧鱼这么做，也太好吃了叭！\n,/recipe/103937238/
2,\n 就是这个味儿！上海熏鱼（爆鱼）\n,/recipe/104142227/
3,\n 啤酒鱼\n,/recipe/104160466/
4,\n 庆有余年 三春珍脍鱼\n,/recipe/104249869/
5,\n 不用煎的红烧黄花鱼\n,/recipe/104455204/
6,\n 清蒸黄花鱼\n,/recipe/103905117/
7,\n 外婆秘方 红烧鱼 啥鱼都可以这么做\n,/recipe/104249026/
8,\n 草鱼最好吃的做法，比酸菜鱼水煮鱼还好吃\n ...,/recipe/104379986/
9,\n 好吃到舔盘的焗鱼\n,/recipe/104032774/


# 评论爬取和异步加载

下面我们来爬取，评论数据，在其中我们学习异步加载的知识。

In [277]:
import requests  # 导入request 库
# 指定请求头
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'}
# 获取网页源代码
page = 1
data_all = pd.DataFrame()
while True:
    res = requests.get('https://www.xiachufang.com/recipe/100458895/questions/?order=hot&page='+str(page),headers = headers)
    res.encoding='utf-8'
    #print(res.text)
    from lxml import etree
    parsed = etree.HTML(res.text)
    # parsed("") 这里给出路径
    nickname = parsed.xpath('//div[@class="right-top info"]/a/text()') # 用户名
    href =  parsed.xpath('//div[@class="right-top info"]/a/@href')  # 
    
    comment = parsed.xpath('//div[@class="right-bottom"]')
    comment = [com.text.split()[0] for com in comment]
    
    time =  parsed.xpath('//div[@class="right-top info"]/span')
    time = [t.text.split()[0] for t in time]
    
    
    vote = parsed.xpath('//div[@class="right-top info"]/span/div/span/span/text()')
    
    
    
    
    
    data = pd.DataFrame()
    data['nickname'] = nickname
    data['href'] = href
    data['comment'] = comment
    data['time'] = time
    data['vote'] = vote
    

    data_all = pd.concat([data_all,data],   ignore_index = False)


    if res.text.find('暂无最热的留言') == -1:
        page = page +1
    else:
        break
data_all
# recipe.to_csv('recipe.csv',index = False,encoding = 'gbk')

Unnamed: 0,nickname,href,comment,time,vote
0,爱做的菜,/cook/133830416/,其实，做酸菜鱼应该首先在腌鱼之前发料酒，大葱，盐，姜片，腌鱼时间在10-15分钟，腌鱼时间不...,11个月前,65
1,唯美女与美食不可辜负,/cook/113042499/,为什么要换一个砂锅,3年前,4
2,神秘的一个我,/cook/135151498/,我就喜欢这种直接上调料包的！,1个月前,3
3,涩涩寂寞,/cook/132034856/,妹子婚否？春暖花开，万物复苏，咱们谈谈人生理想？,1年前,2
4,洋阿,/cook/115385675/,感觉做的不错！收藏啦😊,3年前,1
5,SuperMJ,/cook/115393974/,鱼要腌多久啊？,3年前,1
6,拉菲尔z,/cook/105057475/,酸菜鱼的另一个调包料是哪个？我把那粉未与液体包一起倒进去的,3年前,1
7,Bye 過去,/cook/103855563/,我总是提前把鱼头剁开熬汤一个小时左右,2年前,1
8,叶落知秋_7szb,/cook/119581713/,打算这个周末就试试，谢谢分享。,2年前,1
9,手机用户2109_i3um,/cook/120580250/,表达不清晰，逻辑有问题,2年前,1
