# Intro of Web Scraping with Python

# Task01 Using of Request-Get

# 1.requests.get

requests库的基本应用，首先是 `requests.get`

我们的目的是爬取出python之禅
![python2.jpg](https://img-blog.csdnimg.cn/20200419153528894.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQ0MzE1OTg3,size_16,color_FFFFFF,t_70)

一个网络爬虫程序最普遍的过程：

1. 访问站点；
2. 定位所需的信息；
3. 得到并处理信息。

In [4]:
import requests
url = 'https://www.python.org/dev/peps/pep-0020/'
res = requests.get(url)
text = res.text
text



**These are raw material**

Quote：
可以看到返回的其实就是开发者工具下Elements的内容，只不过是字符串类型，接下来我们要用python的内置函数find来定位“python之禅”的索引，然后从这段字符串中取出它

通过观察网站，我们可以发现这段话在一个特殊的容器中，通过审查元素，使用快捷键Ctrl+shift+c快速定位到这段话也可以发现这段话包围在pre标签中，因此我们可以由这个特定用find函数找出具体内容

<pre> 标签可定义预格式化的文本。被包围在 <pre> 标签 元素中的文本通常会保留空格和换行符。而文本也会呈现为等宽字体。

In [5]:
## 爬取python之禅并存入txt文件

with open('zon_of_python.txt', 'w') as f:
    f.write(text[text.find('<pre')+28:text.find('</pre>')-1])
print(text[text.find('<pre')+28:text.find('</pre>')-1])

Beautiful is better than ugly.
Explicit is better than implicit.
Simple is better than complex.
Complex is better than complicated.
Flat is better than nested.
Sparse is better than dense.
Readability counts.
Special cases aren't special enough to break the rules.
Although practicality beats purity.
Errors should never pass silently.
Unless explicitly silenced.
In the face of ambiguity, refuse the temptation to guess.
There should be one-- and preferably only one --obvious way to do it.
Although that way may not be obvious at first unless you're Dutch.
Now is better than never.
Although never is often better than *right* now.
If the implementation is hard to explain, it's a bad idea.
If the implementation is easy to explain, it may be a good idea.
Namespaces are one honking great idea -- let's do more of those!


**上述手动操作可以被简化**

利用python自带的`urllib`完成以上操作：

In [6]:
import urllib
url = 'https://www.python.org/dev/peps/pep-0020/'
res = urllib.request.urlopen(url).read().decode('utf-8')
print(res[res.find('<pre')+28:res.find('</pre>')-1])

Beautiful is better than ugly.
Explicit is better than implicit.
Simple is better than complex.
Complex is better than complicated.
Flat is better than nested.
Sparse is better than dense.
Readability counts.
Special cases aren't special enough to break the rules.
Although practicality beats purity.
Errors should never pass silently.
Unless explicitly silenced.
In the face of ambiguity, refuse the temptation to guess.
There should be one-- and preferably only one --obvious way to do it.
Although that way may not be obvious at first unless you're Dutch.
Now is better than never.
Although never is often better than *right* now.
If the implementation is hard to explain, it's a bad idea.
If the implementation is easy to explain, it may be a good idea.
Namespaces are one honking great idea -- let's do more of those!


**Note:**

urllib是python3的标准库，包含了很多基本功能，比如向网络请求数据、处理cookie、自定义请求头等，显然，就代码量而言，urllib的工作量比Requests要大，而且看起来也不甚简洁

# 2. requests.post

我们先以金山词霸为例，由于有道翻译百度翻译谷歌翻译都有加密。

首先进入金山词霸首页http://www.iciba.com/ 

然后打开开发者工具下的“Network”，翻译一段话，比如刚刚我们爬到的第一句话“Beautiful is better than ugly.”

点击翻译后可以发现Name下多了一项请求方法是POST的数据，点击Preview可以发现数据中有我们想要的翻译结果

![translate1.png](https://img-blog.csdnimg.cn/20200419154510995.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQ0MzE1OTg3,size_16,color_FFFFFF,t_70)

我们目前需要用到的两部分信息是Request Headers中的User-Agent，和From Data


![translate3.jpg](https://img-blog.csdnimg.cn/20200419153622374.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQ0MzE1OTg3,size_16,color_FFFFFF,t_70)


![translate2.jpg](https://img-blog.csdnimg.cn/20200419153638173.png)

接下来我们利用金山词霸来翻译我们刚刚爬出来的python之禅

In [13]:
import requests
def translate(word):
    url="http://fy.iciba.com/ajax.php?a=fy"

    data={
        'f': 'auto',
        't': 'auto',
        'w': word,
    }
    
    headers={
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36',
    }#User-Agent会告诉网站服务器，访问者是通过什么工具来请求的，如果是爬虫请求，一般会拒绝，如果是用户浏览器，就会应答。
    response = requests.post(url,data=data,headers=headers)     #发起请求
    json_data=response.json()   #获取json数据
    #print(json_data)
    return json_data
    
def run(word):    
    result = translate(word)['content']['out']   
    print(result)
    return result

def main():
    with open('zon_of_python.txt') as f:
        zh = [run(word) for word in f]

    with open('zon_of_python_zh-CN.txt', 'w') as g:
        for i in zh:
            g.write(i + '\n')
            
if __name__ == '__main__':
    main()

 美丽胜过丑陋。
 外显优于内隐..
 简单胜于复杂。
 复杂胜于复杂。
 平比嵌套好..
 疏而不密..
 可读性计数。
 特殊情况不足以打破规则。
 尽管实用性胜过纯度。
 错误永远不应该悄悄地过去。
除非有明确的沉默。
 面对暧昧，拒绝猜测的诱惑..
 应该有一种----最好只有一种----明显的办法来做到这一点。
 虽然这种方式一开始可能不明显，除非你是荷兰人。
 现在总比永远好。
虽然从来没有比现在更好。
 如果实施很难解释，那是个坏主意。
 如果实现很容易解释，这可能是个好主意。
 命名空间是一个伟大的想法-让我们做更多的这些！


## 若也打印json_data

In [14]:
import requests
def translate(word):
    url="http://fy.iciba.com/ajax.php?a=fy"

    data={
        'f': 'auto',
        't': 'auto',
        'w': word,
    }
    
    headers={
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36',
    }#User-Agent会告诉网站服务器，访问者是通过什么工具来请求的，如果是爬虫请求，一般会拒绝，如果是用户浏览器，就会应答。
    response = requests.post(url,data=data,headers=headers)     #发起请求
    json_data=response.json()   #获取json数据
    print(json_data)
    return json_data
    
def run(word):    
    result = translate(word)['content']['out'] 
    print(result)
    return result

def main():
    with open('zon_of_python.txt') as f:
        zh = [run(word) for word in f]

    with open('zon_of_python_zh-CN.txt', 'w') as g:
        for i in zh:
            g.write(i + '\n')
            
if __name__ == '__main__':
    main()

{'status': 1, 'content': {'from': 'en-EU', 'to': 'zh-CN', 'vendor': 'wps', 'out': ' 美丽胜过丑陋。', 'ciba_use': '来自机器翻译。', 'ciba_out': '', 'err_no': 0}}
 美丽胜过丑陋。
{'status': 1, 'content': {'from': 'en-EU', 'to': 'zh-CN', 'vendor': 'wps', 'out': ' 外显优于内隐..', 'ciba_use': '来自机器翻译。', 'ciba_out': '', 'err_no': 0}}
 外显优于内隐..
{'status': 1, 'content': {'from': 'en-EU', 'to': 'zh-CN', 'vendor': 'wps', 'out': ' 简单胜于复杂。', 'ciba_use': '来自机器翻译。', 'ciba_out': '', 'err_no': 0}}
 简单胜于复杂。
{'status': 1, 'content': {'from': 'en-EU', 'to': 'zh-CN', 'vendor': 'wps', 'out': ' 复杂胜于复杂。', 'ciba_use': '来自机器翻译。', 'ciba_out': '', 'err_no': 0}}
 复杂胜于复杂。
{'status': 1, 'content': {'from': 'en-EU', 'to': 'zh-CN', 'vendor': 'wps', 'out': ' 平比嵌套好..', 'ciba_use': '来自机器翻译。', 'ciba_out': '', 'err_no': 0}}
 平比嵌套好..
{'status': 1, 'content': {'from': 'en-EU', 'to': 'zh-CN', 'vendor': 'wps', 'out': ' 疏而不密..', 'ciba_use': '来自机器翻译。', 'ciba_out': '', 'err_no': 0}}
 疏而不密..
{'status': 1, 'content': {'from': 'en-EU', 'to': 'zh-CN', 'vendo

# 3. Request.get 进阶：爬取豆瓣电影

**1. 仅名称**

In [22]:
import requests

def get_data(url, page_start, page_limit):
    headers = {
        'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36'
    }# 告诉服务器请求访问的是客户端是什么
    data = {
        'type':'movice',
        'tag': '经典',
        'sort': 'recommend',
        'page_limit': page_limit,
        'page_start': page_start
    }
    response = requests.get(url, params=data, headers=headers)
    
    json_data = response.json()
    result = []
    for item in json_data['subjects']:
        print(item['title'])
        
def run():
    url = 'https://movie.douban.com/j/search_subjects'
    for i in range(5):
        get_data(url, i * 20, 20)
        
if __name__ == '__main__':
    run()

肖申克的救赎
霸王别姬
阿甘正传
这个杀手不太冷
千与千寻
泰坦尼克号
盗梦空间
疯狂动物城
美丽人生
忠犬八公的故事
三傻大闹宝莱坞
海上钢琴师
楚门的世界
摔跤吧！爸爸
星际穿越
辛德勒的名单
大话西游之大圣娶亲
寻梦环游记
怦然心动
放牛班的春天
机器人总动员
龙猫
当幸福来敲门
无间道
熔炉
大话西游之月光宝盒
少年派的奇幻漂流
触不可及
飞屋环游记
哈利·波特与魔法石
末代皇帝
蝙蝠侠：黑暗骑士
哈尔的移动城堡
教父
让子弹飞
素媛
天空之城
活着
头号玩家
罗马假日
看不见的客人
控方证人
海蒂和爷爷
狮子王
指环王3：王者无敌
阿凡达
乱世佳人
猫鼠游戏
你的名字。
西西里的美丽传说
闻香识女人
指环王1：魔戒再现
釜山行
大闹天宫
V字仇杀队
喜剧之王
唐伯虎点秋香
指环王2：双塔奇兵
辩护人
黑客帝国
本杰明·巴顿奇事
超能陆战队
剪刀手爱德华
鬼子来了
十二怒汉
美丽心灵
功夫
请以你的名字呼唤我
穿条纹睡衣的男孩
禁闭岛
神偷奶爸
加勒比海盗
哈利·波特与死亡圣器(下)
布达佩斯大饭店
死亡诗社
教父2
情书
蝴蝶效应
饮食男女
天使爱美丽
音乐之声
搏击俱乐部
窃听风暴
倩女幽魂
7号房的礼物
红海行动
拯救大兵瑞恩
钢琴家
致命魔术
天堂电影院
七宗罪
沉默的羔羊
血战钢锯岭
三块广告牌
两杆大烟枪
疯狂原始人
心灵捕手
小鞋子
驯龙高手
哈利·波特与阿兹卡班的囚徒


**2. 引入正则表达式**

In [None]:
import requests
import os

if not os.path.exists('image'):
     os.mkdir('image')

def parse_html(url):
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36"}
    res = requests.get(url, headers=headers)
    text = res.text
    item = []
    for i in range(25):
        text = text[text.find('alt')+3:]
        item.append(extract(text))
    return item
       
def extract(text):
    text = text.split('"')
    name = text[1]
    image = text[3]
    return name, image

def write_movies_file(item, stars):
    print(item)
    with open('douban_film.txt','a',encoding='utf-8') as f:
        f.write('排名：%d\t电影名：%s\n' % (stars, item[0]))
    r = requests.get(item[1])
    #print('r',r)
    with open('image/' + str(item[0]) + '.jpg', 'wb') as f:
        f.write(r.content)
        
def main():
    stars = 1
    for offset in range(0, 250, 25):
        url = 'https://movie.douban.com/top250?start=' + str(offset) +'&filter='
        for item in parse_html(url):
            write_movies_file(item, stars)
            stars += 1

if __name__ == '__main__':
    main()

('肖申克的救赎', 'https://img3.doubanio.com/view/photo/s_ratio_poster/public/p480747492.jpg')
('霸王别姬', 'https://img3.doubanio.com/view/photo/s_ratio_poster/public/p2561716440.jpg')
('阿甘正传', 'https://img9.doubanio.com/view/photo/s_ratio_poster/public/p1484728154.jpg')
('这个杀手不太冷', 'https://img3.doubanio.com/view/photo/s_ratio_poster/public/p511118051.jpg')
('美丽人生', 'https://img3.doubanio.com/view/photo/s_ratio_poster/public/p2578474613.jpg')
('泰坦尼克号', 'https://img9.doubanio.com/view/photo/s_ratio_poster/public/p457760035.jpg')
('千与千寻', 'https://img1.doubanio.com/view/photo/s_ratio_poster/public/p2557573348.jpg')
('辛德勒的名单', 'https://img3.doubanio.com/view/photo/s_ratio_poster/public/p492406163.jpg')
('盗梦空间', 'https://img9.doubanio.com/view/photo/s_ratio_poster/public/p513344864.jpg')
('忠犬八公的故事', 'https://img9.doubanio.com/view/photo/s_ratio_poster/public/p524964016.jpg')
('海上钢琴师', 'https://img9.doubanio.com/view/photo/s_ratio_poster/public/p2574551676.jpg')
('楚门的世界', 'https://img3.doubanio.com/

('杀人回忆', 'https://img1.doubanio.com/view/photo/s_ratio_poster/public/p2326071698.jpg')
('狩猎', 'https://img1.doubanio.com/view/photo/s_ratio_poster/public/p1546987967.jpg')
('幽灵公主', 'https://img9.doubanio.com/view/photo/s_ratio_poster/public/p1613191025.jpg')
('请以你的名字呼唤我', 'https://img3.doubanio.com/view/photo/s_ratio_poster/public/p2505525050.jpg')
('哈利·波特与死亡圣器(下)', 'https://img3.doubanio.com/view/photo/s_ratio_poster/public/p917846733.jpg')
('阳光灿烂的日子', 'https://img9.doubanio.com/view/photo/s_ratio_poster/public/p2564685215.jpg')
('入殓师', 'https://img1.doubanio.com/view/photo/s_ratio_poster/public/p594972928.jpg')
('重庆森林', 'https://img3.doubanio.com/view/photo/s_ratio_poster/public/p792381411.jpg')
('第六感', 'https://img9.doubanio.com/view/photo/s_ratio_poster/public/p2220184425.jpg')
('小森林 夏秋篇', 'https://img3.doubanio.com/view/photo/s_ratio_poster/public/p2564498893.jpg')
('7号房的礼物', 'https://img9.doubanio.com/view/photo/s_ratio_poster/public/p1816276065.jpg')
('消失的爱人', 'https://img9.doub

('房间', 'https://img9.doubanio.com/view/photo/s_ratio_poster/public/p2259715855.jpg')
('恐怖游轮', 'https://img9.doubanio.com/view/photo/s_ratio_poster/public/p462470694.jpg')
('惊魂记', 'https://img9.doubanio.com/view/photo/s_ratio_poster/public/p1021883305.jpg')
('奇迹男孩', 'https://img1.doubanio.com/view/photo/s_ratio_poster/public/p2507709428.jpg')
('魔女宅急便', 'https://img3.doubanio.com/view/photo/s_ratio_poster/public/p456676352.jpg')
('人工智能', 'https://img1.doubanio.com/view/photo/s_ratio_poster/public/p792257137.jpg')
('雨中曲', 'https://img9.doubanio.com/view/photo/s_ratio_poster/public/p1612355875.jpg')
('疯狂的石头', 'https://img3.doubanio.com/view/photo/s_ratio_poster/public/p712241453.jpg')
('罗生门', 'https://img1.doubanio.com/view/photo/s_ratio_poster/public/p2564689879.jpg')
('海洋', 'https://img9.doubanio.com/view/photo/s_ratio_poster/public/p2559581324.jpg')
('爱在午夜降临前', 'https://img1.doubanio.com/view/photo/s_ratio_poster/public/p2074715729.jpg')
('终结者2：审判日', 'https://img9.doubanio.com/view/phot

## 后记

关于：
- Http
- html, css
- Json
- Ajax与 JavaScript
- 相关 API

不在此展开，可以参考 Reference 中 Task01_ref