# 5分钟学会Python爬取整个网站

爬取网站的步骤：
1. 设定爬取目标
   * 目标网站：我自己的博客，疯狂的蚂蚁 http://www.crazyant.net
   * 目标数据：所有博客文章的 - 链接、标题、标签
2. 分析目标网站
   * 待爬取页面：http://www.crazyant.net/page/1  ~ http://www.crazyant.net/page/24
   * 待爬取数据：HTML元素中的h2 class=entry-title下的超链接的标题和链接，标签列表
3. 批量下载HTML
   * 使用requests库实现下载，官网：https://2.python-requests.org//zh_CN/latest/user/quickstart.html
4. 实现HTML解析，得到目标数据
   * 使用BeautifulSoup库解析，官网：https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/
5. 将结果数据存储
   * 可以使用json.dumps把这个数据序列化存储

In [1]:
import requests
from bs4 import BeautifulSoup
import pprint
import json

## 1、下载所有的页面的HTML

In [2]:
def download_all_htmls():
    """
    下载所有列表页面的HTML，用于后续的分析
    """
    htmls = []
    for idx in range(26):
        url = f"http://www.crazyant.net/page/{idx+1}"
        print("craw html:", url)
        r = requests.get(url)
        if r.status_code != 200:
            raise Exception("error")
        htmls.append(r.text)
    return htmls

In [3]:
# 执行爬取
htmls = download_all_htmls()

craw html: http://www.crazyant.net/page/1
craw html: http://www.crazyant.net/page/2
craw html: http://www.crazyant.net/page/3
craw html: http://www.crazyant.net/page/4
craw html: http://www.crazyant.net/page/5
craw html: http://www.crazyant.net/page/6
craw html: http://www.crazyant.net/page/7
craw html: http://www.crazyant.net/page/8
craw html: http://www.crazyant.net/page/9
craw html: http://www.crazyant.net/page/10
craw html: http://www.crazyant.net/page/11
craw html: http://www.crazyant.net/page/12
craw html: http://www.crazyant.net/page/13
craw html: http://www.crazyant.net/page/14
craw html: http://www.crazyant.net/page/15
craw html: http://www.crazyant.net/page/16
craw html: http://www.crazyant.net/page/17
craw html: http://www.crazyant.net/page/18
craw html: http://www.crazyant.net/page/19
craw html: http://www.crazyant.net/page/20
craw html: http://www.crazyant.net/page/21
craw html: http://www.crazyant.net/page/22
craw html: http://www.crazyant.net/page/23
craw html: http://ww

In [4]:
htmls[0]

'<!DOCTYPE html><html lang="zh-CN" class="no-js"><head><meta charset="UTF-8"><meta name="viewport" content="width=device-width"><link rel="profile" href="http://gmpg.org/xfn/11"><link rel="pingback" href="http://www.crazyant.net/xmlrpc.php"> <!--[if lt IE 9]> <script src="http://www.crazyant.net/wp-content/themes/twentyfifteen/js/html5.js"></script> <![endif]--> <script>(function(html){html.className = html.className.replace(/\\bno-js\\b/,\'js\')})(document.documentElement);</script> <title>蚂蚁学Python &#8211; 生命不止，探索不息</title><link rel=\'dns-prefetch\' href=\'//cdn.bibblio.org\' /><link rel="alternate" type="application/rss+xml" title="蚂蚁学Python &raquo; Feed" href="http://www.crazyant.net/feed" /><link rel="alternate" type="application/rss+xml" title="蚂蚁学Python &raquo; 评论Feed" href="http://www.crazyant.net/comments/feed" /> <!-- managing ads with Advanced Ads – https://wpadvancedads.com/ --><script>advanced_ads_ready=function(){var fns=[],listener,doc=typeof document==="object"&&documen

## 2、解析HTML得到数据

In [5]:
def parse_single_html(html):
    """
    解析单个HTML，得到数据
    @return list({"link", "title", [label]})
    """
    soup = BeautifulSoup(html, 'html.parser')
    articles = soup.find_all("article")
    datas = []
    for article in articles:
        # 查找超链接
        title_node = (
            article
            .find("h2", class_="entry-title")
            .find("a")
        )
        title = title_node.get_text()
        link = title_node["href"]
        
        # 查找标签列表
        tag_nodes = (
            article
            .find("footer", class_="entry-footer")
            .find("span", class_="tags-links")
            .find_all("a")
        )
        tags = [tag_node.get_text() for tag_node in tag_nodes]
        datas.append(
            {"title":title, "link":link, "tags":tags}
        )
    return datas



In [6]:
pprint.pprint(parse_single_html(htmls[0]))

[{'link': 'http://www.crazyant.net/2585.html',
  'tags': ['python', 'tensorflow', '特征工程'],
  'title': 'Tensorflow怎样接收变长列表特征'},
 {'link': 'http://www.crazyant.net/2583.html',
  'tags': ['pandas', 'python', '数据分析'],
  'title': 'Pandas实现数据的合并concat'},
 {'link': 'http://www.crazyant.net/2574.html',
  'tags': ['pandas', 'python', '数据分析'],
  'title': 'Pandas的Index索引有什么用途？'},
 {'link': 'http://www.crazyant.net/2564.html',
  'tags': ['python', '机器学习'],
  'title': '机器学习常用数据集大全'},
 {'link': 'http://www.crazyant.net/2561.html',
  'tags': ['数据分析'],
  'title': '一个数据科学家的修炼路径'},
 {'link': 'http://www.crazyant.net/2546.html',
  'tags': ['pandas', 'python', '数据分析'],
  'title': 'Pandas的axis参数怎么理解？'},
 {'link': 'http://www.crazyant.net/2541.html',
  'tags': ['pandas', 'python', '数据分析'],
  'title': 'Pandas怎样处理字符串？'},
 {'link': 'http://www.crazyant.net/2536.html',
  'tags': ['pandas', 'python', '数据分析'],
  'title': 'Pandas怎样对数据进行排序？'},
 {'link': 'http://www.crazyant.net/2534.html',
  'tags': ['python', '机器学

In [7]:
# 执行所有的HTML页面的解析
all_datas = []
for html in htmls:
    all_datas.extend(parse_single_html(html))

In [8]:
all_datas

[{'title': 'Tensorflow怎样接收变长列表特征',
  'link': 'http://www.crazyant.net/2585.html',
  'tags': ['python', 'tensorflow', '特征工程']},
 {'title': 'Pandas实现数据的合并concat',
  'link': 'http://www.crazyant.net/2583.html',
  'tags': ['pandas', 'python', '数据分析']},
 {'title': 'Pandas的Index索引有什么用途？',
  'link': 'http://www.crazyant.net/2574.html',
  'tags': ['pandas', 'python', '数据分析']},
 {'title': '机器学习常用数据集大全',
  'link': 'http://www.crazyant.net/2564.html',
  'tags': ['python', '机器学习']},
 {'title': '一个数据科学家的修炼路径',
  'link': 'http://www.crazyant.net/2561.html',
  'tags': ['数据分析']},
 {'title': 'Pandas的axis参数怎么理解？',
  'link': 'http://www.crazyant.net/2546.html',
  'tags': ['pandas', 'python', '数据分析']},
 {'title': 'Pandas怎样处理字符串？',
  'link': 'http://www.crazyant.net/2541.html',
  'tags': ['pandas', 'python', '数据分析']},
 {'title': 'Pandas怎样对数据进行排序？',
  'link': 'http://www.crazyant.net/2536.html',
  'tags': ['pandas', 'python', '数据分析']},
 {'title': 'CTR预估：(标签-权重)列表类特征怎么输入到模型？',
  'link': 'http://www.crazyant.

In [9]:
len(all_datas)

240

## 3、将结果输出存储
1. MySQL
2. 本地JSON文件

In [10]:
with open("all_article_links.json", "w") as fout:
    for data in all_datas:
        fout.write(json.dumps(data, ensure_ascii=False)+"\n")