# 爬虫的BS4方法

# 1. Beautiful Soup基本概念

① 对于一个网页来说，都有一定的特殊结构和层级关系，而且很多节点都有id或class来作区分，Beautiful Soup 就是借助网页的结构和属性等特性来解析网页，Beautiful Soup是一个强大的解析工具。

② Beautiful Soup(简称BS4)提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。

③ Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。

④ Beautiful Soup已成为和lxml、html6lib一样出色的python解释器，为用户灵活地提供不同的解析策略或强劲的速度。

⑤ Beautiful Soup不需要考虑编码方式，除非文档没有指定，重新原始编码方式即可。

⑥ BeautifulSoup()第一个参数是字符串，即传给BeautiflSoup对象，第二个参数为解析器类型(这里使用xlml)，此时完成BeautifulSoup对象的初始化。然后，将这个对象赋值给soup变量，接下来，就可以调用soup的各个方法和属性解析这串HTML代码了。

# 2. BS4获取节点名字和节点内容

In [2]:
from bs4 import BeautifulSoup
soup = BeautifulSoup('<p>Hello</p>','lxml')
print(soup.p)
print(type(soup.p))    # 类型是标签
print(soup.p.string)   # 获取节点中内容
print(soup.p.name)     # 获取节点名字

<p>Hello</p>
<class 'bs4.element.Tag'>
Hello
p


In [12]:
html_str = '''
<!DOCTYPE html>
<html>
<head>
<meta charset = "utf-8">
<title>(runoob.com)</title>    
</head>  
<body>
<div id = 1>
 <div id = 2>
  <h1>biaoti1</h1>
  <h2>biaoti2</h2>
  <h3>biaoti3</h3>
  <p>duanluo1</p>
 </div>
 <br>
 <br>
 <br>
 <p id=1>duanluo2</p>
 <p id=2>duanluo3</p>
 <p id=3>duanluo4</p>
 <p>duanluo5</p>
 <a href='//www.runoob.com'>link</a>
 <h1>biaoti4</h1>
</div>
</body>
</html>
'''

from bs4 import BeautifulSoup
soup = BeautifulSoup(html_str,'lxml')
print(soup.p)
print(type(soup.p))    # 类型是标签
print(soup.p.string)   # 获取节点内容
print(soup.p.name)     # 获取节点名字
print(soup.div.attrs)  # 获取节点标签所属信息
print(soup.div.attrs['id'])
# 每个节点可能有多个属性，比如id和class等，选择这个节点元素后，可以调用attrs获取所有属性      

# 方法一：
# print(soup.html.contents)  # 打印内容

'''
# 方法二：
print(soup.html.children)  # 生成一个迭代器
for child in soup.html.children:    # 打印内容，等价于 print(soup.html.contents)
    print(child)
'''

print(soup.body.div.div.h1)   # 原来用 \，现在用.进入下一层

<p>duanluo1</p>
<class 'bs4.element.Tag'>
duanluo1
p
{'id': '1'}
1
<h1>biaoti1</h1>


# 3. BS4获取父节中内容

In [15]:
html_str = '''
<!DOCTYPE html>
<html>
<head>
<meta charset = "utf-8">
<title>(runoob.com)</title    
</head>  
<body>
<div id = 1>
 <div id = 2>
  <h1>biaoti1</h1>
  <h2>biaoti2</h2>
  <h3>biaoti3</h3>
  <p>duanluo1</p>
 </div><br>
 <br>
 <br>
 <p id=1>duanluo2</p>
 <p id=2>duanluo3</p>
 <p id=3>duanluo4</p>
 <p>duanluo5</p>
 <a href='//www.runoob.com'>link</a>
 <h1>biaoti4</h1>
</div>
</body>
</html>
'''

from bs4 import BeautifulSoup
soup = BeautifulSoup(html_str,'lxml')
print(list(soup.br.previous_siblings)) # 上面的节点,把换行符也提出来了
print(soup.br.previous_sibling)        # 这里</div><br>为一行，如果为两行，就把前一个的换行符打印出来了

[<div id="2">
<h1>biaoti1</h1>
<h2>biaoti2</h2>
<h3>biaoti3</h3>
<p>duanluo1</p>
</div>, '\n']
<div id="2">
<h1>biaoti1</h1>
<h2>biaoti2</h2>
<h3>biaoti3</h3>
<p>duanluo1</p>
</div>


# 4. BS4获取筛选后内容

## 4.1 find_all筛选

In [23]:
html_str = '''
<!DOCTYPE html>
<html>
<head>
<meta charset = "utf-8">
<title>(runoob.com)</title    
</head>  
<body>
<div id = 1 class='a'>
 <div id = 2 class='b'>
  <h1>biaoti1</h1>
  <h2>biaoti2</h2>
  <h3>biaoti3</h3>
  <p>duanluo1</p>
 </div> <br>                
 <br>
 <br>
 <p id=1>duanluo2</p>
 <p id=2>duanluo3</p>
 <p id=3>duanluo4</p>
 <p>duanluo5</p>
 <a href='//www.runoob.com'>link</a>
 <h1>biaoti4</h1>
</div>
</body>
</html>
'''

from bs4 import BeautifulSoup
import re

soup = BeautifulSoup(html_str,'lxml')
print(type(soup.find_all(name='p')[0]))
print("\n")
print(soup.find_all(name='p',attrs={"id":2}))   # 查询条件，通过标签筛选
print("\n")
print(soup.find_all(id=1))     
print("\n")
print(soup.find_all(class_='a'))  # class是关键字，因此提取的时候要加一个下划线
print("\n")
print(soup.find_all(name='p'))
print(soup.find_all(name='p',text=re.compile('.*?1')))   # 把文本中有1的筛选出来       

<class 'bs4.element.Tag'>


[<p id="2">duanluo3</p>]


[<div class="a" id="1">
<div class="b" id="2">
<h1>biaoti1</h1>
<h2>biaoti2</h2>
<h3>biaoti3</h3>
<p>duanluo1</p>
</div> <br/>
<br/>
<br/>
<p id="1">duanluo2</p>
<p id="2">duanluo3</p>
<p id="3">duanluo4</p>
<p>duanluo5</p>
<a href="//www.runoob.com">link</a>
<h1>biaoti4</h1>
</div>, <p id="1">duanluo2</p>]


[<div class="a" id="1">
<div class="b" id="2">
<h1>biaoti1</h1>
<h2>biaoti2</h2>
<h3>biaoti3</h3>
<p>duanluo1</p>
</div> <br/>
<br/>
<br/>
<p id="1">duanluo2</p>
<p id="2">duanluo3</p>
<p id="3">duanluo4</p>
<p>duanluo5</p>
<a href="//www.runoob.com">link</a>
<h1>biaoti4</h1>
</div>]


[<p>duanluo1</p>, <p id="1">duanluo2</p>, <p id="2">duanluo3</p>, <p id="3">duanluo4</p>, <p>duanluo5</p>]
[<p>duanluo1</p>]


## 4.2 select筛选

In [20]:
from bs4 import BeautifulSoup
import requests 

# 用bs4解析xtml
url = 'https://www.cnblogs.com/pinard/default.html?page={}'
urls = [url.format(i) for i in range(1,15)]
print(len(urls))  # 一共14页的数据

'''
. 表示 对class属性进行筛选
# 表示 对id属性进行筛选
'''

# 获得每页的标题
for url in urls:
    response = requests.get(url)                  # 请求
    soup = BeautifulSoup(response.text,'lxml')     
    blogs = soup.select('.day')  # 一页里面day属性有十个，有十篇博客
    for blog in blogs:                        
        title = blog.select('.postTitle a span')[0].get_text()  # 点.表示class属性   .postTitle 表示 class = postTitle         
        abstract = blog.select('.postCon div')[0].get_text()    # 空格表示下一级
        date = blog.select('.postDesc')[0].get_text() 
        read = blog.select('.post-view-count')[0].get_text() 
        pinlun = blog.select('.post-comment-count')[0].get_text() 
        tuijian = blog.select('.post-digg-count')[0].get_text() 
        
        print(title,abstract,date,read,pinlun,tuijian) 

14

        XGBoost类库使用小结
     
摘要：在XGBoost算法原理小结中，我们讨论了XGBoost的算法原理，这一片我们讨论如何使用XGBoost的Python类库，以及一些重要参数的意义和调参思路。 本文主要参考了XGBoost的Python文档 和 XGBoost的参数文档。 1. XGBoost类库概述 XGBoost除了支持Pyth        阅读全文
 posted @ 2019-07-01 18:10
刘建平Pinard
阅读(30645)
评论(115)
推荐(14)

    编辑

 阅读(30645) 评论(115) 推荐(14)

        XGBoost算法原理小结
     
摘要：在两年半之前作过梯度提升树(GBDT)原理小结，但是对GBDT的算法库XGBoost没有单独拿出来分析。虽然XGBoost是GBDT的一种高效实现，但是里面也加入了很多独有的思路和方法，值得单独讲一讲。因此讨论的时候，我会重点分析和GBDT不同的地方。 本文主要参考了XGBoost的论文和陈天奇的P        阅读全文
 posted @ 2019-06-05 20:36
刘建平Pinard
阅读(35409)
评论(181)
推荐(18)

    编辑

 阅读(35409) 评论(181) 推荐(18)

        机器学习中的矩阵向量求导(五) 矩阵对矩阵的求导
     
摘要：在矩阵向量求导前4篇文章中，我们主要讨论了标量对向量矩阵的求导，以及向量对向量的求导。本文我们就讨论下之前没有涉及到的矩阵对矩阵的求导，还有矩阵对向量，向量对矩阵求导这几种形式的求导方法。 本文所有求导布局以分母布局为准，为了适配矩阵对矩阵的求导，本文向量对向量的求导也以分母布局为准，这和前面的文章        阅读全文
 posted @ 2019-05-27 17:19
刘建平Pinard
阅读(19180)
评论(16)
推荐(6)

    编辑

 阅读(19180) 评论(16) 推荐(6)

        机器学习中的矩阵向量求导(四) 矩阵向量求导链式法则
     
摘要：在机器学习中的矩阵向量求导(三) 矩阵向量求导之微分法中，我们讨论了使用微分法来求解矩阵向量求导的方法。但是很多时候，求导的自变量和因变量


        贝叶斯个性化排序(BPR)算法小结
     
摘要：在矩阵分解在协同过滤推荐算法中的应用中，我们讨论过像funkSVD之类的矩阵分解方法如何用于推荐。今天我们讲另一种在实际产品中用的比较多的推荐算法:贝叶斯个性化排序(Bayesian Personalized Ranking, 以下简称BPR)，它也用到了矩阵分解，但是和funkSVD家族却有很多不        阅读全文
 posted @ 2018-06-03 16:22
刘建平Pinard
阅读(28640)
评论(40)
推荐(10)

    编辑

 阅读(28640) 评论(40) 推荐(10)

        特征工程之特征预处理
     
摘要：在前面我们分别讨论了特征工程中的特征选择与特征表达，本文我们来讨论特征预处理的相关问题。主要包括特征的归一化和标准化，异常特征样本清洗与样本数据不平衡问题的处理。 1. 特征的标准化和归一化 由于标准化和归一化这两个词经常混用，所以本文不再区别标准化和归一化，而通过具体的标准化和归一化方法来区别具体        阅读全文
 posted @ 2018-05-26 20:23
刘建平Pinard
阅读(21223)
评论(106)
推荐(23)

    编辑

 阅读(21223) 评论(106) 推荐(23)

        特征工程之特征表达
     
摘要：在特征工程之特征选择中，我们讲到了特征选择的一些要点。本篇我们继续讨论特征工程，不过会重点关注于特征表达部分，即如果对某一个特征的具体表现形式做处理。主要包括缺失值处理，特殊的特征处理比如时间和地理位置处理，离散特征的连续化和离散化处理，连续特征的离散化处理几个方面。 1. 缺失值处理 特征有缺失值        阅读全文
 posted @ 2018-05-19 22:39
刘建平Pinard
阅读(21563)
评论(100)
推荐(11)

    编辑

 阅读(21563) 评论(100) 推荐(11)

        特征工程之特征选择
     
摘要：特征工程是数据分析中最耗时间和精力的一部分工作，它不像算法和模型那样是确定的步骤，更多是工程上的经验和权衡。因此没有统一的方法。这里只是对一些常用的方法做一个总结。本文关注于特征选择部分。后面还有两篇会


        MCMC(二)马尔科夫链
     
摘要：MCMC(一)蒙特卡罗方法 MCMC(二)马尔科夫链 MCMC(三)MCMC采样和M-H采样 MCMC(四)Gibbs采样 在MCMC(一)蒙特卡罗方法中，我们讲到了如何用蒙特卡罗方法来随机模拟求解一些复杂的连续积分或者离散求和的方法，但是这个方法需要得到对应的概率分布的样本集，而想得到这样的样本集        阅读全文
 posted @ 2017-03-28 15:05
刘建平Pinard
阅读(70707)
评论(120)
推荐(34)

    编辑

 阅读(70707) 评论(120) 推荐(34)

        MCMC(一)蒙特卡罗方法
     
摘要：MCMC(一)蒙特卡罗方法 MCMC(二)马尔科夫链 MCMC(三)MCMC采样和M-H采样 MCMC(四)Gibbs采样 作为一种随机采样方法，马尔科夫链蒙特卡罗（Markov Chain Monte Carlo，以下简称MCMC）在机器学习,深度学习以及自然语言处理等领域都有广泛的应用，是很多复        阅读全文
 posted @ 2017-03-27 15:08
刘建平Pinard
阅读(103468)
评论(79)
推荐(40)

    编辑

 阅读(103468) 评论(79) 推荐(40)

        受限玻尔兹曼机（RBM）原理总结
     
摘要：在前面我们讲到了深度学习的两类神经网络模型的原理，第一类是前向的神经网络，即DNN和CNN。第二类是有反馈的神经网络，即RNN和LSTM。今天我们就总结下深度学习里的第三类神经网络模型：玻尔兹曼机。主要关注于这类模型中的受限玻尔兹曼机（Restricted Boltzmann Machine，以下简        阅读全文
 posted @ 2017-03-11 09:50
刘建平Pinard
阅读(31957)
评论(41)
推荐(14)

    编辑

 阅读(31957) 评论(41) 推荐(14)

        LSTM模型与前向反向传播算法
     
摘要：在循环神经网络(RNN)模型与前向反向传播算法中，我们总结了对RNN模型做了总结。由于RNN也有梯度消失的问题，因此很难处理长序列的数据，大牛们对RNN做了改进，得到了RNN的特例


        谱聚类（spectral clustering）原理总结
     
摘要：谱聚类（spectral clustering）是广泛使用的聚类算法，比起传统的K-Means算法，谱聚类对数据分布的适应性更强，聚类效果也很优秀，同时聚类的计算量也小很多，更加难能可贵的是实现起来也不复杂。在处理实际的聚类问题时，个人认为谱聚类是应该首先考虑的几种算法之一。下面我们就对谱聚类的算法        阅读全文
 posted @ 2016-12-29 11:11
刘建平Pinard
阅读(195285)
评论(267)
推荐(48)

    编辑

 阅读(195285) 评论(267) 推荐(48)

        用scikit-learn学习DBSCAN聚类
     
摘要：在DBSCAN密度聚类算法中，我们对DBSCAN聚类算法的原理做了总结，本文就对如何用scikit-learn来学习DBSCAN聚类做一个总结，重点讲述参数的意义和需要调参的参数。 1. scikit-learn中的DBSCAN类 在scikit-learn中，DBSCAN算法类为sklearn.c        阅读全文
 posted @ 2016-12-24 18:54
刘建平Pinard
阅读(83593)
评论(75)
推荐(9)

    编辑

 阅读(83593) 评论(75) 推荐(9)

        DBSCAN密度聚类算法
     
摘要：DBSCAN(Density-Based Spatial Clustering of Applications with Noise，具有噪声的基于密度的聚类方法)是一种很典型的密度聚类算法，和K-Means，BIRCH这些一般只适用于凸样本集的聚类相比，DBSCAN既可以适用于凸样本集，也可以适用        阅读全文
 posted @ 2016-12-22 16:32
刘建平Pinard
阅读(162325)
评论(73)
推荐(30)

    编辑

 阅读(162325) 评论(73) 推荐(30)

        用scikit-learn学习BIRCH聚类
     
摘要：在BIRCH聚类算法原理中，我们对BIRCH聚类算法的原理做了总结，本文就对scikit-learn中BIRCH算法的使用


        感知机原理小结
     
摘要：感知机可以说是最古老的分类方法之一了，在1957年就已经提出。今天看来它的分类模型在大多数时候泛化能力不强，但是它的原理却值得好好研究。因为研究透了感知机模型，学习支持向量机的话会降低不少难度。同时如果研究透了感知机模型，再学习神经网络，深度学习，也是一个很好的起点。这里对感知机的原理做一个小结。         阅读全文
 posted @ 2016-11-08 16:23
刘建平Pinard
阅读(35879)
评论(96)
推荐(25)

    编辑

 阅读(35879) 评论(96) 推荐(25)

        日志和告警数据挖掘经验谈
     
摘要：最近参与了了一个日志和告警的数据挖掘项目，里面用到的一些思路在这里和大家做一个分享。 项目的需求是收集的客户系统一个月300G左右的的日志和告警数据做一个整理，主要是归类(Grouping)和关联(Correlation)，从而得到告警和日志的一些统计关系，这些统计结果可以给一线支持人员参考。 得到        阅读全文
 posted @ 2016-11-07 17:23
刘建平Pinard
阅读(14607)
评论(17)
推荐(4)

    编辑

 阅读(14607) 评论(17) 推荐(4)

        scikit-learn 逻辑回归类库使用小结
     
摘要：之前在逻辑回归原理小结这篇文章中，对逻辑回归的原理做了小结。这里接着对scikit-learn中逻辑回归类库的我的使用经验做一个总结。重点讲述调参中要注意的事项。 1. 概述 在scikit-learn中，与逻辑回归有关的主要是这3个类。LogisticRegression， LogisticReg        阅读全文
 posted @ 2016-11-06 19:41
刘建平Pinard
阅读(40275)
评论(62)
推荐(11)

    编辑

 阅读(40275) 评论(62) 推荐(11)

        逻辑回归原理小结
     
摘要：逻辑回归是一个分类算法，它可以处理二元分类以及多元分类。虽然它名字里面有“回归”两个字，却不是一个回归算法。那为什么有“回归”这个误导性的词呢？个人认为，虽然逻辑回归是分类模型，但是它的原理里面却残留着回