# 爬虫代码实现笔记(一）：获取网页与分析页面元素
以爬取新浪网为例，学习网页爬虫与大数据采集与分析;此笔记根据网易云课堂《python网络爬虫实战》视频课程整理出来，而且已经根据新浪网最新的变化做出代码上的调整；

## 一、首先确认requests包与BeautifulSoup4包已安装
没有的话：<br>
pip install requests<br>
pip install BeautifulSoup4<br>
来完成安装

requests包是python用来处理http请求一个功能包，可以用来模拟浏览器向服务器发出http请求，并获取响应;<br>
而BeautifulSoup4可视为是一个能解析和封装一个html网页功能包，具体稍候再具体解释; 

In [37]:
import requests
from bs4 import BeautifulSoup
res=requests.get("http://news.sina.com.cn/china/") #用requests的get方法获取指定url的网页，并将其封装为一个Response对象
res.encoding="utf-8"
#print(res.text) #获取响应的html内容
print(type(res))

<class 'requests.models.Response'>


## 二、用BeautifulSoup解析网页元素
BeautifulSoup把整个html内容视为一个html文档树，把文档中的每个html元素视为一个节点，这样就能访问到你想访问到的指定元素了<br>
<img src="images/domTree.jpg" />

In [38]:
html_sample='\
<html> \
  <body> \
    <h1 id="title">hello,world!</h1> \
    <a href="#" class="link">this is link1</a> \
    <a href="# link2" class="link">this is link2</a> \
  </body> \
 </html>'

In [39]:
soup=BeautifulSoup(html_sample,"html.parser") #将html_sample解析为一个BeautifulSoup对象，并指定“html.parser”为BeautifulSoup的解析器

In [40]:
# print(soup.text)
print(type(soup))

<class 'bs4.BeautifulSoup'>


soup.text会去掉html中的元素标签，直接返回元素标签内文本；但若要获取特定元素标签的相关内容，则需要BeautifulSoup封装对象soup的select方法；

### 使用select找出含有h1与a标签的元素：

In [41]:
header=soup.select('h1')
alink=soup.select('a')

In [42]:
print(header) 
print(alink)

[<h1 id="title">hello,world!</h1>]
[<a class="link" href="#">this is link1</a>, <a class="link" href="# link2">this is link2</a>]


故可见，select方法输出为list类型数据，要获得具体的值，则可以使用索引;而要获得指定元素的文本值，则加上.text属性

In [43]:
print(header[0])
print(header[0].text)

<h1 id="title">hello,world!</h1>
hello,world!


In [44]:
for link in alink:
    #print(link)
    print(link.text)

this is link1
this is link2


### 取得指定属性的元素

使用selectr找出所有id为title的元素（id前面加#）

In [45]:
alink=soup.select('#title')
print(alink)

[<h1 id="title">hello,world!</h1>]


使用select找出所有class为link的元素（class前面加.）

In [46]:
for link in soup.select('.link'):
    print(link)

<a class="link" href="#">this is link1</a>
<a class="link" href="# link2">this is link2</a>


### 获取指定元素的指定属性值

In [47]:
for link in soup.select('.link'):
    print(link['href'])

#
# link2


获取的元素，其属性以键值对形态的字典类型数据表示:

In [48]:
a='<a href="www.baidu.com" qoo=123 abc="456">I am a link</a>'
soup2=BeautifulSoup(a,'html.parser')
link=soup2.select('a')
print(link[0]['href'])
print(link[0]['qoo'])
print(link[0]['abc'])

www.baidu.com
123
456


## 三、抓取新浪的新闻列表信息（以新浪国内新闻版块为例）

抓取新闻列表首先要分析每条新闻列表在网页中的位置，分析每条列表的网页上的特性是什么，这样才可以针对性地抓取；具体方法:<br>
1、打开chrome的开发者工具（右击页面，在弹出菜单中点击“检查”）后，载入新闻列表页，具体步骤如下：
<img src='images/1.jpg' /><br>
2、点击左上解“检查”工具，并用鼠标点击网页中每一项新闻标题上，观察其元素特征；<br>
<img src="images/2.jpg" /><br>
经过检查，发现每一新闻标题都是用一个样式为news-item的div包住的，所以就可以以此为依据，来定位并抓取每一个新闻标题及相关信息

In [49]:
res=requests.get("http://news.sina.com.cn/china/") #用requests的get方法获取指定url的网页，并将其封装为一个Response对象
res.encoding="utf-8"
soup=BeautifulSoup(res.text,'html.parser')
#print(soup.text)

In [50]:
for news in soup.select('.news-item'):
    #print(type(news))
    if len(news.select('h2'))>0:
        time=news.select('.time')[0].text #获取新闻的发布时间
        h2=news.select('h2')[0].text  #获取新闻的标题
        a=news.select('a')[0]['href']  #获取新闻的链接
        print(time,h2,a)

7月15日 17:19 中兴通讯：美国商务部解除对公司的禁令 http://news.sina.com.cn/s/2018-07-15/doc-ihfkffak0086286.shtml
7月15日 16:53 北京农展馆人工湖内野鸭接连死亡 尚不明确死因 http://news.sina.com.cn/c/2018-07-15/doc-ihfkffai9885256.shtml
7月15日 16:47 河南：高考生被录取后不入学 明年志愿填报数受限 http://news.sina.com.cn/c/2018-07-15/doc-ihfkffai9922935.shtml
7月15日 16:43 蔡英文党代会上左骂国民党右批大陆 网友：疯婆子 http://news.sina.com.cn/c/2018-07-15/doc-ihfkffai9939526.shtml
7月15日 16:40 这所“双一流”高校放大招：本科3年可毕业 http://news.sina.com.cn/c/2018-07-15/doc-ihfkffai9831978.shtml
7月15日 16:35 山东党报批公路像过山车：20多分钟限速值切换7次 http://news.sina.com.cn/c/2018-07-15/doc-ihfkffai9851357.shtml
7月15日 16:33 吉林一药企狂犬疫苗生产记录造假 涉事疫苗未上市 http://news.sina.com.cn/c/2018-07-15/doc-ihfkffai9785600.shtml
7月15日 16:27 长春长生生物科技公司违法生产狂犬病疫苗被查 http://news.sina.com.cn/c/2018-07-15/doc-ihfkffai9754836.shtml
7月15日 15:39 支书策划联名信向上级施压让自己连任 被严重警告 http://news.sina.com.cn/o/2018-07-15/doc-ihfkffai9498288.shtml
7月15日 15:36 年度重磅天象：7月27日火星迎十五年一遇“大冲” http://news.sina.com.cn/o/2018-07-15/doc-ihfkffai9475427.shtml
7月15日 15:23 华为被指要求员

## 四、取得新闻正文的相关内容

在新闻正文页中要获取正文标题、正文内容、时间、来源、评论等信息，那么首先还是要用到开发者工具；<br>
打开新闻正文页后，用开发者工具检查请求的正文页URL:<br>
<img src="images/3.jpg" /><br>
然后将查到的新闻正文URL获取正文响应：

In [51]:
res=requests.get('http://news.sina.com.cn/c/nd/2018-07-13/doc-ihfhfwmu3378104.shtml')
#res=requests.get('http://news.sina.com.cn/o/2018-07-14/doc-ihfhfwmv0619958.shtml')
res.encoding='utf-8'
soup=BeautifulSoup(res.text,'html.parser')
#print(soup.text)

用开发者工具，检查标题、日期、来源所在标签：<br>
<img src="images/4.jpg" />

In [52]:
print(soup.select('.main-title')[0].text)

北京市长陈吉宁会见美国特斯拉公司董事长马斯克


In [53]:
print(soup.select('.date-source .date')[0].text) #从.data-source指定元素开始，逐级取到.date指定的元素

2018年07月13日 06:34


In [54]:
print(soup.select('.date-source a')[0].text) #从.data-source指定元素开始，逐级取到a元素

新浪新闻综合


特别说明：因为源视频是2016年所录的，其中各种内容对应的元素标签和位置已发生变化，故获取的方式也发生了变化；所以，要针对不断的变化，代码上也要做出相应的变化；不过，为了全面了解BeautifulSoup4，这里把原来的时间与来源标签情况与获取方式说下：<br>
<img src='images/5.jpg' /><br>
对于原来的网页为何要这样处理稍做说明：<br>
1）取得时间时：因为原来的时间和来源，都在同一个大的span里，而这大的span又嵌套了二层下一级span，所以无法直接原来的方式直接用text属性分别取得时间和来源；但可以用contents属性来分别获取，因其返回的是一个内容列表，故要用[]索引指定内容；而strip()方法是去除文本前后特殊字符，这里是去掉文本末尾\t\t两个特殊转义字符<br>
2）取得来源时：soup.select中的'.time-source span a'是逐级取元素的意思，即：.time-source所指的元素的子元素span里的子元素a

## 五、时间字符串转换

In [55]:
from datetime import datetime
dtStr=soup.select('.date-source .date')[0].text
print(dtStr)
dt=datetime.strptime(dtStr,'%Y年%m月%d日 %H:%M') #将时间形式的字符串转为日期型
print(dt.strftime('%Y-%m-%d %H:%M')) #将日期型数据格式化为字符型

2018年07月13日 06:34
2018-07-13 06:34


## 六、新闻正文内容获取<br>
与之前同样的方法，用工发者开者检查正文所处标签：
<img src="images/6.jpg" />

In [56]:
article=[]
#soup.select('#article_content p') #正文文本内容在article_content指定元素的各个p标记里
for p in soup.select('#article_content p')[:-5]: #这里索引结束位置为-5的原因是因为后面有一些空段和责任编辑部份是不要的
    article.append(p.text.strip()) #将获取的各段落加入article列表，strip()方法用于去除各段文本前后的空格等特殊字符
print('@'.join(article)) #把列表中各项连接为一个字符串，连接处用“@”字符分隔

原标题：北京市长陈吉宁会见美国特斯拉公司董事长马斯克@来源：北京日报@撰文| 武红利  范俊生@昨天上午，市长陈吉宁会见了美国特斯拉公司董事长兼首席执行官埃隆·马斯克先生一行。@陈吉宁对客人的来访表示欢迎。@他说@北京当前正在精心组织实施新一版城市总体规划，围绕“四个中心”城市战略定位，推进减量发展、创新发展和开放发展。@在新一轮扩大开放的过程中，北京将进一步改革优化营商环境，为国际企业在京发展提供更加优质的服务。@特斯拉在京设立中国区总部和美国之外的第一个研发中心，充分体现了特斯拉对与北京合作的重视。@希望双方今后在新能源汽车科技、城市绿色发展等领域加强合作，我们将全力支持特斯拉在京发展。@马斯克高度评价北京取得的发展成就，表示将逐步扩大北京研发中心的规模，与北京进一步深化合作。@市委常委、副市长阴和俊，市政府秘书长靳伟参加会见。@原创新媒体制作人员：范俊生、武红利


### 还有一种方法可以用一行代替前面的for迭代，使代码更简练：

In [57]:
#[p.text.strip() for p in soup.select('#article_content p')[:-5]] #返回为列表类型
print('@'.join([p.text.strip() for p in soup.select('#article_content p')[:-5]]))#把join方法也合并上去，代码更简练了

原标题：北京市长陈吉宁会见美国特斯拉公司董事长马斯克@来源：北京日报@撰文| 武红利  范俊生@昨天上午，市长陈吉宁会见了美国特斯拉公司董事长兼首席执行官埃隆·马斯克先生一行。@陈吉宁对客人的来访表示欢迎。@他说@北京当前正在精心组织实施新一版城市总体规划，围绕“四个中心”城市战略定位，推进减量发展、创新发展和开放发展。@在新一轮扩大开放的过程中，北京将进一步改革优化营商环境，为国际企业在京发展提供更加优质的服务。@特斯拉在京设立中国区总部和美国之外的第一个研发中心，充分体现了特斯拉对与北京合作的重视。@希望双方今后在新能源汽车科技、城市绿色发展等领域加强合作，我们将全力支持特斯拉在京发展。@马斯克高度评价北京取得的发展成就，表示将逐步扩大北京研发中心的规模，与北京进一步深化合作。@市委常委、副市长阴和俊，市政府秘书长靳伟参加会见。@原创新媒体制作人员：范俊生、武红利


### 责任编辑的获取<br>
<img src="images/7.jpg" />

In [58]:
print(soup.select('.show_author')[0].text.strip().lstrip('责任编辑：')) #lstrip方法，从左边去掉指定的字符，这里'责任编辑：'几字是不要的，只要编辑姓名即可

霍宇昂


## 七、获取新闻评论参与人数<br>
新闻评论数用工发者工具检查后发现，其位于count样式指定的元素的下级元素中，但用下面代码却无法访问到评论参与人数:

In [59]:
res=requests.get('http://news.sina.com.cn/o/2018-07-14/doc-ihfhfwmv1378608.shtml')
res.encoding='utf-8'
soup=BeautifulSoup(res.text,'html.parser')
#soup.text

新闻评论参与人数用开发者工具检查后发现，其位于count样式指定的元素的下级元素中，但用下面代码却无法访问到评论参与人数:

In [60]:
soup.select('.count')

[]

无法访问到的原因是因为：这里的评论参与人数是由js脚本通过ajax http方式获取到的，并不能直接通过页面元素直接获取到；所以要检查js访问并定位到评论数的信息：<br>
<img src="images/8.jpg" /><br>
检查后发现：在preview视图中，评论参与人数等信息是放在json格式的数据中的；而具体评论用户的信息与评论内容也能在此json数据的cmntlist字段中看到：<br>
<img src="images/10.jpg" /><br>
接下来为了获取这个json数据，我们首先要获得对应的Request URL,如下：
<img src="images/9.jpg" />


利用查到的请求地址，获取评论相关信息：

In [61]:
comments=requests.get('http://comment5.news.sina.com.cn/page/info?version=1&format=json&\
channel=gn&newsid=comos-hfhfwmv1378608&group=undefined&compress=0&ie=utf-8&oe=utf-8&\
page=1&page_size=3&t_size=3&h_size=3&thread=1&callback=jsonp_1531554557168&_=1531554557168')
print(comments.text)

jsonp_1531554557168({"result": {"status": {"msg": "", "code": 0}, "count": {"qreply": 3451, "total": 3846, "show": 46}, "language": "ch", "encoding": "utf-8", "cmntlist": [{"comment_imgs": "", "parent_mid": "0", "news_mid_source": "0", "rank": "1", "mid": "5B4AF2FB-B7C31EFE-1858D0A64-862-77E", "video": "", "vote": "0", "uid": "6535580260", "area": "\u4e0a\u6d77", "channel_source": "", "content": "\u88ab\u5404\u56fd\u6253\u51fb\u548c\u4e0d\u4fe1\u4efb\uff0c\u5c06\u4f1a\u6c38\u8fdc\u5b58\u5728\uff1f\u56e0\u4e3a\uff0c\u4ef7\u503c\u89c2\u4e0d\u540c\u2026", "nick": "\u5c11\u6709\u62d9\u89c1", "hot": "0", "status_uid": "0", "content_ext": "", "ip": "183.195.30.254", "media_type": "0", "config": "wb_verified=0&wb_screen_name=\u5c11\u6709\u62d9\u89c1&area=\u4e0a\u6d77&wb_profile_img=http%3A%2F%2Fn.sinaimg.cn%2Fdefault%2F2a495a47%2F20180503%2Fdefault_avatar_120_120.png&wb_description=&followers_count=0&wb_user_id=6535580260&wb_verified_type=&wb_time=1531638523632", "channel": "gn", "comment_mid

获取到了请求的响应后，就可以对json数据解析来获得评论参与人数了：

In [62]:
import json
jsonStr=comments.text
jsonStr=jsonStr[jsonStr.find('(') + 1:-1]  #截取到有效json字串，从开头到一个左括号后及最后一个右括号前的部份是要的
         
jd = json.loads(jsonStr)  #将jsonStr解析出来，并存入jd变量，jd变量为字典型
#print(type(jd))
#print(jd)
print(jd['result']['count']['total'])  #按照数据的结构层级，取得评论参与总人数

3846


说明一下：这里实际打印出来的人数比前面截图时的人数多了点，那是因为截图时和现在运行代码的时间不一样了，评论参与人数现在已经比刚才截图时多了；

## 八、获取新闻的编号<br>
可以使用开发者工具查到新闻的请求链接，而每条新闻的编号就包含在Request url中；比如：<br>http://news.sina.com.cn/o/2018-07-12/doc-ihfefkqr0818002.shtml<br>
而链接里最后一部份中“doc-i”后面的“hfefkqr0818002”就是此链接指向新闻的编号;<br>
有二种方法可以取得这个编号：1）使用split方法和strip方法；2）使用正则表达式<br>
下面分别介绍这两种方法：

### 1、使用split方法和strip方法

In [63]:
newsUrl='http://news.sina.com.cn/o/2018-07-12/doc-ihfefkqr0818002.shtml'
newsid=newsUrl.split('/')[-1].rstrip('.shtml').lstrip('doc-i')
print(newsid)

hfefkqr0818002


说明：newsUrl.split('/')[-1].rstrip('.shtml').lstrip('doc-i')这句代码意思是：
<br>1)用split方法分割newsUrl字符串，分割标志为/字符
<br>2)[-1]为取分割后的最后一部份
<br>3)用rstrip方法去除右侧的.shtml字串、用lstrip方法去除左侧的doc-i字串

### 2、使用正则表达式

In [64]:
import re #导入正则表达式包
m=re.search('doc-i(.*).shtml',newsUrl)
print(m.group(1))

hfefkqr0818002


说明：<br>
1）re.search('doc-i(.*).shtml',newsUrl)：search方法中，第一个参数是正则表达式，其规定了查找/匹配的规则;第二个参数指明在哪个字符串中查找/匹配<br>
2）print(m.group(1))：group方法指明正则表达式中的分组（即正则表达式中小括号括起来的部份，可以有多个分组，分组编号从1开始）<br>
<a href="https://www.cnblogs.com/renfanzi/p/5635818.html#_label0">一个比较简单的python正则表达式入门教程</a>