## 抓取新浪微博新闻列表

In [1]:
import requests
from bs4 import BeautifulSoup
import re

res = requests.get('http://news.sina.com.cn/china/')
res.encoding = 'utf-8'
#res.text

In [2]:
soup = BeautifulSoup(res.text, 'html.parser')

newsary = []
for link in soup.select('.news-item'):
    if len(link.select('h2 a')) > 0:
        newsary.append(getArticle(link.select('h2 a')[0]['href']))

## 建立文章抓取函数

In [3]:
def getArticle(url):
    res = requests.get(url)
    res.encoding = 'utf-8'
    
    soup = BeautifulSoup(res.text, 'html.parser')
    dic = {}
    
    dic['title'] = soup.select('#artibodyTitle')[0].text
    dic['content'] = ' '.join(soup.select('#artibody')[0].text.split())
    dic['source'] = soup.select('#navtimeSource')[0].text
    dic['keyword'] = soup.select('.article-keywords')[0].text
    return dic

#getArticle('http://news.sina.com.cn/c/sd/2016-11-29/doc-ifxyawxa3005371.shtml')

## 建立DataFrame

In [4]:
import pandas
df = pandas.DataFrame(newsary)
df.head(10)

## 整理文章关键词

In [173]:
df['keyword'].head(3)

0         \n文章关键词：\n兰州 文明城市\n
1     \n文章关键词：\n石泰峰 人事任免 宁夏\n
2    \n文章关键词：\n外交部 蓝皮书 中日关系\n
Name: keyword, dtype: object

In [178]:
#df['keyword'].map(lambda e: e.split('：')[1].split())

In [179]:
df['keyword'] = df['keyword'].map(lambda e: e.split('：')[1].split())

In [180]:
df.head(3)

Unnamed: 0,content,keyword,source,title
0,原标题：兰州建“文明城市”：考核合格单位职工增发一月工资 资料图。 为了确保兰州市创建全国文...,"[兰州, 文明城市]",2017年04月26日18:33\t\t\n环球网\n,兰州建文明城市:考核合格单位职工增发1月工资
1,原标题：宁夏自治区党委主要负责同志职务调整 新华社北京4月26日电日前，中共中央决定： 石泰...,"[石泰峰, 人事任免, 宁夏]",2017年04月26日17:18\t\t\n新华社\n,石泰峰任宁夏党委书记 李建华另有任用
2,原标题：中国外交部：敦促日方不给中日关系造成新干扰 据报道，日本外务省25日向内阁会议提交2...,"[外交部, 蓝皮书, 中日关系]",2017年04月26日17:16\t\t\n央视新闻\n,外交部回应日本外交蓝皮书有关涉华内容


## 使用正规表达法抽取时间与源数据

In [181]:
df['source'].head()

0          2017年04月26日18:33\t\t\n环球网\n
1          2017年04月26日17:18\t\t\n新华社\n
2         2017年04月26日17:16\t\t\n央视新闻\n
3         2017年04月26日17:10\t\t\n央视新闻\n
4    2017年04月26日16:56\t\t\n中央纪委监察部网站\n
Name: source, dtype: object

In [183]:
df['source'].map(lambda e: e.split()).head()

0          [2017年04月26日18:33, 环球网]
1          [2017年04月26日17:18, 新华社]
2         [2017年04月26日17:16, 央视新闻]
3         [2017年04月26日17:10, 央视新闻]
4    [2017年04月26日16:56, 中央纪委监察部网站]
Name: source, dtype: object

In [185]:
#df['source'].str.extract('(\d+年\d+月\d+日\d+:\d+)\t\t\n(\w+)\n')

In [186]:
df[['datetime', 'from']] = df['source'].str.extract('(\d+年\d+月\d+日\d+:\d+)\t\t\n(\w+)\n', expand =False)

In [187]:
df.head(3)

Unnamed: 0,content,keyword,source,title,datetime,from
0,原标题：兰州建“文明城市”：考核合格单位职工增发一月工资 资料图。 为了确保兰州市创建全国文...,"[兰州, 文明城市]",2017年04月26日18:33\t\t\n环球网\n,兰州建文明城市:考核合格单位职工增发1月工资,2017年04月26日18:33,环球网
1,原标题：宁夏自治区党委主要负责同志职务调整 新华社北京4月26日电日前，中共中央决定： 石泰...,"[石泰峰, 人事任免, 宁夏]",2017年04月26日17:18\t\t\n新华社\n,石泰峰任宁夏党委书记 李建华另有任用,2017年04月26日17:18,新华社
2,原标题：中国外交部：敦促日方不给中日关系造成新干扰 据报道，日本外务省25日向内阁会议提交2...,"[外交部, 蓝皮书, 中日关系]",2017年04月26日17:16\t\t\n央视新闻\n,外交部回应日本外交蓝皮书有关涉华内容,2017年04月26日17:16,央视新闻


In [188]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 92 entries, 0 to 91
Data columns (total 6 columns):
content     92 non-null object
keyword     92 non-null object
source      92 non-null object
title       92 non-null object
datetime    92 non-null object
from        92 non-null object
dtypes: object(6)
memory usage: 4.4+ KB


## 转换时间格式

In [189]:
df['datetime'] = pandas.to_datetime(df['datetime'], format = '%Y年%m月%d日%H:%M')

In [195]:
df['datetime'].head()

0   2017-04-26 18:33:00
1   2017-04-26 17:18:00
2   2017-04-26 17:16:00
3   2017-04-26 17:10:00
4   2017-04-26 16:56:00
Name: datetime, dtype: datetime64[ns]

In [196]:
df.head(3)

Unnamed: 0,content,keyword,source,title,datetime,from
0,原标题：兰州建“文明城市”：考核合格单位职工增发一月工资 资料图。 为了确保兰州市创建全国文...,"[兰州, 文明城市]",2017年04月26日18:33\t\t\n环球网\n,兰州建文明城市:考核合格单位职工增发1月工资,2017-04-26 18:33:00,环球网
1,原标题：宁夏自治区党委主要负责同志职务调整 新华社北京4月26日电日前，中共中央决定： 石泰...,"[石泰峰, 人事任免, 宁夏]",2017年04月26日17:18\t\t\n新华社\n,石泰峰任宁夏党委书记 李建华另有任用,2017-04-26 17:18:00,新华社
2,原标题：中国外交部：敦促日方不给中日关系造成新干扰 据报道，日本外务省25日向内阁会议提交2...,"[外交部, 蓝皮书, 中日关系]",2017年04月26日17:16\t\t\n央视新闻\n,外交部回应日本外交蓝皮书有关涉华内容,2017-04-26 17:16:00,央视新闻


## 刪除Source

In [197]:
del df['source']

In [198]:
df.head(3)

Unnamed: 0,content,keyword,title,datetime,from
0,原标题：兰州建“文明城市”：考核合格单位职工增发一月工资 资料图。 为了确保兰州市创建全国文...,"[兰州, 文明城市]",兰州建文明城市:考核合格单位职工增发1月工资,2017-04-26 18:33:00,环球网
1,原标题：宁夏自治区党委主要负责同志职务调整 新华社北京4月26日电日前，中共中央决定： 石泰...,"[石泰峰, 人事任免, 宁夏]",石泰峰任宁夏党委书记 李建华另有任用,2017-04-26 17:18:00,新华社
2,原标题：中国外交部：敦促日方不给中日关系造成新干扰 据报道，日本外务省25日向内阁会议提交2...,"[外交部, 蓝皮书, 中日关系]",外交部回应日本外交蓝皮书有关涉华内容,2017-04-26 17:16:00,央视新闻


In [200]:
df = df[['from','title', 'content', 'keyword', 'datetime']]

## 将整理好的数据储存回Excel

In [202]:
df.to_excel('news.xlsx')