# 编写网络爬虫，从东方财富网站上抓取贵州茅台[600519]的历史业绩报表

    

## 1. 查找数据源，分析数据源

    - 打开东财网站，查找包含贵州茅台[600519]业绩报表的网页。
    
    - 打开浏览器的开发者工具[F12]，分析Network中每个网络请求的Name以及Response，获取返回业务报表数据的请求地址。
    

## 2. 编写代码，获取数据

In [1]:
# 导入第三方库

import json
import urllib3
import pandas as pd

In [8]:
# 从网页中提取获取数据的URL
# URL中的参数可能会发生变化，同学们需要自己分析、提取URL。
url = 'http://dcfm.eastmoney.com//em_mutisvcexpandinterface/api/js/get?' \
      'type=YJBB20_YJBB&token=70f12f2f4f091e459a279469fe49eca5&st=reportdate&sr=-1' \
      '&filter=(scode={0})&p={page}&ps={pageSize}&js={"pages":(tp),"data":%20(x)}'


In [9]:
# 创建网络请求连接池
conn_pool = urllib3.PoolManager()

# 设置要抓取数据的股票代码
code = '600519'

# 发送网络请求，获取返回结果
response = conn_pool.request('GET', url.replace('{0}', code))

# 对返回结果中的数据进行解码
result = response.data.decode('UTF-8')

## 3. 提取数据，并且保存到文件中

In [10]:
# 解析抓取结果
result = json.loads(result)

# 取出业绩报表相关的数据
reports = result['data']

# 显示最近的两个季度的业绩报表
reports[:2]

[{'scode': '600519',
  'sname': '贵州茅台',
  'securitytype': 'A股',
  'trademarket': '上交所主板',
  'latestnoticedate': '2019-10-16T00:00:00',
  'reportdate': '2019-09-30T00:00:00',
  'basiceps': 24.24,
  'cutbasiceps': '-',
  'totaloperatereve': 63508663046.7,
  'ystz': 15.5349,
  'yshz': 19.4939,
  'parentnetprofit': 30454855385.44,
  'sjltz': 23.1317,
  'sjlhz': 20.3244,
  'roeweighted': 24.92,
  'bps': 99.71217639,
  'mgjyxjje': 21.744507,
  'xsmll': 91.4894,
  'publishname': '酿酒行业',
  'assigndscrpt': '-',
  'gxl': '-',
  'securitytypecode': '058001001',
  'trademarketcode': '069001001001',
  'firstnoticedate': '2019-10-16T00:00:00'},
 {'scode': '600519',
  'sname': '贵州茅台',
  'securitytype': 'A股',
  'trademarket': '上交所主板',
  'latestnoticedate': '2019-07-18T00:00:00',
  'reportdate': '2019-06-30T00:00:00',
  'basiceps': 15.88,
  'cutbasiceps': 15.95,
  'totaloperatereve': 41172681309.94,
  'ystz': 16.7971,
  'yshz': -16.8518,
  'parentnetprofit': 19951025609.22,
  'sjltz': 26.5592,
  'sjlhz

In [11]:
# 转换成DataFrame数据类型，保存到csv文件中
reports = pd.DataFrame(reports)

# 显示最近两个季度的数据
reports[:2]

Unnamed: 0,assigndscrpt,basiceps,bps,cutbasiceps,firstnoticedate,gxl,latestnoticedate,mgjyxjje,parentnetprofit,publishname,...,securitytypecode,sjlhz,sjltz,sname,totaloperatereve,trademarket,trademarketcode,xsmll,yshz,ystz
0,-,24.24,99.712176,-,2019-10-16T00:00:00,-,2019-10-16T00:00:00,21.744507,30454860000.0,酿酒行业,...,58001001,20.3244,23.1317,贵州茅台,63508660000.0,上交所主板,69001001001,91.4894,19.4939,15.5349
1,不分配不转增,15.88,91.350975,15.95,2019-07-18T00:00:00,-,2019-07-18T00:00:00,19.174465,19951030000.0,酿酒行业,...,58001001,-22.2061,26.5592,贵州茅台,41172680000.0,上交所主板,69001001001,91.8668,-16.8518,16.7971


In [6]:
# 将提取的数据保存到文件中

reports.to_csv(code+'.csv',encoding='utf-8-sig')