# 数据源

## 1. 商业数据的发展

我们从一个应用场景出发，来了解金融数据的发展：

预测问题是资产定价的核心。为了给股票定价，投资者必须预测公司未来的现金流。为了找到表现优异的交易策略，投资者会寻找能够预
测资产收益率的信号。检验资产定价模型的学者们需寻找能够解释资产收益率（横）截面差异或时序变化的预测变量。信用风险模型需要能够
预测违约的变量作为输人。对冲和风险管理模型则需要预测资产收益率之间的共同运动。

过去数十年，技术的进步致使投资者和分析师可获得的信息量呈爆发式增长。即使我们只看到其中的一小部分，即从公司财务报告中提取的数据，数据可得性的增长也是惊人的。一百年穆迪手册([Moody's](https://www.moodys.com) manuals)企业财务报告的印刷版年卷代表了公众随时可以获得的大部分数据。

![moody_manuals](image/moody_manuals.png)

随着电子计算机的出现，像[COMPUSTAT](https://www.spglobal.com/marketintelligence/en/solutions/fundamental-data)这样的数据库(美国标普公司在1962年创建的高质量财务数据库)，
如今它是学术界在针对美股进行实证资产定价研究时所使用的重要数据库之一。

![mi-platform](image/mi-platform.png)

美国证券交易委员会（SEC）的[Edgar](https://www.sec.gov/edgar)数据库包含了TB级的财务报告数据，从这些文件中为每个公司构建出数以百万计的变量。

![big_data_evo](image/big_data_evo.png)

公司财务报告只代表了投资者潜在可获得的一小部分数据。除此之外，
1) 记录市场历史价格和交易记录的数据库包含了海量数据；
2) 社交媒体中包含了大量投资者情绪数据；
3) 客户和员工的在线点评也可能包含有价值的信息；  

以及许多其他数据源都有可能和前文提到的预测应用密切相关。

### 练习
你还能想到在网络上可以获取到哪些其他和金融相关的数据？

## 2.商业数据的来源

金融相关的数据，通常包括客户信息、投融资信息、金融舆情信息、市场数据、公开的财务报表、股票、基金、利率等信息。这些数据的提供者来自于政府、信息服务商或者个人。

![gov-china](image/gov-china.png)

专业性数据库网站如国家统计局网站、中国人民银行网站、[中国证监会网站](http://www.csrc.gov.cn)、世界银行网站和国际货币基金组织网站等。

专业数据公司主要有路透终端、彭博数据库、CSMAR、Wind数据库等。

除此之外，一些数据科学社区，如Kaggle，也提供了很多金融和经济的开源数据集。

以下有部分数据源的链接：
|数据源|链接|数据种类|
|---|---|---|
|Kaggle|https://www.kaggle.com|综合数据|
|datarade|https://datarade.ai/|综合数据|
|CSMAR|http://cndata1.csmar.com/|财经数据|

### 练习
如果需要查询某上市公司的财务信息数据，应该去哪里寻找？

## 3. 通过API的方式获取数据

### 3.1 使用pandas_datareader访问雅虎数据库

Python下[pandas_datareader](https://pandas-datareader.readthedocs.io/en/latest/index.html)包可以从不同的数据源获取各种金融数据。包括Yahoo Finance 雅虎金融；Eurostat 欧盟统计局；NASDAQ；OECD 经合组织；Quandl；World Bank。

首先我们安装python的pandas_datareader库，点击左上角+号，然后点击**终端(Terminal**)按钮，接着输入以下命令进行安装：
```shell
pip install pandas_datareader
```



安装成功后，我们使用pandas_datareader读取Yahoo财经网站的数据，获取Facebook股票2017/1/1到2019/9/26期间的数据：

```python
import pandas_datareader.data as webdata
import datetime
import os
start = datetime.datetime(2017, 1, 1)
end = datetime.datetime(2019, 9, 26)
df = webdata.get_data_yahoo("AAPL", start, end)
```

因为雅虎政策修改的问题，以上代码运行，需要开启科学上网工具，非中国大陆地区IP地址可以正常使用。

### 3.2 国内股票数据接口tushare

[Tushare](http://tushare.org)是一个免费、开源的python财经数据接口包。
首先我们安装tushare库，点击左上角+号，然后点击**终端(Terminal**)按钮，接着输入以下命令进行安装：
```shell
pip install tushare
```


安装成功后，我们使用tushare读取上证指数（代码为"sz"）日行情数据：

In [19]:
import tushare
df = tushare.get_k_data('sz', start='2020-01-01', end='2020-02-01')  #获取某个时间段内的深圳指数
df.head()

本接口即将停止更新，请尽快使用Pro版接口：https://tushare.pro/document/2


  data = data.append(_get_k_data(url, dataflag,


Unnamed: 0,date,open,close,high,low,volume,code
0,2020-01-02,10509.12,10638.82,10663.55,10479.77,392795173.0,sz
1,2020-01-03,10666.66,10656.41,10689.59,10594.36,373603938.0,sz
2,2020-01-06,10599.41,10698.27,10799.58,10577.78,438998251.0,sz
3,2020-01-07,10725.18,10829.04,10829.04,10723.86,414499627.0,sz
4,2020-01-08,10776.71,10706.87,10851.28,10681.02,462506909.0,sz


### 练习

1. 通过tushare接口获取到国内的股票，比如要获取上港集团(代码600018)的日线数据，代码为"600018"，开始日期为'2010-01-01'，结束日期为"2023-01-01" 
2. 绘制该数据的收盘价'close'的折线图

## 参考
1.《机器学习与资产定价》Stefan Nagel, 2021