# 6.2 市场价格数据


市场价格数据可以从多个来源获取，包括政府机构、金融市场数据提供商、专业数据库网站以及开源数据集。以下是一些常见的获取市场价格数据的途径：

|数据源|链接|数据种类|
|---|---|---|
|Kaggle|https://www.kaggle.com|综合数据|
|datarade|https://datarade.ai/|综合数据|
|CSMAR|http://cndata1.csmar.com/|财经数据|
|巨潮资讯数据|http://webapi.cninfo.com.cn/#/|财务数据等|
|tushare|http://tushare.org/index.html|股票价格数据|
|Tiingo|https://www.tiingo.com/|综合数据|
|Wind数据库||综合数据|
|东方财富||综合数据|


需要注意的是，获取市场价格数据可能涉及到订阅费用或许可协议，具体取决于数据的来源和使用情况。在使用这些数据时，也要注意数据的准确性和及时性，以及可能存在的数据使用限制和法律约束。

## 1. 使用yfinance库获取价格数据
以下是一个使用Python获取市场价格数据的简单示例，使用的是yfinance库来获取股票价格数据。

请注意，为了运行此示例，你需要先安装yfinance库。你可以使用pip命令来安装：

```bash
pip install yfinance
```


In [1]:
import yfinance as yf

# 指定股票代码和时间范围
ticker_symbol = 'AAPL'  # 苹果公司的股票代码
start_date = '2022-01-01'
end_date = '2022-12-31'

# 使用yfinance库获取股票价格数据
stock_data = yf.download(ticker_symbol, start=start_date, end=end_date)

# 打印数据的前几行
print(stock_data.head())


[*********************100%%**********************]  1 of 1 completed

                  Open        High         Low       Close   Adj Close  \
Date                                                                     
2022-01-03  177.830002  182.880005  177.710007  182.009995  179.724579   
2022-01-04  182.630005  182.940002  179.119995  179.699997  177.443573   
2022-01-05  179.610001  180.169998  174.639999  174.919998  172.723572   
2022-01-06  172.699997  175.300003  171.639999  172.000000  169.840256   
2022-01-07  172.889999  174.139999  171.029999  172.169998  170.008118   

               Volume  
Date                   
2022-01-03  104487900  
2022-01-04   99310400  
2022-01-05   94537600  
2022-01-06   96904000  
2022-01-07   86709100  





在这个示例中，我们首先导入了yfinance库，然后指定了要获取的股票代码（这里以苹果公司的股票代码‘AAPL’为例）和时间范围（开始日期和结束日期）。接着，我们使用`yf.download`函数来获取指定时间范围内的股票价格数据，并将其存储在名为`stock_data`的DataFrame中。最后，我们打印了数据的前几行，以检查数据是否成功获取。

## 2. 使用API来访问数据

[Tushare](http://tushare.org)是一个免费、开源的python财经数据接口包。
首先我们安装tushare库，点击左上角+号，然后点击**终端(Terminal**)按钮，接着输入以下命令进行安装：
```shell
pip install tushare
```


安装成功后，我们使用tushare读取上证指数（代码为"sz"）日行情数据：

In [19]:
import tushare
df = tushare.get_k_data('sz', start='2020-01-01', end='2020-02-01')  #获取某个时间段内的深圳指数
df.head()

本接口即将停止更新，请尽快使用Pro版接口：https://tushare.pro/document/2


  data = data.append(_get_k_data(url, dataflag,


Unnamed: 0,date,open,close,high,low,volume,code
0,2020-01-02,10509.12,10638.82,10663.55,10479.77,392795173.0,sz
1,2020-01-03,10666.66,10656.41,10689.59,10594.36,373603938.0,sz
2,2020-01-06,10599.41,10698.27,10799.58,10577.78,438998251.0,sz
3,2020-01-07,10725.18,10829.04,10829.04,10723.86,414499627.0,sz
4,2020-01-08,10776.71,10706.87,10851.28,10681.02,462506909.0,sz


## 练习

1. 通过tushare接口获取到国内的股票，比如要获取上港集团(代码600018)的日线数据，代码为"600018"，开始日期为'2010-01-01'，结束日期为"2023-01-01" 
2. 绘制该数据的收盘价'close'的折线图

## 3. 本地数据文件的存取方法

我们将网上的数据下载完后，存放在自己的电脑里，一般称之为本地存储，存放的位置称为本地路径。这里路径可以分为绝对路径和相对路径。

### 3.1 存取CSV格式数据文件

在【datasets】文件夹中，有个数据集文件: 【data01.csv】，双击把它打开，它是符合我们上面说的结构化数据集的形式。

我们留意下这个csv文件的分隔符，它是用逗号','分割每个单元格的。

现在我们借助python的第三方库**pandas**把这个csv文件读到内存里，方便之后对它进行操作和分析。Pandas库为python语言提供了高性能并且易用的数据结构和数据分析工具。




In [1]:
import pandas

In [3]:
data = pandas.read_csv('datasets/data01.csv', index_col=0)

In [4]:
data

Unnamed: 0,apple,money,pear,watch
0,1,2,5,1
1,2,4,7,3
2,3,6,8,5
3,4,8,9,7
4,5,0,0,9


同学们，现在尝试使用pandas的这个方法来读取下【数据】文件夹下的这个数据集：【fund_code.csv】



In [None]:
pandas.read_csv("datasets/fund_codes.csv", delimiter="\t", dtype={"基金代码":str})  #string字符串

Unnamed: 0,基金代码,基金名称,开始日期,类型
0,000001,华夏成长,2001-12-18,混合式基金
1,000003,中海可转债债券,2013-03-20,债券基金
2,000005,嘉实增强信用,2013-03-08,债券基金
3,000007,鹏华国企债,2013-03-08,债券基金
4,000008,嘉实中证500ETF联接基金,2013-03-22,联接基金
...,...,...,...,...
9148,007140,富国全球美元现汇,2019-04-12,联接基金
9149,007233,金鹰鑫益混合E,2019-04-10,混合式基金
9150,006370,国富大中华美元,2019-04-11,混合式基金
9151,006792,鹏华香港美国互联网美元现汇,2019-04-15,股票基金


当我们不知道`pandas.read_csv`如何使用的时候，我们可以使用命令`pandas.read_csv?`，即`pandas.read_csv` + `?`的形式

如何保存CSV数据文件呢？使用pandas对象的to_csv方法

In [6]:
df.to_csv("datasets/data01_copy.csv")

## 参考
- 在投资过程中使用另类数据，第4章，《大数据、机器学习与量化投资》[英]托尼 * 吉达，中信出版社
- 驾驭大数据，第2章，《大数据、机器学习与量化投资》[英]托尼 * 吉达，中信出版社