# 1.4 财经数据的存取方法

我们将网上的数据下载完后，存放在自己的电脑里，一般称之为本地存储，存放的位置称为本地路径。这里路径可以分为绝对路径和相对路径。

## A. 存取CSV格式数据文件

在【datasets】文件夹中，有个数据集文件: 【data01.csv】，双击把它打开，它是符合我们上面说的结构化数据集的形式。


<img style="float: left;" src="image/data01.png" width="80%"> 



我们留意下这个csv文件的分隔符，它是用逗号','分割每个单元格的。

现在我们借助python的第三方库**pandas**把这个csv文件读到内存里，方便之后对它进行操作和分析。Pandas库为python语言提供了高性能并且易用的数据结构和数据分析工具。




In [1]:
import pandas

In [3]:
data = pandas.read_csv('datasets/data01.csv', index_col=0)

In [4]:
data

Unnamed: 0,apple,money,pear,watch
0,1,2,5,1
1,2,4,7,3
2,3,6,8,5
3,4,8,9,7
4,5,0,0,9


同学们，现在尝试使用pandas的这个方法来读取下【数据】文件夹下的这个数据集：【fund_code.csv】



In [None]:
pandas.read_csv("datasets/fund_codes.csv", delimiter="\t", dtype={"基金代码":str})  #string字符串

Unnamed: 0,基金代码,基金名称,开始日期,类型
0,000001,华夏成长,2001-12-18,混合式基金
1,000003,中海可转债债券,2013-03-20,债券基金
2,000005,嘉实增强信用,2013-03-08,债券基金
3,000007,鹏华国企债,2013-03-08,债券基金
4,000008,嘉实中证500ETF联接基金,2013-03-22,联接基金
...,...,...,...,...
9148,007140,富国全球美元现汇,2019-04-12,联接基金
9149,007233,金鹰鑫益混合E,2019-04-10,混合式基金
9150,006370,国富大中华美元,2019-04-11,混合式基金
9151,006792,鹏华香港美国互联网美元现汇,2019-04-15,股票基金


当我们不知道`pandas.read_csv`如何使用的时候，我们可以使用命令`pandas.read_csv?`，即`pandas.read_csv` + `?`的形式

如何保存CSV数据文件呢？使用pandas对象的to_csv方法

In [6]:
df = pandas.read_csv('datasets/fund_codes.csv', delimiter="\t", dtype={"基金代码":str}) 
df.to_csv("datasets/data01_copy.csv")

## B. 存取财经网站上的数据

Python下[pandas_datareader](https://pandas-datareader.readthedocs.io/en/latest/index.html)包可以从不同的数据源获取各种金融数据。包括一下：
- Yahoo Finance 雅虎金融
- Eurostat 欧盟统计局
- NASDAQ
- OECD 经合组织
- Quandl
- World Bank
详细见[链接](https://pandas-datareader.readthedocs.io/en/latest/readers/alphavantage.html)

首先我们安装python的pandas_datareader库，点击左上角➕号，
![terminal](image/terminal.png)

接着输入命令 `pip install pandas_datareader`进行安装

### 1.雅虎财经

我们使用pandas_datareader读取Yahoo财经网站的数据，代码如下：

In [15]:
import pandas_datareader.data as web
import datetime
start = datetime.datetime(2017, 1, 1)
end = datetime.datetime(2019, 9, 26)

从Yahoo财经网站读取Facebook股票2017/1/1到2019/9/26期间的数据

In [16]:
df = web.DataReader("F", "yahoo", start, end)
df

Unnamed: 0_level_0,High,Low,Open,Close,Volume,Adj Close
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2017-01-03,12.60,12.13,12.20,12.59,40510800.0,10.255994
2017-01-04,13.27,12.74,12.77,13.17,77638100.0,10.728472
2017-01-05,13.22,12.63,13.21,12.77,75628400.0,10.402624
2017-01-06,12.84,12.64,12.80,12.76,40315900.0,10.394479
2017-01-09,12.86,12.63,12.79,12.63,39438400.0,10.288580
...,...,...,...,...,...,...
2019-09-20,9.30,9.11,9.13,9.17,37491300.0,8.871069
2019-09-23,9.23,9.08,9.13,9.16,22051100.0,8.861395
2019-09-24,9.23,9.05,9.19,9.11,33092500.0,8.813025
2019-09-25,9.23,9.09,9.10,9.20,20510300.0,8.900091


In [10]:
df.tail()

Unnamed: 0_level_0,High,Low,Open,Close,Volume,Adj Close
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2019-09-20,9.3,9.11,9.13,9.17,37491300.0,8.871069
2019-09-23,9.23,9.08,9.13,9.16,22051100.0,8.861395
2019-09-24,9.23,9.05,9.19,9.11,33092500.0,8.813025
2019-09-25,9.23,9.09,9.1,9.2,20510300.0,8.900091
2019-09-26,9.23,9.07,9.23,9.14,26556300.0,8.842048


当然通过雅虎财经也可以获取到国内的股票，比如要获取上港集团(代码600018)的日线数据：

In [14]:
df = web.DataReader("600018.SS", "yahoo", start, end)
df.head()

Unnamed: 0_level_0,High,Low,Open,Close,Volume,Adj Close
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2017-01-03,5.17,5.11,5.12,5.14,13174737.0,4.50579
2017-01-04,5.2,5.14,5.15,5.18,18205501.0,4.540855
2017-01-05,5.36,5.14,5.19,5.25,31169539.0,4.602217
2017-01-06,5.28,5.21,5.23,5.23,21116954.0,4.584685
2017-01-09,5.26,5.21,5.22,5.25,13072508.0,4.602217


### 2. 国内股票数据接口tushare

需要安装tushare库，在命令行界面shell下`pip install tushare`,pip的使用方法详见本章节1.1。

tushare的官方说明文档如下：http://tushare.org

In [2]:
import tushare
tushare.get_k_data('sz', start='2020-01-01', end='2020-02-01')  #获取某个时间段内的深圳指数

本接口即将停止更新，请尽快使用Pro版接口：https://waditu.com/document/2


Unnamed: 0,date,open,close,high,low,volume,code
0,2020-01-02,10509.12,10638.82,10663.55,10479.77,392795173.0,sz
1,2020-01-03,10666.66,10656.41,10689.59,10594.36,373603938.0,sz
2,2020-01-06,10599.41,10698.27,10799.58,10577.78,438998251.0,sz
3,2020-01-07,10725.18,10829.04,10829.04,10723.86,414499627.0,sz
4,2020-01-08,10776.71,10706.87,10851.28,10681.02,462506909.0,sz
5,2020-01-09,10807.04,10898.17,10899.48,10807.04,396591114.0,sz
6,2020-01-10,10927.98,10879.84,10933.81,10833.52,355689713.0,sz
7,2020-01-13,10894.0,11040.2,11040.2,10851.72,345273662.0,sz
8,2020-01-14,11074.89,10988.77,11086.81,10983.42,377298121.0,sz
9,2020-01-15,10978.28,10972.32,11001.81,10882.79,331233272.0,sz


## B. 以文件流的形式存取数据

In [8]:
with open("datasets/non-structure-data.txt", "rb") as f:
    for i in f:
        print(i.decode("utf-8"))

据21世纪经济报道（21财经）4日报道，9月3日，在2021中国服贸会“服务贸易开放发展新趋势高峰论坛”上，海关总署研究中心主任万中心预计，今年中国货物贸易有望实现两位数增长，达到5.1万亿美元，这意味着在“十四五”开局第一年，中国有望提前完成货物贸易的“十四五”目标。

万中心指出，疫情以来直到今天，中国货物贸易一直保持着不错的增长。根据其团队的预测，如果不出现极端情况的话，今年中国货物贸易进出口会实现两位数的增长，“这个两位数的增长不仅仅是针对去年的同比增速，相较于疫情前的2019年，今年也有望实现年均两位数的增长，接近‘十一五’时期的数字。”

他指出，按此测算，中国货物贸易的国际市场份额将进一步提升至15%左右。

值得注意的是，根据此前公布的《“十四五”商务发展规划》，“十四五”期间，中国的货物贸易的预期目标为：到2025年，中国货物贸易规模达到5.1万亿美元。“今年，中国有可能达到5.1万亿美元，大概率在今年，也就是‘十四五’开局第一年提前完成这一目标。”

万中心指出，中国货物贸易在“十二五”、“十三五”期间的年均增速分别为7.6%、2.6%，《“十四五”商务发展规划》的预期目标是，“十四五”期间年均增长2%。
