python的库只是我们实现目标的工具，如果没有目的，我们的工具再丰富再强大也没有意义。所以接下来我们要开始使用python，一步一步地深入金融分析这个领域，从数据的准备，到观察数据，最后进行分析。这个过程中我们会使用到之前介绍的python库。

下面就是分析的第一步，读取数据。

## 1. CSV 文档读取

csv格式的数据重点强调的是数据的存储方法，所以txt格式的纯文本文件也可以用这种方法存数据，并且按照csv的读取方法来读取

### 1.1 单一文档

1. 引入os和pandas包
2. 查看路径是否正确。  
    尤其注意jupyter是运行在服务器上的，服务器很有可能是用的Linux操作系统，所以路径的写法和windows有不一样的地方，请参考[《windows与linux中的路径书写，斜杠、反斜杠用法总结》](https://blog.csdn.net/tsaiyong_ahnselina/article/details/17554097)。这里' ../ '的意思是上级目录
3. 通过pandas包中的read_csv函数将数据读入dataframe。pandas的DataFrame数据结构，类似excel中的二维表，有包含文字意义的表头和纯数据的内容，有的在第一列还有索引，相当于目录

In [1]:
import os
import pandas as pd   
dir = "data/"  

# 看看目录下有什么内容，确定是不是写对了路径
print(os.listdir(dir)[:5])
os.chdir("data/")

df = pd.read_csv('gmta.us.txt')
df.head(5)

['10years.csv', 'all_banks', 'FamaFrench.csv', 'gm-ws-b.us.txt', 'gmre.us.txt']


Unnamed: 0,Date,Open,High,Low,Close,Volume,OpenInt
0,2016-05-19,23.165,23.165,22.86,23.082,356832,0
1,2016-05-20,23.082,23.082,22.616,22.989,66756,0
2,2016-05-23,22.999,22.999,22.71,22.887,150348,0
3,2016-05-24,22.914,22.914,22.766,22.803,256720,0
4,2016-05-25,22.803,22.803,22.598,22.794,246691,0


上面的例子是进入到了指定的文件夹再进行的读取，实际上我们可以直接指定文件的位置，前提是要知道他的**正确的路径**写法。

In [2]:
path = 'gmta.us.txt'
df = pd.read_csv(path)
df.head(5)

Unnamed: 0,Date,Open,High,Low,Close,Volume,OpenInt
0,2016-05-19,23.165,23.165,22.86,23.082,356832,0
1,2016-05-20,23.082,23.082,22.616,22.989,66756,0
2,2016-05-23,22.999,22.999,22.71,22.887,150348,0
3,2016-05-24,22.914,22.914,22.766,22.803,256720,0
4,2016-05-25,22.803,22.803,22.598,22.794,246691,0


可以发现两种写法是完全一样的，在程序开始运行的时候，会有一个工作目录，os.chdir()可以改变这个目录，但是请注意，最好不要经常更改工作目录，很有可能你会在不停的更改中忘记程序到底在哪里运行，导致想找的文件始终找不到。

### 1.2 多个文档
1. 依然是引包
    其实在jupyter中，不同的cell是运行在同一个程序中的，只要上面import过这个包，这里就不需要再import了，不过这里为了流程完整，还是引入了
2. 查看路径是否正确,如果正确，改变当前工作目录（设置为默认目录）
3. 建一个空列表 data
4. 读取该目录下txt文档的文件名，存入csvs列表中
5. 从列表中删掉空的文件
6. 通过for循环，读取文件，并将文件名作为标签放入df数据框的ticker列
7. 通过append追加每个文件数据df到总表data中
8. 通过concat函数将data由列表转成dataframe，并合并他们的数据到一个dataframe中

In [3]:
data = []
csvs=[]
for x in os.listdir():
    if x.endswith('.txt'):
        csvs.append(x)
# 检查一下文件夹下的txt文件
print(csvs)

# trying to read a file of size zero will throw an error, so skip them
csvs = [x for x in csvs if os.path.getsize(x) > 0]

for csv in csvs:
    df = pd.read_csv(csv)
    df['ticker'] = csv.replace('.txt', '')
    data.append(df)

# 一共有多少文件？
print(len(data))

data = pd.concat(data, ignore_index=True)
data.reset_index(inplace=True, drop=True)
print(data.shape)
data.head(5)

['gm-ws-b.us.txt', 'gmre.us.txt', 'gmre_a.us.txt', 'gms.us.txt', 'gmta.us.txt', 'gmz.us.txt', 'gnbc.us.txt', 'gnc.us.txt', 'gnca.us.txt', 'gncma.us.txt', 'gne.us.txt', 'gne_a.us.txt', 'gnk.us.txt', 'gnl.us.txt', 'gnl_a.us.txt', 'gnmk.us.txt', 'gnmx.us.txt', 'gnrc.us.txt', 'gnrt.us.txt', 'gnrx.us.txt', 'gnst.us.txt', 'gnt.us.txt', 'gntx.us.txt', 'gnty.us.txt', 'gnt_a.us.txt', 'gnus.us.txt', 'gnw.us.txt', 'goau.us.txt', 'goex.us.txt', 'gof.us.txt', 'gogl.us.txt', 'gogo.us.txt', 'gol.us.txt', 'gold.us.txt', 'golf.us.txt', 'good.us.txt', 'goodm.us.txt', 'goodo.us.txt', 'goodp.us.txt', 'goog.us.txt']
39
(54794, 8)


Unnamed: 0,Date,Open,High,Low,Close,Volume,OpenInt,ticker
0,2015-03-04,19.55,19.62,19.23,19.45,91742,0,gm-ws-b.us
1,2015-03-05,18.73,19.67,18.73,19.57,58872,0,gm-ws-b.us
2,2015-03-06,19.4,19.442,18.69,18.79,141842,0,gm-ws-b.us
3,2015-03-09,19.75,19.95,19.52,19.77,133238,0,gm-ws-b.us
4,2015-03-10,19.55,19.93,19.36,19.7,195773,0,gm-ws-b.us


# 2. excel文档读取
这一部分就不做单独的讲解了，其实和上面是一模一样的，只是格式不同而已。

### 2.1 一个sheet

In [4]:
import xlrd

# 读取excel数据
df = pd.DataFrame()
file = "stocks.xlsx"
data = xlrd.open_workbook(file).sheet_by_index(0)
df = pd.read_excel(file,data.name,index_col=None,na_values=['9999'])
df.head(5)


Unnamed: 0,Date,Open,High,Low,Close,Volume,OpenInt
0,2010-07-21,24.333,24.333,23.946,23.946,43321,0
1,2010-07-22,24.644,24.644,24.362,24.487,18031,0
2,2010-07-23,24.759,24.759,24.314,24.507,8897,0
3,2010-07-26,24.624,24.624,24.449,24.595,19443,0
4,2010-07-27,24.477,24.517,24.431,24.517,8456,0


### 2.2 多个sheet

In [5]:

import xlrd

# 读取excel数据
df = pd.DataFrame()
file = "stocks.xlsx"
data = xlrd.open_workbook(file)
for sheet in data.sheet_names():   
    table_1 = pd.read_excel(file,sheet,index_col=None,na_values=['9999'])
    df = df.append(table_1)
df.head(5)

Unnamed: 0,Date,Open,High,Low,Close,Volume,OpenInt
0,2010-07-21,24.333,24.333,23.946,23.946,43321,0
1,2010-07-22,24.644,24.644,24.362,24.487,18031,0
2,2010-07-23,24.759,24.759,24.314,24.507,8897,0
3,2010-07-26,24.624,24.624,24.449,24.595,19443,0
4,2010-07-27,24.477,24.517,24.431,24.517,8456,0
