# 第一部分 ：课程内容

数据通常以固定的格式储存，常见的格式有csv和excel等等，该教程就是告诉大家，如何在python中使用这些数据。

在此以csv、excel为例说明。

## 1. CSV 文档读取

csv格式的数据重点强调的是数据的存储方法，所以txt格式的纯文本文件也可以用这种方法存数据，并且按照csv的读取方法来读取

[数据出处和代码参考](https://www.kaggle.com/sohier/how-to-read-etfs-into-a-single-dataframe)
### 1.1 单一文档
1. 引入os和pandas包
2. 查看路径是否正确。  
    尤其注意jupyter是运行在服务器上的，服务器很有可能是用的Linux操作系统，所以路径的写法和windows有不一样的地方，请参考[《windows与linux中的路径书写，斜杠、反斜杠用法总结》](https://blog.csdn.net/tsaiyong_ahnselina/article/details/17554097)。这里' ../ '的意思是上级目录
3. 通过pandas包中的read_csv函数将数据读入dataframe。pandas的DataFrame数据结构，类似excel中的二维表，有包含文字意义的表头和纯数据的内容，有的在第一列还有索引，相当于目录

In [3]:
import os
import pandas as pd   
dir = "../data/"  

# 看看目录下有什么内容，确定是不是写对了路径
print(os.listdir(dir)[:5])
os.chdir("../data/")

df = pd.read_csv('gmta.us.txt')
df.head(5)

['gmre.us.txt', 'gmta.us.txt', 'gnt_a.us.txt', 'gnst.us.txt', 'gnl_a.us.txt']


Unnamed: 0,Date,Open,High,Low,Close,Volume,OpenInt
0,2016-05-19,23.165,23.165,22.86,23.082,356832,0
1,2016-05-20,23.082,23.082,22.616,22.989,66756,0
2,2016-05-23,22.999,22.999,22.71,22.887,150348,0
3,2016-05-24,22.914,22.914,22.766,22.803,256720,0
4,2016-05-25,22.803,22.803,22.598,22.794,246691,0


上面的例子是进入到了指定的文件夹再进行的读取，实际上我们可以直接指定文件的位置，前提是要知道他的**正确的路径**写法。

In [4]:
path = '../data/gmta.us.txt'
df = pd.read_csv(path)
df.head(5)

Unnamed: 0,Date,Open,High,Low,Close,Volume,OpenInt
0,2016-05-19,23.165,23.165,22.86,23.082,356832,0
1,2016-05-20,23.082,23.082,22.616,22.989,66756,0
2,2016-05-23,22.999,22.999,22.71,22.887,150348,0
3,2016-05-24,22.914,22.914,22.766,22.803,256720,0
4,2016-05-25,22.803,22.803,22.598,22.794,246691,0


可以发现两种写法是完全一样的，在程序开始运行的时候，会有一个工作目录，os.chdir()可以改变这个目录，但是请注意，最好不要经常更改工作目录，很有可能你会在不停的更改中忘记程序到底在哪里运行，导致想找的文件始终找不到。

### 1.2 多个文档
1. 依然是引包
    其实在jupyter中，不同的cell是运行在同一个程序中的，只要上面import过这个包，这里就不需要再import了，不过这里为了流程完整，还是引入了
2. 查看路径是否正确,如果正确，改变当前工作目录（设置为默认目录）
3. 建一个空列表 data
4. 读取该目录下txt文档的文件名，存入csvs列表中
5. 从列表中删掉空的文件
6. 通过for循环，读取文件，并将文件名作为标签放入df数据框的ticker列
7. 通过append追加每个文件数据df到总表data中
8. 通过concat函数将data由列表转成dataframe，并合并他们的数据到一个dataframe中

In [17]:
import os
import pandas as pd   
dir = "../data/"  
os.listdir(dir)[:5]
os.chdir("../data/")

data = []
csvs=[]
for x in os.listdir():
    if x.endswith('.txt'):
        csvs.append(x)
# 检查一下文件夹下的txt文件
print(csvs)

# trying to read a file of size zero will throw an error, so skip them
csvs = [x for x in csvs if os.path.getsize(x) > 0]

for csv in csvs:
    df = pd.read_csv(csv)
    df['ticker'] = csv.replace('.txt', '')
    data.append(df)

# 一共有多少文件？
print(len(data))

data = pd.concat(data, ignore_index=True)
data.reset_index(inplace=True, drop=True)
print(data.shape)
data.head(5)

['gmre.us.txt', 'gmta.us.txt', 'gnt_a.us.txt', 'gnst.us.txt', 'gnl_a.us.txt', 'gnty.us.txt', 'goau.us.txt', 'gnus.us.txt', 'golf.us.txt', 'gnrx.us.txt', 'goodm.us.txt', 'gnk.us.txt', 'gnrt.us.txt', 'gnl.us.txt', 'goog.us.txt', 'gogo.us.txt', 'gnmx.us.txt', 'goodp.us.txt', 'goodo.us.txt', 'gne.us.txt', 'gnmk.us.txt', 'gnt.us.txt', 'goex.us.txt', 'gnrc.us.txt', 'gof.us.txt', 'gnw.us.txt', 'gogl.us.txt', 'gol.us.txt', 'good.us.txt', 'gold.us.txt', 'gntx.us.txt', 'gmz.us.txt', 'gnc.us.txt', 'gm-ws-b.us.txt', 'gmre_a.us.txt', 'gms.us.txt', 'gnbc.us.txt', 'gnca.us.txt', 'gncma.us.txt', 'gne_a.us.txt']
39
(54794, 8)


Unnamed: 0,Date,Open,High,Low,Close,Volume,OpenInt,ticker
0,2016-06-29,8.9899,9.0253,8.9899,8.9899,1725774,0,gmre.us
1,2016-06-30,9.0535,9.1999,8.9805,9.0797,272951,0,gmre.us
2,2016-07-01,9.1424,9.241,9.089,9.1156,219296,0,gmre.us
3,2016-07-05,9.1156,9.241,9.0085,9.1242,120891,0,gmre.us
4,2016-07-06,9.1242,9.2238,8.9899,9.089,226836,0,gmre.us


# 2. excel文档读取
这一部分就不做单独的讲解了，其实和上面是一模一样的，只是格式不同而已。

### 2.1 一个sheet

In [16]:
import os
import pandas as pd  
import xlrd

dir = "../data/"  
os.listdir(dir)[:5]
os.chdir("../data/")

# 读取excel数据
df = pd.DataFrame()
file = "stocks.xlsx"
data = xlrd.open_workbook(file).sheet_by_index(0)
df = pd.read_excel(dir+file,data.name,index_col=None,na_values=['9999'])
df.head(5)


Unnamed: 0,Date,Open,High,Low,Close,Volume,OpenInt
0,2010-07-21,24.333,24.333,23.946,23.946,43321,0
1,2010-07-22,24.644,24.644,24.362,24.487,18031,0
2,2010-07-23,24.759,24.759,24.314,24.507,8897,0
3,2010-07-26,24.624,24.624,24.449,24.595,19443,0
4,2010-07-27,24.477,24.517,24.431,24.517,8456,0


### 2.2 多个sheet

In [23]:
import os
import pandas as pd  
import xlrd

dir = "../data/"  
os.listdir(dir)[:5]
os.chdir("../data/")
# 读取excel数据
df = pd.DataFrame()
file = "stocks.xlsx"
data = xlrd.open_workbook(file)
for sheet in data.sheet_names():   
    table_1 = pd.read_excel(dir+file,sheet,index_col=None,na_values=['9999'])
    df = df.append(table_1)
df.head(5)

Unnamed: 0,Date,Open,High,Low,Close,Volume,OpenInt
0,2010-07-21,24.333,24.333,23.946,23.946,43321,0
1,2010-07-22,24.644,24.644,24.362,24.487,18031,0
2,2010-07-23,24.759,24.759,24.314,24.507,8897,0
3,2010-07-26,24.624,24.624,24.449,24.595,19443,0
4,2010-07-27,24.477,24.517,24.431,24.517,8456,0


# 第二部分 课程练习

读取"../data/"目录下的gne_a.us.txt 和 stocks.xlsx文件中的第一个sheet，将数据放到同一个dataframe中