# Pandas 快速入门

## 问题背景

### 问题

题 1:从国泰安数据下载某一行业或板块(例如煤炭开采业、银行等等)中的上市公司股票 (不少于 10 家)自公开上市交易以来日度数据和分红数据，计算并绘制每只股票的价值曲线(暂时不考虑配股、增发和股权分置改革的影响)。假设初始投资额为 100 元。

题 2:利用题 1 中计算得到的上市公司股票的可比价格，计算其自上市交易以来的日度、周度、月度、季度、年度收益率，计算至今几何平均年度收益率。

题 3:利用上市公司股票未经复权的收盘价格，计算其自上市交易以来的日度、周度、月度、季度、年度收益率，计算至今几何平均年度收益率。

题 4:在一张图上绘制题 2 和题 3 得到的两根月度收益的连线图(日期作为横轴)。

### 思路

1. 读入数据

2. 拼接

3. 预处理

4. 计算

5. 作图

## 准备工作
### 下载数据

下载数据：[股票分红数据](./L0_dividend.csv)、[股票价格数据](./L0_price.csv)，并放到你计划做工作目录的文件夹下。


### 打开Jupyter Notebook

打开你计划作为工作目录的文件夹：
- Windows：[]()
- Mac：[]()

在命令行输入：
```
jupyter notebook
```

在浏览器里会跳出Jupyter Notebook的界面。创建一个Notebook就可以啦。


### 检查工作目录

首先，我们导入os模块：

In [1]:
import os

然后，检查当前工作目录：

In [2]:
os.getcwd()

'/Users/zhangguo/Codes/tutorials/Pandas'

查看当前目录下所有文件和文件夹：

In [4]:
os.listdir(os.getcwd())

['.DS_Store',
 '.ipynb_checkpoints',
 'L0_dividend.csv',
 'L0_price.csv',
 'L0_Quick_Start.ipynb']

###  导入Pandas
在正式开始前，我们还需要导入Pandas模块：

In [5]:
import pandas as pd

##  读入数据
Pandas为读写文件数据提供了非常好的接口：

In [22]:
df1 = pd.read_csv("L0_price.csv")
df2 = pd.read_csv("L0_dividend.csv")

这里我们使用Pandas读写CSV文件的专用函数，读入CSV，并赋值给一个叫做df的变量。这个df是一个DataFrame类的实例。

我们简单看看这个df长什么样子：

In [8]:
df1

Unnamed: 0,交易日期,日收盘价
0,1996-03-12,8.39
1,1996-03-13,8.34
2,1996-03-14,8.18
3,1996-03-15,8.25
4,1996-03-18,8.61
5,1996-03-19,8.47
6,1996-03-20,8.80
7,1996-03-21,8.70
8,1996-03-22,8.75
9,1996-03-25,8.62


In [9]:
df2

Unnamed: 0,送股比,股利,除权除息日
0,,,1997-01-15
1,,0.0,1997-06-09
2,,,
3,,0.2,1998-07-31
4,,,
5,,0.208,1999-07-16
6,,,
7,,0.224,2000-06-28
8,,,
9,,0.28,2001-06-11


DataFrame的行名：

In [10]:
df1.index

RangeIndex(start=0, stop=4984, step=1)

DataFrame的index实例属性是不可以直接修改的，必须借助某些特殊方法，这个我们会在后面介绍。

DataFrame的列名：

In [11]:
df1.columns

Index([u'交易日期', u'日收盘价'], dtype='object')

In [13]:
df2.columns

Index([u'送股比', u'股利', u'除权除息日'], dtype='object')

DataFrame的columns实例属性是可以直接修改的：

In [30]:
df1.columns = ['date','price']
df1.columns 

Index([u'date', u'price'], dtype='object')

In [23]:
df2.columns = ['ratio','dividend','date']
df2.columns

Index([u'ratio', u'dividend', u'date'], dtype='object')

DataFrame的行数：

In [16]:
len(df1)

4984

In [18]:
len(df2)

42

DataFrame每列的非空观测值：

In [17]:
df1.count()

date     4984
price    4984
dtype: int64

In [19]:
df2.count()

ratio        0
dividend    16
date        19
dtype: int64

## Merge

In [24]:
df2 = df2.dropna(how='all')

In [25]:
df2

Unnamed: 0,ratio,dividend,date
0,,,1997-01-15
1,,0.0,1997-06-09
3,,0.2,1998-07-31
5,,0.208,1999-07-16
7,,0.224,2000-06-28
9,,0.28,2001-06-11
11,,0.288,2002-07-29
13,,0.16,2003-07-10
15,,0.264,2004-07-15
17,,0.225,2005-07-07


In [32]:
df = pd.merge(df1,df2,on='date',how='outer')

In [None]:
df = df.sort_values('date')

In [33]:
df

Unnamed: 0,date,price,ratio,dividend
0,1996-03-12,8.39,,
1,1996-03-13,8.34,,
2,1996-03-14,8.18,,
3,1996-03-15,8.25,,
4,1996-03-18,8.61,,
5,1996-03-19,8.47,,
6,1996-03-20,8.80,,
7,1996-03-21,8.70,,
8,1996-03-22,8.75,,
9,1996-03-25,8.62,,


In [34]:
df.count()

date        4985
price       4984
ratio          0
dividend      16
dtype: int64

## 时间序列处理

In [35]:
df['date']=pd.to_datetime(df['date'])

In [36]:
df = df.set_index('date')

In [37]:
df

Unnamed: 0_level_0,price,ratio,dividend
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1996-03-12,8.39,,
1996-03-13,8.34,,
1996-03-14,8.18,,
1996-03-15,8.25,,
1996-03-18,8.61,,
1996-03-19,8.47,,
1996-03-20,8.80,,
1996-03-21,8.70,,
1996-03-22,8.75,,
1996-03-25,8.62,,


## 缺失值处理

In [38]:
df_d = df.resample('D').interpolate()

In [40]:
df_d['price']=df_d['price'].fillna(method='pad')

In [41]:
df_d[['ratio','dividend']]=df_d[['ratio','dividend']].fillna(0)

## 时间序列的重采样

In [42]:
df_w = df_d.resample('W').interpolate()

In [43]:
df_q = df_d.resample('Q').interpolate()

In [44]:
df_y = df_d.resample('W').interpolate()

## 向量化计算

##  作图

In [None]:
df.plot(x='',y='')