# Pandas常用函数讲解

## 3.1 pandas的数据结构

### 3.1.1 序列

In [73]:
import pandas as pd
import warnings
warnings.filterwarnings("ignore", category=FutureWarning)
pd.__version__

In [10]:
# 序列
return_series1 = pd.Series(data=[0.003731,-0.001838,-0.003087,-
0.024112],index=['中国石油','工商银行','上汽集团','宝钢股份'])
return_series1

In [11]:
import numpy as np
return_list = [0.003731, 0.021066, -0.004854, 0.006098,-0.006060, -0.001838, 0.001842, -0.016544, -0.003738, 0.003752, -0.003087, -0.000344, -0.033391,0.007123, 0.004597, -0.024112, 0.011704, -0.029563, -0.014570, 0.016129]
return_array = np.array(return_list)
return_array = return_array.reshape(4,5)
return_array

### 3.1.2数据框

In [13]:
date=['2018-9-3','2018-9-4','2018-9-5','2018-9-6','2018-9-7']
stock=['中国石油','工商银行','上汽集团','宝钢股份']
return_dataframe=pd.DataFrame(data=return_array.T,index=date,columns=stock)
print(return_dataframe)

In [21]:
# 输出数据
return_dataframe.to_excel(r'C:\Users\Zhang ZhiXin\Desktop\data.xlsx')
# return_dataframe.to_csv('D:/myTempData_Return.csv')
# return_dataframe.to_csv('D:/myTempData_Return.txt')

### 3.1.3 外部数据导入并直接生成数据框

In [23]:
# 从本地读入数据
data = pd.read_excel(r'C:\Users\Zhang ZhiXin\Desktop\data.xlsx')
data

In [27]:
# 从tushare获取数据
import tushare as ts
token_key='dc0da43c9ec5549606a55f236aa4c998c9b6f3ba9f25422f8c7b3df7'
pro=ts.pro_api(token_key)
PFYH_excel2 = pro.daily(ts_code='600000.SH', start_date='20180101', end_date='20180331')
PFYH_excel2

## 3.2 数组框的可视化

### 3.2.1 中文字体的可视化

In [24]:
from pylab import mpl #导入子模块mpl
mpl.rcParams['font.sans-serif']=['SimHei'] #以黑体字显示中文
mpl.rcParams['axes.unicode_minus']=False #解决保存图像是负号‘_’为显示方块的问题

| Windows的宇体名称 |    Python中对应的名称    |
|:------------:|:------------------:|
|      黑体      |       SimHei       |
|     微软雅黑     |  Microsoft YaHei   |
|    微软正黑体     | Microsoft JhengHei |
|     新宋体      |      NSimSun       |
|     新细明体     |      PMingLiU      |     
|     细明体      |      MingLiU       |     
|     标楷体      |      DFKai-SB      |     
|      仿宋      |      FangSong      |    
|      借体      |       KaiTi        |        
|  仿宋_GB2312   |  FangSong_GB2312   | 
|  楷体_GB2312   |    KaiTi_GB2312    | 

### 3.2.2 数据框可视化的函数

|   类型参数    |                  说 明                   |
|:---------:|:--------------------------------------:|
|  “line”   |      Line plot（折线图），模认情况下就是选择这类图形      |
|   “bar”   |         Vertical bar plot（条形图）         |
|   “box”   |              boxplot（箱线图）              |
|  “barh”   |       horizontal bar plot（横向条形图）       |
|  “hist”   |             histogram（性状图）             |
|   “kde”   | Kernel Density Estimation plot（核密度估计图） |
| “density” |                与’kde’相同                |
|  “area”   |             area plot（区域图）             |
|   “pie”   |              pie plot（饼图）              |
| “scatter” |           scatter plot（散点图）            |
| “hexbin”  |     hexagonal binning plot（六边形箱图）      |

In [34]:
df=PFYH_excel2[['open','high','low','close']]
df.plot(kind='line',subplots=True,sharex=True,sharey=True,layout=(2,2),figsize=(10,8),title=u'"2600000.SH"走势图',grid=True,fontsize=13)

## 3.3 数据框内部的操作

### 3.3.1 描述数据框的基本性质

In [41]:
df=pd.DataFrame(df)
print(df.index) #查看行索引名
print(df.columns) #查看列名

In [45]:
print(df.shape)
print(df.shape[0])
print(df.shape[1])

In [46]:
df.describe()

### 3.3.2 数据框的索引与截取

In [53]:
# 一般性截取
df.iloc[::-1]

In [54]:
df.close

In [56]:
df.iloc[:,3]

In [58]:
# 条件截取
df[df.close>=13]

In [59]:
df.sort_values(by='close',ascending=True)

In [60]:
df.rename(columns={'open':'Open','close':'Close','high':'High','low':'Low'})

In [66]:
# 将固定位置指定为缺失值
df.iloc[1,1]=np.nan
df.iloc[2,2]=np.nan
df

In [67]:
df_dropna=df.dropna()
df_dropna

In [69]:
df_fillzero=df.fillna(value=0)
df_fillzero

In [74]:
df_ffill=df.fillna(method='ffill')
df_ffill

In [75]:
df_bfill=df.fillna(method='bfill')
df_bfill

## 3.4 数据框之间的操作

###  3.4.1 生成两个新的数据框

In [80]:
df1=df
df2=PFYH_excel2.iloc[:,6:]
df2

In [81]:
df2.head()

In [82]:
df2.tail()

In [83]:
# 按列进行拼接
stock_new=pd.concat([df1,df2],axis=1)
stock_new.head()

In [85]:
stock_new=pd.merge(left=df1,right=df2,left_index=True,right_index=True,how='inner')
stock_new.head()

In [86]:
stock_new=df1.join(df2)
stock_new.head()

## 3.5 数组框的主要统计函数

### 3.5.1 静态的统计函数

|     函数     |                              函数含义                              |
|:----------:|:--------------------------------------------------------------:|
|    diff    |                计算一阶差分，注：diff是差分英文difference的编写                 |
|   ixmax    |              最大值的行索引值 注：idxmax是英文index maximum的缩写              |
|   idxmin   |              最小值的行索引值 注：idxmin是英文index minimum的缩写              |
|    kurt    |                 峰度（四阶矩） 注：kurt是峰度英文kurtosis的缩写                 |
|    max     |                              最大值                               |
|    mean    |                              平均值                               |
|   median   |                              中位数                               |
|    min     |                              最小值                               |
| pct_change |         百分比变化 注：pet_change是百分比变化英文percentage change的缩写         |
|  quantile  |            分位数 其中函数需要设定参数q=分位数，默认为q=0.5，也就是50%的分位数             |
|   shift    |                             数据框移动                              |
|    std     |                             样本标准差                              |
|    sum     |                               求和                               |
|    var     |                              样本方差                              |
|   cumsum   |  累计求和、也就是依次给出前1、2、...、n个数的和  注：cumsum是累计求和英文cumulative sum的缩写  |
|  cumprod   | 累计求积，依次给出前1、2、...、n个数的积  注：cumprod是累计求和英文cumulative product的缩写 |
|    corr    |                              相关系数                              |

### 3.5.2移动窗口与动态统计函数

In [89]:
stock_ma = stock_new.close.rolling(window=20).mean() #生成一个20日平均收盘点位的序列
stock_ma_df = stock_ma.to_frame() #将序列变成数据框
stock_ma_df.rename(columns={'close':'ma20'})
stock_close_df=stock_new.close.to_frame() #生成每日收盘点位的序列
merge_data=pd.concat([stock_close_df,stock_ma_df],axis=1) #生成包括每日收盘点位，20日平均收盘点位的新数据框
merge_data.plot(figsize=(10,7),title=u'收盘价和均线相关走势',grid=True,fontsize=12)

In [90]:
# 生成60天时间窗口的沪深300指数收盘点位的移动波动率（移动标准差），并且进行可视化
stock_ms=stock_new.close.rolling(window=10).std()
stock_ms_df=stock_ms.to_frame()
stock_ms_df=stock_ms_df.rename({'close':'10日收盘价的波动率'})
stock_ms_df.plot(figsize=(10,7),title="股票收盘价10日移动波动率")

##### 1.在Python 2中，加上u前缀可以明确表示字符串是Unicode字符串，这在处理多语言文本或者需要支持各种字符集的情况下非常有用。
##### 2.在Python 3中，所有字符串都是Unicode字符串，因此不再需要前缀u。