# Pandas基础

### 面授班讲义  by 杨庆跃
请安装最新版本Jupyter notebook进行编程实验

## 关于Pandas

Pandas(Python Data Analysis Library)是基于NumPy的数据分析工具。  
Pandas纳入了大量库和一些标准的数据模型，提供了大量高效便捷地处理数据的函数和方法。     
Pandas目前已成为Python语言里最强大的数据分析工具包

Pandas官网 [访问之](http://pandas.pydata.org/)

## Pandas中的数据结构
- Series：一维数组，与Numpy中的一维array类似。二者与Python基本的数据结构List也很相近。Series能保存不同数据类型，字符串、boolean值、数字等
- Time- Series：以时间为索引的Series
- DataFrame：二维的表格型数据结构。很多功能与R中的data.frame类似。可以将DataFrame理解为Series的容器。以下的内容主要以DataFrame为主。
- Panel(了解即可，本课程不介绍)：三维的数组，可以理解为DataFrame的容器。

使用Pandas前首先引入pandas包:    

In [2]:
import pandas as pd
import numpy as np
pd.set_option("max_columns", 50)

## Series

Series是一个一维的类似数组对象，它包含一个数组数据（任何numpy数据类型）和一个与数组关联的索引。为了方便理解，你可以把Series看成是一个有序字典。其中索引是连续的，从0开始。

In [2]:
series = pd.Series(["cat", "dog", "pig"])
print(type(series))
print(series)

<class 'pandas.core.series.Series'>
0    cat
1    dog
2    pig
dtype: object


默认Index是0开始的整数，可以指定Index

In [3]:
series = pd.Series(["cat", np.nan,"dog", "pig"],index=['a','b','c','d'])
print(series)

a    cat
b    NaN
c    dog
d    pig
dtype: object


可以使用 series.values和series.index 来获取元素和相应的索引。

In [4]:
print(series.values)
print(series.index)

['cat' nan 'dog' 'pig']
Index(['a', 'b', 'c', 'd'], dtype='object')


使用索引访问元素

In [5]:
print(series[0])
print(series['a']) #series.a也可以
print(series['a':'c'])

cat
cat
a    cat
b    NaN
c    dog
dtype: object


【思考】如何只取得第1和第3个值？  

In [6]:
series[[0,2]]
series[['a','c']] # 注意两层[]
# series[['a','b','c']] 等价于 series['a':'c']

a    cat
c    dog
dtype: object

可以用Series对象去和一些值进行比较，实际处理时会使用每个元素去与该值进行比较，比较后的结果也是一个Series对象

In [7]:
series2 = pd.Series(np.arange(0,5))
series3 = series2 > 3  
print(series3)

0    False
1    False
2    False
3    False
4     True
dtype: bool


In [8]:
series=='cat'

a     True
b    False
c    False
d    False
dtype: bool

使用dictionary构造Series

In [9]:
data = {'a' : 0., 'b' : 1., 'c' : 2.}
s = pd.Series(data)
s

a    0.0
b    1.0
c    2.0
dtype: float64

【课堂练习】使用isnull和notnull函数查看Series中是否有确实数据

In [10]:
a = pd.Series([2, 4,np.nan,7])
print(a.isnull())
print(a.notnull())

0    False
1    False
2     True
3    False
dtype: bool
0     True
1     True
2    False
3     True
dtype: bool


## DataFrame

DataFrame表示一个表格，每一个列表都可以有不同的类型（数字，字符串，布尔等等）  
DataFrame有行和列的索引；可以被看作是一个Series的容器（Series共享一个索引）  
一个DataFrame相当于Excel表或者关系数据表，可进行各种操作

### 多种方式创建DataFrame

#### 使用字典创建DataFrame

In [3]:
data = {"name": ["Jim", "Tom","Mary","Lily"],
        "sex":['男','男','女','女'],
        "age": [28,37,27,34],
        "salary": [3500,4800,4500,3900]}
dataFrame = pd.DataFrame(data)
dataFrame

Unnamed: 0,name,sex,age,salary
0,Jim,男,28,3500
1,Tom,男,37,4800
2,Mary,女,27,4500
3,Lily,女,34,3900


【课堂练习】使用字典创建dataFrame，使用Index指定索引，columns指定列名。试试多指定一个columns值会怎样?

In [12]:
dataFrame.index=['a','b','c','d'] #修改index
dataFrame
dataFrame.columns=['name','gender','age','salary'] #整体修改columns
dataFrame.rename(columns={'sex':'gender','salary':'wage'}) #个别修改columns

Unnamed: 0,name,gender,age,wage
a,Jim,男,28,3500
b,Tom,男,37,4800
c,Mary,女,27,4500
d,Lily,女,34,3900


### DataFrame的访问
可以直接按列、按行访问，也可以使用专用函数

loc——通过行标签索引行数据   
iloc——通过行号索引行数据   
ix(不建议使用)——通过行标签或者行号索引行数据（基于loc和iloc 的混合）  
at--定位某一个元素，列用标签  
iat--定位某一个元素，列用数字

【课堂练习】使用上述方法进行数据选择

In [13]:
import pandas as pd
import numpy as np
pd.set_option("max_columns", 50)
data = {"name": ["Jim", "Tom","Mary","Lily"],
        "sex":['男','男','女','女'],
        "age": [28,37,27,34],
        "salary": [3500,4800,4500,3900]}
dataFrame = pd.DataFrame(data,index=['a','b','c','d'])
print(dataFrame)


# 行、列只能都按标签取，或者都按位置取值
# print(dataFrame.loc[['b','c'],["name","age"]])#按标签取
print(dataFrame.iloc[[0,1,2]]) #按位置取 等价于 print(dataFrame.iloc[0:3])
# print(dataFrame.at['b','salary']) #按标签取某个值
# print(dataFrame.iat[1,3]) #按位置取某个值



   name sex  age  salary
a   Jim   男   28    3500
b   Tom   男   37    4800
c  Mary   女   27    4500
d  Lily   女   34    3900
   name sex  age  salary
a   Jim   男   28    3500
b   Tom   男   37    4800
c  Mary   女   27    4500


#### 插入一行数据

In [14]:
dataFrame.loc['e'] = ['Joe','男',44,4500]
dataFrame

Unnamed: 0,name,sex,age,salary
a,Jim,男,28,3500
b,Tom,男,37,4800
c,Mary,女,27,4500
d,Lily,女,34,3900
e,Joe,男,44,4500


#### 插入一列数据

In [15]:
dataFrame['degree']=['A','C','D','A','C']
dataFrame

Unnamed: 0,name,sex,age,salary,degree
a,Jim,男,28,3500,A
b,Tom,男,37,4800,C
c,Mary,女,27,4500,D
d,Lily,女,34,3900,A
e,Joe,男,44,4500,C


In [16]:
dataFrame

Unnamed: 0,name,sex,age,salary,degree
a,Jim,男,28,3500,A
b,Tom,男,37,4800,C
c,Mary,女,27,4500,D
d,Lily,女,34,3900,A
e,Joe,男,44,4500,C


使用index追加新列或修改列的内容时需注意：所有columns是按照index对齐的！  
示例如下：

In [17]:
series = pd.Series([56,45.8],index=['d','e'])
dataFrame['arpu']=series
dataFrame

Unnamed: 0,name,sex,age,salary,degree,arpu
a,Jim,男,28,3500,A,
b,Tom,男,37,4800,C,
c,Mary,女,27,4500,D,
d,Lily,女,34,3900,A,56.0
e,Joe,男,44,4500,C,45.8


### 重新定义索引与索引恢复
DataFrame可以通过set_index方法，可以设置单索引和复合索引  
DataFrame.set_index(keys, drop=True, append=False, inplace=False, verify_integrity=False)     
append添加新索引，drop为False，inplace为True时，索引将会还原为列     
   
reset_index可以还原索引，从新变为默认的整型索引   
DataFrame.reset_index(level=None, drop=False, inplace=False, col_level=0, col_fill=”)   
drop为False则索引列会被还原为普通列，否则会丢失  

【课堂练习】把dataFrame的索引改为name列，之后恢复为默认整数索引

In [18]:
dataFrame.set_index('name')

Unnamed: 0_level_0,sex,age,salary,degree,arpu
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Jim,男,28,3500,A,
Tom,男,37,4800,C,
Mary,女,27,4500,D,
Lily,女,34,3900,A,56.0
Joe,男,44,4500,C,45.8


### 数据删除
使用drop来删除Series和DataFrame中的数据  
dataFrame.drop([0,1])   
dataFrame.drop(["name"],axis=1)  

【课堂练习】使用drop删除整行整列数据

In [19]:
data = {"name": ["Jim", "Tom","Mary","Lily"],
        "sex":['男','男','女','女'],
        "age": [28,37,27,34],
        "salary": [3500,4800,4500,3900]}
dataFrame = pd.DataFrame(data,index=['a','b','c','d'])
print(dataFrame)


   name sex  age  salary
a   Jim   男   28    3500
b   Tom   男   37    4800
c  Mary   女   27    4500
d  Lily   女   34    3900


In [20]:
a=dataFrame.drop(['a','b'])
dataFrame

Unnamed: 0,name,sex,age,salary
a,Jim,男,28,3500
b,Tom,男,37,4800
c,Mary,女,27,4500
d,Lily,女,34,3900


drop_duplicates删除重复值

In [21]:
df = pd.DataFrame(data=np.array([[1, 2, 3], [1, 5, 6], [7, 8, 9], [40, 50, 60], [23, 35, 37]]), 
                  columns=[48, 49, 50])
print(df)
df.drop_duplicates([48],keep='last')

   48  49  50
0   1   2   3
1   1   5   6
2   7   8   9
3  40  50  60
4  23  35  37


Unnamed: 0,48,49,50
1,1,5,6
2,7,8,9
3,40,50,60
4,23,35,37


### 数据浏览
describe()  数据描述  
head() 返回前N行  
tail() 返回后N行  
ndim 维数  
size 元素个数  
count()  
sum()  
mean()  
median()  
std()  
min()  
max()  
abs()  
prod()  
cumsum()  
cumprod()   

【课堂练习】进行数据浏览计算统计指标

In [24]:
import pandas as pd
import numpy as np
pd.set_option("max_columns", 50)
data = {"name": ["Jim", "Tom","Mary","Lily"],
        "sex":['男','男','女','女'],
        "age": [28,37,27,34],
        "salary": [3500,4800,4500,3900]}
dataFrame = pd.DataFrame(data,index=['a','b','c','d'])
print(dataFrame)

   name sex  age  salary
a   Jim   男   28    3500
b   Tom   男   37    4800
c  Mary   女   27    4500
d  Lily   女   34    3900


In [25]:
dataFrame.describe()

Unnamed: 0,age,salary
count,4.0,4.0
mean,31.5,4175.0
std,4.795832,585.234996
min,27.0,3500.0
25%,27.75,3800.0
50%,31.0,4200.0
75%,34.75,4575.0
max,37.0,4800.0


#### 排序sort_values、sort_index

In [30]:
print(dataFrame)
#a = dataFrame.sort_values(by='salary')
a=dataFrame.sort_values(by=['age','salary'],ascending=[False,True])
print(a)

   name sex  age  salary
a   Jim   男   28    3500
b   Tom   男   37    4800
c  Mary   女   27    4500
d  Lily   女   34    3900
   name sex  age  salary
b   Tom   男   37    4800
d  Lily   女   34    3900
a   Jim   男   28    3500
c  Mary   女   27    4500


#### 分组函数groupby
返回重构格式的DataFrame

In [31]:
print(dataFrame)
a = dataFrame.groupby(['sex'])['salary'].max()
print(a)

   name sex  age  salary
a   Jim   男   28    3500
b   Tom   男   37    4800
c  Mary   女   27    4500
d  Lily   女   34    3900
sex
女    4500
男    4800
Name: salary, dtype: int64


### 数据合并
* Merge-类似关系数据库的连接
* Join
* append
* concat

#### merge
通过一个或一个以上的键连接的。绝大功能和数据库操作类似。  
pd.merge(left, right, how=’inner’, on=None, left_on=None, right_on=None, left_index=False,right_index=False, sort=False, suffixes=(‘_x’, ‘_y’), copy=True, indicator=False, validate=None)  
参数含义：  
left、right：左右连接对象  
how：连接方式，共有’inner’,’left’,right’,’outer’  
on：根据连接的键   
left_on、right_on：在连接的键名不同的情况下使用，left_on传入左对象的键，right_on传入右对象的键  
left_index、right_index：设置索引是否作为连接的键，通常 left_on=??和right_index=True, right_on=??和left_index=True，或者left_index=True和right_index=True  
sort：对连接后的结果是否排序，当数据巨大的时候为了追求效率可以设置为False  
suffixes：对于不作为键的同名列，在其列名后添加的后缀  
copy：将左右对象的内容复制过来，默认为True  

In [32]:
df1=pd.DataFrame({'手机号码':['001','002','003','004','005'],
                  '性别':['男','女','男','男','女'],
                  '年龄':[32,30,15,21,44]})
print(df1)
df2=pd.DataFrame({'手机号码':['001','002','003','006'],
                  'ARPU':[129.6,133.5,82.6,56],
                  '交往圈':[12,30,7,15]})
print(df2)

  手机号码 性别  年龄
0  001  男  32
1  002  女  30
2  003  男  15
3  004  男  21
4  005  女  44
  手机号码   ARPU  交往圈
0  001  129.6   12
1  002  133.5   30
2  003   82.6    7
3  006   56.0   15


In [33]:
a = pd.merge(df1,df2,on='手机号码',how='right')
a

Unnamed: 0,手机号码,性别,年龄,ARPU,交往圈
0,1,男,32.0,129.6,12
1,2,女,30.0,133.5,30
2,3,男,15.0,82.6,7
3,6,,,56.0,15


#### join
能更加方便地按照对象df的索引进行合并，且能同时合并多个DataFrame对象。它具有如下参数：
df.join(other, on=None, how=’left’, lsuffix=”, rsuffix=”, sort=False)

In [34]:
a = df1.join(df2,rsuffix=['left','right'])
a

Unnamed: 0,手机号码,性别,年龄,"手机号码['left', 'right']",ARPU,交往圈
0,1,男,32,1.0,129.6,12.0
1,2,女,30,2.0,133.5,30.0
2,3,男,15,3.0,82.6,7.0
3,4,男,21,6.0,56.0,15.0
4,5,女,44,,,


#### Concat
连接两个或两个以上的Series或DataFrame对象。   
pd.concat(objs, axis=0, join=’outer’, join_axes=None, ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, copy=True)  
参数说明:  
objs：连接对象，多以列表、字典传入  
axis：轴向，0代表纵向连接，1，代表横向连接  
join：连接方式，共有’inner’,’left’,right’,’outer’  
join_axes:参与连接的索引  
ignore_index：是否忽略索引  
keys：层次化索引  

In [35]:
df3=pd.DataFrame({'Red':[1,3,5],'Green':[5,0,3]},index=list('abd'))
print(df3)
df4=pd.DataFrame({'Blue':[1,9],'Yellow':[6,6]},index=list('ce'))
print(df4)
pd.concat([df3,df4],axis=1,keys=['A','B'],sort=False)

   Red  Green
a    1      5
b    3      0
d    5      3
   Blue  Yellow
c     1       6
e     9       6


Unnamed: 0_level_0,A,A,B,B
Unnamed: 0_level_1,Red,Green,Blue,Yellow
a,1.0,5.0,,
b,3.0,0.0,,
d,5.0,3.0,,
c,,,1.0,6.0
e,,,9.0,6.0


#### append
将其他行添加到此DataFrame的末尾，返回一个新对象。 不在此DataFrame中的列将作为新列添加。  
append(other, ignore_index=False, verify_integrity=False, sort=None)  
参数  
other：DataFrame或Series / dict-like对象，或者这些要附加的数据的列表  
ignore_index: 布尔值，默认False。如果为真，就不会使用索引标签  

In [36]:
df1 = pd.DataFrame([[1, 2], [3, 4]], columns=list('AB'))
print(df1)
df2 = pd.DataFrame([[5, 6,7], [8, 9,10]], columns=list('ABC'))
print(df2)
df3 = df1.append(df2,sort=False)
print('\n',df3)
df4 = df1.append(df2,ignore_index=True,sort=False)
print('\n',df4)

   A  B
0  1  2
1  3  4
   A  B   C
0  5  6   7
1  8  9  10

    A  B     C
0  1  2   NaN
1  3  4   NaN
0  5  6   7.0
1  8  9  10.0

    A  B     C
0  1  2   NaN
1  3  4   NaN
2  5  6   7.0
3  8  9  10.0


## 缺失值处理
dropna：根据各标签的值中是否存在缺失数据对轴标签进行过滤，可通过阈值调节对缺失值的容忍度  
DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)  
参数：    
axis : {0 or ‘index’, 1 or ‘columns’},或 tuple/list     
how : {‘any’, ‘all’}any : 如果存在任何NA值，则放弃该标签；all : 如果所有的值NA值，则放弃该标签  
thresh : int, 默认值 None ；要求每排至少N个非NA值　　 
subset : 类似数组  
inplace : boolean, 默认值 False；如果为True，则进行操作并返回None  


In [37]:
df=pd.DataFrame([[1,5,9,np.nan],[np.nan,3,7,np.nan],[6,np.nan,2,np.nan],
                 [np.nan,np.nan,np.nan,np.nan],[1,2,3,np.nan]])
print(df)
print(df.dropna())
print(df.dropna(how='all',axis=1)) # 按列删除
print(df.dropna(how='all',thresh=3)) #保留至少有3个非空值的行

     0    1    2   3
0  1.0  5.0  9.0 NaN
1  NaN  3.0  7.0 NaN
2  6.0  NaN  2.0 NaN
3  NaN  NaN  NaN NaN
4  1.0  2.0  3.0 NaN
Empty DataFrame
Columns: [0, 1, 2, 3]
Index: []
     0    1    2
0  1.0  5.0  9.0
1  NaN  3.0  7.0
2  6.0  NaN  2.0
3  NaN  NaN  NaN
4  1.0  2.0  3.0
     0    1    2   3
0  1.0  5.0  9.0 NaN
4  1.0  2.0  3.0 NaN


fillna:使用指定的方法填充NA/NaN值  
DataFrame.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None, **kwargs)  
参数：  
value : 变量, 字典, Series, or DataFrame  
method : {‘backfill’, ‘bfill’, ‘pad’, ‘ffill’, None}, 默认值 None  
axis : {0 or ‘index’, 1 or ‘columns’}  
inplace : boolean, 默认值 False;如果为Ture,在原地填满。注意：这将修改次对象上的任何其他视图（例如，DataFrame中的列的无复制贴片）  
limit : int, 默认值 None;如果指定了方法，则这是连续的NaN值的前向/后向填充的最大数量。

In [38]:
print(df)
#df.fillna(0) #常数填充

df.fillna(method='ffill') #向后填充
df.fillna(method='ffill',limit=1) #向后填充，且可以连续填充的最大数量为1

     0    1    2   3
0  1.0  5.0  9.0 NaN
1  NaN  3.0  7.0 NaN
2  6.0  NaN  2.0 NaN
3  NaN  NaN  NaN NaN
4  1.0  2.0  3.0 NaN


Unnamed: 0,0,1,2,3
0,1.0,5.0,9.0,
1,1.0,3.0,7.0,
2,6.0,3.0,2.0,
3,6.0,,2.0,
4,1.0,2.0,3.0,


In [531]:
stock = pd.read_csv('data/300104.SZ.csv',header=0,parse_dates=['Date'],index_col='Date')
stock.head()

Unnamed: 0_level_0,Open,High,Low,Close,Adj Close,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2012-09-10,2.79067,2.82177,2.76316,2.77751,2.77751,38645011
2012-09-11,2.79904,2.82057,2.77392,2.811,2.811,58981496
2012-09-12,2.82177,2.83373,2.70933,2.77632,2.77632,50277549
2012-09-13,2.77512,2.77512,2.71172,2.71292,2.71292,29672156
2012-09-14,2.7177,2.75,2.62081,2.71292,2.71292,34779807


### to_csv 保存数据
主要参数：  
路径 path_or_buf: A string path to the file to write or a StringIO   
分隔符 sep : Field delimiter for the output file (default ”,”)  
替换空值 na_rep: A string representation of a missing value (default ‘’)   
小数格式 float_format: Format string for floating point numbers  
是否保留列名 header: Whether to write out the column names (default True)   
是否保留行索引 index:  whether to write row (index) names (default True)

In [533]:
stock.to_csv("data/newfile.csv")