# Pandas库入门

## Pandas 库介绍

* Pandas是Python第三方库，提供高性能易用**数据类型**和**分析工具**
* 库的引入 `import pandas as pd`
* Pandas基于Numpy实现，常与Numpy和Matplotlib一同使用
* 两种数据类型： **Series**和**DataFrame**
* 基于以上数据类型的各表操作：基本操作、运算操作、特征类操作、关联类操作

In [66]:
import pandas as pd
d = pd.Series(range(10))
d

0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int64

In [67]:
d.cumsum()

0     0
1     1
2     3
3     6
4    10
5    15
6    21
7    28
8    36
9    45
dtype: int64

Numpy与Pandas库对比

Numpy | Pandas
:---: | :---------:
基础数据类型（ndarray）|扩展数据类型（Series， DataFrame）
关注数据的结构表达（数据间构成的维度）|关注数据的应用表达（怎么更有效提取，运算数据）
维度：数据间关系|数据与索引间的关系

## Series类型

Series是一维的，带“标签”的数组。Series的基本操作类似ndarray和字典，根据索引对齐。

* Series是由一组数据及与之相关的数据索引组成
* 在一个Series输出中，第一列为自动索引
* 添加自定义索引：`index=`

In [68]:
a = pd.Series([9,8,7,6]) # 自动索引
a

0    9
1    8
2    7
3    6
dtype: int64

In [69]:
b = pd.Series([9,8,7,6], index=['a','b','c','d']) # 自定义索引
#b = pd.Series([9,8,7,6], ['a','b','c','d'])
b

a    9
b    8
c    7
d    6
dtype: int64

### Series类型的创建

* python列表, index与列表元素个数一致(否则报错)
* 标量值， index表示Series类型的尺寸，可以不填
* Python字典，键值对中“键”是索引，index从字典中进行选择操作
* ndarray，索引和数据都可以通过ndarray类型创建
* 其他函数，`range()`函数等

#### 从标量值创建

In [70]:
#s = pd.Series(25)
s = pd.Series(25, index=['a','b','c'])
s

a    25
b    25
c    25
dtype: int64

#### 从字典类型创建

键值对中“键”是索引，`index`从字典中进行选择操作

In [71]:
d = pd.Series({'a':9, 'b':8, 'c':7})
d

a    9
b    8
c    7
dtype: int64

In [72]:
# 创建与字典不同的Series对象
# index从字典中进行选择操作
e = pd.Series({'a':9, 'b':8, 'c':7}, index=['c', 'a', 'b', 'd'])
e

c    7.0
a    9.0
b    8.0
d    NaN
dtype: float64

#### 从ndarray类型创建

索引和数据都可以通过`ndarray`类型创建

In [73]:
import numpy as np

n = pd.Series(np.arange(5))
n

0    0
1    1
2    2
3    3
4    4
dtype: int64

In [74]:
m = pd.Series(np.arange(5), index=np.arange(9, 4, -1))
m

9    0
8    1
7    2
6    3
5    4
dtype: int64

### 基本操作

* Series类型包括index和values两部分，基本操作可以包括索引部分和值部分
* Series类型的操作类似ndarray类型
* Series类型的操作类似Python字典类型

#### 基本操作

In [75]:
b = pd.Series([9,8,7,6], ['a','b','c','d'])
b

a    9
b    8
c    7
d    6
dtype: int64

In [76]:
b.index #索引的类型——Index类型

Index(['a', 'b', 'c', 'd'], dtype='object')

In [77]:
b.values #值的类型——array类型

array([9, 8, 7, 6])

In [78]:
b['b']

8

In [79]:
b[1] #用户可以自定义其索引，但自动生成的索引也是存在的

8

In [80]:
# 两个索引可以并存，但不能混用
# 如果混用，会当做自定义索引
# b[['c','d',0]]
b[['c','d','a']]

c    7
d    6
a    9
dtype: int64

#### 操作类似ndarray类型

* 索引方法相同，采用`[]`
* Numpy中运算和操作可用于Series类型
* 可以通过自定义索引的列表进行切片
* 可以通过自动索引进行切片，如果存在自定义索引，则一同被切片

In [81]:
b = pd.Series([9,8,7,6], ['a','b','c','d'])
b[3] #通过值，索引到的值

6

In [82]:
b[:3] #通过切片，索引到的是series类型

a    9
b    8
c    7
dtype: int64

In [83]:
b[b>b.median()]

a    9
b    8
dtype: int64

In [84]:
np.exp(b)

a    8103.083928
b    2980.957987
c    1096.633158
d     403.428793
dtype: float64

#### 操作类似Python字典类型

* 通过自定义索引访问
* 保留字`in`操作
* 使用`.get()`方法

In [85]:
b = pd.Series([9,8,7,6], ['a','b','c','d'])
b['b']

8

In [86]:
'c' in b #判断是否在Series对象的索引列表中

True

In [87]:
0 in b # 保留字in不会判断自动索引，只会判断自定义索引

False

In [88]:
#从b中提取索引'f'对应的值，如果不存在，则将默认值100返回
b.get('f', 100)

100

#### 对齐操作

Series类型在运算中会自动对齐不同索引的数据

In [89]:
# Series + Series
# 索引值相同的值进行运算，不同的不进行运算
a = pd.Series([1,2,3], ['c', 'd', 'e'])
b = pd.Series([9,8,7,6], ['a','b','c','d'])
a + b

a    NaN
b    NaN
c    8.0
d    8.0
e    NaN
dtype: float64

### Series类型的name属性

Series对象和索引都可以有一个名字，存储在属性`.name`中

In [90]:
b = pd.Series([9,8,7,6], ['a','b','c','d'])
b.name

In [91]:
b.name='Series对象' # Series对象名，或认为是value的名字
b.index.name='索引列'
b

索引列
a    9
b    8
c    7
d    6
Name: Series对象, dtype: int64

### Series类型的修改

In [92]:
b = pd.Series([9,8,7,6], ['a','b','c','d'])
b['a']=15
b.name='Series'
b

a    15
b     8
c     7
d     6
Name: Series, dtype: int64

In [93]:
b.name='New Series'
b['b','c']=20
b

a    15
b    20
c    20
d     6
Name: New Series, dtype: int64

## DataFrame类型

* DataFrame类型是由共用相同索引组成的一组列（索引+多列数据）
* DataFrame是一个表格型数据，每列值类型可以不同
* 既有行索引（index），又有列索引(column)
* 常用于表达二维数据、也可用于表达多维数据

![](./dataFrame.png)

### DataFrame的创建

DataFrame类型可以由一下类型创建：
* 二维ndarray对象
* 一维ndarray、列表、字典、元组或Series构成的字典
* Series类型
* 其他DataFrame类型

#### 从二维ndarray对象创建

In [97]:
import pandas as pd
import numpy as np

# 原始数据增加了横向、纵向的索引所构成的二维结构
d = pd.DataFrame(np.arange(10).reshape(2, 5))
d

Unnamed: 0,0,1,2,3,4
0,0,1,2,3,4
1,5,6,7,8,9


#### 从一维ndarray对象字典创建

In [99]:
dt = {'one': pd.Series([1,2,3], index=['a','b','c']),
     'two': pd.Series([9,8,7,6], index=['a','b','c','d'])}
d = pd.DataFrame(dt)
d

Unnamed: 0,one,two
a,1.0,9
b,2.0,8
c,3.0,7
d,,6


In [101]:
# 指定行、列索引，生成新的DataFrame
pd.DataFrame(dt, index=['b','c','d'], columns=['two','three'])

Unnamed: 0,two,three
b,8,
c,7,
d,6,


#### 从列表类型的字典创建

In [103]:
d1 = {'one':[1,2,3, 4], 'two':[9,8,7,6]}
d = pd.DataFrame(d1, index=['a', 'b', 'c', 'd'])
d

Unnamed: 0,one,two
a,1,9
b,2,8
c,3,7
d,4,6


### 实例—城市房价

In [104]:
d1 = {'城市':['北京','上海','广州','深圳','沈阳'],
     '环比':[101.5, 101.2, 101.3, 102.0, 100.1],
     '同比':[120.7, 127.3, 119.4, 140.9, 101.4],
     '定基':[121.4, 127.8, 120.0, 145.5, 101.5]}
d = pd.DataFrame(d1, index=['c1','c2','c3','c4','c5'])
d

Unnamed: 0,同比,城市,定基,环比
c1,120.7,北京,121.4,101.5
c2,127.3,上海,127.8,101.2
c3,119.4,广州,120.0,101.3
c4,140.9,深圳,145.5,102.0
c5,101.4,沈阳,101.5,100.1


In [105]:
d.index

Index(['c1', 'c2', 'c3', 'c4', 'c5'], dtype='object')

In [106]:
d.columns

Index(['同比', '城市', '定基', '环比'], dtype='object')

In [107]:
d.values

array([[120.7, '北京', 121.4, 101.5],
       [127.3, '上海', 127.8, 101.2],
       [119.4, '广州', 120.0, 101.3],
       [140.9, '深圳', 145.5, 102.0],
       [101.4, '沈阳', 101.5, 100.1]], dtype=object)

In [109]:
d['同比'] # 获得对应的列，包含索引值

c1    120.7
c2    127.3
c3    119.4
c4    140.9
c5    101.4
Name: 同比, dtype: float64

In [112]:
d.loc['c2'] #获取某一行

127.3

In [114]:
d['同比']['c2']

127.3

## 数据类型操作

如何改变Series和DataFrame对象？

* 增加或重排：重新索引
* 删除: drop

### 重新索引

`.reindex()`能够改变或重排Series和DataFrame索引

参数 | 说明
:---: | :---------:
index, columns|新的行列自定义索引
fill_value|重新索引中，用于填充缺失位置的值
method|填充方法，ffill当前值向前填充，bfill向后填充
limit|最大填充值
copy|默认为True，生成新的对象；False，新旧相等不复制

#### 行、列索引排序

In [115]:
d1 = {'城市':['北京','上海','广州','深圳','沈阳'],
     '环比':[101.5, 101.2, 101.3, 102.0, 100.1],
     '同比':[120.7, 127.3, 119.4, 140.9, 101.4],
     '定基':[121.4, 127.8, 120.0, 145.5, 101.5]}
d = pd.DataFrame(d1, index=['c1','c2','c3','c4','c5'])
d

Unnamed: 0,同比,城市,定基,环比
c1,120.7,北京,121.4,101.5
c2,127.3,上海,127.8,101.2
c3,119.4,广州,120.0,101.3
c4,140.9,深圳,145.5,102.0
c5,101.4,沈阳,101.5,100.1


In [116]:
d = d.reindex(index=['c5','c4','c3','c2','c1'])
d

Unnamed: 0,同比,城市,定基,环比
c5,101.4,沈阳,101.5,100.1
c4,140.9,深圳,145.5,102.0
c3,119.4,广州,120.0,101.3
c2,127.3,上海,127.8,101.2
c1,120.7,北京,121.4,101.5


In [117]:
d = d.reindex(columns=['城市','同比','环比','定基'])
d

Unnamed: 0,城市,同比,环比,定基
c5,沈阳,101.4,100.1,101.5
c4,深圳,140.9,102.0,145.5
c3,广州,119.4,101.3,120.0
c2,上海,127.3,101.2,127.8
c1,北京,120.7,101.5,121.4


#### 增加新的列

In [118]:
newc = d.columns.insert(4, '新增')
newd = d.reindex(columns=newc, fill_value=200)
newd

Unnamed: 0,城市,同比,环比,定基,新增
c5,沈阳,101.4,100.1,101.5,200
c4,深圳,140.9,102.0,145.5,200
c3,广州,119.4,101.3,120.0,200
c2,上海,127.3,101.2,127.8,200
c1,北京,120.7,101.5,121.4,200


### Index类型

In [119]:
d.index

Index(['c5', 'c4', 'c3', 'c2', 'c1'], dtype='object')

In [120]:
d.columns

Index(['城市', '同比', '环比', '定基'], dtype='object')

`Index`对象是不可修改类型

Index的方法 | 说明
:---: | :---------:
.append(idx)|连接另一个Index,产生新的index
.diff(idx)	|计算差集, 产生新的Index
.intersection(idx)	|计算交集
.union(idx)	|计算并集
.delete(loc)	|删除loc位置处的元素
.insert(loc,e)	|在loc位置增加一个元素e

In [121]:
d

Unnamed: 0,城市,同比,环比,定基
c5,沈阳,101.4,100.1,101.5
c4,深圳,140.9,102.0,145.5
c3,广州,119.4,101.3,120.0
c2,上海,127.3,101.2,127.8
c1,北京,120.7,101.5,121.4


In [127]:
nc = d.columns.delete(2)
ni = d.index.insert(5, 'c0')
#nd = d.reindex(index=ni, columns=nc, method='ffill')
nd = d.reindex(index=ni, columns=nc)
nd

Unnamed: 0,城市,同比,定基
c5,沈阳,101.4,101.5
c4,深圳,140.9,145.5
c3,广州,119.4,120.0
c2,上海,127.3,127.8
c1,北京,120.7,121.4
c0,,,


#### 删除

删除指定行货列索引，列索引需要参数`axis=1`

## 数据类型运算

* 算术运算根据行列索引，补齐后运算，运算默认产生浮点数
* 补齐时缺项填充NaN（空值）
* 二维和一维、一维和零维间为广播运算
* 采用`+-*/`符号进行的二元运算产生新的对象
* 采用`> < >= <= == !=`等符号进行的二元运算产生布尔对象

### 数据类型的算术运算

In [130]:
import pandas as pd
import numpy as np

a = pd.DataFrame(np.arange(12).reshape(3,4))
a

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [131]:
b = pd.DataFrame(np.arange(20).reshape(4,5))
b

Unnamed: 0,0,1,2,3,4
0,0,1,2,3,4
1,5,6,7,8,9
2,10,11,12,13,14
3,15,16,17,18,19


In [132]:
a + b

Unnamed: 0,0,1,2,3,4
0,0.0,2.0,4.0,6.0,
1,9.0,11.0,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


In [136]:
a * b # 自动补齐，缺项补NaN

Unnamed: 0,0,1,2,3,4
0,0.0,1.0,4.0,9.0,
1,20.0,30.0,42.0,56.0,
2,80.0,99.0,120.0,143.0,
3,,,,,


方法形式的运算：

方法 | 说明
:---: | :---------:
.add(d, **argws)|类型间加法运算，可选参数
.sub(d, **argws)|类型间减法运算，可选参数
.mul(d,**argws)|类型间乘法运算，可选参数
.div(d,**argws)|类型间除法运算，可选参数

In [140]:
# fill_value参数替代NaN，替代后参与运算
b.add(a, fill_value=100)

Unnamed: 0,0,1,2,3,4
0,0.0,2.0,4.0,6.0,104.0
1,9.0,11.0,13.0,15.0,109.0
2,18.0,20.0,22.0,24.0,114.0
3,115.0,116.0,117.0,118.0,119.0


In [141]:
a.mul(b, fill_value=0)

Unnamed: 0,0,1,2,3,4
0,0.0,1.0,4.0,9.0,0.0
1,20.0,30.0,42.0,56.0,0.0
2,80.0,99.0,120.0,143.0,0.0
3,0.0,0.0,0.0,0.0,0.0


### 广播运算

广播运算中，一维Series默认在`axis=1`参与运算

In [143]:
b = pd.DataFrame(np.arange(20).reshape(4, 5))
b

Unnamed: 0,0,1,2,3,4
0,0,1,2,3,4
1,5,6,7,8,9
2,10,11,12,13,14
3,15,16,17,18,19


In [144]:
c = pd.Series(np.arange(4))
c

0    0
1    1
2    2
3    3
dtype: int64

In [146]:
c - 10

0   -10
1    -9
2    -8
3    -7
dtype: int64

In [147]:
b - c

Unnamed: 0,0,1,2,3,4
0,0.0,0.0,0.0,0.0,
1,5.0,5.0,5.0,5.0,
2,10.0,10.0,10.0,10.0,
3,15.0,15.0,15.0,15.0,


In [151]:
b.sub(c, axis=0) #令一维Series参与轴0运算

Unnamed: 0,0,1,2,3,4
0,0,1,2,3,4
1,4,5,6,7,8
2,8,9,10,11,12
3,12,13,14,15,16


In [154]:
a = pd.DataFrame(np.arange(12).reshape(3, 4))
b = pd.DataFrame(np.arange(12, 0, -1).reshape(3, 4))
a > b

Unnamed: 0,0,1,2,3
0,False,False,False,False
1,False,False,False,True
2,True,True,True,True


In [155]:
a == b

Unnamed: 0,0,1,2,3
0,False,False,False,False
1,False,False,True,False
2,False,False,False,False


# Pandas数据特征分析

* 对于一组数据可以表达一个或多个含义。
* **摘要**：在数据形成特征的过程中，采用有损方式获得的一些结果

通过摘要可以：
* 基本统计（含排序）
* 分布/累计统计
* 数据特征相关性、周期性等
* 数据挖掘

## 数据排序

### 根据索引排序

* `sort_index()`方法在指定轴上根据**索引**进行排序，默认升序。 这里pandas对索引的操作即为对数据的操作
* `sort_index(axis=0, ascending=True)`

In [156]:
b = pd.DataFrame(np.arange(20).reshape(4, 5), index=['c','d','a','b'])
b

Unnamed: 0,0,1,2,3,4
c,0,1,2,3,4
d,5,6,7,8,9
a,10,11,12,13,14
b,15,16,17,18,19


In [157]:
b.sort_index()

Unnamed: 0,0,1,2,3,4
a,10,11,12,13,14
b,15,16,17,18,19
c,0,1,2,3,4
d,5,6,7,8,9


In [158]:
b.sort_index(ascending=False)

Unnamed: 0,0,1,2,3,4
d,5,6,7,8,9
c,0,1,2,3,4
b,15,16,17,18,19
a,10,11,12,13,14


In [161]:
b.sort_index(axis=1, ascending=False) # 各个列进行排序

Unnamed: 0,4,3,2,1,0
c,4,3,2,1,0
d,9,8,7,6,5
a,14,13,12,11,10
b,19,18,17,16,15


### 根据数据排序

* `.sort_values()`方法在指定轴上根据**数值**进行排序，默认升序
* `Series.sort_values(axis=0, ascending=True)`
* `DataFrame.sort_values(by, axis=0, ascending=True)` by: axis轴上的某个索引或索引列表

In [164]:
b = pd.DataFrame(np.arange(20).reshape(4, 5), index=['c','d','a','b'])
b

Unnamed: 0,0,1,2,3,4
c,0,1,2,3,4
d,5,6,7,8,9
a,10,11,12,13,14
b,15,16,17,18,19


In [169]:
c = b.sort_values(2, ascending=False)
c

Unnamed: 0,0,1,2,3,4
b,15,16,17,18,19
a,10,11,12,13,14
d,5,6,7,8,9
c,0,1,2,3,4


In [171]:
c = b.sort_values('a', axis=1, ascending=False)
c

Unnamed: 0,4,3,2,1,0
c,4,3,2,1,0
d,9,8,7,6,5
a,14,13,12,11,10
b,19,18,17,16,15


* `NaN`统一放到排序末尾

## 基本统计方法

### 基本的统计分析函数

适用于Series和DataFrame类型

方法 | 说明
:---: | :---------:
.sum()	|计算数据的综合，按0轴计算，下同
.count()	|非NaN值的数量
.mean() .median()	|计算数据的算术平均值、算术中位数
.var() .std()	|计算数据的方差、标准差
.min() .max()	|计算数据的最小值、最大值
.describe()	|针对0轴(各列)的统计汇总

适用于Series类型

方法 | 说明
:---: | :---------:
.argmin() .argmax()	|计算数据最大值、最小值所在位置的位置（自动索引）
.idxmin() idxmax()	|计算数据最大值、最小值所在位置的位置（自定义索引）

In [187]:
# Series对象
a =pd.Series([9,8,7,6],index=['a','b','c','d'])
a

a    9
b    8
c    7
d    6
dtype: int64

In [180]:
a.describe()

count    4.000000
mean     7.500000
std      1.290994
min      6.000000
25%      6.750000
50%      7.500000
75%      8.250000
max      9.000000
dtype: float64

In [181]:
type(a.describe())

pandas.core.series.Series

In [184]:
a.describe()['count']

4.0

In [185]:
a.describe()['max']

9.0

In [189]:
# DataFrame对象
b = pd.DataFrame(np.arange(20).reshape(4, 5), index=['c','d','a','b'])
b.describe()

Unnamed: 0,0,1,2,3,4
count,4.0,4.0,4.0,4.0,4.0
mean,7.5,8.5,9.5,10.5,11.5
std,6.454972,6.454972,6.454972,6.454972,6.454972
min,0.0,1.0,2.0,3.0,4.0
25%,3.75,4.75,5.75,6.75,7.75
50%,7.5,8.5,9.5,10.5,11.5
75%,11.25,12.25,13.25,14.25,15.25
max,15.0,16.0,17.0,18.0,19.0


In [191]:
b.describe().loc['max']

0    15.0
1    16.0
2    17.0
3    18.0
4    19.0
Name: max, dtype: float64

In [192]:
b.describe()[2]

count     4.000000
mean      9.500000
std       6.454972
min       2.000000
25%       5.750000
50%       9.500000
75%      13.250000
max      17.000000
Name: 2, dtype: float64

## 数据的累计统计分析

### 累计计算

方法 | 说明
:---: | :---------:
.cumsum()	|依次给出前1、2、…、n个数的和
.cumprod()	|依次给出前1、2、…、n个数的积
.cummax()	|依次给出前1、2、…、n个数的最大值
.cummin()	|依次给出前1、2、…、n个数的最小值

In [193]:
b = pd.DataFrame(np.arange(20).reshape(4, 5), index=['c','d','a','b'])
b

Unnamed: 0,0,1,2,3,4
c,0,1,2,3,4
d,5,6,7,8,9
a,10,11,12,13,14
b,15,16,17,18,19


In [194]:
b.cumsum()

Unnamed: 0,0,1,2,3,4
c,0,1,2,3,4
d,5,7,9,11,13
a,15,18,21,24,27
b,30,34,38,42,46


In [195]:
b.cumprod()

Unnamed: 0,0,1,2,3,4
c,0,1,2,3,4
d,0,6,14,24,36
a,0,66,168,312,504
b,0,1056,2856,5616,9576


In [196]:
b.cummin()

Unnamed: 0,0,1,2,3,4
c,0,1,2,3,4
d,0,1,2,3,4
a,0,1,2,3,4
b,0,1,2,3,4


### 滑动计算（窗口计算）

方法 | 说明
:---: | :---------:
.rolling(w).sum()	|依次计算相邻w个元素的和
.rolling(w).mean()	|依次计算相邻w个元素的算术平均值
.rolling(w).var()	|依次计算相邻w个元素的方差
.rolling(w).std()	|依次计算相邻w个元素的标准差
.rolling(w).min() .max()	|依次计算相邻w个元素的最小值和最大值

In [197]:
b.rolling(2).sum()

Unnamed: 0,0,1,2,3,4
c,,,,,
d,5.0,7.0,9.0,11.0,13.0
a,15.0,17.0,19.0,21.0,23.0
b,25.0,27.0,29.0,31.0,33.0


In [198]:
b.rolling(3).sum()

Unnamed: 0,0,1,2,3,4
c,,,,,
d,,,,,
a,15.0,18.0,21.0,24.0,27.0
b,30.0,33.0,36.0,39.0,42.0


## 数据的相关性分析

### 协方差

$cov(X, Y)=\frac{\sum_{i=1}^n(x_i-\hat X)(y_i-\hat Y)}{n-1}$

* >0, 正相关
* <0, 负相关
* =0, 不相关

### Pearson相关系数

$r=\frac{\sum_{i=1}^n(x_i-\hat X)(y_i-\hat Y)}{\sqrt{\sum_{i=1}^n(x_i-\overline X) \sum_{i=1}^n(y_i-\overline Y)}}$

* 0.8-1.0 极强相关
* 0.6-0.8 强相关
* 0.4-0.6 中等程度相关
* 0.2-0.4 弱相关
* 0.0-0.2 极弱相关或无相关

方法 | 说明
:---: | :---------:
.cov()	|计算协方差矩阵
.corr()	|计算相关系数矩阵，Pearson、Spearman、Kendall等系数