# Pandas库入门

## 一、Pandas库的介绍

Pandas是Python第三方库，提供高性能易用数据类型和分析工具。

Pandas的引用：import pandas as pd

注：pandas基于NumPy实现，常与NumPy和Matplotlib一同使用

### 1、Pandas库小测

In [63]:
import pandas as pd

d = pd.Series(range(20))

d

0      0
1      1
2      2
3      3
4      4
5      5
6      6
7      7
8      8
9      9
10    10
11    11
12    12
13    13
14    14
15    15
16    16
17    17
18    18
19    19
dtype: int32

In [64]:
d.cumsum()  #计算前N项累加和

0       0
1       1
2       3
3       6
4      10
5      15
6      21
7      28
8      36
9      45
10     55
11     66
12     78
13     91
14    105
15    120
16    136
17    153
18    171
19    190
dtype: int32

### 2、Pandas库的理解

两个数据类型：Series，DataFrame

基于上述数据类型的各种操作：基本操作、运算操作、特征类操作、关联类操作

###  3、比较
      NumPy                 Pandas

    基础数据类型            扩展数据类型
   
    关注数据间的结构表达      关注数据的应用表达
    
    维度：数据间关系         数据与索引关系

## 二、Pandas库的Series类型

### 1、Series类型

Series类型由一组数据索引及与之相关的数据组成。

    索引         数据
    
    index_0  --> data_a

    index_1  --> data_b

    index_2  --> data_c

    index_3  --> data_d

In [65]:
import pandas as pd

a = pd.Series([9,8,7,6])

b = pd.Series(range(4))

a    #这里采用的是自动索引；int64 是NumPy中的数据类型

0    9
1    8
2    7
3    6
dtype: int64

In [66]:
b

0    0
1    1
2    2
3    3
dtype: int32

In [67]:
c = pd.Series([9,8,7,6],index=['a','b','c','d'])

c   #这里采用的是自定义索引（手动）；作为第二个参数，可以省略index= 

a    9
b    8
c    7
d    6
dtype: int64

### 2、Series类型创建

Series类型可以由以下类型创建：

    标量值     :  index表达Series类型的尺寸；
    
    Python字典  :  键值对中的键是索引，index从字典中进行选择操作；
    
    Python列表  :  index与列表元素个数一致；
    
    ndarray    :  索引和数据均可通过ndarray类型创建；
    
    其他函数   :  range()函数等
    

In [68]:
# 从标量值创建

s = pd.Series(25 , index=['a','b','c','d'])  ## 不能省略index

s

a    25
b    25
c    25
d    25
dtype: int64

In [69]:
# 从Python字典类型创建

d = pd.Series({'a':1 , 'b':9,'c':8,'d':10})  ##注意字典格式！！！

d

a     1
b     9
c     8
d    10
dtype: int64

In [70]:
# index可以从字典中进行选择操作

e = pd.Series({'a':9,'b':8,'c':7,'d':6} , index = ['c','a','b','d'])

e

c    7
a    9
b    8
d    6
dtype: int64

In [71]:
# 从Python列表类型创建

f = pd.Series([9,8,7,6] , index = ['a','b','c','d'])
f

a    9
b    8
c    7
d    6
dtype: int64

In [72]:
# 从ndarray类型创建

import numpy as np
import pandas as pd

n = pd.Series(np.arange(5))

n

m = pd.Series(np.arange(5), index = np.arange(9,4,-1)) # np.arange 类似于range（）

m

9    0
8    1
7    2
6    3
5    4
dtype: int32

In [73]:
# 其他函数
 
g = pd.Series(range(4,-2,-1))
g

0    4
1    3
2    2
3    1
4    0
5   -1
dtype: int32

### 3、Series类型的基本操作

Series类型包括index和value两部分；

Series类型的操作类似ndarray类型；

Series类型的操作类似Python字典类型

In [74]:
import pandas as pd

b = pd.Series([9,8,7,6],['a','b','c','d'])
b

a    9
b    8
c    7
d    6
dtype: int64

In [75]:
b.index  # .index 获得索引

Index(['a', 'b', 'c', 'd'], dtype='object')

In [76]:
b.values # .values获得数据

array([9, 8, 7, 6], dtype=int64)

In [77]:
b['b']

8

In [78]:
b[1]   #自定义索引和自动索引并存

8

In [79]:
b[['c','d',0]] #可以同时选择几个间断的值，也可切片，但两套索引并存，不能混用

c    7.0
d    6.0
0    NaN
dtype: float64

In [80]:
b[['c','b','a']]

c    7
b    8
a    9
dtype: int64

Series类型的操作类似ndarray类型:
    
    索引方法相同，采用[]；
    
    # NumPy中运算和操作可以用于Series类型；
    
    可以通过自定义索引的列表来进行切片；
    
    可以通过自动索引进行切片，如果存在自定义索引，则一同被切片
    

In [81]:
b = pd.Series([9,8,7,6],['a','b','c','d'])
b

a    9
b    8
c    7
d    6
dtype: int64

In [82]:
b[3]

6

In [83]:
b[:3]

a    9
b    8
c    7
dtype: int64

In [84]:
b[b > b.median()] #NumPy中的运算函数，求中位数

a    9
b    8
dtype: int64

In [85]:
np.exp(b)

a    8103.083928
b    2980.957987
c    1096.633158
d     403.428793
dtype: float64

Series类型的操作类似Python字典类型：

    通过自定义索引访问；
    
    保留字in操作；
    
    使用.get()方法   

In [86]:
b = pd.Series([9,8,7,6],['a','b','c','d'])
b

a    9
b    8
c    7
d    6
dtype: int64

In [87]:
b['b']

8

In [88]:
'c' in b

True

In [89]:
0 in b

False

In [90]:
b.get('f',100)

100

### 4、Series类型对齐操作
Series + Series 

Series类型在运算中会自动对齐不同索引的数据

In [91]:
a = pd.Series([1,2,3],['c','d','e'])
b = pd.Series([9,8,7,6],['a','b','c','d'])

a + b   #即为补全NaN

a    NaN
b    NaN
c    8.0
d    8.0
e    NaN
dtype: float64

### 5、Series类型的name属性
Series对象和索引都可以有一个名字，储存在属性.name中

In [92]:
b = pd.Series([9,8,7,6],['a','b','c','d'])
b.name
b.name = 'Series对象'
b.index.name ='索引列'

In [93]:
b

索引列
a    9
b    8
c    7
d    6
Name: Series对象, dtype: int64

### 6、Series类型的修改
Series对象可以随时修改并即刻生效

In [94]:
import pandas as pd

b = pd.Series([9,8,7,6],['a','b','c','d'])

b['a'] = 15

b.name = 'Series'

b

a    15
b     8
c     7
d     6
Name: Series, dtype: int64

In [95]:
b.name = 'New Series'

b[['b','c']] = 20

b

a    15
b    20
c    20
d     6
Name: New Series, dtype: int64

In [96]:
b['b','c'] = 11

In [97]:
b

a    15
b    11
c    11
d     6
Name: New Series, dtype: int64

#### Series类型总结：

它是一维带“标签”的数组，基本操作类似ndarray和字典，根据索引对齐。

## 三、Pandas库的DataFrame类型

### 1、DataFrame类型

DataFrame类型是由共用相同索引的一组列组成的。是一个表格型的数据类型，每列值类型可以不同；

DataFrame可以有行索引，也有列索引；

它常用于表达二维数据，但也可以表达多维数据     
              
              |columns_0  column_1……
   
     index_0  -->  data_a   data_1  ……
     index_1  -->  data_b   data_2  ……
     index_2  -->  data_c   data_3  ……
     index_3  -->  data_d   data_4  ……

    

### 2、DataFrame类型创建：
DataFrame类型可以由如下类型创建 :
      
      二维ndarray对象
      由一维ndarray、列表、字典、元组或Series构成的字典
      Series类型
      其他的DataFrame类型

In [98]:
# (1) 从二维ndarray对象创建

import numpy as np
import pandas as pd
d = pd.DataFrame(np.arange(10).reshape(2,5))

d   #自动行索引、自动列索引

Unnamed: 0,0,1,2,3,4
0,0,1,2,3,4
1,5,6,7,8,9


In [99]:
# (2) 从列表类型的字典创建

d1 = {'one':[1,2,3,4],'two':[9,8,7,6]}

d = pd.DataFrame(d1,index=['a','b','c','d'])

d

Unnamed: 0,one,two
a,1,9
b,2,8
c,3,7
d,4,6


In [100]:
# 同上
d2 = {'城市':['北京','上海','广州','深圳','沈阳'],
      '环比':[101.5,101.2,101.3,102.0,100.1],
      '同比':[120.7,127.3,119.4,140.9,101.4],
      '定基':[121.4,127.8,120.0,145.5,101.6]}

d = pd.DataFrame(d2,index=['c1','c2','c3','c4','c5'])

d

Unnamed: 0,同比,城市,定基,环比
c1,120.7,北京,121.4,101.5
c2,127.3,上海,127.8,101.2
c3,119.4,广州,120.0,101.3
c4,140.9,深圳,145.5,102.0
c5,101.4,沈阳,101.6,100.1


In [101]:
d.index #竖首列

Index(['c1', 'c2', 'c3', 'c4', 'c5'], dtype='object')

In [102]:
d.columns #横首行

Index(['同比', '城市', '定基', '环比'], dtype='object')

In [103]:
d.values

array([[120.7, '北京', 121.4, 101.5],
       [127.3, '上海', 127.8, 101.2],
       [119.4, '广州', 120.0, 101.3],
       [140.9, '深圳', 145.5, 102.0],
       [101.4, '沈阳', 101.6, 100.1]], dtype=object)

In [104]:
d['同比']

c1    120.7
c2    127.3
c3    119.4
c4    140.9
c5    101.4
Name: 同比, dtype: float64

In [105]:
d.ix['c2']  #！！！

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#deprecate_ix
  if __name__ == '__main__':


同比    127.3
城市       上海
定基    127.8
环比    101.2
Name: c2, dtype: object

In [106]:
d['同比']['c2']

127.3

In [107]:
# (3) 从Series构成的字典创建

dt = {'one':pd.Series([1,2,3], index = ['a','b','c']),
      'two':pd.Series([9,8,7,6], index = ['a','b','c','d'])}

d = pd.DataFrame(dt)

d  #自定义行索引、自定义列索引

Unnamed: 0,one,two
a,1.0,9
b,2.0,8
c,3.0,7
d,,6


In [108]:
# 数据根据行列索引自动补齐

pd.DataFrame(dt , index = ['b','c','d'] , columns = ['two','three'])

Unnamed: 0,two,three
b,8,
c,7,
d,6,


#### DataFrame类型总结：
DataFrame是二维带标签的数组；

DataFrame基本操作类似Series，依据行列索引。

## 四、Pandas库的数据类型操作

### 1、如何改变Series和DataFrame对象？

增加或重排：重新索引 

.reindex()能改变或重排Series和DataFrame索引

删除：drop

.drop()能够删除Series和DataFrame指定行或列索引

#### 重新索引：
.reindex( index=None ,columns=None,……)的参数

    index, columns   新的行列自定义索引
    fill_value      重新索引中，用于填充缺失位置的值
    method         填充方法，ffill当前值向前填充,bfill向后填充
    limit         最大填充量
    copy          默认True,生成新的对象，False时新旧相等不复制
    

In [109]:
# 同上
d2 = {'城市':['北京','上海','广州','深圳','沈阳'],
      '环比':[101.5,101.2,101.3,102.0,100.1],
      '同比':[120.7,127.3,119.4,140.9,101.4],
      '定基':[121.4,127.8,120.0,145.5,101.6]}

d = pd.DataFrame(d2,index=['c1','c2','c3','c4','c5'])

d

Unnamed: 0,同比,城市,定基,环比
c1,120.7,北京,121.4,101.5
c2,127.3,上海,127.8,101.2
c3,119.4,广州,120.0,101.3
c4,140.9,深圳,145.5,102.0
c5,101.4,沈阳,101.6,100.1


In [110]:
# 重排行
d = d.reindex(index=['c5','c4','c3','c2','c1'])
d

Unnamed: 0,同比,城市,定基,环比
c5,101.4,沈阳,101.6,100.1
c4,140.9,深圳,145.5,102.0
c3,119.4,广州,120.0,101.3
c2,127.3,上海,127.8,101.2
c1,120.7,北京,121.4,101.5


In [111]:
# 重排列
d = d.reindex(columns=['城市','同比','环比','定基'])
d

Unnamed: 0,城市,同比,环比,定基
c5,沈阳,101.4,100.1,101.6
c4,深圳,140.9,102.0,145.5
c3,广州,119.4,101.3,120.0
c2,上海,127.3,101.2,127.8
c1,北京,120.7,101.5,121.4


In [112]:
#fill_value 重新索引中，用于填充缺失位置的值
newc = d.columns.insert(4,'新增')
newd = d.reindex(columns=newc,fill_value=200) 

newd

Unnamed: 0,城市,同比,环比,定基,新增
c5,沈阳,101.4,100.1,101.6,200
c4,深圳,140.9,102.0,145.5,200
c3,广州,119.4,101.3,120.0,200
c2,上海,127.3,101.2,127.8,200
c1,北京,120.7,101.5,121.4,200


In [122]:
a = pd.Series([9,8,7,6],index=['a','b','c','c'])
a

a    9
b    8
c    7
c    6
dtype: int64

In [123]:
a.drop(['b','c'])

a    9
dtype: int64

In [124]:
d.drop('c5')

Unnamed: 0,城市,同比,环比,定基
c4,深圳,140.9,102.0,145.5
c3,广州,119.4,101.3,120.0
c2,上海,127.3,101.2,127.8
c1,北京,120.7,101.5,121.4


In [125]:
d.drop('同比',axis=1)

Unnamed: 0,城市,环比,定基
c5,沈阳,100.1,101.6
c4,深圳,102.0,145.5
c3,广州,101.3,120.0
c2,上海,101.2,127.8
c1,北京,101.5,121.4


### 2、索引类型
Series和DataFrame的索引是Index类型，这种类型是不可修改类型

#### 索引类型的常用方法

    .append(idx)  连接另一个Index对象，产生新的Index对象
    .diff(index)  计算差集，产生新的Index对象
    .intersection(idx) 计算交集
    .union(idx)   计算并集
    .delete(loc)  删除loc位置处的元素
    .insert(loc,e) 在loc位置增加一个元素e
    

In [113]:
d.index  # Series和DataFrame的索引是Index类型，这种类型是不可修改类型

Index(['c5', 'c4', 'c3', 'c2', 'c1'], dtype='object')

In [114]:
d.columns

Index(['城市', '同比', '环比', '定基'], dtype='object')

In [115]:
d

Unnamed: 0,城市,同比,环比,定基
c5,沈阳,101.4,100.1,101.6
c4,深圳,140.9,102.0,145.5
c3,广州,119.4,101.3,120.0
c2,上海,127.3,101.2,127.8
c1,北京,120.7,101.5,121.4


In [120]:
nc = d.columns.delete(2) #删除列2处的元素
ni = d.index.insert(5,'c0')
nd = d.reindex(index=ni , columns=nc)# 与课件不同！！ method='ffill'
nd

Unnamed: 0,城市,同比,定基
c5,沈阳,101.4,101.6
c4,深圳,140.9,145.5
c3,广州,119.4,120.0
c2,上海,127.3,127.8
c1,北京,120.7,121.4
c0,,,


## 五、Pandas库的数据类型运算

### 1、算术运算法则
算术运算根据行列索引，补齐后运算，运算默认产生浮点数，补齐时缺项填充NaN（空值）；

二维和一维、一维和零维间为广播运算；

采用+-/*符号进行的二元运算产生新的对象

方法：

      .add(d,**argws)   类型间加法运算,可选参数
      .sub(d,**argws)   类型间减法运算,可选参数
      .mul(d,**argws)   类型间乘法运算,可选参数
      .div(d,**argws)   类型间除法运算,可选参数

In [126]:
import pandas as pd
import numpy as np

a = pd.DataFrame(np.arange(12).reshape(3,4))

a

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [128]:
b = pd.DataFrame(np.arange(20).reshape(4,5))
b

Unnamed: 0,0,1,2,3,4
0,0,1,2,3,4
1,5,6,7,8,9
2,10,11,12,13,14
3,15,16,17,18,19


In [131]:
a + b                    # 自动补齐，缺项补NaN

Unnamed: 0,0,1,2,3,4
0,0.0,2.0,4.0,6.0,
1,9.0,11.0,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


In [133]:
a *  b                   # 自动补齐，缺项补NaN

Unnamed: 0,0,1,2,3,4
0,0.0,1.0,4.0,9.0,
1,20.0,30.0,42.0,56.0,
2,80.0,99.0,120.0,143.0,
3,,,,,


In [136]:
b.add(a,fill_value = 100)  #fill_value参数替代NaN，替代后参与运算

Unnamed: 0,0,1,2,3,4
0,0.0,2.0,4.0,6.0,104.0
1,9.0,11.0,13.0,15.0,109.0
2,18.0,20.0,22.0,24.0,114.0
3,115.0,116.0,117.0,118.0,119.0


In [137]:
a.mul(b,fill_value=0)    #fill_value参数替代NaN，替代后参与运算

Unnamed: 0,0,1,2,3,4
0,0.0,1.0,4.0,9.0,0.0
1,20.0,30.0,42.0,56.0,0.0
2,80.0,99.0,120.0,143.0,0.0
3,0.0,0.0,0.0,0.0,0.0


In [138]:
c = pd.Series(np.arange(4))
c

0    0
1    1
2    2
3    3
dtype: int32

In [139]:
c-10  #不同维度间为广播运算

0   -10
1    -9
2    -8
3    -7
dtype: int32

In [140]:
b - c  #不同维度间为广播运算，一维Series默认在轴一参与运算

Unnamed: 0,0,1,2,3,4
0,0.0,0.0,0.0,0.0,
1,5.0,5.0,5.0,5.0,
2,10.0,10.0,10.0,10.0,
3,15.0,15.0,15.0,15.0,


In [141]:
b.sub(c,axis = 0)  #使用运算方法可以使一维Series参与轴零运算

Unnamed: 0,0,1,2,3,4
0,0,1,2,3,4
1,4,5,6,7,8
2,8,9,10,11,12
3,12,13,14,15,16


### 2、比较运算法则
比较运算只能比较相同索引的元素，不进行对齐；

二维和一维、一维和零维间为广播运算；

采用< > <= >= != ==等符号进行的二元运算产生布尔对象



In [145]:
c = pd.Series(np.arange(4))

d = pd.DataFrame(np.arange(12,0,-1).reshape(3,4))
d

Unnamed: 0,0,1,2,3
0,12,11,10,9
1,8,7,6,5
2,4,3,2,1


In [143]:
a > d  # 同纬度运算，尺寸一致

Unnamed: 0,0,1,2,3
0,False,False,False,False
1,False,False,False,True
2,True,True,True,True


In [144]:
a == d  # 同纬度运算，尺寸一致

Unnamed: 0,0,1,2,3
0,False,False,False,False
1,False,False,True,False
2,False,False,False,False


In [146]:
a > c  # 不同维度，广播运算，默认在一轴

Unnamed: 0,0,1,2,3
0,False,False,False,False
1,True,True,True,True
2,True,True,True,True


In [148]:
c > 0  # 不同维度，广播运算，默认在一轴

0    False
1     True
2     True
3     True
dtype: bool

## 六、单元小结

#### Pandas入门

##### Series = 索引 + 一维数据

##### DataFrame = 行列索引 + 二维数据

理解数据类型与索引的关系，操作索引即操作数据

重新索引、数据删除、算术运算、比较运算

像对待单一数据一样对待Series和DataFrame对象