# 第0讲：Pandas简介

+ Python第三方库，提供高性能易用数据类型和分析工具
+ 引用方法：import pandas as pd
+ Pandas基于NumPy实现，常与NumPy和Matplotlib一同使用

---
两个数据类型：Series(一维数据）, DataFrame（高维数据)

基本操作、运算操作、特征类操作、关联类操作

---
**和NumPy的比较**
+ NumPy关注数据的结构表达 Pandas关注数据的应用表达
+ NumPy提供基础数据类型，Pandas提供扩展数据类型
+ NumPy考虑数据间关系 Pandas考虑数据与索引间关系

In [3]:
#一个例子
import pandas as pd
d = pd.Series(range(5))
d,d.cumsum()#d 以及 d的前n项和

(0    0
 1    1
 2    2
 3    3
 4    4
 dtype: int64,
 0     0
 1     1
 2     3
 3     6
 4    10
 dtype: int64)

---
# 第1节：Series类型

Series类型由一组【数据及索引】组成

简单来说就是【一个索引index对应一个数据data】

In [4]:
d = pd.Series([9,8,7,6])
d 
# 注意看左侧的0 1 2 3是自动索引
# dtype 沿用NumPy的数据类型

0    9
1    8
2    7
3    6
dtype: int64

In [5]:
# 【如果需要】可以自己设置index
d = pd.Series([9,8,7,6],index = ['myindex1','myindex2','myindex3','myindex4'])
d

myindex1    9
myindex2    8
myindex3    7
myindex4    6
dtype: int64

In [8]:
# 【创建Series类型】方法1：从标量创建
# 这个方法【不可以】省略index
d = pd.Series('str' ,index = ['myindex1','myindex2','myindex3','myindex4'])
d

myindex1    str
myindex2    str
myindex3    str
myindex4    str
dtype: object

In [9]:
# 方法2：从字典创建
# 由于字典也是【index-data】结构，可以从字典创建Series

dir = {'a': 1, 'b': 2, 'c': 3, 1: 5}
index = ['a', 'b', 'c', 'd', 1]

pd.Series(dir, index) # Series自己去字典找对应index的值，如果找不到就是NaN

a    1.0
b    2.0
c    3.0
d    NaN
1    5.0
dtype: float64

In [11]:
# 方法3：从 NumPy 的 ndarray 类型创建
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

# data  = np.arange(1,5)
data = np.random.rand(4)
index = np.arange(6,10)

pd.Series(data, index)

6    0.141522
7    0.480137
8    0.206698
9    0.304436
dtype: float64

In [12]:
# 方法4：Python自带列表
data = [-1,-5,6,2]
index = [7,3,4,6]

pd.Series(data, index)

7   -1
3   -5
4    6
6    2
dtype: int64

In [14]:
# 方法5：Pandas自带函数
pd.Series(range(5),index = [1,3,5,7,9])

1    0
3    1
5    2
7    3
9    4
dtype: int64

In [16]:
#【Series类型的操作】

data  = [1,3,5,7]
index = ['a','b','c','d']

d = pd.Series(data, index)
d.values,d.index
# .index 获得索引
# .values 获得数据

(array([1, 3, 5, 7], dtype=int64), Index(['a', 'b', 'c', 'd'], dtype='object'))

In [18]:
d['a'],d[0] #系统自动给的索引 和 手动给的索引 都是存在并且可以使用的

(1, 1)

In [19]:
d[['a','c','d']]

a    1
c    5
d    7
dtype: int64

In [21]:
# 但是不要把二者混用
# d[['a',1,3]] 这行代码会报错

In [23]:
# 【Series基本操作】

data  = [1,3,5,7]
index = ['a','b','c','d']

b = pd.Series(data, index)

a1 = b[3] #索引

a2 = b[:3] #切片

a3 = np.exp(b)#numpy可以直接操作

a1,a2,a3

(7,
 a    1
 b    3
 c    5
 dtype: int64,
 a       2.718282
 b      20.085537
 c     148.413159
 d    1096.633158
 dtype: float64)

In [24]:
# 【Series类型的操作类似Python字典类型】

# 通过自定义索引访问

# 保留字in操作：对index采用in方法
data  = [1,3,5,7]
index = ['a','b','c','d']

b = pd.Series(data, index)
'a' in b

True

In [26]:
# 使用.get()方法 dict.get(key, default=None)
# 如果key的值存在，返回key的值，否则返回默认参数default的值
b.get('d',-1),b.get('x',-1)

(7, -1)

---
### 以上讲解了创建和访问Series对象的基本方法
### 接下来看一下Series的高级用法

In [29]:
# Series类型在运算中会【自动对齐】不同索引的数据
data  = [1,3,5,7]
index = ['a','b','c','d']

a = pd.Series(data, index)

data1  = [2,4,6,8]
index1 = ['c','d','e','f']

b = pd.Series(data1, index1)
a,b

(a    1
 b    3
 c    5
 d    7
 dtype: int64,
 c    2
 d    4
 e    6
 f    8
 dtype: int64)

In [30]:
a+b

a     NaN
b     NaN
c     7.0
d    11.0
e     NaN
f     NaN
dtype: float64

In [31]:
# Series对象和索引都可以有一个【名字】，存储在属性.name中
data  = [1,3,5,7]
index = ['a','b','c','d']

b = pd.Series(data, index)
b.name = '一个Series数组'
b.index.name = '索引列'
b

索引列
a    1
b    3
c    5
d    7
Name: 一个Series数组, dtype: int64

In [32]:
# 【随时修改并即刻生效】

data  = [1,3,5,7]
index = ['a','b','c','d']

b = pd.Series(data, index)
b.name = 'Name1'

#修改Series
b['a'] = 100
b.name = 'Name100'
b#可以看到即可生效了

a    100
b      3
c      5
d      7
Name: Name100, dtype: int64

### 总结
Series是一维带“标签”数组（标签即index）

它的用法基本上和List还有ndarray的一维数组类似

---

---
# 第2节：DataFrame类型

处理二维/多维数据

最简单、最常用的情况：二维表格
# 定义
![avator](./image/day4-img1.PNG)

---
# 相关
![avator](./image/day4-img2.PNG)

In [33]:
#【创建DataFrame】方法1：从二维ndarray对象创建
data = np.arange(10).reshape(2,5)
d = pd.DataFrame(data)
d # 注意到自动生成了【行、列索引】

Unnamed: 0,0,1,2,3,4
0,0,1,2,3,4
1,5,6,7,8,9


In [34]:

# 方法2：由一维ndarray、列表、字典、元组或Series构成的 字典

# ndarray
data = {
    'one': np.arange(0, 5),
    'two': np.arange(6, 11)
}

# 列表
data = {
    'one': [1,3,5,7],
    'two': ['a','w','e','r']
}

#Series
data = {
    'one':pd.Series([1,2,3],index = ['a','b','c']),
    'two':pd.Series([9,8,7,6],index = ['a','b','c','d'])
}

d = pd.DataFrame(data)
d

Unnamed: 0,one,two
a,1.0,9
b,2.0,8
c,3.0,7
d,,6


In [38]:
# 【数据根据行列索引自动补齐】

data = {
    'one':pd.Series([1,2,3],index = ['a','b','c']),
    'two':pd.Series([9,8,7,6],index = ['a','b','c','d'])
}
d = pd.DataFrame(data,index = ['b','c','d'],columns = ['two','three'])
d

Unnamed: 0,two,three
b,8,
c,7,
d,6,


In [41]:
d.index,d.values,d.columns

(Index(['b', 'c', 'd'], dtype='object'),
 array([[8, nan],
        [7, nan],
        [6, nan]], dtype=object),
 Index(['two', 'three'], dtype='object'))

In [42]:
d['two']

b    8
c    7
d    6
Name: two, dtype: int64

In [45]:
# d.ix['c']
# ix函数（0.20.0版本后已经弃用）

# DataFrame基本操作类似Series，依据行列索引

---
# Pandas的数据类型操作
改变Series和DataFrame对象

In [46]:
data = {
    'columns1':[1,2,3,4],
    'columns2':[2,4,6,8],
    'columns3':[3,9,27,81]
}

d = pd.DataFrame(data,index = ['row1','row2','row3','row4'])

d

Unnamed: 0,columns1,columns2,columns3
row1,1,2,3
row2,2,4,9
row3,3,6,27
row4,4,8,81


In [47]:
# 重新索引：.reindex()能够改变或重排Series和DataFrame索引

d = d.reindex(index = ['row4','row3','row2','row1'])

d

Unnamed: 0,columns1,columns2,columns3
row4,4,8,81
row3,3,6,27
row2,2,4,9
row1,1,2,3


In [48]:
d = d.reindex(columns = ['columns3','columns2','columns1'])
d

Unnamed: 0,columns3,columns2,columns1
row4,81,8,4
row3,27,6,3
row2,9,4,2
row1,3,2,1


### .reindex()的完整参数表
![avatar](./image/day4-img3.PNG)

In [51]:
# fill_value参数
data = {
    'columns1':[1,2,3,4],
    'columns2':[2,4,6,8],
    'columns3':[3,9,27,81]
}

d = pd.DataFrame(data,index = ['row1','row2','row3','row4'])

newcol = d.columns.insert(3,'new-column')

d = d.reindex(columns = newcol,fill_value = -1)
d #空缺值填充为 -1

Unnamed: 0,columns1,columns2,columns3,new-column
row1,1,2,3,-1
row2,2,4,9,-1
row3,3,6,27,-1
row4,4,8,81,-1


In [52]:
# Series和DataFrame的索引是【Index类型】
# Index对象是不可修改类型
d.index

Index(['row1', 'row2', 'row3', 'row4'], dtype='object')

In [58]:
#【index类型】的基本操作
# .append(idx) 连接另一个Index对象，产生新的Index对象【类似于<做加法>】

data = [1,3,5,7]
index1 = ['index1','index2','index3','index4']
index2 = ['index1','index2','index5','index6']

a = pd.Series(data,index1)
b = pd.Series(data,index2)

Index_a = a.index
Index_b = b.index
# 首先创建 2 个Index对象
Index_a,Index_b

(Index(['index1', 'index2', 'index3', 'index4'], dtype='object'),
 Index(['index1', 'index2', 'index5', 'index6'], dtype='object'))

In [54]:
Index_a.append(Index_b)

Index(['index1', 'index2', 'index3', 'index4', 'index1', 'index2', 'index5',
       'index6'],
      dtype='object')

In [56]:
# .diff(idx) 计算差集，产生新的Index对象【类似于减法】
# 但是可能是因为Pandas版本问题，这个方法不能使用了
# 这个问题仍然在查证中
# Index_a.diff(Index_b)

In [57]:
# .intersection(idx) 计算交集
# .union(idx) 计算并集

Index_a.intersection(Index_b),Index_a.union(Index_b)

(Index(['index1', 'index2'], dtype='object'),
 Index(['index1', 'index2', 'index3', 'index4', 'index5', 'index6'], dtype='object'))

In [61]:
# .delete(loc) 删除loc位置处的元素
# .insert(loc,e) 在loc位置增加一个元素e
print(Index_a)
Index_a.delete(1)

Index(['index1', 'index2', 'index3', 'index4'], dtype='object')


Index(['index1', 'index3', 'index4'], dtype='object')

In [64]:
Index_b,Index_b.insert(4,'newindex')

(Index(['index1', 'index2', 'index5', 'index6'], dtype='object'),
 Index(['index1', 'index2', 'index5', 'index6', 'newindex'], dtype='object'))

In [67]:
# .drop()能够【删除】Series和DataFrame指定行或列索引
data = [1,3,5,7]
index1 = ['index1','index2','index3','index4']

a = pd.Series(data,index1)
a , a.drop(['index2','index4'])

(index1    1
 index2    3
 index3    5
 index4    7
 dtype: int64,
 index1    1
 index3    5
 dtype: int64)

In [70]:
data = {
    'columns1':[1,2,3,4],
    'columns2':[2,4,6,8],
    'columns3':[3,9,27,81]
}

d = pd.DataFrame(data,index = ['row1','row2','row3','row4'])
d

Unnamed: 0,columns1,columns2,columns3
row1,1,2,3
row2,2,4,9
row3,3,6,27
row4,4,8,81


In [71]:
d.drop('row1',axis = 0)# axis默认就是0，表示删除index

Unnamed: 0,columns1,columns2,columns3
row2,2,4,9
row3,3,6,27
row4,4,8,81


In [73]:
d.drop('columns2',axis = 1)# axis是1，表示删除column

Unnamed: 0,columns1,columns3
row1,1,3
row2,2,9
row3,3,27
row4,4,81


---
# 第3节：数据类型计算

### **规则**
+ 算术运算根据行列索引，补齐后运算，运算默认产生浮点数
+ 补齐时缺项填充NaN (空值)
+ 二维和一维、一维和零维间为广播运算
+ 采用$+-*/$符号进行的二元运算产生新的对象

In [74]:
#【例子】
a = pd.DataFrame(np.arange(12).reshape(3, 4))

b = pd.DataFrame(np.arange(20).reshape(4, 5))

a,b,a+b,a*b # 自动补齐NaN

(   0  1   2   3
 0  0  1   2   3
 1  4  5   6   7
 2  8  9  10  11,
     0   1   2   3   4
 0   0   1   2   3   4
 1   5   6   7   8   9
 2  10  11  12  13  14
 3  15  16  17  18  19,
       0     1     2     3   4
 0   0.0   2.0   4.0   6.0 NaN
 1   9.0  11.0  13.0  15.0 NaN
 2  18.0  20.0  22.0  24.0 NaN
 3   NaN   NaN   NaN   NaN NaN,
       0     1      2      3   4
 0   0.0   1.0    4.0    9.0 NaN
 1  20.0  30.0   42.0   56.0 NaN
 2  80.0  99.0  120.0  143.0 NaN
 3   NaN   NaN    NaN    NaN NaN)

In [81]:
# 【方法形式的】四则运算

# .add(d, **argws) 类型间加法运算，可选参数
# .sub(d, **argws) 类型间减法运算，可选参数
# .mul(d, **argws) 类型间乘法运算，可选参数
# .div(d, **argws) 类型间除法运算，可选参数

a = pd.DataFrame(np.arange(2).reshape(1, 2))
b = pd.DataFrame(np.arange(4).reshape(2, 2))
a.add(b,fill_value = -100) #缺省的NaN用-100代替
# 等价于[0,1][-100,-100] + [0,1][2,3]

Unnamed: 0,0,1
0,0.0,2.0
1,-98.0,-97.0


In [82]:
a.mul(b,fill_value = -100)

Unnamed: 0,0,1
0,0.0,1.0
1,-200.0,-300.0


In [86]:
# 广播运算是指两个数组进行运算，一个是Series数组（即一维数组），另一个是DataFrame数组（多维数组）
# 不同维度间为广播运算，一维Series【默认】在轴 1 参与运算
a = pd.Series(np.arange(4))
b = pd.DataFrame(np.arange(8).reshape(4,2))

Unnamed: 0,0,1,2,3
0,0,2,,
1,2,4,,
2,4,6,,
3,6,8,,


In [87]:
a

0    0
1    1
2    2
3    3
dtype: int32

In [88]:
b

Unnamed: 0,0,1
0,0,1
1,2,3
2,4,5
3,6,7


In [89]:
a+b #每一列都对应加上了0，1，2，3

Unnamed: 0,0,1,2,3
0,0,2,,
1,2,4,,
2,4,6,,
3,6,8,,


In [94]:
# 使用运算方法，使得参与轴0的运算
b.add(a,axis=0)

Unnamed: 0,0,1
0,0,1
1,3,4
2,6,7
3,9,10


In [97]:
# 比较运算只能比较相同索引的元素，不进行补齐
# 也就是说只能比较【n*m和n*m的表格】或者比较【长度都为n】的Series

a = pd.DataFrame(np.arange(4).reshape(2, 2))

b = pd.DataFrame(np.array([1,1,2,2]).reshape(2, 2))
a==b

Unnamed: 0,0,1
0,False,True
1,True,False


In [98]:
a = pd.Series(np.arange(4))
b = pd.Series([-1,1,0,3])
a > b

0     True
1    False
2     True
3    False
dtype: bool

In [100]:
# 二维和一维、一维和零维间为广播运算
# 不同维度，广播运算，默认在 1 轴
a = pd.Series(np.arange(4))
b = pd.DataFrame(np.arange(4).reshape(2, 2))
a == b

Unnamed: 0,0,1,2,3
0,True,True,False,False
1,False,False,False,False
