# <font color='brown'>Machine-Learning-Cook</font>

# 教程 1-3：Pandas

## 教程介绍

![](http://i1.fuimg.com/649601/5f580aa328a756de.png)

Pandas 是基于 NumPy 的一种数据处理工具，该工具为了解决数据分析任务而创建。Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的函数和方法。  

Pandas 的数据结构：Pandas 主要有 Series（一维数组），DataFrame（二维数组），Panel（三维数组），Panel4D（四维数组），PanelND（更多维数组）等数据结构。其中 Series 和 DataFrame 应用的最为广泛。
- Series 是一维带标签的数组，它可以包含任何数据类型。包括整数，字符串，浮点数，Python 对象等。Series 可以通过标签来定位。
- DataFrame 是二维的带标签的数据结构。我们可以通过标签来定位数据。这是 NumPy 所没有的。

### 教程知识点
本次教程涉及的知识点主要有：
- 创建Series
- Series基本操作
- 创建DataFrame
- DataFrame基本操作
- DataFrame文件操作
- Series，DataFrame和多索引
- 透视表
- 数据清洗
- 数据预处理
- 可视化

### 教程环境

- Python 3.6
- NumPy
- Pandas

### 目录索引

- <a href="#1">1. 基础部分</a>
- <a href="#2">2. 进阶部分</a>
- <a href="#3">3. 总结</a>

## <a id = "1">1. 基础部分</a>

### 导入 Pandas 模块

#### 1. 导入 Pandas
练习 Pandas 之前，首先需要导入 Pandas 模块，并约定简称为 `pd`。

In [2]:
import pandas as pd

In [3]:
# 在空白单元格中重复输入上面的代码练习，亲自动手，不要复制粘贴


#### 2. 查看 Pandas 版本信息

In [4]:
print(pd.__version__)

0.22.0


### 创建 Series 数据类型

Pandas 中，Series 可以被看作由 1 列数据组成的数据集。

创建 Series 语法：`s = pd.Series(data, index=index)`，可以通过多种方式进行创建，以下介绍了 3 个常用方法。

#### 3. 从列表创建 Series

In [5]:
arr=[0, 1, 2, 3, 4]
s1=pd.Series(arr) # 如果不指定索引，则默认从 0 开始
s1

0    0
1    1
2    2
3    3
4    4
dtype: int64

提示：前面的 `0,1,2,3,4` 为当前 Series 的索引，后面的 `0,1,2,3,4` 为 Series 的值。

#### 4. 从 Ndarray 创建 Series

In [6]:
import numpy as np
n=np.random.randn(5) # 创建一个随机 Ndarray 数组

index=['a','b','c','d','e']
s2=pd.Series(n,index=index)
s2

a    0.581455
b   -0.912898
c    0.911208
d   -0.720474
e    0.487061
dtype: float64

#### 5. 从字典创建 Series

In [7]:
d={'a':1,'b':2,'c':3,'d':4,'e':5}
s3=pd.Series(d)
s3

a    1
b    2
c    3
d    4
e    5
dtype: int64

### Series 基本操作

#### 6. 修改 Series 索引

In [8]:
print(s1) # 以 s1 为例

s1.index=['A','B','C','D','E'] # 修改后的索引
s1

0    0
1    1
2    2
3    3
4    4
dtype: int64


A    0
B    1
C    2
D    3
E    4
dtype: int64

#### 7. Series 纵向拼接

In [9]:
s4=s3.append(s1) # 将 s1 拼接到 s3
s4

a    1
b    2
c    3
d    4
e    5
A    0
B    1
C    2
D    3
E    4
dtype: int64

#### 8. Series 按指定索引删除元素

In [10]:
print(s4)
s4=s4.drop('e') # 删除索引为 e 的值
s4

a    1
b    2
c    3
d    4
e    5
A    0
B    1
C    2
D    3
E    4
dtype: int64


a    1
b    2
c    3
d    4
A    0
B    1
C    2
D    3
E    4
dtype: int64

#### 9. Series 修改指定索引元素

In [11]:
s4['A']=6 # 修改索引为 A 的值 = 6
s4

a    1
b    2
c    3
d    4
A    6
B    1
C    2
D    3
E    4
dtype: int64

#### 10. Series 按指定索引查找元素

In [12]:
s4['B']

1

#### 11. Series 切片操作
例如对`s4`的前 3 个数据访问

In [13]:
s4[:3]

a    1
b    2
c    3
dtype: int64

### Series 运算

#### 12. Series 加法运算
Series 的加法运算是按照索引计算，如果索引不同则填充为 `NaN`（空值）。

In [14]:
print(s3)
print(s4)
s4.add(s3)

a    1
b    2
c    3
d    4
e    5
dtype: int64
a    1
b    2
c    3
d    4
A    6
B    1
C    2
D    3
E    4
dtype: int64


A    NaN
B    NaN
C    NaN
D    NaN
E    NaN
a    2.0
b    4.0
c    6.0
d    8.0
e    NaN
dtype: float64

#### 13. Series 减法运算
Series的减法运算是按照索引对应计算，如果不同则填充为 `NaN`（空值）。

In [15]:
s4.sub(s3)

A    NaN
B    NaN
C    NaN
D    NaN
E    NaN
a    0.0
b    0.0
c    0.0
d    0.0
e    NaN
dtype: float64

#### 14. Series 乘法运算
Series 的乘法运算是按照索引对应计算，如果索引不同则填充为 `NaN`（空值）。

In [16]:
s4.mul(s3)

A     NaN
B     NaN
C     NaN
D     NaN
E     NaN
a     1.0
b     4.0
c     9.0
d    16.0
e     NaN
dtype: float64

#### 15. Series 除法运算
Series 的除法运算是按照索引对应计算，如果索引不同则填充为 `NaN`（空值）。

In [17]:
s4.div(s3)

A    NaN
B    NaN
C    NaN
D    NaN
E    NaN
a    1.0
b    1.0
c    1.0
d    1.0
e    NaN
dtype: float64

#### 16. Series 求均值

In [18]:
s4.median()

3.0

#### 17. Series 求和

In [19]:
s4.sum()

26

#### 18. Series 求最大值

In [20]:
s4.max()

6

#### 19. Series 求最小值

In [21]:
s4.min()

1

### 创建 DataFrame 数据类型

与 Sereis 不同，DataFrame 可以存在多列数据。一般情况下，DataFrame 也更加常用。

#### 20. 通过 NumPy 数组创建 DataFrame

In [22]:
dates=pd.date_range('today',periods=6) # 定义时间序列作为 index
num_arr=np.random.randn(6,4) # 传入 numpy 随机数组
columns=['A','B','C','D'] # 将列表作为列名
df1=pd.DataFrame(num_arr,index=dates,columns=columns)
df1

Unnamed: 0,A,B,C,D
2018-06-15 14:17:39.382546,-0.513914,-0.612376,0.653321,-0.413862
2018-06-16 14:17:39.382546,-1.748736,-1.142682,-0.436137,-0.095298
2018-06-17 14:17:39.382546,-0.353559,-0.740251,0.983829,-0.102787
2018-06-18 14:17:39.382546,-0.21506,0.38003,0.171268,-0.566494
2018-06-19 14:17:39.382546,-0.87746,0.912376,0.672754,-1.634722
2018-06-20 14:17:39.382546,0.023271,-0.161785,1.254876,0.278189


### 21. 通过字典数组创建 DataFrame

In [23]:
data = {'animal': ['cat', 'cat', 'snake', 'dog', 'dog', 'cat', 'snake', 'cat', 'dog', 'dog'],
        'age': [2.5, 3, 0.5, np.nan, 5, 2, 4.5, np.nan, 7, 3],
        'visits': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
        'priority': ['yes', 'yes', 'no', 'yes', 'no', 'no', 'no', 'yes', 'no', 'no']}

labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']
df2 = pd.DataFrame(data, index=labels)
df2

Unnamed: 0,age,animal,priority,visits
a,2.5,cat,yes,1
b,3.0,cat,yes,3
c,0.5,snake,no,2
d,,dog,yes,3
e,5.0,dog,no,2
f,2.0,cat,no,3
g,4.5,snake,no,1
h,,cat,yes,1
i,7.0,dog,no,2
j,3.0,dog,no,1


#### 22. 查看 DataFrame 的数据类型

In [24]:
df2.dtypes

age         float64
animal       object
priority     object
visits        int64
dtype: object

### DataFrame 基本操作

#### 23. 预览 DataFrame 的前 5 行数据

此方法对快速了解陌生数据集结构十分有用。

In [25]:
df2.head() # 默认为显示 5 行，可根据需要在括号中填入希望预览的行数

Unnamed: 0,age,animal,priority,visits
a,2.5,cat,yes,1
b,3.0,cat,yes,3
c,0.5,snake,no,2
d,,dog,yes,3
e,5.0,dog,no,2


#### 24. 查看 DataFrame 的后 3 行数据

In [26]:
df2.tail(3)

Unnamed: 0,age,animal,priority,visits
h,,cat,yes,1
i,7.0,dog,no,2
j,3.0,dog,no,1


#### 25.查看 DataFrame 的索引

In [27]:
df2.index

Index(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j'], dtype='object')

#### 26. 查看 DataFrame 的列名

In [28]:
df2.columns
# type(df2.columns)

Index(['age', 'animal', 'priority', 'visits'], dtype='object')

#### 27. 查看 DataFrame 的数值

In [29]:
df2.values
# type(df2.values)

array([[2.5, 'cat', 'yes', 1],
       [3.0, 'cat', 'yes', 3],
       [0.5, 'snake', 'no', 2],
       [nan, 'dog', 'yes', 3],
       [5.0, 'dog', 'no', 2],
       [2.0, 'cat', 'no', 3],
       [4.5, 'snake', 'no', 1],
       [nan, 'cat', 'yes', 1],
       [7.0, 'dog', 'no', 2],
       [3.0, 'dog', 'no', 1]], dtype=object)

#### 28. 查看 DataFrame 的统计数据

In [30]:
df2.describe()

Unnamed: 0,age,visits
count,8.0,10.0
mean,3.4375,1.9
std,2.007797,0.875595
min,0.5,1.0
25%,2.375,1.0
50%,3.0,2.0
75%,4.625,2.75
max,7.0,3.0


#### 29. DataFrame 转置操作

In [31]:
df2.T

Unnamed: 0,a,b,c,d,e,f,g,h,i,j
age,2.5,3,0.5,,5,2,4.5,,7,3
animal,cat,cat,snake,dog,dog,cat,snake,cat,dog,dog
priority,yes,yes,no,yes,no,no,no,yes,no,no
visits,1,3,2,3,2,3,1,1,2,1


#### 30. 对 DataFrame 进行按列排序

In [32]:
df2.sort_values(by='age') # 按 age 升序排列

Unnamed: 0,age,animal,priority,visits
c,0.5,snake,no,2
f,2.0,cat,no,3
a,2.5,cat,yes,1
b,3.0,cat,yes,3
j,3.0,dog,no,1
g,4.5,snake,no,1
e,5.0,dog,no,2
i,7.0,dog,no,2
d,,dog,yes,3
h,,cat,yes,1


#### 31. 对 DataFrame 数据切片

In [33]:
df2[1:3]

Unnamed: 0,age,animal,priority,visits
b,3.0,cat,yes,3
c,0.5,snake,no,2


#### 32. 对 DataFrame 通过标签查询（单列）

In [34]:
df2['age']

a    2.5
b    3.0
c    0.5
d    NaN
e    5.0
f    2.0
g    4.5
h    NaN
i    7.0
j    3.0
Name: age, dtype: float64

In [35]:
df2.age # 等价于 df2['age']

a    2.5
b    3.0
c    0.5
d    NaN
e    5.0
f    2.0
g    4.5
h    NaN
i    7.0
j    3.0
Name: age, dtype: float64

#### 33. 对 DataFrame 通过标签查询（多列）

In [36]:
df2[['age','animal']] # 传入一个列名组成的列表

Unnamed: 0,age,animal
a,2.5,cat
b,3.0,cat
c,0.5,snake
d,,dog
e,5.0,dog
f,2.0,cat
g,4.5,snake
h,,cat
i,7.0,dog
j,3.0,dog


#### 34. 对 DataFrame 通过位置查询

In [37]:
df2.iloc[1:3] # 查询 2，3 行

Unnamed: 0,age,animal,priority,visits
b,3.0,cat,yes,3
c,0.5,snake,no,2


#### 35. DataFrame 副本拷贝

In [38]:
# 生成 DataFrame 副本，方便数据集被多个不同流程使用
df3=df2.copy()
df3

Unnamed: 0,age,animal,priority,visits
a,2.5,cat,yes,1
b,3.0,cat,yes,3
c,0.5,snake,no,2
d,,dog,yes,3
e,5.0,dog,no,2
f,2.0,cat,no,3
g,4.5,snake,no,1
h,,cat,yes,1
i,7.0,dog,no,2
j,3.0,dog,no,1


#### 36. 判断 DataFrame 元素是否为空

In [39]:
df3.isnull() # 如果为空则返回为 True

Unnamed: 0,age,animal,priority,visits
a,False,False,False,False
b,False,False,False,False
c,False,False,False,False
d,True,False,False,False
e,False,False,False,False
f,False,False,False,False
g,False,False,False,False
h,True,False,False,False
i,False,False,False,False
j,False,False,False,False


#### 37. 添加列数据

In [40]:
num=pd.Series([0,1,2,3,4,5,6,7,8,9],index=df3.index)

df3['No.']=num # 添加以 'No.' 为列名的新数据列
df3

Unnamed: 0,age,animal,priority,visits,No.
a,2.5,cat,yes,1,0
b,3.0,cat,yes,3,1
c,0.5,snake,no,2,2
d,,dog,yes,3,3
e,5.0,dog,no,2,4
f,2.0,cat,no,3,5
g,4.5,snake,no,1,6
h,,cat,yes,1,7
i,7.0,dog,no,2,8
j,3.0,dog,no,1,9


#### 38. 根据 DataFrame 的下标值进行更改

In [41]:
# 修改第 2 行与第 1 列对应的值 3.0 → 2.0
df3.iat[1,0]=2 # 索引序号从 0 开始，这里为 1, 0
df3

Unnamed: 0,age,animal,priority,visits,No.
a,2.5,cat,yes,1,0
b,2.0,cat,yes,3,1
c,0.5,snake,no,2,2
d,,dog,yes,3,3
e,5.0,dog,no,2,4
f,2.0,cat,no,3,5
g,4.5,snake,no,1,6
h,,cat,yes,1,7
i,7.0,dog,no,2,8
j,3.0,dog,no,1,9


#### 39. 根据 DataFrame 的标签对数据进行修改

In [42]:
df3.loc['f','age']=1.5
df3

Unnamed: 0,age,animal,priority,visits,No.
a,2.5,cat,yes,1,0
b,2.0,cat,yes,3,1
c,0.5,snake,no,2,2
d,,dog,yes,3,3
e,5.0,dog,no,2,4
f,1.5,cat,no,3,5
g,4.5,snake,no,1,6
h,,cat,yes,1,7
i,7.0,dog,no,2,8
j,3.0,dog,no,1,9


#### 40. DataFrame 求平均值操作

In [43]:
df3.mean()

age       3.25
visits    1.90
No.       4.50
dtype: float64

#### 41. 对 DataFrame 中任意列做求和操作

In [44]:
df3['visits'].sum()

19

### 字符串操作

#### 42. 将字符串转化为小写字母

In [45]:
string = pd.Series(['A', 'B', 'C', 'Aaba', 'Baca', np.nan, 'CABA', 'dog', 'cat'])
print(string)
string.str.lower()

0       A
1       B
2       C
3    Aaba
4    Baca
5     NaN
6    CABA
7     dog
8     cat
dtype: object


0       a
1       b
2       c
3    aaba
4    baca
5     NaN
6    caba
7     dog
8     cat
dtype: object

#### 43. 将字符串转化为大写字母

In [46]:
string.str.upper()

0       A
1       B
2       C
3    AABA
4    BACA
5     NaN
6    CABA
7     DOG
8     CAT
dtype: object

### DataFrame 缺失值操作

In [47]:
df4=df3.copy()
print(df4)
df4.fillna(value=3)

   age animal priority  visits  No.
a  2.5    cat      yes       1    0
b  2.0    cat      yes       3    1
c  0.5  snake       no       2    2
d  NaN    dog      yes       3    3
e  5.0    dog       no       2    4
f  1.5    cat       no       3    5
g  4.5  snake       no       1    6
h  NaN    cat      yes       1    7
i  7.0    dog       no       2    8
j  3.0    dog       no       1    9


Unnamed: 0,age,animal,priority,visits,No.
a,2.5,cat,yes,1,0
b,2.0,cat,yes,3,1
c,0.5,snake,no,2,2
d,3.0,dog,yes,3,3
e,5.0,dog,no,2,4
f,1.5,cat,no,3,5
g,4.5,snake,no,1,6
h,3.0,cat,yes,1,7
i,7.0,dog,no,2,8
j,3.0,dog,no,1,9


#### 45. 删除存在缺失值的行

In [48]:
df5=df3.copy()
print(df5)
df5.dropna(how='any') # 任何存在 NaN 的行都将被删除

   age animal priority  visits  No.
a  2.5    cat      yes       1    0
b  2.0    cat      yes       3    1
c  0.5  snake       no       2    2
d  NaN    dog      yes       3    3
e  5.0    dog       no       2    4
f  1.5    cat       no       3    5
g  4.5  snake       no       1    6
h  NaN    cat      yes       1    7
i  7.0    dog       no       2    8
j  3.0    dog       no       1    9


Unnamed: 0,age,animal,priority,visits,No.
a,2.5,cat,yes,1,0
b,2.0,cat,yes,3,1
c,0.5,snake,no,2,2
e,5.0,dog,no,2,4
f,1.5,cat,no,3,5
g,4.5,snake,no,1,6
i,7.0,dog,no,2,8
j,3.0,dog,no,1,9


#### 46. DataFrame 按指定列对齐

In [49]:
left = pd.DataFrame({'key': ['foo1', 'foo2'], 'one': [1, 2]})
right = pd.DataFrame({'key': ['foo2', 'foo3'], 'two': [4, 5]})

print(left)
print(right)

# 按照 key 列对齐连接，只存在 foo2 相同，所以最后变成一行
pd.merge(left, right, on='key')

    key  one
0  foo1    1
1  foo2    2
    key  two
0  foo2    4
1  foo3    5


Unnamed: 0,key,one,two
0,foo2,2,4


### DataFrame 文件操作

#### 47. CSV 文件写入

In [50]:
df3.to_csv('animal.csv')
print("写入成功.")

写入成功.


#### 48. CSV 文件读取

In [51]:
df_animal=pd.read_csv('animal.csv')
df_animal

Unnamed: 0.1,Unnamed: 0,age,animal,priority,visits,No.
0,a,2.5,cat,yes,1,0
1,b,2.0,cat,yes,3,1
2,c,0.5,snake,no,2,2
3,d,,dog,yes,3,3
4,e,5.0,dog,no,2,4
5,f,1.5,cat,no,3,5
6,g,4.5,snake,no,1,6
7,h,,cat,yes,1,7
8,i,7.0,dog,no,2,8
9,j,3.0,dog,no,1,9


#### 49. Excel 写入操作

In [52]:
df3.to_excel('animal.xlsx', sheet_name='Sheet1')
print("写入成功.")

写入成功.


#### 50. Excel 读取操作

In [53]:
pd.read_excel('animal.xlsx', 'Sheet1', index_col=None, na_values=['NA'])

Unnamed: 0,age,animal,priority,visits,No.
a,2.5,cat,yes,1,0
b,2.0,cat,yes,3,1
c,0.5,snake,no,2,2
d,,dog,yes,3,3
e,5.0,dog,no,2,4
f,1.5,cat,no,3,5
g,4.5,snake,no,1,6
h,,cat,yes,1,7
i,7.0,dog,no,2,8
j,3.0,dog,no,1,9


---
## <a id="2">2. 进阶部分</a>

### 时间序列索引

#### 51. 建立一个以 2018 年每一天为索引，值为随机数的 Series

In [54]:
dti = pd.date_range(start='2018-01-01', end='2018-12-31', freq='D') 
s = pd.Series(np.random.rand(len(dti)), index=dti)
s

2018-01-01    0.825595
2018-01-02    0.675277
2018-01-03    0.787192
2018-01-04    0.392756
2018-01-05    0.410747
2018-01-06    0.515645
2018-01-07    0.666904
2018-01-08    0.858571
2018-01-09    0.155499
2018-01-10    0.623279
2018-01-11    0.583749
2018-01-12    0.053761
2018-01-13    0.644463
2018-01-14    0.501114
2018-01-15    0.115109
2018-01-16    0.022036
2018-01-17    0.516406
2018-01-18    0.835285
2018-01-19    0.469539
2018-01-20    0.932925
2018-01-21    0.695637
2018-01-22    0.637360
2018-01-23    0.930120
2018-01-24    0.961008
2018-01-25    0.351292
2018-01-26    0.967093
2018-01-27    0.022773
2018-01-28    0.503964
2018-01-29    0.886094
2018-01-30    0.830507
                ...   
2018-12-02    0.087109
2018-12-03    0.694122
2018-12-04    0.541758
2018-12-05    0.051908
2018-12-06    0.975921
2018-12-07    0.019147
2018-12-08    0.467990
2018-12-09    0.546322
2018-12-10    0.840599
2018-12-11    0.139703
2018-12-12    0.997647
2018-12-13    0.271486
2018-12-14 

#### 52. 统计`s` 中每一个周三对应值的和

In [55]:
# 周一从 0 开始
s[s.index.weekday == 2].sum()

26.85727569535289

#### 53. 统计`s`中每个月值的平均值

In [56]:
s.resample('M').mean()

2018-01-31    0.586819
2018-02-28    0.510789
2018-03-31    0.602452
2018-04-30    0.489742
2018-05-31    0.463446
2018-06-30    0.537208
2018-07-31    0.501071
2018-08-31    0.548881
2018-09-30    0.502483
2018-10-31    0.454669
2018-11-30    0.564067
2018-12-31    0.481552
Freq: M, dtype: float64

#### 54. 将 Series 中的时间进行转换（秒转分钟）

In [57]:
s = pd.date_range('today', periods=100, freq='S')

ts = pd.Series(np.random.randint(0, 500, len(s)), index=s)

ts.resample('Min').sum()

2018-06-15 14:17:00     5581
2018-06-15 14:18:00    17009
2018-06-15 14:19:00     3459
Freq: T, dtype: int64

#### 55. UTC 世界时间标准

In [58]:
s = pd.date_range('today', periods=1, freq='D') # 获取当前时间
ts = pd.Series(np.random.randn(len(s)), s) # 随机数值
ts_utc = ts.tz_localize('UTC') # 转换为 UTC 时间
ts_utc

2018-06-15 14:17:39.993910+00:00   -0.316577
Freq: D, dtype: float64

#### 56. 转换为上海所在时区

In [59]:
ts_utc.tz_convert('Asia/Shanghai')

2018-06-15 22:17:39.993910+08:00   -0.316577
Freq: D, dtype: float64

#### 57.不同时间表示方式的转换

In [60]:
rng = pd.date_range('1/1/2018', periods=5, freq='M')
ts = pd.Series(np.random.randn(len(rng)), index=rng)
print (ts)
ps = ts.to_period()
print(ps)
ps.to_timestamp()

2018-01-31   -0.772579
2018-02-28    1.446915
2018-03-31    2.392608
2018-04-30    1.131493
2018-05-31    1.241140
Freq: M, dtype: float64
2018-01   -0.772579
2018-02    1.446915
2018-03    2.392608
2018-04    1.131493
2018-05    1.241140
Freq: M, dtype: float64


2018-01-01   -0.772579
2018-02-01    1.446915
2018-03-01    2.392608
2018-04-01    1.131493
2018-05-01    1.241140
Freq: MS, dtype: float64

###  Series 多重索引

#### 58. 创建多重索引 Series

构建一个 `letters = ['A', 'B', 'C']` 和 `numbers = list(range(10))`为索引，值为随机数的多重索引 Series。

In [61]:
letters = ['A', 'B', 'C']
numbers = list(range(10))

mi = pd.MultiIndex.from_product([letters, numbers]) # 设置多重索引
s = pd.Series(np.random.rand(30), index=mi) # 随机数
s

A  0    0.646939
   1    0.989023
   2    0.217980
   3    0.700466
   4    0.271614
   5    0.686977
   6    0.316214
   7    0.424848
   8    0.119685
   9    0.650538
B  0    0.775491
   1    0.597150
   2    0.196676
   3    0.729158
   4    0.117952
   5    0.595568
   6    0.038980
   7    0.286681
   8    0.050808
   9    0.052872
C  0    0.795323
   1    0.590830
   2    0.515093
   3    0.636959
   4    0.565607
   5    0.393230
   6    0.688531
   7    0.720247
   8    0.523473
   9    0.961789
dtype: float64

#### 59. 多重索引 Series 查询

In [62]:
# 查询索引为 1，3，6 的值
s.loc[:, [1, 3, 6]]
# s.loc[['A'], [1, 3, 6]]

A  1    0.989023
   3    0.700466
   6    0.316214
B  1    0.597150
   3    0.729158
   6    0.038980
C  1    0.590830
   3    0.636959
   6    0.688531
dtype: float64

#### 60. 多重索引 Series 切片

In [63]:
s.loc[pd.IndexSlice[:'B', 5:]]

A  5    0.686977
   6    0.316214
   7    0.424848
   8    0.119685
   9    0.650538
B  5    0.595568
   6    0.038980
   7    0.286681
   8    0.050808
   9    0.052872
dtype: float64

### DataFrame 多重索引

#### 61. 根据多重索引创建 DataFrame
创建一个以 `letters = ['A', 'B']` 和 `numbers = list(range(6))`为索引，值为随机数据的多重索引 DataFrame。

In [64]:
frame=pd.DataFrame(np.arange(12).reshape(6,2),
                index=[list('AAABBB'),list('123123')],
                columns=['hello','shiyanlou'])
frame

Unnamed: 0,Unnamed: 1,hello,shiyanlou
A,1,0,1
A,2,2,3
A,3,4,5
B,1,6,7
B,2,8,9
B,3,10,11


#### 62. 多重索引设置列名称

In [65]:
frame.index.names=['first','second']
frame

Unnamed: 0_level_0,Unnamed: 1_level_0,hello,shiyanlou
first,second,Unnamed: 2_level_1,Unnamed: 3_level_1
A,1,0,1
A,2,2,3
A,3,4,5
B,1,6,7
B,2,8,9
B,3,10,11


#### 63. DataFrame 多重索引分组求和

In [66]:
frame.groupby('first').sum()

Unnamed: 0_level_0,hello,shiyanlou
first,Unnamed: 1_level_1,Unnamed: 2_level_1
A,6,9
B,24,27


#### 64. DataFrame 行列名称转换

In [67]:
print(frame)
frame.stack()

              hello  shiyanlou
first second                  
A     1           0          1
      2           2          3
      3           4          5
B     1           6          7
      2           8          9
      3          10         11


first  second           
A      1       hello         0
               shiyanlou     1
       2       hello         2
               shiyanlou     3
       3       hello         4
               shiyanlou     5
B      1       hello         6
               shiyanlou     7
       2       hello         8
               shiyanlou     9
       3       hello        10
               shiyanlou    11
dtype: int64

#### 65. DataFrame 索引转换

In [68]:
print(frame)
frame.unstack()

              hello  shiyanlou
first second                  
A     1           0          1
      2           2          3
      3           4          5
B     1           6          7
      2           8          9
      3          10         11


Unnamed: 0_level_0,hello,hello,hello,shiyanlou,shiyanlou,shiyanlou
second,1,2,3,1,2,3
first,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
A,0,2,4,1,3,5
B,6,8,10,7,9,11


#### 66. DataFrame 条件查找

In [69]:
# 示例数据

data = {'animal': ['cat', 'cat', 'snake', 'dog', 'dog', 'cat', 'snake', 'cat', 'dog', 'dog'],
        'age': [2.5, 3, 0.5, np.nan, 5, 2, 4.5, np.nan, 7, 3],
        'visits': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
        'priority': ['yes', 'yes', 'no', 'yes', 'no', 'no', 'no', 'yes', 'no', 'no']}

labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']
df = pd.DataFrame(data, index=labels)

查找 `age` 大于 `3` 的全部信息

In [70]:
df[df['age'] > 3]

Unnamed: 0,age,animal,priority,visits
e,5.0,dog,no,2
g,4.5,snake,no,1
i,7.0,dog,no,2


#### 67. 根据行列索引切片

In [71]:
df.iloc[2:4, 1:3]

Unnamed: 0,animal,priority
c,snake,no
d,dog,yes


#### 68. DataFrame 多重条件查询
查找 `age<3` 且为 `cat` 的全部数据。

In [72]:
df = pd.DataFrame(data, index=labels)

df[(df['animal'] == 'cat') & (df['age'] < 3)]

Unnamed: 0,age,animal,priority,visits
a,2.5,cat,yes,1
f,2.0,cat,no,3


#### 69. DataFrame 按关键字查询

In [73]:
df3[df3['animal'].isin(['cat', 'dog'])]

Unnamed: 0,age,animal,priority,visits,No.
a,2.5,cat,yes,1,0
b,2.0,cat,yes,3,1
d,,dog,yes,3,3
e,5.0,dog,no,2,4
f,1.5,cat,no,3,5
h,,cat,yes,1,7
i,7.0,dog,no,2,8
j,3.0,dog,no,1,9


#### 70. DataFrame 按标签及列名查询

In [74]:
df.loc[df2.index[[3, 4, 8]], ['animal', 'age']]
# df2.index[[3, 4, 8]]

Unnamed: 0,animal,age
d,dog,
e,dog,5.0
i,dog,7.0


#### 71. DataFrame 多条件排序

按照 `age` 降序，`visits` 升序排列

In [75]:
df.sort_values(by=['age', 'visits'], ascending=[False, True])

Unnamed: 0,age,animal,priority,visits
i,7.0,dog,no,2
e,5.0,dog,no,2
g,4.5,snake,no,1
j,3.0,dog,no,1
b,3.0,cat,yes,3
a,2.5,cat,yes,1
f,2.0,cat,no,3
c,0.5,snake,no,2
h,,cat,yes,1
d,,dog,yes,3


#### 72.DataFrame 多值替换

将 `priority` 列的 `yes` 值替换为 `True`，`no` 值替换为 `False`。

In [76]:
df['priority'].map({'yes': True, 'no': False})

a     True
b     True
c    False
d     True
e    False
f    False
g    False
h     True
i    False
j    False
Name: priority, dtype: bool

#### 73. DataFrame 分组求和

In [77]:
df4.groupby('animal').sum()

Unnamed: 0_level_0,age,visits,No.
animal,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
cat,6.0,8,13
dog,15.0,8,24
snake,5.0,3,8


#### 74. 使用列表拼接多个 DataFrame

In [80]:
temp_df1 = pd.DataFrame(np.random.randn(5, 4)) # 生成由随机数组成的 DataFrame 1
temp_df2 = pd.DataFrame(np.random.randn(5, 4)) # 生成由随机数组成的 DataFrame 2
temp_df3 = pd.DataFrame(np.random.randn(5, 4)) # 生成由随机数组成的 DataFrame 3

print(temp_df1)
print(temp_df2)
print(temp_df3)

pieces = [temp_df1,temp_df2,temp_df3]
pd.concat(pieces).reset_index()

          0         1         2         3
0 -0.367306  0.161529 -2.344120 -0.081856
1  0.412074  1.782061  0.859428  0.047642
2 -1.721842 -0.491623 -0.315104  1.350115
3  0.553547  0.775687  0.519212  0.251303
4 -0.014912  1.269543  1.198849  2.408963
          0         1         2         3
0  1.020993  0.172220 -2.026581  0.116922
1 -0.695054 -0.061279 -0.935486  0.213643
2  0.379279  0.645186 -0.094414  0.374999
3 -0.851199 -0.884288  1.246466  1.066181
4  0.345216  1.838641  0.141081  0.480233
          0         1         2         3
0 -1.384313  0.026737  1.135249  2.146809
1 -0.465680  1.835302 -0.999142  0.054008
2  0.167721  1.111671 -0.686490 -0.983422
3  0.320092  0.722380  1.652618  0.537123
4  0.549786 -0.323133 -0.512340 -0.811422


Unnamed: 0,index,0,1,2,3
0,0,-0.367306,0.161529,-2.34412,-0.081856
1,1,0.412074,1.782061,0.859428,0.047642
2,2,-1.721842,-0.491623,-0.315104,1.350115
3,3,0.553547,0.775687,0.519212,0.251303
4,4,-0.014912,1.269543,1.198849,2.408963
5,0,1.020993,0.17222,-2.026581,0.116922
6,1,-0.695054,-0.061279,-0.935486,0.213643
7,2,0.379279,0.645186,-0.094414,0.374999
8,3,-0.851199,-0.884288,1.246466,1.066181
9,4,0.345216,1.838641,0.141081,0.480233


#### 75. 找出 DataFrame 表中和最小的列

In [None]:
df = pd.DataFrame(np.random.random(size=(5, 10)), columns=list('abcdefghij'))
print(df)
df.sum().idxmin()  # idxmax(), idxmin() 为 Series 函数返回最大最小值的索引值

#### 76. DataFrame 中每个元素减去每一行的平均值

In [None]:
df = pd.DataFrame(np.random.random(size=(5, 3)))
print(df)
df.sub(df.mean(axis=1), axis=0)

#### 77. DataFrame 分组，并得到每一组中最大三个数之和

In [None]:
df = pd.DataFrame({'A': list('aaabbcaabcccbbc'), 
                   'B': [12,345,3,1,45,14,4,52,54,23,235,21,57,3,87]})
print(df)
df.groupby('A')['B'].nlargest(3).sum(level=0)

### 透视表
当分析庞大的数据时，为了更好的发掘数据特征之间的关系，且不破坏原数据，就可以利用透视表 `pivot_table` 进行操作。

#### 78. 透视表的创建
新建表将 `A, B, C` 列作为索引进行聚合。

In [None]:
df = pd.DataFrame({'A' : ['one', 'one', 'two', 'three'] * 3,
                'B' : ['A', 'B', 'C'] * 4,
                'C' : ['foo', 'foo', 'foo', 'bar', 'bar', 'bar'] * 2,
                'D' : np.random.randn(12),
                'E' : np.random.randn(12)})

print(df)

pd.pivot_table(df, index=['A', 'B'])

#### 79. 透视表按指定行进行聚合
将该 DataFrame 的 `D` 列聚合，按照 `A,B` 列为索引进行聚合，聚合的方式为默认求均值。

In [None]:
pd.pivot_table(df,values=['D'],index=['A', 'B'])

#### 80. 透视表聚合方式定义
上一题中 `D` 列聚合时，采用默认求均值的方法，若想使用更多的方式可以在 `aggfunc` 中实现。

In [None]:
pd.pivot_table(df,values=['D'],index=['A', 'B'],aggfunc=[np.sum, len])

#### 81. 透视表利用额外列进行辅助分割
`D` 列按照 `A,B` 列进行聚合时，若关心 `C` 列对 `D` 列的影响，可以加入 `columns` 值进行分析。

In [None]:
pd.pivot_table(df,values=['D'],index=['A', 'B'],columns=['C'],aggfunc=np.sum)

#### 82. 透视表的缺省值处理
在透视表中由于不同的聚合方式，相应缺少的组合将为缺省值，可以加入 `fill_value` 对缺省值处理。

In [None]:
pd.pivot_table(df,values=['D'],index=['A', 'B'],columns=['C'],aggfunc=np.sum,fill_value=0)

### 绝对类型

在数据的形式上主要包括数量型和性质型，数量型表示着数据可数范围可变，而性质型表示范围已经确定不可改变，绝对型数据就是性质型数据的一种。

In [None]:
df = pd.DataFrame({"id":[1,2,3,4,5,6], "raw_grade":['a', 'b', 'b', 'a', 'a', 'e']})
df["grade"] = df["raw_grade"].astype("category")
df

#### 84. 对绝对型数据重命名

In [None]:
df["grade"].cat.categories = ["very good", "good", "very bad"]
df

#### 85. 重新排列绝对型数据并补充相应的缺省值

In [None]:
df["grade"] = df["grade"].cat.set_categories(["very bad", "bad", "medium", "good", "very good"])
df

#### 86. 对绝对型数据进行排序

In [None]:
df.sort_values(by="grade")

#### 87. 对绝对型数据进行分组

In [None]:
df.groupby("grade").size()

### 数据清洗
常常我们得到的数据是不符合我们最终处理的数据要求，包括许多缺省值以及坏的数据，需要我们对数据进行清洗。

#### 88. 缺失值拟合
在`FilghtNumber`中有数值缺失，其中数值为按 10 增长，补充相应的缺省值使得数据完整，并让数据为 `int` 类型。

In [None]:
df = pd.DataFrame({'From_To': ['LoNDon_paris', 'MAdrid_miLAN', 'londON_StockhOlm', 
                               'Budapest_PaRis', 'Brussels_londOn'],
              'FlightNumber': [10045, np.nan, 10065, np.nan, 10085],
              'RecentDelays': [[23, 47], [], [24, 43, 87], [13], [67, 32]],
                   'Airline': ['KLM(!)', '<Air France> (12)', '(British Airways. )', 
                               '12. Air France', '"Swiss Air"']})
df['FlightNumber'] = df['FlightNumber'].interpolate().astype(int)
df

#### 89. 数据列拆分
其中`From_to`应该为两独立的两列`From`和`To`，将`From_to`依照`_`拆分为独立两列建立为一个新表。

In [None]:
temp = df.From_To.str.split('_', expand=True)
# print(temp)
temp.columns = ['From', 'To']
temp

#### 90. 字符标准化
其中注意到地点的名字都不规范（如：`londON`应该为`London`）需要对数据进行标准化处理。

In [None]:
temp['From'] = temp['From'].str.capitalize()
temp['To'] = temp['To'].str.capitalize()

#### 91. 删除坏数据加入整理好的数据
将最开始的`From_to`列删除，加入整理好的`From`和`to`列。

In [None]:
# print(temp)
# print(df)
df = df.drop('From_To', axis=1)
# print(df)
df = df.join(temp)
print(df)

#### 92. 去除多余字符
如同 `airline` 列中许多数据有许多其他字符，会对后期的数据分析有较大影响，需要对这类数据进行修正。

In [None]:
df['Airline'] = df['Airline'].str.extract('([a-zA-Z\s]+)', expand=False).str.strip()
df

#### 93. 格式规范
在 `RecentDelays` 中记录的方式为列表类型，由于其长度不一，这会为后期数据分析造成很大麻烦。这里将 `RecentDelays` 的列表拆开，取出列表中的相同位置元素作为一列，若为空值即用 `NaN` 代替。

In [None]:
delays = df['RecentDelays'].apply(pd.Series)

delays.columns = ['delay_{}'.format(n) for n in range(1, len(delays.columns)+1)]

df = df.drop('RecentDelays', axis=1).join(delays)
df

### 数据预处理

#### 94. 信息区间划分
班级一部分同学的数学成绩表，如下图所示
```python
df=pd.DataFrame({'name':['Alice','Bob','Candy','Dany','Ella','Frank','Grace','Jenny'],'grades':[58,83,79,65,93,45,61,88]})
```
但我们更加关心的是该同学是否及格，将该数学成绩按照是否`>60`来进行划分。

In [None]:
df=pd.DataFrame({'name':['Alice','Bob','Candy','Dany','Ella','Frank','Grace','Jenny'],'grades':[58,83,79,65,93,45,61,88]})

def choice(x):
    if x>60:
        return 1
    else:
        return 0

df.grades=pd.Series(map(lambda x:choice(x),df.grades))
df

#### 95. 数据去重
一个列为`A`的 DataFrame 数据，如下图所示
```python
df = pd.DataFrame({'A': [1, 2, 2, 3, 4, 5, 5, 5, 6, 7, 7]})
```
如何将 A 列中重复的数据清除。

In [None]:
df = pd.DataFrame({'A': [1, 2, 2, 3, 4, 5, 5, 5, 6, 7, 7]})
df.loc[df['A'].shift() != df['A']]

#### 96. 数据归一化
有时候，DataFrame 中不同列之间的数据差距太大，需要对其进行归一化处理。
其中，Max-Min 归一化是简单而常见的一种方式，公式如下:

$$Y=\frac{X-X_{min}}{X_{max}-X_{min}}$$

In [None]:
def normalization(df):
    numerator=df.sub(df.min())
    denominator=(df.max()).sub(df.min())
    Y=numerator.div(denominator)
    return Y
df = pd.DataFrame(np.random.random(size=(5, 3)))
print(df)
normalization(df)

### Pandas 绘图操作
为了更好的了解数据包含的信息，最直观的方法就是将其绘制成图。

#### 97. Series 可视化

In [None]:
%matplotlib inline
ts = pd.Series(np.random.randn(100), index=pd.date_range('today', periods=100))
ts = ts.cumsum()
ts.plot()

#### 98. DataFrame 折线图

In [None]:
df = pd.DataFrame(np.random.randn(100, 4), index=ts.index,
                  columns=['A', 'B', 'C', 'D'])
df = df.cumsum()
df.plot()

#### 99. DataFrame 散点图

In [None]:
df = pd.DataFrame({"xs":[1,5,2,8,1], "ys":[4,2,1,9,6]})
# print(df)
df = df.cumsum()
# print(df)
df.plot.scatter("xs","ys",color='red',marker="*")

#### 100. DataFrame 柱形图

In [None]:
df = pd.DataFrame({"revenue":[57,68,63,71,72,90,80,62,59,51,47,52],
                   "advertising":[2.1,1.9,2.7,3.0,3.6,3.2,2.7,2.4,1.8,1.6,1.3,1.9],
                   "month":range(12)
                  })

ax = df.plot.bar("month", "revenue", color = "yellow")
df.plot("month", "advertising", secondary_y = True, ax = ax)

## <a id = "3">3. 总结</a>

本次教程涉及的知识点主要有：
- 创建Series
- Series基本操作
- 创建DataFrame
- DataFrame基本操作
- DataFrame文件操作
- Series，DataFrame和多索引
- 透视表
- 数据清洗
- 数据预处理
- 可视化