# 基于Python的数据分析
**工具：**jupyter notebook   **第三方库：**Pandas  
  
**Pandas简介：**  
- Pandas是一个开源的第三方`Python`库，从`Numpy`和`Matplotlib`的基础上构建而来，享有数据分析“三剑客之一”的盛名（`NumPy`、`Matplotlib`、`Pandas`）。
- Pandas这个名字来源于面板数据（Panel Data）与数据分析（data analysis）这两个名词的组合；
- Pandas 已经成为`Python`数据分析的必备高级工具，它的目标是成为强大、灵活、可以支持任何编程语言的数据分析工具。
---
## 导入pandas库
由于一般都会用到numpy库，所以，我们也一起导入。

In [1]:
import pandas as pd  # 导入pandas库
import numpy as np   # 导入numpy库

## 数据预处理
**数据预处理**就是对原始数据进行清洗、转换、集成、规范化等处理，提高数据质量和可靠性，减少数据维度，改善数据分布，提高算法的效率和准确性。

本文主要介绍**多个数据源/表的合并处理**，**数据分组、分类**，**数据标记**这三种数据
预处理的方法；其中不同预处理方法的实现函数如下所示：

- 数据合并：df.append()、pd.concat()、pd.merge()
- 数据分组：df.groupby()
- 数据标记：np.where()    

下面将详细讲解；

---

## 数据合并
在进行数据处理之前，常常将不同表格的数据进行合并和对比操作，Pandas数据合并和对比的方法，如下所示：
- 利用`append()`方法追加数据；
- 利用`concat()`方法合并数据；
- 利用`merge()`方法合并数据；
- 利用`compare()`方法对比数据；

接下来进行详细讲解；

---

### 追加数据-`append()`
**函数语法格式：**`df.append(other, ignore_index=False, verify_integrity=False, sort=False)`
- `other` : 需要追加的其他DataFrame数据，或Series、Dict、List等数据结构；
- `ignore_index` : 是否需要重新进行自然索引，默认值为False；
- `verify_integrity` : 若遇到重复索引内容是否报错，默认值为False；
- `sort` : 是否需要设置排序；若添加的表格数据与原来的数据列不对齐，则对列进行排序。

本笔记主要是记录Pandas入门操作；因此，仅演示常用的函数参数。

In [2]:
# 创建数据
data = { '姓名':['李逍遥','赵灵儿','林月如'],
         '性别':['男','女','女'],
         '年龄':[19,16,18],
         '工资':[8000,7600,6500]
        }
data1 = { '姓名':['刘晋元','唐钰小宝','阿奴'],
         '性别':['男','男','女'],
         '年龄':[20,17,14],
         '工资':[8500,5500,6500]
        }
df = pd.DataFrame(data)
df1 = pd.DataFrame(data1)
display(df,df1)

# 追加数据，重置索引
df = df.append(df1, ignore_index=True)
df

Unnamed: 0,姓名,性别,年龄,工资
0,李逍遥,男,19,8000
1,赵灵儿,女,16,7600
2,林月如,女,18,6500


Unnamed: 0,姓名,性别,年龄,工资
0,刘晋元,男,20,8500
1,唐钰小宝,男,17,5500
2,阿奴,女,14,6500


Unnamed: 0,姓名,性别,年龄,工资
0,李逍遥,男,19,8000
1,赵灵儿,女,16,7600
2,林月如,女,18,6500
3,刘晋元,男,20,8500
4,唐钰小宝,男,17,5500
5,阿奴,女,14,6500


### 合并数据-`concat()`
**函数语法格式：**`pd.concat(objects, axis=0,join='outer, join_axes=None, ignore_index=False, keys=None, levels= None, names=None, verify_integrity=False, copy=True)`
- `objs` : 用来设置要合并的DataFrame表格数据，或者Series、Dict等数据结构。
- `axis` : 用来设置合并数据的方向，默认值为0；
    - 值为0 : 则表示纵向合并，生成长数据；
    - 值为1 : 则表示横向合并，生成宽数据。
- `join` : 用来设置合并数据是并集还是交集，默认值为None；
    - outer : 则表示并集；
    - inner : 则表示交集。
- `join_axes` : 可以利用该参数指定根据哪个轴来对齐数据。
- `ignore_index` : 如果设置该参数值为True，则重新进行自然索引。
- `keys` : 序列，默认值为None。使用传递的键作为最外层构建层次索引，如果为多索引，则应该使用元组。
- `levels` : 序列列表，默认值为None，用于构建多索引的特定级别（唯一值）。
- `names` : 序列列表，默认值为None，用于显示层次索引中的级别名称。
- `verify_integrity` : 若设置该参数值为True，则遇到重复索引内容时会报错。
- `copy` : 用来设置是否要复制数据。

本笔记主要是记录Pandas入门操作；因此，仅演示常用的函数参数。

In [3]:
# 创建数据
data = { '姓名':['李逍遥','赵灵儿','林月如'],
         '性别':['男','女','女'],
         '年龄':[19,16,18],
         '工资':[8000,7600,6500]
        }
data1 = { '姓名':['刘晋元','唐钰小宝','阿奴'],
         '性别':['男','男','女'],
         '年龄':[20,17,14],
         '工资':[8500,5500,6500]
        }
df = pd.DataFrame(data)
df1 = pd.DataFrame(data1)
display(df,df1)

# 追加数据，重置自然行索引，纵向合并
df = pd.concat([df,df1], ignore_index=True)
df

Unnamed: 0,姓名,性别,年龄,工资
0,李逍遥,男,19,8000
1,赵灵儿,女,16,7600
2,林月如,女,18,6500


Unnamed: 0,姓名,性别,年龄,工资
0,刘晋元,男,20,8500
1,唐钰小宝,男,17,5500
2,阿奴,女,14,6500


Unnamed: 0,姓名,性别,年龄,工资
0,李逍遥,男,19,8000
1,赵灵儿,女,16,7600
2,林月如,女,18,6500
3,刘晋元,男,20,8500
4,唐钰小宝,男,17,5500
5,阿奴,女,14,6500


In [4]:
# 创建数据
data = { '姓名':['李逍遥','赵灵儿','林月如','刘晋元','唐钰小宝','阿奴'],
         '性别':['男','女','女','男','男','女'],
        }
data1 = { '年龄':[19,16,18,20,17,14],
          '工资':[8000,7600,6500,8500,5500,6500]
        }
df = pd.DataFrame(data)
df1 = pd.DataFrame(data1)
display(df,df1)

# 追加数据，横向合并，不重置列索引
df = pd.concat([df,df1], axis=1)
df

Unnamed: 0,姓名,性别
0,李逍遥,男
1,赵灵儿,女
2,林月如,女
3,刘晋元,男
4,唐钰小宝,男
5,阿奴,女


Unnamed: 0,年龄,工资
0,19,8000
1,16,7600
2,18,6500
3,20,8500
4,17,5500
5,14,6500


Unnamed: 0,姓名,性别,年龄,工资
0,李逍遥,男,19,8000
1,赵灵儿,女,16,7600
2,林月如,女,18,6500
3,刘晋元,男,20,8500
4,唐钰小宝,男,17,5500
5,阿奴,女,14,6500


### 合并数据-`merge()`
**函数语法格式：**`df.merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=True)`
- `left` : 一个DataFrame表格数据。
- `right` : 另一个DataFrame表格数据。
- `how` : 可以设置4个值，默认值为inner；
    - inner : 内连接，取交集；
    - outer : 全外连接，取并集；  
    - left : 左外连接，左表内容全部保留；
    - right : 右外连接，右表内容全部保留。
- `on` : 按某一列索引(名称)进行连接。
- `left_on` : 左侧DataFrame表格中的列用作键。
- `right_on` : 右侧DataFrame表格中的列用作键。
- `left_index` : 如果值设置为True，则使用左侧DataFrame表格中的索引（行标签）作为其连接键。
- `right_index` : 如果值设置为True，则使用右侧DataFrame表格中的索引（行标签）作为其连接键。
- `sort` : 按照字典顺序通过连接键对结果DataFrame表格数据进行排序，默认值为True，当设置值为False时，在很多情况下会大大提高数据合并的运算性能。

本笔记主要是记录Pandas入门操作；因此，仅演示常用的函数参数。

In [5]:
# 创建数据
data = { '姓名':['李逍遥','赵灵儿','林月如','刘晋元','唐钰小宝','阿奴'],
         '性别':['男','女','女','男','男','女'],
        }
data1 = { '姓名':['李逍遥','赵灵儿','林月如','刘晋元','唐钰小宝','阿奴'],
          '年龄':[19,16,18,20,17,14],
          '工资':[8000,7600,6500,8500,5500,6500]
        }
df = pd.DataFrame(data)
df1 = pd.DataFrame(data1)
display(df,df1)

# 按“姓名”列，以inner方式进行数据合并
df = pd.merge(df,df1, on='姓名')
df

Unnamed: 0,姓名,性别
0,李逍遥,男
1,赵灵儿,女
2,林月如,女
3,刘晋元,男
4,唐钰小宝,男
5,阿奴,女


Unnamed: 0,姓名,年龄,工资
0,李逍遥,19,8000
1,赵灵儿,16,7600
2,林月如,18,6500
3,刘晋元,20,8500
4,唐钰小宝,17,5500
5,阿奴,14,6500


Unnamed: 0,姓名,性别,年龄,工资
0,李逍遥,男,19,8000
1,赵灵儿,女,16,7600
2,林月如,女,18,6500
3,刘晋元,男,20,8500
4,唐钰小宝,男,17,5500
5,阿奴,女,14,6500


In [6]:
# 创建数据
data = { '姓名':['李逍遥','赵灵儿','林月如','刘晋元'],
         '性别':['男','女','女','男'],
        }
data1 = { '姓名':['李逍遥','赵灵儿','林月如','刘晋元','唐钰小宝','阿奴'],
          '年龄':[19,16,18,20,17,14],
          '工资':[8000,7600,6500,8500,5500,6500]
        }
df = pd.DataFrame(data)
df1 = pd.DataFrame(data1)
display(df,df1)

# 以left方式进行链接，左表内容全部保留；
df = pd.merge(df,df1, how='left')
df

Unnamed: 0,姓名,性别
0,李逍遥,男
1,赵灵儿,女
2,林月如,女
3,刘晋元,男


Unnamed: 0,姓名,年龄,工资
0,李逍遥,19,8000
1,赵灵儿,16,7600
2,林月如,18,6500
3,刘晋元,20,8500
4,唐钰小宝,17,5500
5,阿奴,14,6500


Unnamed: 0,姓名,性别,年龄,工资
0,李逍遥,男,19,8000
1,赵灵儿,女,16,7600
2,林月如,女,18,6500
3,刘晋元,男,20,8500


### 对比数据-`compare()`
**函数语法格式：**`df.compare(other, align_axis=1, keep_shape=False, keep_equal=False)`
- `other` : 指定要比较的DataFrame数据表。
- `align_axis` : 用来设置对比数据的对齐方式，默认值为1;
    - 值为0，则表示纵向对比，即从self和other交替绘制的行；
    - 值为1，则表示横向对比，即从self和other交替绘制的列。
- `keep_shape` : 如果其值为True，则保留所有行和列，否则仅保留具有不同值的行和列。
- `keep_equal` : 如果其值为True，则保留相等的值，否则相等的值将显示为NaN。

本笔记主要是记录Pandas入门操作；因此，仅演示常用的函数参数。

In [7]:
# 创建数据
data = { '姓名':['李逍遥','赵灵儿','林月如','刘晋元','唐钰小宝','阿奴'],
         '性别':['男','女','女','男','男','女'],
         '年龄':[19,16,18,20,17,14],
         '工资':[8000,7600,6500,8500,5500,6500]
        }
data1 = { '姓名':['李逍遥','赵灵儿','林月如','刘晋元','唐钰小宝','阿奴'],
         '性别':['男','女','男','女','男','女'],
         '年龄':[17,16,18,20,24,14],
         '工资':[8000,7600,8200,8500,5500,6500]
        }
df = pd.DataFrame(data)
df1 = pd.DataFrame(data1)
display(df, df1)

# 数据对比
print('\ntips:下表中的二级索引self和other分别显示数值用于对比')
df.compare(df1)

Unnamed: 0,姓名,性别,年龄,工资
0,李逍遥,男,19,8000
1,赵灵儿,女,16,7600
2,林月如,女,18,6500
3,刘晋元,男,20,8500
4,唐钰小宝,男,17,5500
5,阿奴,女,14,6500


Unnamed: 0,姓名,性别,年龄,工资
0,李逍遥,男,17,8000
1,赵灵儿,女,16,7600
2,林月如,男,18,8200
3,刘晋元,女,20,8500
4,唐钰小宝,男,24,5500
5,阿奴,女,14,6500



tips:下表中的二级索引self和other分别显示数值用于对比


Unnamed: 0_level_0,性别,性别,年龄,年龄,工资,工资
Unnamed: 0_level_1,self,other,self,other,self,other
0,,,19.0,17.0,,
2,女,男,,,6500.0,8200.0
3,男,女,,,,
4,,,17.0,24.0,,


In [8]:
# 保留数据的形状
df.compare(df1, keep_shape=True)

Unnamed: 0_level_0,姓名,姓名,性别,性别,年龄,年龄,工资,工资
Unnamed: 0_level_1,self,other,self,other,self,other,self,other
0,,,,,19.0,17.0,,
1,,,,,,,,
2,,,女,男,,,6500.0,8200.0
3,,,男,女,,,,
4,,,,,17.0,24.0,,
5,,,,,,,,


In [9]:
# 保留数据相同的值，并将不同的数据显示在行方向上
df.compare(df1, align_axis=0, keep_equal=True)

Unnamed: 0,Unnamed: 1,性别,年龄,工资
0,self,男,19,8000
0,other,男,17,8000
2,self,女,18,6500
2,other,男,18,8200
3,self,男,20,8500
3,other,女,20,8500
4,self,男,17,5500
4,other,男,24,5500


## 数据分列
在数据处理时，经常有一些信息在一列数据中，需要通过分列将信息提取并显示，Pandas的数据分列是通过apply()来实现的;    
下面将进行详细讲解；

**备注:字符串分割函数-`split()`**      
**语法格式**：`string.split(sep,n,expend=False)`
- `sep` : 表示用于分割的字符；
- `n` : 表示要分割成多少列；
- `expend` : 如果其值为True，则输出Series序列；如果其值为False，则输出Dataframe数据表。

In [10]:
# 创建数据
data = { '姓名':['李逍遥','赵灵儿','林月如','刘晋元','唐钰小宝','阿奴'],
         '性别-年龄':['男-19','女-16','女-18','男-20','男-17','女-14'],
         '工资':[8000,7600,6500,8500,5500,6500]
        }
df = pd.DataFrame(data)
df

Unnamed: 0,姓名,性别-年龄,工资
0,李逍遥,男-19,8000
1,赵灵儿,女-16,7600
2,林月如,女-18,6500
3,刘晋元,男-20,8500
4,唐钰小宝,男-17,5500
5,阿奴,女-14,6500


In [11]:
# 通过“字符串切片”将从性别-年龄字段中提取性别
df['性别'] = df['性别-年龄'].apply(lambda x: x[0:1])
df

Unnamed: 0,姓名,性别-年龄,工资,性别
0,李逍遥,男-19,8000,男
1,赵灵儿,女-16,7600,女
2,林月如,女-18,6500,女
3,刘晋元,男-20,8500,男
4,唐钰小宝,男-17,5500,男
5,阿奴,女-14,6500,女


In [12]:
# 通过“split()”将从性别-年龄字段中提取年龄
df['年龄'] = df['性别-年龄'].apply(lambda x: x.split('-')[1])
df

Unnamed: 0,姓名,性别-年龄,工资,性别,年龄
0,李逍遥,男-19,8000,男,19
1,赵灵儿,女-16,7600,女,16
2,林月如,女-18,6500,女,18
3,刘晋元,男-20,8500,男,20
4,唐钰小宝,男-17,5500,男,17
5,阿奴,女-14,6500,女,14


## 数据分组
在Pandas中，数据分组是通过`df.groupby()`方法来完成的，下面将进行详细讲解；
首先，`df.groupby()`方法可以按照指定字段对数据表进行分组，生成一个**分组器**对象；  然后，对这个对象的各个字段按一定的聚合方法输出。

In [13]:
# 创建数据
data = { '姓名':['李逍遥','赵灵儿','林月如','刘晋元','唐钰小宝','阿奴'],
         '性别':['男','女','女','男','男','女'],
         '年龄':[19,16,18,20,17,14],
         '工资':[8000,7600,6500,8500,5500,6500]
        }
df = pd.DataFrame(data)
df

Unnamed: 0,姓名,性别,年龄,工资
0,李逍遥,男,19,8000
1,赵灵儿,女,16,7600
2,林月如,女,18,6500
3,刘晋元,男,20,8500
4,唐钰小宝,男,17,5500
5,阿奴,女,14,6500


In [14]:
# 按性别进行分组
for ind,val in df.groupby('性别'):
    print(ind)
    display(val)

女


Unnamed: 0,姓名,性别,年龄,工资
1,赵灵儿,女,16,7600
2,林月如,女,18,6500
5,阿奴,女,14,6500


男


Unnamed: 0,姓名,性别,年龄,工资
0,李逍遥,男,19,8000
3,刘晋元,男,20,8500
4,唐钰小宝,男,17,5500


## 数据标记
在数据处理过程中，数据分组标记是借助numpy库中的where()方法来完成的，下面将详细讲解；
**函数语法格式**：`np.where(condition, x, y)`    
在语法中 ，若满足condition条件时，则输出x；若不满足，则输出y。

In [15]:
# 创建数据
data = { '姓名':['李逍遥','赵灵儿','林月如','刘晋元','唐钰小宝','阿奴'],
         '性别':['男','女','女','男','男','女'],
         '年龄':[19,16,18,20,17,14],
         '工资':[8000,7600,6500,8500,5500,6500]
        }
df = pd.DataFrame(data)
df

Unnamed: 0,姓名,性别,年龄,工资
0,李逍遥,男,19,8000
1,赵灵儿,女,16,7600
2,林月如,女,18,6500
3,刘晋元,男,20,8500
4,唐钰小宝,男,17,5500
5,阿奴,女,14,6500


In [16]:
# 根据单个条件进行分组标记
df['工资分组'] = np.where(df['工资'] > 7500, '高', '低')
df

Unnamed: 0,姓名,性别,年龄,工资,工资分组
0,李逍遥,男,19,8000,高
1,赵灵儿,女,16,7600,高
2,林月如,女,18,6500,低
3,刘晋元,男,20,8500,高
4,唐钰小宝,男,17,5500,低
5,阿奴,女,14,6500,低


In [17]:
# 根据多个条件进行分组标记
df['资历分组'] = np.where((df['工资'] > 7500)&(df['年龄'] > 17), '骨干', '新人')
df

Unnamed: 0,姓名,性别,年龄,工资,工资分组,资历分组
0,李逍遥,男,19,8000,高,骨干
1,赵灵儿,女,16,7600,高,新人
2,林月如,女,18,6500,低,新人
3,刘晋元,男,20,8500,高,骨干
4,唐钰小宝,男,17,5500,低,新人
5,阿奴,女,14,6500,低,新人
