# 02淘米洗菜-数据预处理
从菜市场买回来的菜，总有一些不好的，买回来后要先做一遍预处理，把那些不好的部分扔掉。现实中的数据也是如此。

常见不规整的数据有**缺失数据**、**重复数据**、**异常数据**

In [51]:
import pandas as pd
import numpy as np
# 一个cell输出多行语句
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

## 一、缺失值处理
处理方式：**删除**、**填充**
### 1、缺失值查看
isnull()方法

In [10]:
df = pd.read_excel('./data/fillna.xlsx')
df
df.info()

Unnamed: 0,编号,年龄,性别,注册时间
0,A1,54.0,男,2018-08-08
1,A2,16.0,,2018-08-09
2,A3,47.0,女,2018-08-10
3,A4,,,NaT
4,A5,41.0,男,2018-08-11


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
编号      5 non-null object
年龄      4 non-null float64
性别      3 non-null object
注册时间    4 non-null datetime64[ns]
dtypes: datetime64[ns](1), float64(1), object(2)
memory usage: 288.0+ bytes


In [11]:
df.isnull()

Unnamed: 0,编号,年龄,性别,注册时间
0,False,False,False,False
1,False,False,True,False
2,False,False,False,False
3,False,True,True,True
4,False,False,False,False


### 2、缺失值删除
缺失值分为两种：一行中某个字段为缺失值、一行中的字段全部为缺失值

dropna()方法默认删除含有缺失值的行，即只要某一行有缺失值，就删除

Excel实现：通过快捷键**Ctrl+G**弹出定位条件，选择空值找到。这样所有缺失的部分全部选中，然后鼠标右键删除（整行、整列、单元格）即可

In [12]:
df.dropna()

Unnamed: 0,编号,年龄,性别,注册时间
0,A1,54.0,男,2018-08-08
2,A3,47.0,女,2018-08-10
4,A5,41.0,男,2018-08-11


In [13]:
df.dropna(how='all')

Unnamed: 0,编号,年龄,性别,注册时间
0,A1,54.0,男,2018-08-08
1,A2,16.0,,2018-08-09
2,A3,47.0,女,2018-08-10
3,A4,,,NaT
4,A5,41.0,男,2018-08-11


### 3、缺失值的填充
数据是宝贵的，一般情况，数据缺失比例不是过高（不大于30%），尽量不删除，选择填充。

Excel实现：**Ctrl+G**弹出定位条件找到空值，填充0，然后按**Ctrl+Enter**组合键，所有的值将会填充

除了0填充，还有平均值、众数、向前填充（用缺失值的前一个非缺失值填充）、向后填充等

**fillna()方法**

In [16]:
df.fillna(0)

Unnamed: 0,编号,年龄,性别,注册时间
0,A1,54.0,男,2018-08-08 00:00:00
1,A2,16.0,0,2018-08-09 00:00:00
2,A3,47.0,女,2018-08-10 00:00:00
3,A4,0.0,0,0
4,A5,41.0,男,2018-08-11 00:00:00


In [17]:
# 指定列名填充
df.fillna({'性别':'男'})

Unnamed: 0,编号,年龄,性别,注册时间
0,A1,54.0,男,2018-08-08
1,A2,16.0,男,2018-08-09
2,A3,47.0,女,2018-08-10
3,A4,,男,NaT
4,A5,41.0,男,2018-08-11


In [20]:
# 同时指定多列填充
df.fillna({'性别':'男', '年龄':'30'})

Unnamed: 0,编号,年龄,性别,注册时间
0,A1,54,男,2018-08-08
1,A2,16,男,2018-08-09
2,A3,47,女,2018-08-10
3,A4,30,男,NaT
4,A5,41,男,2018-08-11


## 二、重复值处理
重复数据一般做删除处理

Excel实现：数据-》数据工具-》删除重复值

drop_duplicates()

In [22]:
df = pd.read_excel('./data/delete_repeat.xlsx')
df
# 默认对所有字段进行重复值判断
df.drop_duplicates()

Unnamed: 0,订单编号,客户姓名,唯一识别码,成交时间
0,A1,张 通,101,2018-08-08
1,A2,李谷,102,2018-08-09
2,A3,孙凤,103,2018-08-10
3,A3,孙凤,103,2018-08-10
4,A4,赵恒,104,2018-08-11
5,A5,赵恒,104,2018-08-12


Unnamed: 0,订单编号,客户姓名,唯一识别码,成交时间
0,A1,张 通,101,2018-08-08
1,A2,李谷,102,2018-08-09
2,A3,孙凤,103,2018-08-10
4,A4,赵恒,104,2018-08-11
5,A5,赵恒,104,2018-08-12


In [23]:
# 指定列名，只针对某一列或某几列进行重复值删除判断
df.drop_duplicates(subset='唯一识别码')

Unnamed: 0,订单编号,客户姓名,唯一识别码,成交时间
0,A1,张 通,101,2018-08-08
1,A2,李谷,102,2018-08-09
2,A3,孙凤,103,2018-08-10
4,A4,赵恒,104,2018-08-11


In [25]:
# 指定多列去重
df.drop_duplicates(subset=['客户姓名','唯一识别码'])

Unnamed: 0,订单编号,客户姓名,唯一识别码,成交时间
0,A1,张 通,101,2018-08-08
1,A2,李谷,102,2018-08-09
2,A3,孙凤,103,2018-08-10
4,A4,赵恒,104,2018-08-11


In [27]:
# 自定义删除重复项时保留哪个，默认保留第一个，也可以设置保留最后一个，或者全部不保留
# keep参数
# first：保留第一个
# last：保留最后一个值
# False：重复值全部删除
df.drop_duplicates(subset=['客户姓名','唯一识别码'], keep='last')
df.drop_duplicates(subset=['客户姓名','唯一识别码'], keep=False)

Unnamed: 0,订单编号,客户姓名,唯一识别码,成交时间
0,A1,张 通,101,2018-08-08
1,A2,李谷,102,2018-08-09
3,A3,孙凤,103,2018-08-10
5,A5,赵恒,104,2018-08-12


Unnamed: 0,订单编号,客户姓名,唯一识别码,成交时间
0,A1,张 通,101,2018-08-08
1,A2,李谷,102,2018-08-09


## 三、异常值的检测与处理
异常值：相比正常数据过低或过高的数据，比如：一个人的年龄是0岁或300岁
### 1、异常值检测
发现异常值方式：
* 根据业务经验划定不同指标的正常范围，超出该范围算异常值
* 绘制箱型图，大于（小于）箱型图上（下）边缘的点算异常值
* 如果数据服从正太分布，则可以利用3σ（西格玛）原则：如果一个数值与平均值之间的偏差超过3倍标准差，那么这个值就是异常值

<center>
    <img src='./image/xxt.jpg' width='30%'>
    <p style='text-align:center;font-size:14px'>箱型图</p>
</center>

<center>
    <img src='./image/ztfbt.jpg' width='50%'>
    <p style='text-align:center;font-size:14px'>状态分布图</p>
</center>

### 2、异常值处理
几种处理方式：
* 最常用的：删除
* 将异常值当缺失值来填充（Excel实现方式：替换；Python：replace()）
* 把异常值当特殊情况，研究异常值出现的原因

## 四、数据类型转换
### 1、Python6种数据类型

<img src='./image/6type.jpg' width='80%' style='float:left'>

**dtype方法**

In [29]:
df['订单编号'].dtype
df['唯一识别码'].dtype

dtype('O')

dtype('int64')

### 2、类型转换
不同的数据类型可以做的事情是不一样的

**astype方法**

In [30]:
df['唯一识别码'].astype('float64')

0    101.0
1    102.0
2    103.0
3    103.0
4    104.0
5    104.0
Name: 唯一识别码, dtype: float64

## 五、索引设置
索引是查找数据的依据，设置索引的目的是便于我们查找数据。例如：从超市买菜回来，放在冰箱里，放的过程就是建立索引的过程，如蔬菜放在冷藏室，肉类放在冷冻室。
### 1、为无索引列表添加索引
Python中，如果表没有索引，会默认从0开始的自然数做索引。

In [32]:
df = pd.read_excel('./data/no_index.xlsx')
df

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3
0,A1,张 通,101,2018-08-08
1,A2,李谷,102,2018-08-09
2,A3,孙凤,103,2018-08-10
3,A4,赵恒,104,2018-08-11
4,A5,赵恒,104,2018-08-12


In [35]:
# df的columns传入列索引值，index传入行索引值。以达到为无索引列表添加索引的目的。
df.columns = ['订单编号', '客户姓名', '唯一识别码', '成交时间']
df
df.index = [1, 2, 3, 4, 5]
df

Unnamed: 0,订单编号,客户姓名,唯一识别码,成交时间
0,A1,张 通,101,2018-08-08
1,A2,李谷,102,2018-08-09
2,A3,孙凤,103,2018-08-10
3,A4,赵恒,104,2018-08-11
4,A5,赵恒,104,2018-08-12


Unnamed: 0,订单编号,客户姓名,唯一识别码,成交时间
1,A1,张 通,101,2018-08-08
2,A2,李谷,102,2018-08-09
3,A3,孙凤,103,2018-08-10
4,A4,赵恒,104,2018-08-11
5,A5,赵恒,104,2018-08-12


### 2、重新设置索引
一般重新设置行索引

Excel实现：将要做行索引的列拖至第一列的位置即可

In [36]:
df.set_index('订单编号')

Unnamed: 0_level_0,客户姓名,唯一识别码,成交时间
订单编号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A1,张 通,101,2018-08-08
A2,李谷,102,2018-08-09
A3,孙凤,103,2018-08-10
A4,赵恒,104,2018-08-11
A5,赵恒,104,2018-08-12


**层次化索引**

**set_index()**方法传入两个或多个列名。层次化索引一般用在某一列含有多个重复值的情况.

例子如下：其中a、b、c、d分别有多个重复

<img src='./image/set_index.jpg' width='20%' style='float:left'>

### 3、重命名索引
针对现有索引名进行修改，即改字段名

**rename()**方法

In [40]:
df.rename(columns={'订单编号':'新订单编号', '客户姓名':'新客户姓名'})
df
df.rename(index={1:'一', 2:'二', 3:'三'})
df.rename(columns={'订单编号':'新订单编号', '客户姓名':'新客户姓名'}, index={1:'一', 2:'二', 3:'三'})

Unnamed: 0,新订单编号,新客户姓名,唯一识别码,成交时间
1,A1,张 通,101,2018-08-08
2,A2,李谷,102,2018-08-09
3,A3,孙凤,103,2018-08-10
4,A4,赵恒,104,2018-08-11
5,A5,赵恒,104,2018-08-12


Unnamed: 0,订单编号,客户姓名,唯一识别码,成交时间
1,A1,张 通,101,2018-08-08
2,A2,李谷,102,2018-08-09
3,A3,孙凤,103,2018-08-10
4,A4,赵恒,104,2018-08-11
5,A5,赵恒,104,2018-08-12


Unnamed: 0,订单编号,客户姓名,唯一识别码,成交时间
一,A1,张 通,101,2018-08-08
二,A2,李谷,102,2018-08-09
三,A3,孙凤,103,2018-08-10
4,A4,赵恒,104,2018-08-11
5,A5,赵恒,104,2018-08-12


Unnamed: 0,新订单编号,新客户姓名,唯一识别码,成交时间
一,A1,张 通,101,2018-08-08
二,A2,李谷,102,2018-08-09
三,A3,孙凤,103,2018-08-10
4,A4,赵恒,104,2018-08-11
5,A5,赵恒,104,2018-08-12


### 4、重置索引
重置索引主要用在层次化索引中，重置索引是将索引列当作一个**columns**进行返回

**reset_index(level=None, drop=False, inplace=False)**方法，用于数组分组、数据透视中

* level：指定要将层次化索引的第几级别转化为columns，第一个索引为0级，第二个索引为1级，默认为全部索引，即默认将索引全部转换为columns
* drop：指定是否将原索引删掉，即不作为一个新的索引，默认为False，即不删掉原索引
* inplace：指定是否修改原数据表

<center>
    <img src='./image/reset_index.jpg' width='80%'>
</center>

In [72]:
# df = pd.read_excel('./data/reset_index.xlsx')
# arange: Python内置函数range数组版
# 0~7分布到4行2列，+1所有的值都加1
np.arange(8).reshape(4, 2)
df = pd.DataFrame(np.arange(8).reshape(4, 2) + 1, index=[['A', 'A', 'B', 'B'], ['a', 'b', 'a', 'b']],
                  columns=[['C1', 'C2']])
# 设置索引名
df.index.names = ['Z1', 'Z2']
df
df.reset_index()
df.reset_index(level = 0)
df.reset_index(level = 1)
# 原索引删除
df.reset_index(drop = True)

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7]])

Unnamed: 0_level_0,Unnamed: 1_level_0,C1,C2
Z1,Z2,Unnamed: 2_level_1,Unnamed: 3_level_1
A,a,1,2
A,b,3,4
B,a,5,6
B,b,7,8


Unnamed: 0,Z1,Z2,C1,C2
0,A,a,1,2
1,A,b,3,4
2,B,a,5,6
3,B,b,7,8


Unnamed: 0_level_0,Z1,C1,C2
Z2,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,A,1,2
b,A,3,4
a,B,5,6
b,B,7,8


Unnamed: 0_level_0,Z2,C1,C2
Z1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,a,1,2
A,b,3,4
B,a,5,6
B,b,7,8


Unnamed: 0,C1,C2
0,1,2
1,3,4
2,5,6
3,7,8
