# 数据清洗

- 从 Excel、CSV、数据库中获取到的数据并不是非常完美的，可能混入了重复值、异常值、缺失值，
- 也可能存在格式不统一、量纲不统一等问题。因此在开始数据分析之前，对数据进行清洗特别重要
- 在对数据进行清晰和操作前，有一些重要的认识：
  1. DataFrame 对象的很多方法都有一个名为 inplace 参数(默认值 False 不修改原对象),如果设为 True，那会直接修改原 DataFrame 上，让方法的返回值为 None


In [44]:
import logging

import numpy as np
import pandas as pd

In [45]:
data = {
    "eno": [
        1359,
        2056,
        3088,
        3211,
        3233,
        3244,
        3251,
        3344,
        3577,
        3588,
        4466,
        5234,
        5566,
        7800,
    ],
    "ename": [
        "胡一刀",
        "乔峰",
        "李莫愁",
        "张无忌",
        "丘处机",
        "欧阳锋",
        "张翠山",
        "黄蓉",
        "杨过",
        "朱九真",
        "苗人凤",
        "郭靖",
        "宋远桥",
        "张三丰",
    ],
    "job": [
        "销售员",
        "分析师",
        "设计师",
        "程序员",
        "程序员",
        "程序员",
        "程序员",
        "销售主管",
        "会计",
        "会计",
        "销售员",
        "出纳",
        "会计师",
        "总裁",
    ],
    "mgr": [
        3344.0,
        7800.0,
        2056.0,
        2056.0,
        2056.0,
        None,
        2056.0,
        7800.0,
        5566.0,
        5566.0,
        3344.0,
        5566.0,
        7800.0,
        None,
    ],
    "sal": [
        1800,
        5000,
        3500,
        3200,
        3400,
        3200,
        4000,
        3000,
        2200,
        2500,
        2500,
        2000,
        4000,
        9000,
    ],
    "comm": [
        200.0,
        1500.0,
        800.0,
        None,
        None,
        100.0,
        None,
        800.0,
        None,
        200.0,
        300.0,
        None,
        1000.0,
        1200.0,
    ],
    "dno": [30, None, 20, 20, 20, 20, 20, 30, 10, 10, 30, 10, 10, 20],
}

need_clean_data

Unnamed: 0_level_0,ename,job,mgr,sal,comm,dno
eno,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1359,胡一刀,销售员,3344.0,1800,200.0,30.0
2056,乔峰,分析师,7800.0,5000,1500.0,
3088,李莫愁,设计师,2056.0,3500,800.0,20.0
3211,张无忌,程序员,2056.0,3200,,20.0
3233,丘处机,程序员,2056.0,3400,,20.0
3244,欧阳锋,程序员,,3200,100.0,20.0
3251,张翠山,程序员,2056.0,4000,,20.0
3344,黄蓉,销售主管,7800.0,3000,800.0,30.0
3577,杨过,会计,5566.0,2200,,10.0
3588,朱九真,会计,5566.0,2500,200.0,10.0


## 空值处理


### 找出数据表中的缺失值-使用 isnull 或 isna


In [46]:
need_clean_data.isnull()

Unnamed: 0_level_0,ename,job,mgr,sal,comm,dno
eno,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1359,False,False,False,False,False,False
2056,False,False,False,False,False,True
3088,False,False,False,False,False,False
3211,False,False,False,False,True,False
3233,False,False,False,False,True,False
3244,False,False,True,False,False,False
3251,False,False,False,False,True,False
3344,False,False,False,False,False,False
3577,False,False,False,False,True,False
3588,False,False,False,False,False,False


In [47]:
need_clean_data.isna()

Unnamed: 0_level_0,ename,job,mgr,sal,comm,dno
eno,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1359,False,False,False,False,False,False
2056,False,False,False,False,False,True
3088,False,False,False,False,False,False
3211,False,False,False,False,True,False
3233,False,False,False,False,True,False
3244,False,False,True,False,False,False
3251,False,False,False,False,True,False
3344,False,False,False,False,False,False
3577,False,False,False,False,True,False
3588,False,False,False,False,False,False


### 删除这些缺失值


In [48]:
# 使用dropna方法,axis参数可以指定沿着0轴还是1轴(纵轴)删除，默认是沿0轴(横轴)删除
need_clean_data.dropna()

Unnamed: 0_level_0,ename,job,mgr,sal,comm,dno
eno,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1359,胡一刀,销售员,3344.0,1800,200.0,30.0
3088,李莫愁,设计师,2056.0,3500,800.0,20.0
3344,黄蓉,销售主管,7800.0,3000,800.0,30.0
3588,朱九真,会计,5566.0,2500,200.0,10.0
4466,苗人凤,销售员,3344.0,2500,300.0,30.0
5566,宋远桥,会计师,7800.0,4000,1000.0,10.0


In [49]:
need_clean_data.dropna(axis=1)

Unnamed: 0_level_0,ename,job,sal
eno,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1359,胡一刀,销售员,1800
2056,乔峰,分析师,5000
3088,李莫愁,设计师,3500
3211,张无忌,程序员,3200
3233,丘处机,程序员,3400
3244,欧阳锋,程序员,3200
3251,张翠山,程序员,4000
3344,黄蓉,销售主管,3000
3577,杨过,会计,2200
3588,朱九真,会计,2500


### 使用 fillna 对空值进行填充


In [50]:
# 通过value参数可以用指定值填充，通过method=ffill 参数可以用表格中前一个单元格填充，通过method=bfill参数可以用表格中后一个单元格填充
need_clean_data.fillna(value=0)

Unnamed: 0_level_0,ename,job,mgr,sal,comm,dno
eno,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1359,胡一刀,销售员,3344.0,1800,200.0,30.0
2056,乔峰,分析师,7800.0,5000,1500.0,0.0
3088,李莫愁,设计师,2056.0,3500,800.0,20.0
3211,张无忌,程序员,2056.0,3200,0.0,20.0
3233,丘处机,程序员,2056.0,3400,0.0,20.0
3244,欧阳锋,程序员,0.0,3200,100.0,20.0
3251,张翠山,程序员,2056.0,4000,0.0,20.0
3344,黄蓉,销售主管,7800.0,3000,800.0,30.0
3577,杨过,会计,5566.0,2200,0.0,10.0
3588,朱九真,会计,5566.0,2500,200.0,10.0


## 重复处理


### 判断行是否存在重复值


In [51]:
# (不指定参数时默认判断行索引是否重复)
need_clean_data.duplicated("job")

eno
1359    False
2056    False
3088    False
3211    False
3233     True
3244     True
3251     True
3344    False
3577    False
3588     True
4466     True
5234    False
5566    False
7800    False
dtype: bool

### 删除重复值


In [52]:
#  keep参数可以控制在遇到重复值时的处理方法，保留第一项/最后一项(last)/一个都不用保留
need_clean_data.drop_duplicates("job")

Unnamed: 0_level_0,ename,job,mgr,sal,comm,dno
eno,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1359,胡一刀,销售员,3344.0,1800,200.0,30.0
2056,乔峰,分析师,7800.0,5000,1500.0,
3088,李莫愁,设计师,2056.0,3500,800.0,20.0
3211,张无忌,程序员,2056.0,3200,,20.0
3344,黄蓉,销售主管,7800.0,3000,800.0,30.0
3577,杨过,会计,5566.0,2200,,10.0
5234,郭靖,出纳,5566.0,2000,,10.0
5566,宋远桥,会计师,7800.0,4000,1000.0,10.0
7800,张三丰,总裁,,9000,1200.0,20.0


In [53]:
need_clean_data.drop_duplicates("job", keep="last")

Unnamed: 0_level_0,ename,job,mgr,sal,comm,dno
eno,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2056,乔峰,分析师,7800.0,5000,1500.0,
3088,李莫愁,设计师,2056.0,3500,800.0,20.0
3251,张翠山,程序员,2056.0,4000,,20.0
3344,黄蓉,销售主管,7800.0,3000,800.0,30.0
3588,朱九真,会计,5566.0,2500,200.0,10.0
4466,苗人凤,销售员,3344.0,2500,300.0,30.0
5234,郭靖,出纳,5566.0,2000,,10.0
5566,宋远桥,会计师,7800.0,4000,1000.0,10.0
7800,张三丰,总裁,,9000,1200.0,20.0


## 数据预处理


In [54]:
sales_df = pd.read_excel("file_for_read/2020_sales_data.xlsx")
sales_df

Unnamed: 0,销售日期,销售区域,销售渠道,销售订单,品牌,售价,销售数量
0,2020-01-01,上海,拼多多,182894-455,八匹马,99,83
1,2020-01-01,上海,抖音,205635-402,八匹马,219,29
2,2020-01-01,上海,天猫,205654-021,八匹马,169,85
3,2020-01-01,上海,天猫,205654-519,八匹马,169,14
4,2020-01-01,上海,天猫,377781-010,皮皮虾,249,61
...,...,...,...,...,...,...,...
156,2020-01-21,福建,天猫,G70816,花花姑娘,399,93
157,2020-01-21,福建,天猫,G70818,花花姑娘,399,86
158,2020-01-22,上海,抖音,D89096,花花姑娘,399,72
159,2020-01-22,上海,天猫,G68116,花花姑娘,599,34


In [55]:
# 为sales_data追加列
# 通过日期时间类型列的dt属性，获得一个访问日期时间的对象
sales_df["年"] = sales_df["销售日期"].dt.year
sales_df["月份"] = sales_df["销售日期"].dt.month
sales_df["日"] = sales_df["销售日期"].dt.day
sales_df["季度"] = sales_df["销售日期"].dt.quarter
sales_df["星期"] = sales_df["销售日期"].dt.weekday
sales_df

Unnamed: 0,销售日期,销售区域,销售渠道,销售订单,品牌,售价,销售数量,年,月份,日,季度,星期
0,2020-01-01,上海,拼多多,182894-455,八匹马,99,83,2020,1,1,1,2
1,2020-01-01,上海,抖音,205635-402,八匹马,219,29,2020,1,1,1,2
2,2020-01-01,上海,天猫,205654-021,八匹马,169,85,2020,1,1,1,2
3,2020-01-01,上海,天猫,205654-519,八匹马,169,14,2020,1,1,1,2
4,2020-01-01,上海,天猫,377781-010,皮皮虾,249,61,2020,1,1,1,2
...,...,...,...,...,...,...,...,...,...,...,...,...
156,2020-01-21,福建,天猫,G70816,花花姑娘,399,93,2020,1,21,1,1
157,2020-01-21,福建,天猫,G70818,花花姑娘,399,86,2020,1,21,1,1
158,2020-01-22,上海,抖音,D89096,花花姑娘,399,72,2020,1,22,1,2
159,2020-01-22,上海,天猫,G68116,花花姑娘,599,34,2020,1,22,1,2


## 数据深度预处理

- 深度的分析和挖掘，字符串、日期时间这样的非数值类型都需要处理成数值，因为非数值类型没有办法计算相关性
- 字符串类型，通常有三类处理方法：

1. 有序变量（Ordinal Variable）：若字符串数据有顺序关系，可以对字符串进行序号化处理。
2. 分类变量（Categorical Variable）/ 名义变量（Nominal Variable）：字符串数据没有大小关系和等级之分，可以用独热编码的方式处理成哑变量（虚拟变量）矩阵。
3. 定距变量（Scale Variable）：字符串有大小高低，且可进行加减运算，那么只需要将字符串处理成对应的数值即可。


In [56]:
deep_data_handle_df = pd.DataFrame(
    data={
        "姓名": ["关羽", "张飞", "赵云", "马超", "黄忠"],
        "职业": ["医生", "医生", "程序员", "画家", "教师"],
        "学历": ["研究生", "大专", "研究生", "高中", "本科"],
    }
)
deep_data_handle_df

Unnamed: 0,姓名,职业,学历
0,关羽,医生,研究生
1,张飞,医生,大专
2,赵云,程序员,研究生
3,马超,画家,高中
4,黄忠,教师,本科


In [57]:
pd.get_dummies(deep_data_handle_df["职业"])

Unnamed: 0,医生,教师,画家,程序员
0,True,False,False,False
1,True,False,False,False
2,False,False,False,True
3,False,False,True,False
4,False,True,False,False


In [60]:
pd.get_dummies(deep_data_handle_df["职业"], dummy_na=True)

Unnamed: 0,医生,教师,画家,程序员,NaN
0,True,False,False,False,False
1,True,False,False,False,False
2,False,False,False,True,False
3,False,False,True,False,False
4,False,True,False,False,False


## 离散化/分箱

- 若变量的取值是连续值，那么它的取值有无数种可能，那对数据分组时会非常的不方便
- 之所以把离散化叫做分箱，是因为我们可以预先设置一些箱子，每个箱子代表了数据取值的范围，即实现离散化


In [58]:
dataframe_from_excel = pd.read_excel(
    io="file_for_read/points_settlement.xlsx", index_col="id"
)
dataframe_from_excel.describe()

Unnamed: 0,score
count,47.0
mean,113.551915
std,2.988633
min,110.05
25%,111.165
50%,112.66
75%,115.27
max,122.59


In [59]:
# 依据describe返回，min 110.050000,max 122.590000，分4段（每3分一组的4个箱子）
paragraph = np.arange(110, 123, 3)
# right参数默认值为True，表示箱子左开右闭；False左闭右开
excel_data_cut_by_paragraph = pd.cut(dataframe_from_excel.score, paragraph, right=False)
excel_data_cut_by_paragraph

id
1                NaN
2     [119.0, 122.0)
3     [116.0, 119.0)
4     [116.0, 119.0)
5     [116.0, 119.0)
6     [116.0, 119.0)
7     [116.0, 119.0)
8     [116.0, 119.0)
9     [113.0, 116.0)
10    [113.0, 116.0)
11    [113.0, 116.0)
12    [113.0, 116.0)
13    [113.0, 116.0)
14    [113.0, 116.0)
15    [113.0, 116.0)
16    [113.0, 116.0)
17    [113.0, 116.0)
18    [113.0, 116.0)
19    [113.0, 116.0)
20    [113.0, 116.0)
21    [113.0, 116.0)
22    [113.0, 116.0)
23    [113.0, 116.0)
24    [110.0, 113.0)
25    [110.0, 113.0)
26    [110.0, 113.0)
27    [110.0, 113.0)
28    [110.0, 113.0)
29    [110.0, 113.0)
30    [110.0, 113.0)
31    [110.0, 113.0)
32    [110.0, 113.0)
33    [110.0, 113.0)
34    [110.0, 113.0)
35    [110.0, 113.0)
36    [110.0, 113.0)
37    [110.0, 113.0)
38    [110.0, 113.0)
39    [110.0, 113.0)
40    [110.0, 113.0)
41    [110.0, 113.0)
42    [110.0, 113.0)
43    [110.0, 113.0)
44    [110.0, 113.0)
45    [110.0, 113.0)
46    [110.0, 113.0)
47    [110.0, 113.0)
Name: scor