# 数据清洗

- 从 Excel、CSV、数据库中获取到的数据并不是非常完美的，可能混入了重复值、异常值、缺失值，
- 也可能存在格式不统一、量纲不统一等问题。因此在开始数据分析之前，对数据进行清洗特别重要
- 在对数据进行清晰和操作前，有一些重要的认识：
  1. DataFrame 对象的很多方法都有一个名为 inplace 参数(默认值 False 不修改原对象),如果设为 True，那会直接修改原 DataFrame 上，让方法的返回值为 None


In [38]:
import numpy as np
import pandas as pd

In [39]:
data = {
    "eno": [
        1359,
        2056,
        3088,
        3211,
        3233,
        3244,
        3251,
        3344,
        3577,
        3588,
        4466,
        5234,
        5566,
        7800,
    ],
    "ename": [
        "胡一刀",
        "乔峰",
        "李莫愁",
        "张无忌",
        "丘处机",
        "欧阳锋",
        "张翠山",
        "黄蓉",
        "杨过",
        "朱九真",
        "苗人凤",
        "郭靖",
        "宋远桥",
        "张三丰",
    ],
    "job": [
        "销售员",
        "分析师",
        "设计师",
        "程序员",
        "程序员",
        "程序员",
        "程序员",
        "销售主管",
        "会计",
        "会计",
        "销售员",
        "出纳",
        "会计师",
        "总裁",
    ],
    "mgr": [
        3344.0,
        7800.0,
        2056.0,
        2056.0,
        2056.0,
        None,
        2056.0,
        7800.0,
        5566.0,
        5566.0,
        3344.0,
        5566.0,
        7800.0,
        None,
    ],
    "sal": [
        1800,
        5000,
        3500,
        3200,
        3400,
        3200,
        4000,
        3000,
        2200,
        2500,
        2500,
        2000,
        4000,
        9000,
    ],
    "comm": [
        200.0,
        1500.0,
        800.0,
        None,
        None,
        100.0,
        None,
        800.0,
        None,
        200.0,
        300.0,
        None,
        1000.0,
        1200.0,
    ],
    "dno": [30, None, 20, 20, 20, 20, 20, 30, 10, 10, 30, 10, 10, 20],
}

need_clean_data = pd.DataFrame(data=data)
need_clean_data

Unnamed: 0,eno,ename,job,mgr,sal,comm,dno
0,1359,胡一刀,销售员,3344.0,1800,200.0,30.0
1,2056,乔峰,分析师,7800.0,5000,1500.0,
2,3088,李莫愁,设计师,2056.0,3500,800.0,20.0
3,3211,张无忌,程序员,2056.0,3200,,20.0
4,3233,丘处机,程序员,2056.0,3400,,20.0
5,3244,欧阳锋,程序员,,3200,100.0,20.0
6,3251,张翠山,程序员,2056.0,4000,,20.0
7,3344,黄蓉,销售主管,7800.0,3000,800.0,30.0
8,3577,杨过,会计,5566.0,2200,,10.0
9,3588,朱九真,会计,5566.0,2500,200.0,10.0


## 空值处理


### 数据是否有空值


In [40]:
need_clean_data.isnull().values.any()

True

### 统计数据缺失值情况


In [41]:
need_clean_data.isnull().sum()

eno      0
ename    0
job      0
mgr      2
sal      0
comm     5
dno      1
dtype: int64

### 找出全部缺失值-使用 isnull 或 isna


In [42]:
need_clean_data.isnull()

Unnamed: 0,eno,ename,job,mgr,sal,comm,dno
0,False,False,False,False,False,False,False
1,False,False,False,False,False,False,True
2,False,False,False,False,False,False,False
3,False,False,False,False,False,True,False
4,False,False,False,False,False,True,False
5,False,False,False,True,False,False,False
6,False,False,False,False,False,True,False
7,False,False,False,False,False,False,False
8,False,False,False,False,False,True,False
9,False,False,False,False,False,False,False


In [43]:
need_clean_data.isna()

Unnamed: 0,eno,ename,job,mgr,sal,comm,dno
0,False,False,False,False,False,False,False
1,False,False,False,False,False,False,True
2,False,False,False,False,False,False,False
3,False,False,False,False,False,True,False
4,False,False,False,False,False,True,False
5,False,False,False,True,False,False,False
6,False,False,False,False,False,True,False
7,False,False,False,False,False,False,False
8,False,False,False,False,False,True,False
9,False,False,False,False,False,False,False


### 找出某一列缺失值


In [44]:
need_clean_data[need_clean_data["mgr"].isnull()]

Unnamed: 0,eno,ename,job,mgr,sal,comm,dno
5,3244,欧阳锋,程序员,,3200,100.0,20.0
13,7800,张三丰,总裁,,9000,1200.0,20.0


### 输出每列缺失值具体行数


In [45]:
for i in need_clean_data.columns:
    if need_clean_data[i].count() != len(need_clean_data):
        row = need_clean_data[i][need_clean_data[i].isnull().values].index.tolist()
        print(f'列名："{i}", 第{row}行位置有缺失值')

列名："mgr", 第[5, 13]行位置有缺失值
列名："comm", 第[3, 4, 6, 8, 11]行位置有缺失值
列名："dno", 第[1]行位置有缺失值


### 删除这些缺失值


In [46]:
# 使用dropna方法,axis参数可以指定沿着0轴还是1轴(纵轴)删除，默认是沿0轴(横轴)删除
need_clean_data.dropna()

Unnamed: 0,eno,ename,job,mgr,sal,comm,dno
0,1359,胡一刀,销售员,3344.0,1800,200.0,30.0
2,3088,李莫愁,设计师,2056.0,3500,800.0,20.0
7,3344,黄蓉,销售主管,7800.0,3000,800.0,30.0
9,3588,朱九真,会计,5566.0,2500,200.0,10.0
10,4466,苗人凤,销售员,3344.0,2500,300.0,30.0
12,5566,宋远桥,会计师,7800.0,4000,1000.0,10.0


In [47]:
need_clean_data.dropna(axis=1)

Unnamed: 0,eno,ename,job,sal
0,1359,胡一刀,销售员,1800
1,2056,乔峰,分析师,5000
2,3088,李莫愁,设计师,3500
3,3211,张无忌,程序员,3200
4,3233,丘处机,程序员,3400
5,3244,欧阳锋,程序员,3200
6,3251,张翠山,程序员,4000
7,3344,黄蓉,销售主管,3000
8,3577,杨过,会计,2200
9,3588,朱九真,会计,2500


### 填充空值--fillna


#### 前后值填充


In [48]:
# 通过value参数可以用指定值填充，通过method=ffill 参数可以用表格中前一个单元格填充，通过method=bfill参数可以用表格中后一个单元格填充
need_clean_data.fillna(value=0)

Unnamed: 0,eno,ename,job,mgr,sal,comm,dno
0,1359,胡一刀,销售员,3344.0,1800,200.0,30.0
1,2056,乔峰,分析师,7800.0,5000,1500.0,0.0
2,3088,李莫愁,设计师,2056.0,3500,800.0,20.0
3,3211,张无忌,程序员,2056.0,3200,0.0,20.0
4,3233,丘处机,程序员,2056.0,3400,0.0,20.0
5,3244,欧阳锋,程序员,0.0,3200,100.0,20.0
6,3251,张翠山,程序员,2056.0,4000,0.0,20.0
7,3344,黄蓉,销售主管,7800.0,3000,800.0,30.0
8,3577,杨过,会计,5566.0,2200,0.0,10.0
9,3588,朱九真,会计,5566.0,2500,200.0,10.0


#### 众数填充


In [49]:
# 众数填充
need_clean_data["comm"].fillna(need_clean_data["comm"].mode(dropna=True)[0])

0      200.0
1     1500.0
2      800.0
3      200.0
4      200.0
5      100.0
6      200.0
7      800.0
8      200.0
9      200.0
10     300.0
11     200.0
12    1000.0
13    1200.0
Name: comm, dtype: float64

## 重复处理


### 判断行是否存在重复值


In [50]:
# (不指定参数时默认判断行索引是否重复)
need_clean_data.duplicated("job")

0     False
1     False
2     False
3     False
4      True
5      True
6      True
7     False
8     False
9      True
10     True
11    False
12    False
13    False
dtype: bool

### 删除重复值


In [51]:
#  keep参数可以控制在遇到重复值时的处理方法，保留第一项/最后一项(last)/一个都不用保留
need_clean_data.drop_duplicates("job")

Unnamed: 0,eno,ename,job,mgr,sal,comm,dno
0,1359,胡一刀,销售员,3344.0,1800,200.0,30.0
1,2056,乔峰,分析师,7800.0,5000,1500.0,
2,3088,李莫愁,设计师,2056.0,3500,800.0,20.0
3,3211,张无忌,程序员,2056.0,3200,,20.0
7,3344,黄蓉,销售主管,7800.0,3000,800.0,30.0
8,3577,杨过,会计,5566.0,2200,,10.0
11,5234,郭靖,出纳,5566.0,2000,,10.0
12,5566,宋远桥,会计师,7800.0,4000,1000.0,10.0
13,7800,张三丰,总裁,,9000,1200.0,20.0


In [52]:
need_clean_data.drop_duplicates("job", keep="last")

Unnamed: 0,eno,ename,job,mgr,sal,comm,dno
1,2056,乔峰,分析师,7800.0,5000,1500.0,
2,3088,李莫愁,设计师,2056.0,3500,800.0,20.0
6,3251,张翠山,程序员,2056.0,4000,,20.0
7,3344,黄蓉,销售主管,7800.0,3000,800.0,30.0
9,3588,朱九真,会计,5566.0,2500,200.0,10.0
10,4466,苗人凤,销售员,3344.0,2500,300.0,30.0
11,5234,郭靖,出纳,5566.0,2000,,10.0
12,5566,宋远桥,会计师,7800.0,4000,1000.0,10.0
13,7800,张三丰,总裁,,9000,1200.0,20.0


## 字符串处理


In [53]:
df = {
    "姓名": ["黄同学", "黄至尊", "黄老邪 ", "陈大美", "孙尚香"],
    "英文名": [
        "Huang tong_xue",
        "huang zhi_zun",
        "Huang Lao_xie",
        "Chen Da_mei",
        "sun shang_xiang",
    ],
    "性别": ["男", "women", "men", "女", "男"],
    "身份证": [
        "463895200003128433",
        "429475199912122345",
        "420934199110102311",
        "431085200005230122",
        "420953199509082345",
    ],
    "身高": [
        "mid:175_good",
        "low:165_bad",
        "low:159_bad",
        "high:180_verygood",
        "low:172_bad",
    ],
    "家庭住址": ["湖北广水", "河南信阳", "广西桂林", "湖北孝感", "广东广州"],
    "电话号码": ["13434813546", "19748672895", "16728613064", "14561586431", "19384683910"],
    "收入": ["1.1万", "8.5千", "0.9万", "6.5千", "2.0万"],
}
df = pd.DataFrame(df)
df

Unnamed: 0,姓名,英文名,性别,身份证,身高,家庭住址,电话号码,收入
0,黄同学,Huang tong_xue,男,463895200003128433,mid:175_good,湖北广水,13434813546,1.1万
1,黄至尊,huang zhi_zun,women,429475199912122345,low:165_bad,河南信阳,19748672895,8.5千
2,黄老邪,Huang Lao_xie,men,420934199110102311,low:159_bad,广西桂林,16728613064,0.9万
3,陈大美,Chen Da_mei,女,431085200005230122,high:180_verygood,湖北孝感,14561586431,6.5千
4,孙尚香,sun shang_xiang,男,420953199509082345,low:172_bad,广东广州,19384683910,2.0万


### cat: 拼接


In [54]:
df["姓名"].str.cat(df["家庭住址"], sep="-")

0     黄同学-湖北广水
1     黄至尊-河南信阳
2    黄老邪 -广西桂林
3     陈大美-湖北孝感
4     孙尚香-广东广州
Name: 姓名, dtype: object

### contains: 判断是否包含给定字符


In [55]:
df["家庭住址"].str.contains("广")

0     True
1    False
2     True
3    False
4     True
Name: 家庭住址, dtype: bool

### startswith/endswith 是否以…开头/结尾


In [56]:
df["姓名"].str.startswith("黄")

0     True
1     True
2     True
3    False
4    False
Name: 姓名, dtype: bool

In [57]:
df["英文名"].str.endswith("e")

0     True
1    False
2     True
3    False
4    False
Name: 英文名, dtype: bool

### count:字符串中出现的次数


In [58]:
df["电话号码"].str.count("3")

0    3
1    0
2    1
3    1
4    2
Name: 电话号码, dtype: int64

### get: 获取指定位置的字符串


In [59]:
df["姓名"].str.get(-1)

0    学
1    尊
2     
3    美
4    香
Name: 姓名, dtype: object

### len: 计算字符串长度


In [60]:
df["性别"].str.len()

0    1
1    5
2    3
3    1
4    1
Name: 性别, dtype: int64

###  upper/lower: 大小写转换


In [61]:
df["英文名"].str.upper()

0     HUANG TONG_XUE
1      HUANG ZHI_ZUN
2      HUANG LAO_XIE
3        CHEN DA_MEI
4    SUN SHANG_XIANG
Name: 英文名, dtype: object

In [62]:
df["英文名"].str.lower()

0     huang tong_xue
1      huang zhi_zun
2      huang lao_xie
3        chen da_mei
4    sun shang_xiang
Name: 英文名, dtype: object

### pad/center 左/右补充字符串
- 不满足时才补充

In [63]:
# 如果长度不足5,用* 补充补充到左边
df["家庭住址"].str.pad(5,side="left",fillchar="*")  


0    *湖北广水
1    *河南信阳
2    *广西桂林
3    *湖北孝感
4    *广东广州
Name: 家庭住址, dtype: object

In [64]:
# 如果长度不足5,用* 补充到右边
df["家庭住址"].str.pad(5,side="right",fillchar="*")

0    湖北广水*
1    河南信阳*
2    广西桂林*
3    湖北孝感*
4    广东广州*
Name: 家庭住址, dtype: object

In [65]:
df["家庭住址"].str.center(5,fillchar="*")

0    *湖北广水
1    *河南信阳
2    *广西桂林
3    *湖北孝感
4    *广东广州
Name: 家庭住址, dtype: object

### repeat: 重复字符串几次

In [66]:
df["性别"].str.repeat(3)


0                男男男
1    womenwomenwomen
2          menmenmen
3                女女女
4                男男男
Name: 性别, dtype: object

### slice_replace: 替换指定的位置的字符


In [67]:
df["电话号码"].str.slice_replace(4,8,"*"*4)

0    1343****546
1    1974****895
2    1672****064
3    1456****431
4    1938****910
Name: 电话号码, dtype: object

### replace: 替换为给定的字符串


In [68]:
df["身高"].str.replace(":","---")


0         mid---175_good
1          low---165_bad
2          low---159_bad
3    high---180_verygood
4          low---172_bad
Name: 身高, dtype: object

### split: 分割


In [69]:
df["身高"].str.split(":")


0         [mid, 175_good]
1          [low, 165_bad]
2          [low, 159_bad]
3    [high, 180_verygood]
4          [low, 172_bad]
Name: 身高, dtype: object

### strip: 去除空白符、换行符


In [70]:
df["姓名"].str.strip()

0    黄同学
1    黄至尊
2    黄老邪
3    陈大美
4    孙尚香
Name: 姓名, dtype: object

### findall: 正则匹配


In [71]:
df["身高"].str.findall("[a-zA-Z]+")

0         [mid, good]
1          [low, bad]
2          [low, bad]
3    [high, verygood]
4          [low, bad]
Name: 身高, dtype: object

In [72]:
df["身高"].str.extract("([a-zA-Z]+)")

Unnamed: 0,0
0,mid
1,low
2,low
3,high
4,low


In [73]:
df["身高"].str.extractall("([a-zA-Z]+)")

Unnamed: 0_level_0,Unnamed: 1_level_0,0
Unnamed: 0_level_1,match,Unnamed: 2_level_1
0,0,mid
0,1,good
1,0,low
1,1,bad
2,0,low
2,1,bad
3,0,high
3,1,verygood
4,0,low
4,1,bad


## 数据预处理


In [74]:
sales_df = pd.read_excel("file_for_read/2020_sales_data.xlsx")
sales_df

Unnamed: 0,销售日期,销售区域,销售渠道,销售订单,品牌,售价,销售数量
0,2020-01-01,上海,拼多多,182894-455,八匹马,99,83
1,2020-01-01,上海,抖音,205635-402,八匹马,219,29
2,2020-01-01,上海,天猫,205654-021,八匹马,169,85
3,2020-01-01,上海,天猫,205654-519,八匹马,169,14
4,2020-01-01,上海,天猫,377781-010,皮皮虾,249,61
...,...,...,...,...,...,...,...
156,2020-01-21,福建,天猫,G70816,花花姑娘,399,93
157,2020-01-21,福建,天猫,G70818,花花姑娘,399,86
158,2020-01-22,上海,抖音,D89096,花花姑娘,399,72
159,2020-01-22,上海,天猫,G68116,花花姑娘,599,34


### 追加列

两种方式 assign或者直接赋值

In [75]:
# 为sales_data追加列
sales_df["年"] = sales_df["销售日期"].dt.year
sales_df["月份"] = sales_df["销售日期"].dt.month
sales_df["日"] = sales_df["销售日期"].dt.day

sales_df = sales_df.assign(
    季度=sales_df["销售日期"].dt.quarter,
    星期=sales_df["销售日期"].dt.weekday
)
sales_df

Unnamed: 0,销售日期,销售区域,销售渠道,销售订单,品牌,售价,销售数量,年,月份,日,季度,星期
0,2020-01-01,上海,拼多多,182894-455,八匹马,99,83,2020,1,1,1,2
1,2020-01-01,上海,抖音,205635-402,八匹马,219,29,2020,1,1,1,2
2,2020-01-01,上海,天猫,205654-021,八匹马,169,85,2020,1,1,1,2
3,2020-01-01,上海,天猫,205654-519,八匹马,169,14,2020,1,1,1,2
4,2020-01-01,上海,天猫,377781-010,皮皮虾,249,61,2020,1,1,1,2
...,...,...,...,...,...,...,...,...,...,...,...,...
156,2020-01-21,福建,天猫,G70816,花花姑娘,399,93,2020,1,21,1,1
157,2020-01-21,福建,天猫,G70818,花花姑娘,399,86,2020,1,21,1,1
158,2020-01-22,上海,抖音,D89096,花花姑娘,399,72,2020,1,22,1,2
159,2020-01-22,上海,天猫,G68116,花花姑娘,599,34,2020,1,22,1,2


## 数据深度预处理

- 深度的分析和挖掘，字符串、日期时间这样的非数值类型都需要处理成数值，因为非数值类型没有办法计算相关性
- 字符串类型，通常有三类处理方法：

1. 有序变量（Ordinal Variable）：若字符串数据有顺序关系，可以对字符串进行序号化处理。
2. 分类变量（Categorical Variable）/ 名义变量（Nominal Variable）：字符串数据没有大小关系和等级之分，可以用独热编码的方式处理成哑变量（虚拟变量）矩阵。
3. 定距变量（Scale Variable）：字符串有大小高低，且可进行加减运算，那么只需要将字符串处理成对应的数值即可。


In [76]:
deep_data_handle_df = pd.DataFrame(
    data={
        "姓名": ["关羽", "张飞", "赵云", "马超", "黄忠"],
        "职业": ["医生", "医生", "程序员", "画家", "教师"],
        "学历": ["研究生", "大专", "研究生", "高中", "本科"],
    }
)
deep_data_handle_df

Unnamed: 0,姓名,职业,学历
0,关羽,医生,研究生
1,张飞,医生,大专
2,赵云,程序员,研究生
3,马超,画家,高中
4,黄忠,教师,本科


In [77]:
pd.get_dummies(deep_data_handle_df["职业"])

Unnamed: 0,医生,教师,画家,程序员
0,True,False,False,False
1,True,False,False,False
2,False,False,False,True
3,False,False,True,False
4,False,True,False,False


In [78]:
pd.get_dummies(deep_data_handle_df["职业"], dummy_na=True)

Unnamed: 0,医生,教师,画家,程序员,NaN
0,True,False,False,False,False
1,True,False,False,False,False
2,False,False,False,True,False
3,False,False,True,False,False
4,False,True,False,False,False


## 离散化/分箱

- 若变量的取值是连续值，那么它的取值有无数种可能，那对数据分组时会非常的不方便
- 之所以把离散化叫做分箱，是因为我们可以预先设置一些箱子，每个箱子代表了数据取值的范围，即实现离散化


In [79]:
df = pd.DataFrame({"a": [60, 50, 80, 96, 75]})

# bins:为一个数组，从小到大。
df["b"] = pd.cut(df["a"], bins=[0, 59, 79, 100])
# 还可以指定labels，注意：len(labels) == len(bins) - 1，因为bins如果有n个元素，那么会形成n-1个区间
df["c"] = pd.cut(df["a"], bins=[0, 59, 79, 100], labels=["不及格", "不错", "优秀"])
print(df)

    a          b    c
0  60   (59, 79]   不错
1  50    (0, 59]  不及格
2  80  (79, 100]   优秀
3  96  (79, 100]   优秀
4  75   (59, 79]   不错


In [80]:
dataframe_from_excel = pd.read_excel(
    io="file_for_read/points_settlement.xlsx", index_col="id"
)
dataframe_from_excel.describe()

Unnamed: 0,score
count,47.0
mean,113.551915
std,2.988633
min,110.05
25%,111.165
50%,112.66
75%,115.27
max,122.59


In [None]:
# 依据describe返回，min 110.050000,max 122.590000，分4段（每3分一组的4个箱子）
paragraph = np.arange(110, 123, 3)
# right参数默认值为True，表示箱子左开右闭；False左闭右开
excel_data_cut_by_paragraph = pd.cut(dataframe_from_excel.score, paragraph, right=False)
excel_data_cut_by_paragraph