# **4.29_clean_dirty_data**

In [1]:
import pandas as pd
import numpy as np

### 一、处理缺失数据

#### (一)、对整列缺失值进行填充 

In [3]:
# 创建示例 DataFrame
df1 = pd.DataFrame({
    '日期': ['2005-01-01', '2005-01-02', '2005-01-03', '2005-01-03'],
    '销售额': [1000, 1500, 800, 1200],
    '销售人员': ['李华', '王磊', '刘娜', '张洋'],
    '地址': ['苏州', '郑州', '南京', '西安']
})
df1 = df1.rename(index={
    0: '001',
    1: '002',
    2: '003',
    3: '004'
})
df1['国家'] = np.nan
df1

Unnamed: 0,日期,销售额,销售人员,地址,国家
1,2005-01-01,1000,李华,苏州,
2,2005-01-02,1500,王磊,郑州,
3,2005-01-03,800,刘娜,南京,
4,2005-01-03,1200,张洋,西安,


1. 对全是缺失值的列填入统一值

   可以通过针对列的赋值操作

2. 对全是缺失值的列填入不同值

   见更新DataFrame的一列值 2.15.一.1.

In [4]:
df1["国家"] = "中国"
df1

Unnamed: 0,日期,销售额,销售人员,地址,国家
1,2005-01-01,1000,李华,苏州,中国
2,2005-01-02,1500,王磊,郑州,中国
3,2005-01-03,800,刘娜,南京,中国
4,2005-01-03,1200,张洋,西安,中国


#### (二)、对整行缺失值进行填充 

1. 对全是缺失值的行填入统一值

   可以通过针对行的赋值操作

2. 对全是缺失值的行填入不同值

   见更新DataFrame的一行值 2.15.一.2.

In [5]:
df1.iloc[3] = np.nan
df1

Unnamed: 0,日期,销售额,销售人员,地址,国家
1,2005-01-01,1000.0,李华,苏州,中国
2,2005-01-02,1500.0,王磊,郑州,中国
3,2005-01-03,800.0,刘娜,南京,中国
4,,,,,


In [6]:
df1.iloc[3] = "test"
df1

Unnamed: 0,日期,销售额,销售人员,地址,国家
1,2005-01-01,1000.0,李华,苏州,中国
2,2005-01-02,1500.0,王磊,郑州,中国
3,2005-01-03,800.0,刘娜,南京,中国
4,test,test,test,test,test


#### (三)、对某个缺失值进行填充

In [2]:
# 创建示例 DataFrame
df2 = pd.DataFrame({
    '日期': ['2005-01-01', '2005-01-02', '2005-01-03', '2005-01-03'],
    '销售额': [1000, 1500, np.nan, 1200],
    '销售人员': ['李华', '王磊', '刘娜', '张洋'],
    '地址': ['苏州', '郑州', '南京', '西安']
})
df2 = df2.rename(index={
    0: '001',
    1: '002',
    2: '003',
    3: '004'
})
df2

Unnamed: 0,日期,销售额,销售人员,地址
1,2005-01-01,1000.0,李华,苏州
2,2005-01-02,1500.0,王磊,郑州
3,2005-01-03,,刘娜,南京
4,2005-01-03,1200.0,张洋,西安


可以先用loc或iloc先去定位到那个值，然后重新赋值

用loc或iloc先去定位值，见2.13.四.(四)

In [4]:
df2.loc['003', '销售额'] = 800
df2

Unnamed: 0,日期,销售额,销售人员,地址
1,2005-01-01,1000.0,李华,苏州
2,2005-01-02,1500.0,王磊,郑州
3,2005-01-03,800.0,刘娜,南京
4,2005-01-03,1200.0,张洋,西安


#### (四)、对部分缺失值进行填充

In [5]:
df3 = pd.DataFrame({
    '日期': ['2005-01-01', '2005-01-02', np.nan, np.nan],
    '销售额': [1000, 1500, 800, 1200],
    '销售人员': ['李华', '王磊', '刘娜', '张洋'],
    '地址': ['苏州', '郑州', '南京', '西安']
})
df3 = df3.rename(index={
    0: '001',
    1: '002',
    2: '003',
    3: '004'
})
df3

Unnamed: 0,日期,销售额,销售人员,地址
1,2005-01-01,1000,李华,苏州
2,2005-01-02,1500,王磊,郑州
3,,800,刘娜,南京
4,,1200,张洋,西安


1. 填入统一值

   如果要替换某一部分的值，也是一样的道理，能用loc或iloc提取出来的部分，都可以通过赋值来填充或替换值。

In [8]:
df3.loc['003': '004', '日期'] = '2005-01-03'
df3

Unnamed: 0,日期,销售额,销售人员,地址
1,2005-01-01,1000,李华,苏州
2,2005-01-02,1500,王磊,郑州
3,2005-01-03,800,刘娜,南京
4,2005-01-03,1200,张洋,西安


2. 分别填入值

   如果要对部分缺失值，分别填入不同值，可以用元组或列表的形式来赋值

   **缺失值的个数和元组或列表里元素的个数，要一致**

In [11]:
df3.loc['003': '004', '日期'] = ['2005-01-03', '2023-9-15']
df3

Unnamed: 0,日期,销售额,销售人员,地址
1,2005-01-01,1000,李华,苏州
2,2005-01-02,1500,王磊,郑州
3,2005-01-03,800,刘娜,南京
4,2023-9-15,1200,张洋,西安


#### (五）、自动找到缺失值进行填充

以上方法都需要我们自行定位缺失值的位置，但在数据量很大，缺失值很多的情况下，更需要程序能自动找到所有为NaN的值，然后根据我们的指示进行填充

In [13]:
df4 = pd.DataFrame({'A': [1, 2, np.nan, 4],
                   'B': [5, np.nan, 7, np.nan],
                   'C': [8, 9, 10, 11]})
df4

Unnamed: 0,A,B,C
0,1.0,5.0,8
1,2.0,,9
2,,7.0,10
3,4.0,,11


1. Series有个叫fillna的方法，调用时列里面所有NaN值都会被替换成传入的参数，就不需要一个个去定位缺失值的位置了

   1)对缺失值填入确定的值

In [14]:
df4['B'].fillna(0)

0    5.0
1    0.0
2    7.0
3    0.0
Name: B, dtype: float64

    2）对缺失值填入某个计算结果
    
    fillna方法里，除了传入确定的参数，还可以替换成某个计算结果，如平均值

In [16]:
df4['B'].fillna(df4['B'].mean())

0    5.0
1    6.0
2    7.0
3    6.0
Name: B, dtype: float64

2. DataFrame也有fillna方法，所以除了能填充某列的缺失值，还能直接对整个DataFrame里的缺失值进行填充。

    1)对缺失值填入统一值

   传入某个值后，返回的新DataFrame里，所有缺失值都会变成那个值

In [17]:
df4.fillna(0)

Unnamed: 0,A,B,C
0,1.0,5.0,8
1,2.0,0.0,9
2,0.0,7.0,10
3,4.0,0.0,11


    2）对缺失值按列填入不同值

    还可以传入一个字典，键为列名，值为替换值，能实现把不同列里的空缺值，替换成不同值的效果。这个相比Series的fillna方法逐列操作要高效得多

In [18]:
df4.fillna({'A': 0, 'B': 10, 'C': 20})

Unnamed: 0,A,B,C
0,1.0,5.0,8
1,2.0,10.0,9
2,0.0,7.0,10
3,4.0,10.0,11


**只返回替换好的新DataFrame**

#### (六)、删除存在缺失值的行

如果丢失的是对分析目标有关键意义的数据，同时又没有合适的值进行填充，这时我们或许需要抛弃存在空缺值的观察值，调用dropna方法，被用于删除有缺失值的数据

In [19]:
df5 = pd.DataFrame({
    '姓名': ['John', 'Alice', 'Bob', 'Mary'],
    '年龄': [25, 30, np.nan, 40],
    '工资': [50000, np.nan, 70000, 60000],
    '性别': ['M', 'F', 'M', 'F']
})
df5

Unnamed: 0,姓名,年龄,工资,性别
0,John,25.0,50000.0,M
1,Alice,30.0,,F
2,Bob,,70000.0,M
3,Mary,40.0,60000.0,F


1. 删除所有有缺失值的行

   DataFrame在dropna方法直接调用时，会返回没有任何缺失值的行，所组成的新DataFrame。也就是说，只要某行任何一个值是空缺的，调用dropna后就见不到它了。

In [20]:
df5.dropna()

Unnamed: 0,姓名,年龄,工资,性别
0,John,25.0,50000.0,M
3,Mary,40.0,60000.0,F


2. 删除关键值缺失的行

   但我们一般清理数据的时候，更关注的是某些有关键信息的列，不太关键的变量，即使缺失也问题不大

   那我们调用dropna方法时，可以传入一个可选参数subset=['关键值缺失的列的列名1'，...]。

In [21]:
df5.dropna(subset=['工资'])

Unnamed: 0,姓名,年龄,工资,性别
0,John,25.0,50000.0,M
2,Bob,,70000.0,M
3,Mary,40.0,60000.0,F


3. 删除有缺失值的列

   指定axis=1

In [22]:
df5.dropna(axis=1)

Unnamed: 0,姓名,性别
0,John,M
1,Alice,F
2,Bob,M
3,Mary,F


In [23]:
df5.dropna(axis=1, subset=[0, 1])

Unnamed: 0,姓名,年龄,性别
0,John,25.0,M
1,Alice,30.0,F
2,Bob,,M
3,Mary,40.0,F


### 二、删除重复数据

In [24]:
df6 = pd.DataFrame({
    '姓名': ['John', 'Alice', 'Bob', 'Alice', 'John'],
    '年龄': [25, 30, 35, 30, 40],
    '性别': ['M', 'F', 'M', 'F', 'M']
})
df6

Unnamed: 0,姓名,年龄,性别
0,John,25,M
1,Alice,30,F
2,Bob,35,M
3,Alice,30,F
4,John,40,M


drop_duplicates方法，可以用于删除Series里的重复值，或是DataFrame里的重复行

1. 删除所有变量的值都重复的行

直接调用DataFrame的drop_duplicates时，只有当所有变量都一样的时候，才会被视为重复，也因此才会被删除掉。

In [25]:
df6['姓名'].drop_duplicates()

0     John
1    Alice
2      Bob
Name: 姓名, dtype: object

In [26]:
df6.drop_duplicates()

Unnamed: 0,姓名,年龄,性别
0,John,25,M
1,Alice,30,F
2,Bob,35,M
4,John,40,M


2. 删除特定变量的值重复的行

   也可以用subset=['变量1', '变量2'...],只要这个列表里的变量同时重复，就会被删除

In [28]:
df6.drop_duplicates(subset=['姓名', '性别'])

Unnamed: 0,姓名,年龄,性别
0,John,25,M
1,Alice,30,F
2,Bob,35,M


3. 可选参数keep

   删除的时候，默认是删除第二次及之后出现的值。

   但我们也可以把让可选参数keep='last'，这样会保留最后一个出现的值，删除掉之前出现的重复值

In [29]:
df6.drop_duplicates(subset=['姓名', '性别'], keep='last')

Unnamed: 0,姓名,年龄,性别
2,Bob,35,M
3,Alice,30,F
4,John,40,M


### 三、处理不一致数据

不一致数据是指，存在不同的值实际含义相同，或指代的是同一目标

处理方法是，把数值都替换成统一的。

In [30]:
data = {'姓名': ['小明', '小红', '小张', '小李'],
        '家乡': ['北京', '上海', '广州', '深圳'],
        '学校': ['北京大学', '清华大学', '华南理工', '清华']}
df7 = pd.DataFrame(data)
df7

Unnamed: 0,姓名,家乡,学校
0,小明,北京,北京大学
1,小红,上海,清华大学
2,小张,广州,华南理工
3,小李,深圳,清华


#### (一)、replace方法用法

可以用Series或DataFrame的replace方法，在Series和DataFrame上用法差不多

1. replace方法参数是两个数字或字符串

   表示想把前面值全部替换成后面值

In [31]:
df7['学校'].replace('清华', '清华大学')

0    北京大学
1    清华大学
2    华南理工
3    清华大学
Name: 学校, dtype: object

In [32]:
df7.replace('清华', '清华大学')

Unnamed: 0,姓名,家乡,学校
0,小明,北京,北京大学
1,小红,上海,清华大学
2,小张,广州,华南理工
3,小李,深圳,清华大学


2. replace方法第一个参数是一个列表

   那么列表里面所有值都会被替换成后面那个，这样就可以一次性，对多个不同指代词进行统一

In [33]:
df7['学校'].replace(['清华', '五道口职业技术学院', 'Tsinghua University'],'清华大学')

0    北京大学
1    清华大学
2    华南理工
3    清华大学
Name: 学校, dtype: object

In [34]:
df7.replace(['清华', '五道口职业技术学院', 'Tsinghua University'],'清华大学')

Unnamed: 0,姓名,家乡,学校
0,小明,北京,北京大学
1,小红,上海,清华大学
2,小张,广州,华南理工
3,小李,深圳,清华大学


3. replace方法参数是单个字典

   去指定不同的值要被什么值替换

In [36]:
replace_dict = {'华南理工': '华南理工大学', 
               '清华': '清华大学', 
               '北大': '北京大学', 
               '中大': '中山大学'}
df7.replace(replace_dict)

Unnamed: 0,姓名,家乡,学校
0,小明,北京,北京大学
1,小红,上海,清华大学
2,小张,广州,华南理工大学
3,小李,深圳,清华大学


### 四、进行数据类型转换

数据类型转换，在很多时候是有必要，因为某些方法只能用在特定类型的数据上。比如说：不能对字符串求平均值

1. Series的astype方法

参数为数据类型，比如int、float、str、bool等，调用后，返回的新Series里的数据就被转换成了那个类型

In [38]:
s1 = pd.Series([1, 2, 3])
s1.astype(float)

0    1.0
1    2.0
2    3.0
dtype: float64

2. type函数

在Python里面，如果你想知道数据类型，可以调用type函数

3. Pandas的数据类型category

   数据可以被划分为两种类型，分类数据和数值数据。

   分类数据，指的是包含有限数量的不同类别的数据，比如：出生时的性别，就两种，是有限的；奥运会的奖牌，金银铜，也是有限的

   数值数据，指的是测量出的观测值，是某个具体的数值，种类不受限制。比如：0到1之间就有无限个数字，那对它进行求和或求平均值等数学运算也是有意义的

   当分类数据种类有限时，Pandas会推荐把它们转换成category这个数据类型。

   好处：节约内存空间，并且在后续分析或可视化的时候，也有利于让Pandas自动选用合适的统计方法或图标类型

   **category不是Python自带的类型名称，而是Pandas库里面的，所以我们在用astype进行转换的时候，要传入一个用引号包围的category，不然Python不认**

In [39]:
s2 = pd.Series(["红色", "红色", "橙色", "蓝色"])
s2.astype('category')

0    红色
1    红色
2    橙色
3    蓝色
dtype: category
Categories (3, object): ['橙色', '红色', '蓝色']

4. 转换成datetime日期时间类型

   可以用Pandas的to_datetime方法，参数传入Series，可以返回转换成日期时间类型的Series

In [13]:
df3['日期'] = pd.to_datetime(df3['日期'])
df3.日期

001   2005-01-01
002   2005-01-02
003   2005-01-03
004   2023-09-15
Name: 日期, dtype: datetime64[ns]

In [None]:
!jupyter nbconvert 