# 数据清洗

数据清洗的定义：将数据中可能存在的错误、缺损进行处理的过程。数据清洗会在正式执行数据分析之前开始，后续也会随着分析人员对数据认识的不断深入，多次迭代的进行，不断消除数据中的不合理信息。

借助python工具，可以方便的完成数据清洗过程中对缺失数据、重复数据和无效数据的处理。

## 本节主要包括：对缺失数据的处理、处理重复数据、处理无效数据 

### 1.缺失数据处理

In [2]:
import pandas as pd
log_data=pd.read_csv("log.csv")
log_data

Unnamed: 0,time,user,video,playback position,paused,volume
0,1469974424,cheryl,intro.html,5,False,10.0
1,1469974454,cheryl,intro.html,6,,
2,1469974544,cheryl,intro.html,9,,
3,1469974574,cheryl,intro.html,10,,
4,1469977514,bob,intro.html,1,,
5,1469977544,bob,intro.html,1,,
6,1469977574,bob,intro.html,1,,
7,1469977604,bob,intro.html,1,,
8,1469974604,cheryl,intro.html,11,,
9,1469974694,cheryl,intro.html,14,,


运行上面的结果显示，里面存在很多缺失值，这些存在缺失值得记录会是的分析工作无法正常进行。分析人员需要先找到这些包含缺失值的记录，然后再决定如何处理他们，才能让分析工作正常进行。

### 1.1缺失值判断

DataFrame的isnull()方法可以方便的显示数据中哪些元素是缺失的。

In [3]:
log_data.isnull()

Unnamed: 0,time,user,video,playback position,paused,volume
0,False,False,False,False,False,False
1,False,False,False,False,True,True
2,False,False,False,False,True,True
3,False,False,False,False,True,True
4,False,False,False,False,True,True
5,False,False,False,False,True,True
6,False,False,False,False,True,True
7,False,False,False,False,True,True
8,False,False,False,False,True,True
9,False,False,False,False,True,True


从结果可以看出，isnull()得到的是一个与源数据同样行列维度的DataFrame，结果元素的值由True和False组成，当结果元素值为True时，表示源数据中对应位置上包含了空值。

isnull()的结果与原有的数据维度相同，当数据量比较大的时候，对于快捷的直销数据缺失状况还不是那么方便，我们可以借助方法any(),让结果更加简洁。

In [4]:
log_data.isnull().any()

time                 False
user                 False
video                False
playback position    False
paused                True
volume                True
dtype: bool

isnull()的结果是一个元素值全是True或False的DataFrame，再调用这个DataFrame的any()方法，我们便可以得到一个Series类型的结果，结果中标识了不同列中是否包含空值。
以上代码的执行结果中，time对应的结果是False，表示log_data的这列中没有空值，而paused的索引对应的结果是True，表示log_data的这列数据中有空值。
如果希望按行进行统计，可以将any()的axis参数指定为1

In [6]:
log_data.isnull().any(axis=1)

0     False
1      True
2      True
3      True
4      True
5      True
6      True
7      True
8      True
9      True
10     True
11     True
12     True
13    False
14     True
15     True
16     True
17     True
18     True
19     True
20     True
21     True
22     True
23     True
24    False
25     True
26     True
27     True
28     True
29     True
30     True
31     True
32     True
33     True
dtype: bool

### 1.2缺失值处理

对于缺失值，最简单粗暴的解决方法是将其丢弃。DataFrame中的dropna()方法可以实现这一目的

### dropna()

In [7]:
log_data.dropna()

Unnamed: 0,time,user,video,playback position,paused,volume
0,1469974424,cheryl,intro.html,5,False,10.0
13,1469974424,sue,advanced.html,23,False,10.0
24,1469977424,bob,intro.html,1,True,10.0


In [8]:
log_data

Unnamed: 0,time,user,video,playback position,paused,volume
0,1469974424,cheryl,intro.html,5,False,10.0
1,1469974454,cheryl,intro.html,6,,
2,1469974544,cheryl,intro.html,9,,
3,1469974574,cheryl,intro.html,10,,
4,1469977514,bob,intro.html,1,,
5,1469977544,bob,intro.html,1,,
6,1469977574,bob,intro.html,1,,
7,1469977604,bob,intro.html,1,,
8,1469974604,cheryl,intro.html,11,,
9,1469974694,cheryl,intro.html,14,,


从第一段代码的执行结果可以看出，dropna()执行之后，返回值中，包含空值的行全部都被删除了，只留下行索引是0,13,24的三行。
这里需要提醒一下，dropna()方法不会修改原始DataFrame中的数据，在上面的第二段代码中，我们打印log_data可以看到它的值还是跟原来一样，如果希望dropna()方法能对原始DataFrame进行修改，可以指定dropna()的inplace参数。

In [9]:
log_data.dropna(inplace=True)

In [10]:
log_data

Unnamed: 0,time,user,video,playback position,paused,volume
0,1469974424,cheryl,intro.html,5,False,10.0
13,1469974424,sue,advanced.html,23,False,10.0
24,1469977424,bob,intro.html,1,True,10.0


以上处理结果中，log_data中任意一行，只要其中有至少一个元素有空值，整行都会从结果中被删除，这有可能使得剩余的数据量变得非常少。
某些场景中，我么可能只需判断到关键列中有缺失值时，才会删除整行。为了满足这样的需求场景，dropna()还为使用者准备了另外一个参数：subset

In [11]:
import pandas as pd
log_data = pd.read_csv('log.csv')
log_data.dropna(inplace=True,subset=['volume'])

In [12]:
log_data

Unnamed: 0,time,user,video,playback position,paused,volume
0,1469974424,cheryl,intro.html,5,False,10.0
13,1469974424,sue,advanced.html,23,False,10.0
16,1469974654,sue,advanced.html,28,,5.0
24,1469977424,bob,intro.html,1,True,10.0


从结果中农可以看到，行索引是16的行，虽然paused列是空，由于‘volume’列非空，在结果中依然被保留下来了。
为dropna()的subset（）参数指定的值是一个列表，因此，当我们希望根据多个列是否控制来决定是否删除行时，可以在这个列表中指定多列的名字

### 1.3 缺失值填充

对包含缺失值的行进行删除，有可能会让过多的信息被去除，因此，对于缺失的元素，还可以采用填充的方法处理。
fillna()

In [13]:
import pandas as pd
log_data=pd.read_csv('log.csv')
#使用-1进行填充空值
log_data.fillna(-1)

Unnamed: 0,time,user,video,playback position,paused,volume
0,1469974424,cheryl,intro.html,5,False,10.0
1,1469974454,cheryl,intro.html,6,-1,-1.0
2,1469974544,cheryl,intro.html,9,-1,-1.0
3,1469974574,cheryl,intro.html,10,-1,-1.0
4,1469977514,bob,intro.html,1,-1,-1.0
5,1469977544,bob,intro.html,1,-1,-1.0
6,1469977574,bob,intro.html,1,-1,-1.0
7,1469977604,bob,intro.html,1,-1,-1.0
8,1469974604,cheryl,intro.html,11,-1,-1.0
9,1469974694,cheryl,intro.html,14,-1,-1.0


fillna()方法中可以传入一个参数，比如上面例子中的传入-1,就会使用-1替换掉所有DataFrame中值为NAN的元素。
fillna()同样支持inplace参数，意义与之前一样。
当填充的需求变得更负责一些。比如不同列中的控制元素使用不同值进行填充时，可以向fillna()中传入一个字典变量。字典不同元素的key值为列索引的名字，value值为对应列要使用的填充值

In [14]:
#paused列用-1填充，volume列使用-100填充
log_data.fillna({'paused':-1,'volume':-100})

Unnamed: 0,time,user,video,playback position,paused,volume
0,1469974424,cheryl,intro.html,5,False,10.0
1,1469974454,cheryl,intro.html,6,-1,-100.0
2,1469974544,cheryl,intro.html,9,-1,-100.0
3,1469974574,cheryl,intro.html,10,-1,-100.0
4,1469977514,bob,intro.html,1,-1,-100.0
5,1469977544,bob,intro.html,1,-1,-100.0
6,1469977574,bob,intro.html,1,-1,-100.0
7,1469977604,bob,intro.html,1,-1,-100.0
8,1469974604,cheryl,intro.html,11,-1,-100.0
9,1469974694,cheryl,intro.html,14,-1,-100.0


### ffill()和bfill()

使用fillna()进行数据填充，还存在很大的主观性，比如上个例子中我们使用-100填充volume，这也许与实际情况不符合（音量不可能是-100）
#使用已有数据作为空值填充的参考，是被经常使用，用来避免fillna()时主观指定填充值的偏差。DataFrame中的ffill()以及bfill()就是为此目的设计的。

In [15]:
import pandas as pd
log_data=pd.read_csv('log.csv')
#使用log_data的ffill()方法
log_data.ffill()


Unnamed: 0,time,user,video,playback position,paused,volume
0,1469974424,cheryl,intro.html,5,False,10.0
1,1469974454,cheryl,intro.html,6,False,10.0
2,1469974544,cheryl,intro.html,9,False,10.0
3,1469974574,cheryl,intro.html,10,False,10.0
4,1469977514,bob,intro.html,1,False,10.0
5,1469977544,bob,intro.html,1,False,10.0
6,1469977574,bob,intro.html,1,False,10.0
7,1469977604,bob,intro.html,1,False,10.0
8,1469974604,cheryl,intro.html,11,False,10.0
9,1469974694,cheryl,intro.html,14,False,10.0


观察结果可以发现，执行ffill()之后的结果中，paused和volume列中已经没有空值，第0到第15行的volume列值都是10，这期间的空值都使用最靠前的第0行的值填充得到；第16到23行的volume列值都是5，期间的空值都使用第16行的值填充得到。其它空值元素也采用同样的方法进行处理。
但这样的处理方法还存在不符合实际场景的随意性，比如第18行的volume列，被我们填充为5，但请留意，这行数据记录的是用户cheryl的行为，我们为其填充的值来自于两行之前的用户sue的数据。两个用户并无关联性，他们观看视频时使用的音量也不应有什么必然的关联性。

我们这个案例场景，是用户视频观看的相关数据，在用户与时间联合的维度排序上才具有合理的前后关系。也就是说，同一个用户，行为记录按时间从小到大排序后，他记录中的音量值才“极有可能”与前面是相等的

In [16]:
import pandas as pd
log_data=pd.read_csv('log.csv')
# 对数据进行排序
sorted_log_data = log_data.sort_values(by=['user', 'time'])

# 使用ffill对sorted_log_data做前向填充
sorted_log_data.ffill()

Unnamed: 0,time,user,video,playback position,paused,volume
24,1469977424,bob,intro.html,1,True,10.0
25,1469977454,bob,intro.html,1,True,10.0
26,1469977484,bob,intro.html,1,True,10.0
4,1469977514,bob,intro.html,1,True,10.0
5,1469977544,bob,intro.html,1,True,10.0
6,1469977574,bob,intro.html,1,True,10.0
7,1469977604,bob,intro.html,1,True,10.0
27,1469977634,bob,intro.html,1,True,10.0
28,1469977664,bob,intro.html,1,True,10.0
31,1469977694,bob,intro.html,1,True,10.0


In [17]:
import pandas as pd
log_data=pd.read_csv('log.csv')
# 对数据进行排序
sorted_log_data = log_data.sort_values(by=['user', 'time'])

# 使用bfill对sorted_log_data做后向填充
sorted_log_data.bfill()

Unnamed: 0,time,user,video,playback position,paused,volume
24,1469977424,bob,intro.html,1,True,10.0
25,1469977454,bob,intro.html,1,False,10.0
26,1469977484,bob,intro.html,1,False,10.0
4,1469977514,bob,intro.html,1,False,10.0
5,1469977544,bob,intro.html,1,False,10.0
6,1469977574,bob,intro.html,1,False,10.0
7,1469977604,bob,intro.html,1,False,10.0
27,1469977634,bob,intro.html,1,False,10.0
28,1469977664,bob,intro.html,1,False,10.0
31,1469977694,bob,intro.html,1,False,10.0


## 处理重复数据


### 重复数据的判断

DataFrame的duplicated()方法可以判断数据中哪些行是重复的，针对视频观看数据，我们可以通过以下代码观察是否有重复数据：

In [18]:
import pandas as pd
log_data=pd.read_csv('log.csv')
#判断log_data中是否有重复数据
log_data.duplicated()

0     False
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11    False
12    False
13    False
14    False
15    False
16    False
17    False
18    False
19    False
20    False
21    False
22    False
23    False
24    False
25    False
26    False
27    False
28    False
29    False
30    False
31    False
32    False
33    False
dtype: bool

duplicated()的执行结果是Series类型的，它的索引是原来DataFrame的行索引，值表示索引对应的行是否是重复的。True表示该行重复，False表示不重复。
结果中所有元素值都是False，表示log_data中没有重复数据。
在实际项目中，有可能存在这样的场景：当两行数据的某些列元素内容相同时，就被视为重复。这时，我们可以在调用duplicated()方法时根据需求给subset参数赋值，指定某些列作为重复判断的依据。

In [19]:
# TODO，调用duplicated判断log_data中是否有重复行，user、time两列内容相同时被视为重复
log_data.duplicated(subset=['user','time'])

0     False
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11    False
12    False
13    False
14    False
15    False
16    False
17    False
18    False
19    False
20    False
21    False
22    False
23    False
24    False
25    False
26    False
27    False
28    False
29    False
30    False
31    False
32    False
33     True
dtype: bool

In [26]:
#显示user值为‘user’,time为time为1469974924的所有行
# log_data[(log_data['user']=='sue')&(log_data['time']=='1469974924')]
log_data[(log_data['user'] == 'sue') & (log_data['time'] == 1469974924)]

Unnamed: 0,time,user,video,playback position,paused,volume
23,1469974924,sue,advanced.html,33,,
33,1469974924,sue,advanced.html,33,False,


当挑出了重复的数据之后，如果希望对重复数据进行删除处理，可以使用drop_duplicates()方法。

### 重复数据处理

uplicates()默认会判断重复数据，保留第一条并将剩余的重复行删除，方法支持inplace参数并保持本关所介绍的其它方法中的inplace参数相同的意义。
在判断重复数据时，如果希望根据某些列而不是所有列的值进行判断，跟duplicated()方法一样，可以使用subset参数。尝试在以下代码框的TODO处补充一行代码，根据user、time两列判断数据是否重复，并删除重复行。

In [27]:
import pandas as pd
log_data = pd.read_csv('log.csv')

# TODO，根据time、user两列判断数据是否重复并将重复数据行删除
log_data.drop_duplicates(subset = ['user', 'time'])

Unnamed: 0,time,user,video,playback position,paused,volume
0,1469974424,cheryl,intro.html,5,False,10.0
1,1469974454,cheryl,intro.html,6,,
2,1469974544,cheryl,intro.html,9,,
3,1469974574,cheryl,intro.html,10,,
4,1469977514,bob,intro.html,1,,
5,1469977544,bob,intro.html,1,,
6,1469977574,bob,intro.html,1,,
7,1469977604,bob,intro.html,1,,
8,1469974604,cheryl,intro.html,11,,
9,1469974694,cheryl,intro.html,14,,


行索引是33的那条记录被删除了。
drop_duplicates()默认保留重复数据中的第一条，当我们希望保留最后一条时，可以在调用drop_duplicates()时将参数keep指定为'last'，如下代码示例所示：

In [28]:
# 根据time、user两列判断数据是否重复并将重复数据行删除，保留重复数据中的最后一条
log_data.drop_duplicates(subset = ['user', 'time'], keep='last')

Unnamed: 0,time,user,video,playback position,paused,volume
0,1469974424,cheryl,intro.html,5,False,10.0
1,1469974454,cheryl,intro.html,6,,
2,1469974544,cheryl,intro.html,9,,
3,1469974574,cheryl,intro.html,10,,
4,1469977514,bob,intro.html,1,,
5,1469977544,bob,intro.html,1,,
6,1469977574,bob,intro.html,1,,
7,1469977604,bob,intro.html,1,,
8,1469974604,cheryl,intro.html,11,,
9,1469974694,cheryl,intro.html,14,,


### 处理无效数据

当数据集中存在某些无效的数据元素时，我们可以通过DataFrame的replace()方法对它们进行替换，将无效的数据值更换成有效的。

In [29]:
import pandas as pd
log_data=pd.read_csv('log_with_invalid.csv')
log_data


Unnamed: 0,time,user,video,playback position,paused,volume
0,1469974424,cheryl,intro.html,5,False,10.0
1,1469974454,cheryl,intro.html,6,,
2,1469974544,cheryl,intro.html,9,,
3,1469974574,cheryl,intro.html,10,,
4,1469977514,bob,intro.html,1,,60.0
5,1469977544,bob,intro.html,1,,
6,1469977574,bob,intro.html,1,,30.0
7,1469977604,bob,intro.html,1,,
8,1469974604,cheryl,intro.html,11,,30.0
9,1469974694,cheryl,intro.html,14,,


假设有效的音量值范围是0到10，在volume列中存在一些无效的数据，如果我们想将其中的比如60，修改为10，可以使用如下代码：

In [30]:
#将数据中的60替换成为10
log_data.replace(60,10)

Unnamed: 0,time,user,video,playback position,paused,volume
0,1469974424,cheryl,intro.html,5,False,10.0
1,1469974454,cheryl,intro.html,6,,
2,1469974544,cheryl,intro.html,9,,
3,1469974574,cheryl,intro.html,10,,
4,1469977514,bob,intro.html,1,,10.0
5,1469977544,bob,intro.html,1,,
6,1469977574,bob,intro.html,1,,30.0
7,1469977604,bob,intro.html,1,,
8,1469974604,cheryl,intro.html,11,,30.0
9,1469974694,cheryl,intro.html,14,,


replace()函数中可以传入两个参数，分别是待替换的无效值，以及替换它的新值。上面的代码例子中，我们使用10替换了数据中的60。

In [31]:
log_data.replace([30,60],10)

Unnamed: 0,time,user,video,playback position,paused,volume
0,1469974424,cheryl,intro.html,5,False,10.0
1,1469974454,cheryl,intro.html,6,,
2,1469974544,cheryl,intro.html,9,,
3,1469974574,cheryl,intro.html,10,,
4,1469977514,bob,intro.html,1,,10.0
5,1469977544,bob,intro.html,1,,
6,1469977574,bob,intro.html,1,,10.0
7,1469977604,bob,intro.html,1,,
8,1469974604,cheryl,intro.html,11,,10.0
9,1469974694,cheryl,intro.html,14,,


如果我们希望让替换操作更精细一些，比如将30替换成5，将60替换成10，可以向replace()方法中传入两个参数，如下代码示例：

In [32]:
log_data.replace([30,60],[5,10])

Unnamed: 0,time,user,video,playback position,paused,volume
0,1469974424,cheryl,intro.html,5,False,10.0
1,1469974454,cheryl,intro.html,6,,
2,1469974544,cheryl,intro.html,9,,
3,1469974574,cheryl,intro.html,10,,
4,1469977514,bob,intro.html,1,,10.0
5,1469977544,bob,intro.html,1,,
6,1469977574,bob,intro.html,1,,5.0
7,1469977604,bob,intro.html,1,,
8,1469974604,cheryl,intro.html,11,,5.0
9,1469974694,cheryl,intro.html,14,,


In [33]:
#替换需求也可以改成如下：
log_data.replace({30:5,60:10})

Unnamed: 0,time,user,video,playback position,paused,volume
0,1469974424,cheryl,intro.html,5,False,10.0
1,1469974454,cheryl,intro.html,6,,
2,1469974544,cheryl,intro.html,9,,
3,1469974574,cheryl,intro.html,10,,
4,1469977514,bob,intro.html,1,,10.0
5,1469977544,bob,intro.html,1,,
6,1469977574,bob,intro.html,1,,5.0
7,1469977604,bob,intro.html,1,,
8,1469974604,cheryl,intro.html,11,,5.0
9,1469974694,cheryl,intro.html,14,,


对于以上的操作，细心的同学可能会发现一个问题。原始数据中，行索引是20的那行，playback position这列中的元素是30，一起再看下数据：
在经过log_data.replace({30:5, 60:10})这样的操作之后，log_data.loc[20]['playback position']会被错误的修改为5，这不是我们期望的结果。因此，我们还需要将替换操作定义在volume列上，可以如以下示例这样操作：

In [35]:
# 将volume列的30替换为5，60替换为10
log_data.replace({'volume':{30:5, 60:10}})

Unnamed: 0,time,user,video,playback position,paused,volume
0,1469974424,cheryl,intro.html,5,False,10.0
1,1469974454,cheryl,intro.html,6,,
2,1469974544,cheryl,intro.html,9,,
3,1469974574,cheryl,intro.html,10,,
4,1469977514,bob,intro.html,1,,10.0
5,1469977544,bob,intro.html,1,,
6,1469977574,bob,intro.html,1,,5.0
7,1469977604,bob,intro.html,1,,
8,1469974604,cheryl,intro.html,11,,5.0
9,1469974694,cheryl,intro.html,14,,


**test**  
__test__  
_test_  
*test*
![jupyter](./10.jpg)

<img src='./10.jpg',width=320, height=200/>