# 识别并处理异常值

缺失值处理后，下一步是对数据中的异常值进行检验和处理。

异常值，指的是数据中不合理的值。这个不合理的值，通常需要自己对数据集进行判断，从而得到。

在「视频会员订单数据」中，不同列的数据有对应的要求，不满足要求的就是异常值。

1. order_id，是从1开始产生，不可能出现0及负数。因此<=0的数据属于异常值。

2. user_id，是从1开始产生，不可能出现0及负数。因此<=0的数据属于异常值。    

3. price价格，因为这个视频平台，会员只有月度¥25，季度¥68，年度¥248三种，一个订单只能购买一次，因此只可能是这三种数值，出现其他数值都是异常值。

4. platform，只有ios，android两种，其他的都是异常值。

5. payment_provider，只有wxpay，alipay，applepay三种，其他的都是异常值。     

6. create_time和pay_time，唯一需要注意的，就是pay_time必须大于create_time，因为支付时间，不可能比订单生成时间要小。pay_time < create_time就属于异常值。         

面对异常值，我们通常需要挨个进行检查，并处理，以确保数据清洗的有效性。

之前我们学过布尔索引，通过条件判断，产生一个筛选结果。

比如，我们在检查order_id这一列，是否存在异常值时。我们可以通过布尔索引，将<=0的异常值筛选出来。输出的是一个空的DataFrame，说明在order _id这一列，不存在异常值。

In [1]:
# 导入pandas模块，简称为pd
import pandas as pd

# 使用read_csv()函数，读取工作目录下的""，赋值给变量df
df = pd.read_csv("/Users/xiaojiangyue/programming-study-notes/Python/数据分析/lesson_9_output/clean/视频会员订单数据源.csv")

# 商品价格price，单位分转化成元
df['price'] = df['price'] /100

# 使用to_datetime()函数，将订单创建时间create_time和支付时间pay_time，转化成时间格式
df['create_time'] = pd.to_datetime(df['create_time'])
df['pay_time'] = pd.to_datetime(df['pay_time'])

# 处理缺失值

# 使用布尔索引和isnull函数，将payment_provider这一列的缺失值筛选出，赋值给变量dfPayNull
# dfPayNull就是，包含所有payment_provider这一列缺失值的行
dfPayNull = df[df['payment_provider'].isnull()]

# 使用drop函数，将包含所有payment_provider这一列缺失值的行删除
df.drop(index=dfPayNull.index, inplace = True)

# 使用布尔索引和isnull函数，将platform这一列的缺失值筛选出，赋值给变量dfPlatNull
# dfPlatNull就是，包含所有platform这一列缺失值的行
dfPlatNull = df[df['platform'].isnull()]

# 使用drop函数，将dfPlatNull，也就是包含所有platform这一列缺失值的行删除
df.drop(index=dfPlatNull.index,inplace = True)

# 使用布尔索引，输出order_id<=0的筛选结果
print(df[df["order_id"]<=0])

Empty DataFrame
Columns: [order_id, user_id, price, platform, payment_provider, create_time, pay_time]
Index: []


检查后，可以观察到输出均是空的DataFrame。

说明在order_id和user_id这两列均不存在<=0的异常值。

在其他列的情况中：

price，因为视频会员仅有月度¥25、季度¥68、年度¥248这三种情况，因此在数据中，经过转化成(元)的处理后，只会有25.00，68.00，248.00这三种值；

platform，只会有ios，android两种值的情况；

payment_provider，只会有wxpay，alipay，applepay三种值的情况。



仅有几种值的情况，很难用<、==、>这样的条件直接进行判断。

在这里，我们就会用到isin()函数及其逆函数来判断。

## 判断是否存在

第33行，使用isin()函数。

这一行的意义是，输出price这一列的数据，判断是否是25.00，68.00，248.00的结果。

输出的结果，是一个布尔型的Series，如果是25.00，68.00，248.00，就会返回True。如果不是这三个值中的一个，就会返回False。

In [2]:
# 导入pandas模块，简称为pd
import pandas as pd

# 读取路径为文件，赋值给变量df
df = pd.read_csv("/Users/xiaojiangyue/programming-study-notes/Python/数据分析/lesson_9_output/clean/视频会员订单数据源.csv")

# 商品价格price，单位分转化成元
df['price'] = df['price'] /100

# 使用to_datetime()函数，将订单创建时间create_time和支付时间pay_time，转化成时间格式
df['create_time'] = pd.to_datetime(df['create_time'])
df['pay_time'] = pd.to_datetime(df['pay_time'])

# 处理缺失值

# 使用布尔索引和isnull函数，将payment_provider这一列的缺失值筛选出，赋值给变量dfPayNull
# dfPayNull就是，包含所有payment_provider这一列缺失值的行
dfPayNull = df[df['payment_provider'].isnull()]

# 使用drop函数，将包含所有payment_provider这一列缺失值的行删除
df.drop(index=dfPayNull.index, inplace = True)

# 使用布尔索引和isnull函数，将platform这一列的缺失值筛选出，赋值给变量dfPlatNull
# dfPlatNull就是，包含所有platform这一列缺失值的行
dfPlatNull = df[df['platform'].isnull()]

# 使用drop函数，将dfPlatNull，也就是包含所有platform这一列缺失值的行删除
df.drop(index=dfPlatNull.index,inplace = True)

# 处理异常值

# 使用isin()函数，将price这一列是25.00，68.00，248.00的值筛选出来
print(df['price'].isin([25.00,68.00,248.00]))

0        True
1        True
2        True
3        True
4        True
         ... 
78044    True
78045    True
78046    True
78047    True
78048    True
Name: price, Length: 77645, dtype: bool


1. 函数isin( )        

函数isin()，对列对象执行判断：

列对象的元素，是否在传入isin()中的元素中。

如果是，则返回True；
如果不是，就返回False。

2. 一个列表        

isin()函数，需要传入的参数是一个列表。列表里，是所有要包含的值。

在这里，判断的是price是否是25.00，68.00，248.00中的一种。因此传入列表[25.00,68.00,248.00]。

如果我们想用布尔索引，将异常值筛选出来。

那么，就需要让不是25.00，68.00，248.00的异常值，返回为True。

现在使用isin()函数，是将不是25.00，68.00，248.00的异常值，返回为False，和我们想要的判断结果恰好相反。

在这里，我们可以使用一个~运算符，作用是取反。

使用~运算符，对判断，取相反的结果。

原本是True的结果，返回为False。原本是False的结果，返回为True。

In [4]:
# 导入pandas模块，简称为pd
import pandas as pd

# 读取路径为文件，赋值给变量df
df = pd.read_csv("/Users/xiaojiangyue/programming-study-notes/Python/数据分析/lesson_9_output/clean/视频会员订单数据源.csv")

# 商品价格price，单位分转化成元
df['price'] = df['price'] /100

# 使用to_datetime()函数，将订单创建时间create_time和支付时间pay_time，转化成时间格式
df['create_time'] = pd.to_datetime(df['create_time'])
df['pay_time'] = pd.to_datetime(df['pay_time'])

# 处理缺失值

# 使用布尔索引和isnull函数，将payment_provider这一列的缺失值筛选出，赋值给变量dfPayNull
# dfPayNull就是，包含所有payment_provider这一列缺失值的行
dfPayNull = df[df['payment_provider'].isnull()]

# 使用drop函数，将包含所有payment_provider这一列缺失值的行删除
df.drop(index=dfPayNull.index, inplace = True)

# 使用布尔索引和isnull函数，将platform这一列的缺失值筛选出，赋值给变量dfPlatNull
# dfPlatNull就是，包含所有platform这一列缺失值的行
dfPlatNull = df[df['platform'].isnull()]

# 使用drop函数，将dfPlatNull，也就是包含所有platform这一列缺失值的行删除
df.drop(index=dfPlatNull.index,inplace = True)

# 处理异常值

# 使用isin()函数，将price这一列是25.00，68.00，248.00的值筛选出来
print(~df['price'].isin([25.00,68.00,248.00]))

0        False
1        False
2        False
3        False
4        False
         ...  
78044    False
78045    False
78046    False
78047    False
78048    False
Name: price, Length: 77645, dtype: bool


对于“仅有几种值的情况”，判断是否有除了这几种值之外的异常值的操作，分为两个步骤：
```


第一步：

isin()函数判断值是否是25.00,68.00,248.00这三种，如果不是就返回False。

第二步：

然后在函数前加～运算符，对所有布尔结果取反。如果不是这三种值，就返回为True。

```           

这样，就能使用布尔索引，将判断为True的异常值，筛选出来了。

使用布尔索引、isin()函数、~运算符，将price这一列不是25.00，68.00，248.00的异常值筛选出来，赋值给变量dfWrongPrice

有三行输出的结果，全都是price异常的情况。

In [5]:
# 导入pandas模块，简称为pd
import pandas as pd

# 使用read_csv()函数，读取工作目录下的"视频会员订单数据源.csv"，赋值给变量df
df = pd.read_csv("/Users/xiaojiangyue/programming-study-notes/Python/数据分析/lesson_9_output/clean/视频会员订单数据源.csv")

# 商品价格price，单位分转化成元
df['price'] = df['price'] /100

# 使用to_datetime()函数，将订单创建时间create_time和支付时间pay_time，转化成时间格式
df['create_time'] = pd.to_datetime(df['create_time'])
df['pay_time'] = pd.to_datetime(df['pay_time'])

# 处理缺失值

# 使用布尔索引和isnull函数，将payment_provider这一列的缺失值筛选出，赋值给变量dfPayNull
# dfPayNull就是，包含所有payment_provider这一列缺失值的行
dfPayNull = df[df['payment_provider'].isnull()]

# 使用drop函数，将包含所有payment_provider这一列缺失值的行删除
df.drop(index=dfPayNull.index, inplace = True)

# 使用布尔索引和isnull函数，将platform这一列的缺失值筛选出，赋值给变量dfPlatNull
# dfPlatNull就是，包含所有platform这一列缺失值的行
dfPlatNull = df[df['platform'].isnull()]

# 使用drop函数，将dfPlatNull，也就是包含所有platform这一列缺失值的行删除
df.drop(index=dfPlatNull.index,inplace = True)


# 处理异常值

# TODO 使用布尔索引、isin()函数、~运算符，将price这一列不是25.00，68.00，248.00的异常值筛选出来，赋值给变量dfWrongPrice
dfWrongPrice = df[~df["price"].isin([25.00, 68.00, 248,00])]

# 使用print输出
print(dfWrongPrice)

      order_id   user_id  price platform payment_provider         create_time  \
733        734  43818951    1.0      ios         applepay 2020-01-08 21:40:00   
1097      1098  81556642    1.0  android            wxpay 2019-09-10 21:51:00   
1560      1561  83467185   10.0      ios         applepay 2019-09-29 20:15:00   

                pay_time  
733  2020-04-01 12:05:00  
1097 2019-09-10 21:52:00  
1560 2020-04-01 12:04:00  


相同的方式，platform仅有ios，android两种值；

payment_provider仅有wxpay，alipay，applepay三种值。

同样，使用布尔索引、isin()函数、~运算符，我们输出platform、payment_provider这两列的异常值所在的行。

In [6]:
# 导入pandas模块，简称为pd
import pandas as pd

# 读取路径为"/Users/clean/视频会员订单数据源.csv"的文件，赋值给变量df
df = pd.read_csv("/Users/xiaojiangyue/programming-study-notes/Python/数据分析/lesson_9_output/clean/视频会员订单数据源.csv")

# 商品价格price，单位分转化成元
df['price'] = df['price'] /100

# 使用to_datetime()函数，将订单创建时间create_time和支付时间pay_time，转化成时间格式
df['create_time'] = pd.to_datetime(df['create_time'])
df['pay_time'] = pd.to_datetime(df['pay_time'])

# 处理缺失值

# 使用布尔索引和isnull函数，将payment_provider这一列的缺失值筛选出，赋值给变量dfPayNull
# dfPayNull就是，包含所有payment_provider这一列缺失值的行
dfPayNull = df[df['payment_provider'].isnull()]

# 使用drop函数，将包含所有payment_provider这一列缺失值的行删除
df.drop(index=dfPayNull.index, inplace = True)

# 使用布尔索引和isnull函数，将platform这一列的缺失值筛选出，赋值给变量dfPlatNull
# dfPlatNull就是，包含所有platform这一列缺失值的行
dfPlatNull = df[df['platform'].isnull()]

# 使用drop函数，将dfPlatNull，也就是包含所有platform这一列缺失值的行删除
df.drop(index=dfPlatNull.index,inplace = True)

# 处理异常值

# 使用布尔索引、isin()、~运算符，将price这一列不是25.00，68.00，248.00的异常值筛选出来，赋值给变量dfWrongPrice
dfWrongPrice = df[~df['price'].isin([25.00,68.00,248.00])]

# 使用布尔索引、isin()、~运算符，将platform这一列不是ios、android的异常值筛选出来，赋值给变量dfWrongPlat
dfWrongPlat = df[~df['platform'].isin(["ios","android"])]

# 使用print输出dfWrongPlat
print(dfWrongPlat)

# 使用布尔索引、isin()、~运算符，将payment_provider这一列不是wxpay，alipay，applepay的异常值筛选出来，赋值给变量dfWrongPay
dfWrongPay = df[~df['payment_provider'].isin(["wxpay","alipay","applepay"])]

# 使用print输出dfWrongPay
print(dfWrongPay)

Empty DataFrame
Columns: [order_id, user_id, price, platform, payment_provider, create_time, pay_time]
Index: []
Empty DataFrame
Columns: [order_id, user_id, price, platform, payment_provider, create_time, pay_time]
Index: []


从检查输出的结果看，price这一列存在异常值

platform、payment_provider这两列不存在异常值。

后续，我们会price这一列的异常值进行处理。

## 删除异常值

最后，create_time和pay_time这两列，我们需要检查，是否存在pay_time < create_time的情况，如果支付时间早于创建时间，那么也属于异常值。

同样，用布尔索引筛选判断的结果，输出观察结果。

In [7]:
# 导入pandas模块，简称为pd
import pandas as pd

# 使用read_csv()函数，读取工作目录下的"视频会员订单数据源.csv"，赋值给变量df
df = pd.read_csv("/Users/xiaojiangyue/programming-study-notes/Python/数据分析/lesson_9_output/clean/视频会员订单数据源.csv")

# 商品价格price，单位分转化成元
df['price'] = df['price'] /100

# 使用to_datetime()函数，将订单创建时间create_time和支付时间pay_time，转化成时间格式
df['create_time'] = pd.to_datetime(df['create_time'])
df['pay_time'] = pd.to_datetime(df['pay_time'])

# 处理缺失值

# 使用布尔索引和isnull函数，将payment_provider这一列的缺失值筛选出，赋值给变量dfPayNull
# dfPayNull就是，包含所有payment_provider这一列缺失值的行
dfPayNull = df[df['payment_provider'].isnull()]

# 使用drop函数，将包含所有payment_provider这一列缺失值的行删除
df.drop(index=dfPayNull.index, inplace = True)

# 使用布尔索引和isnull函数，将platform这一列的缺失值筛选出，赋值给变量dfPlatNull
# dfPlatNull就是，包含所有platform这一列缺失值的行
dfPlatNull = df[df['platform'].isnull()]

# 使用drop函数，将dfPlatNull，也就是包含所有platform这一列缺失值的行删除
df.drop(index=dfPlatNull.index,inplace = True)

# TODO 使用布尔索引，将支付时间pay_time小于创建时间create_time的异常值筛选出来，赋值给变量dfWrongTime
dfWrongTime = df[df["pay_time"] < df["create_time"]]

# 使用print输出dfWrongTime
print(dfWrongTime)

       order_id    user_id  price platform payment_provider  \
0             1  105654733  248.0      ios         applepay   
187         188   48399295   25.0  android            wxpay   
797         798   95751549   68.0  android            wxpay   
78046     78047  129653357  248.0      ios         applepay   
78048     78049  111527259   25.0  android           alipay   

              create_time            pay_time  
0     2020-04-02 16:50:00 2020-04-02 16:46:00  
187   2020-05-13 07:24:00 2020-05-13 07:20:00  
797   2019-10-25 04:28:00 2019-10-25 04:23:00  
78046 2020-07-31 23:29:00 2020-07-31 23:20:00  
78048 2020-07-31 23:34:00 2020-07-31 23:30:00  


从检查结果来看，price这一列存在异常值。

create_time和pay_time这两列存在支付时间早于创建时间的结果，也属于异常值。

前面我们学过用drop函数，删除指定行的方法。

面对异常值，我们也可以使用drop函数，对异常值进行删除。

In [8]:
# 导入pandas模块，简称为pd
import pandas as pd

# 使用read_csv()函数，读取工作目录下的"视频会员订单数据源.csv"，赋值给变量df
df = pd.read_csv("/Users/xiaojiangyue/programming-study-notes/Python/数据分析/lesson_9_output/clean/视频会员订单数据源.csv")

# 商品价格price，单位分转化成元
df['price'] = df['price'] /100

# 使用to_datetime()函数，将订单创建时间create_time和支付时间pay_time，转化成时间格式
df['create_time'] = pd.to_datetime(df['create_time'])
df['pay_time'] = pd.to_datetime(df['pay_time'])

# 处理缺失值

# 使用布尔索引和isnull函数，将payment_provider这一列的缺失值筛选出，赋值给变量dfPayNull
# dfPayNull就是，包含所有payment_provider这一列缺失值的行
dfPayNull = df[df['payment_provider'].isnull()]

# 使用drop函数，将包含所有payment_provider这一列缺失值的行删除
df.drop(index=dfPayNull.index, inplace = True)

# 使用布尔索引和isnull函数，将platform这一列的缺失值筛选出，赋值给变量dfPlatNull
# dfPlatNull就是，包含所有platform这一列缺失值的行
dfPlatNull = df[df['platform'].isnull()]

# 使用drop函数，将dfPlatNull，也就是包含所有platform这一列缺失值的行删除
df.drop(index=dfPlatNull.index,inplace = True)


# 处理异常值

# 使用布尔索引、isin()、~运算符，将price这一列不是25.00，68.00，248.00的异常值筛选出来，赋值给变量dfWrongPrice
dfWrongPrice = df[~df['price'].isin([25.00,68.00,248.00])]

# 使用drop函数，将dfWrongPrice，也就是price不是25.00，68.00，248.00的异常值的行删除
df.drop(index=dfWrongPrice.index,inplace = True)

# 使用布尔索引，将支付时间pay_time小于创建时间create_time的异常值筛选出来，赋值给变量dfWrongTime
dfWrongTime = df[df['pay_time'] < df['create_time']]

# 使用drop函数，将dfWrongTime，也就是支付时间pay_time小于创建时间create_time的异常值所在行删除
df.drop(index = dfWrongTime.index ,inplace=True)

# 使用info函数，快速浏览数据集
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 77637 entries, 1 to 78047
Data columns (total 7 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   order_id          77637 non-null  int64         
 1   user_id           77637 non-null  int64         
 2   price             77637 non-null  float64       
 3   platform          77637 non-null  object        
 4   payment_provider  77637 non-null  object        
 5   create_time       77637 non-null  datetime64[ns]
 6   pay_time          77637 non-null  datetime64[ns]
dtypes: datetime64[ns](2), float64(1), int64(2), object(2)
memory usage: 4.7+ MB


这样，就完成了异常值的清洗。

重新用info()函数，浏览下删除异常值后的数据集。

观察右侧的结果，删除异常值所在行后，每一列都是77637行数据。

# 识别并处理重复值

最后，脏数据中还有一种情况，属于重复值。

重复值，指的是异常的重复情况。比如，order_id这一列，一个订单是一个唯一的订单号，因此不应该出现重复值。

而user_id这一列，由于一个用户有可能会多次购买会员，因此出现重复是合理的情况。

我们在这需要进行处理和识别的，就是异常的重复值。pandas的duplicated()函数专门对重复值进行处理。

## 判断是否重复

duplicated()

第48行，使用duplicated()函数。

这一行的意义是，找出order_id这一列的重复的数据，将其输出。

输出的结果，是一个布尔型的Series，如果判断值和前面的有重复，就会返回True。否则，返回False。

In [9]:
# 导入pandas模块，简称为pd
import pandas as pd

# 读取路径为"/Users/clean/视频会员订单数据源.csv"的文件，赋值给变量df
df = pd.read_csv("/Users/xiaojiangyue/programming-study-notes/Python/数据分析/lesson_9_output/clean/视频会员订单数据源.csv")

# 商品价格price，单位分转化成元
df['price'] = df['price'] /100

# 使用to_datetime()函数，将订单创建时间create_time和支付时间pay_time，转化成时间格式
df['create_time'] = pd.to_datetime(df['create_time'])
df['pay_time'] = pd.to_datetime(df['pay_time'])

# 处理缺失值

# 使用布尔索引和isnull函数，将payment_provider这一列的缺失值筛选出，赋值给变量dfPayNull
# dfPayNull就是，包含所有payment_provider这一列缺失值的行
dfPayNull = df[df['payment_provider'].isnull()]

# 使用drop函数，将包含所有payment_provider这一列缺失值的行删除
df.drop(index=dfPayNull.index, inplace = True)

# 使用布尔索引和isnull函数，将platform这一列的缺失值筛选出，赋值给变量dfPlatNull
# dfPlatNull就是，包含所有platform这一列缺失值的行
dfPlatNull = df[df['platform'].isnull()]

# 使用drop函数，将dfPlatNull，也就是包含所有platform这一列缺失值的行删除
df.drop(index=dfPlatNull.index,inplace = True)


# 处理异常值

# 使用布尔索引、isin()、~运算符，将price这一列不是25.00，68.00，248.00的异常值筛选出来，赋值给变量dfWrongPrice
dfWrongPrice = df[~df['price'].isin([25.00,68.00,248.00])]

# 使用drop函数，将dfWrongPrice，也就是price不是25.00，68.00，248.00的异常值的行删除
df.drop(index=dfWrongPrice.index,inplace = True)

# 使用布尔索引，将支付时间pay_time小于创建时间create_time的异常值筛选出来，赋值给变量dfWrongTime
dfWrongTime = df[df['pay_time'] < df['create_time']]

# 使用drop函数，将dfWrongTime，也就是支付时间pay_time小于创建时间create_time的异常值所在行删除
df.drop(index = dfWrongTime.index ,inplace=True)

# 处理重复值

# 使用duplicated函数，将order_id这一列的重复值做判断，用print输出
print(df['order_id'].duplicated())

1        False
2        False
3        False
4        False
5        False
         ...  
78042    False
78043    False
78044    False
78045    False
78047    False
Name: order_id, Length: 77637, dtype: bool


duplicated()函数，判断重复的机制，是会把出现相同值的第二个及以后的数据，判断为True。

这样，保证每个数据都保留一个唯一值。

刚刚学习了duplicated()，我们尝试使用这个函数和布尔索引。将order_id这一列有重复值的行筛选出来，赋值给一个变量dfOrderDu。

In [10]:
# 导入pandas模块，简称为pd
import pandas as pd

# 读取路径为"/Users/clean/视频会员订单数据源.csv"的文件，赋值给变量df
df = pd.read_csv("/Users/xiaojiangyue/programming-study-notes/Python/数据分析/lesson_9_output/clean/视频会员订单数据源.csv")

# 商品价格price，单位分转化成元
df['price'] = df['price'] /100

# 使用to_datetime()函数，将订单创建时间create_time和支付时间pay_time，转化成时间格式
df['create_time'] = pd.to_datetime(df['create_time'])
df['pay_time'] = pd.to_datetime(df['pay_time'])


# 处理缺失值

# 使用布尔索引和isnull函数，将payment_provider这一列的缺失值筛选出，赋值给变量dfPayNull
# dfPayNull就是，包含所有payment_provider这一列缺失值的行
dfPayNull = df[df['payment_provider'].isnull()]

# 使用drop函数，将包含所有payment_provider这一列缺失值的行删除
df.drop(index=dfPayNull.index, inplace = True)

# 使用布尔索引和isnull函数，将platform这一列的缺失值筛选出，赋值给变量dfPlatNull
# dfPlatNull就是，包含所有platform这一列缺失值的行
dfPlatNull = df[df['platform'].isnull()]

# 使用drop函数，将dfPlatNull，也就是包含所有platform这一列缺失值的行删除
df.drop(index=dfPlatNull.index,inplace = True)


# 处理异常值

# 使用布尔索引、isin()、~运算符，将price这一列不是25.00，68.00，248.00的异常值筛选出来，赋值给变量dfWrongPrice
dfWrongPrice = df[~df['price'].isin([25.00,68.00,248.00])]

# 使用drop函数，将dfWrongPrice，也就是price不是25.00，68.00，248.00的异常值的行删除
df.drop(index=dfWrongPrice.index,inplace = True)

# 使用布尔索引，将支付时间pay_time小于创建时间create_time的异常值筛选出来，赋值给变量dfWrongTime
dfWrongTime = df[df['pay_time'] < df['create_time']]

# 使用drop函数，将dfWronTime，也就是支付时间pay_time小于创建时间create_time的异常值所在行删除
df.drop(index = dfWrongTime.index ,inplace=True)


# 处理重复值

# TODO 使用布尔索引、duplicated函数，将order_id这一列的重复值筛选出来，赋值给变量dfOrderDu
dfOrderDu = df[df["order_id"].duplicated()]

# 使用print输出dfOrderDu
print(dfOrderDu)

       order_id    user_id  price platform payment_provider  \
322         313  105714477  248.0      ios         applepay   
2297       2059   28062879  248.0  android            wxpay   
4203       4203   74818719   68.0  android            wxpay   
59797     59797   45355924   68.0      ios         applepay   
59807     59807   99886762   25.0  android            wxpay   

              create_time            pay_time  
322   2020-05-07 14:34:00 2020-05-07 14:34:00  
2297  2020-07-04 08:18:00 2020-07-04 08:18:00  
4203  2019-08-07 10:54:00 2019-08-07 10:54:00  
59797 2020-03-19 23:23:00 2020-04-01 12:06:00  
59807 2020-06-21 22:56:00 2020-06-21 22:56:00  


duplicated()函数可以判断重复值。从输出结果可以判断，存在5行重复值，这也属于脏数据。

使用drop函数，可以将判断得到的重复值所在的行删除。

In [11]:
# 导入pandas模块，简称为pd
import pandas as pd

# 读取路径为"/Users/clean/视频会员订单数据源.csv"的文件，赋值给变量df
df = pd.read_csv("/Users/xiaojiangyue/programming-study-notes/Python/数据分析/lesson_9_output/clean/视频会员订单数据源.csv")

# 商品价格price，单位分转化成元
df['price'] = df['price'] /100

# 使用to_datetime()函数，将订单创建时间create_time和支付时间pay_time，转化成时间格式
df['create_time'] = pd.to_datetime(df['create_time'])
df['pay_time'] = pd.to_datetime(df['pay_time'])


# 处理缺失值

# 使用布尔索引和isnull函数，将payment_provider这一列的缺失值筛选出，赋值给变量dfPayNull
# dfPayNull就是，包含所有payment_provider这一列缺失值的行
dfPayNull = df[df['payment_provider'].isnull()]

# 使用drop函数，将包含所有payment_provider这一列缺失值的行删除
df.drop(index=dfPayNull.index, inplace = True)

# 使用布尔索引和isnull函数，将platform这一列的缺失值筛选出，赋值给变量dfPlatNull
# dfPlatNull就是，包含所有platform这一列缺失值的行
dfPlatNull = df[df['platform'].isnull()]

# 使用drop函数，将dfPlatNull，也就是包含所有platform这一列缺失值的行删除
df.drop(index=dfPlatNull.index,inplace = True)


# 处理异常值

# 使用布尔索引、isin()、~运算符，将price这一列不是25.00，68.00，248.00的异常值筛选出来，赋值给变量dfWrongPrice
dfWrongPrice = df[~df['price'].isin([25.00,68.00,248.00])]

# 使用drop函数，将dfWrongPrice，也就是price不是25.00，68.00，248.00的异常值的行删除
df.drop(index=dfWrongPrice.index,inplace = True)

# 使用布尔索引，将支付时间pay_time小于创建时间create_time的异常值筛选出来，赋值给变量dfWrongTime
dfWrongTime = df[df['pay_time'] < df['create_time']]

# 使用drop函数，将dfWronTime，也就是支付时间pay_time小于创建时间create_time的异常值所在行删除
df.drop(index = dfWrongTime.index ,inplace=True)


# 处理重复值

# 使用布尔索引、duplicated函数，将order_id这一列的重复值筛选出来，赋值给变量dfOrderDu
dfOrderDu = df[df['order_id'].duplicated()]

# 使用drop函数，删除dfOrderDu，也就是order_id这一列重复的数据
df.drop(index = dfOrderDu.index, inplace = True)

# 使用info函数，快速浏览数据集
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 77632 entries, 1 to 78047
Data columns (total 7 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   order_id          77632 non-null  int64         
 1   user_id           77632 non-null  int64         
 2   price             77632 non-null  float64       
 3   platform          77632 non-null  object        
 4   payment_provider  77632 non-null  object        
 5   create_time       77632 non-null  datetime64[ns]
 6   pay_time          77632 non-null  datetime64[ns]
dtypes: datetime64[ns](2), float64(1), int64(2), object(2)
memory usage: 4.7+ MB


就这样，我们完成了一个数据集的清洗工作啦！

浏览下剔除脏数据的数据集，每一列都是77632行数据。

拿到这样的一份数据集，我们就可以安心的开始分析啦。

# 数据清洗的顺序

值得注意的是，数据清洗的步骤，要按照“缺失值-异常值-重复值”的顺序进行，并且一列一列的处理。

因为一份数据，有时出现重复值，有可能是第一行数据异常、或者缺失，第二行数据是对的。

而先处理重复值会把第二行数据删除掉，也就把错误数据保留下来了。

# Yoyo的洞察

我们来看看，后续Yoyo如何分析的吧。

还记得Yoyo需要分析的问题吗？

"每个月购买会员的人数"，Yoyo细分三种不同的会员，进行了分析和可视化。      

处理和可视化的部分，在下节课我们就会学到了，在这我们专注在图表传达的信息吧。

```
# 导入模块
import pandas as pd

# 读取路径"/Users/clean/视频会员订单数据源.csv"的文件
df = pd.read_csv("/Users/xiaojiangyue/programming-study-notes/Python/数据分析/lesson_9_output/clean/视频会员订单数据源.csv")

# 商品价格price，单位分转化成元
df['price'] = df['price'] /100

# 订单创建时间create_time和支付时间pay_time，转化成时间格式
df['create_time'] = pd.to_datetime(df['create_time'])
df['pay_time'] = pd.to_datetime(df['pay_time'])

# 处理缺失值
# 删除payment_provider这一列缺失值的行
dfPayNull = df[df['payment_provider'].isnull()]
df.drop(index=dfPayNull.index, inplace = True)

# 删除platform这一列缺失值的行
dfPlatNull = df[df['platform'].isnull()]
df.drop(index=dfPlatNull.index,inplace = True)

# 处理异常值
# 删除price这一列不是25.00，68.00，248.00的异常值
dfWrongPrice = df[~df['price'].isin([25.00,68.00,248.00])]
df.drop(index=dfWrongPrice.index,inplace = True)

# 删除支付时间pay_time小于创建时间create_time的异常值
dfWrongTime = df[df['pay_time'] < df['create_time']]
df.drop(index = dfWrongTime.index ,inplace=True)

# 处理重复值
# 删除order_id这一列的重复值
dfOrderDu = df[df['order_id'].duplicated()]
df.drop(index = dfOrderDu.index, inplace = True)


# 可视化
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['Arial Unicode MS']

df = df.set_index("create_time")
data = df['order_id'].groupby(df["price"]).resample("M").count()
data = data.unstack("price")
data.index = data.index.strftime('%Y-%m')
plt.figure(1)
data.plot.bar(subplots=True, title = "2019.08-2020.07 三类会员月销量")
plt.xlabel("月份")
plt.ylabel("销量")

plt.legend()
plt.tight_layout()
plt.show()

sumNum = data.sum(axis=1)
def getPercentage(item):
    return item / sumNum[item.index]
datapercent = data.apply(getPercentage)
plt.figure(2)
datapercent.plot.bar(stacked=True, title = "2019.08-2020.07 三类会员月销量占比")
plt.xlabel("月份")
plt.ylabel("销量占比")
plt.legend()
plt.tight_layout()
plt.show()
```

针对“购买了一次月度会员/季度会员的用户，是否会继续购买会员。”

yoyo对会员是否继续购买会员做了一个统计。

```
# 导入模块
import pandas as pd

# 读取路径"/Users/clean/视频会员订单数据源.csv"的文件
df = pd.read_csv("/Users/xiaojiangyue/programming-study-notes/Python/数据分析/lesson_9_output/clean/视频会员订单数据源.csv")

# 商品价格price，单位分转化成元
df['price'] = df['price'] /100

# 订单创建时间create_time和支付时间pay_time，转化成时间格式
df['create_time'] = pd.to_datetime(df['create_time'])
df['pay_time'] = pd.to_datetime(df['pay_time'])

# 处理缺失值
# 删除payment_provider这一列缺失值的行
dfPayNull = df[df['payment_provider'].isnull()]
df.drop(index=dfPayNull.index, inplace = True)

# 删除platform这一列缺失值的行
dfPlatNull = df[df['platform'].isnull()]
df.drop(index=dfPlatNull.index,inplace = True)

# 处理异常值
# 删除price这一列不是25.00，68.00，248.00的异常值
dfWrongPrice = df[~df['price'].isin([25.00,68.00,248.00])]
df.drop(index=dfWrongPrice.index,inplace = True)

# 删除支付时间pay_time小于创建时间create_time的异常值
dfWrongTime = df[df['pay_time'] < df['create_time']]
df.drop(index = dfWrongTime.index ,inplace=True)

# 处理重复值
# 删除order_id这一列的重复值
dfOrderDu = df[df['order_id'].duplicated()]
df.drop(index = dfOrderDu.index, inplace = True)


# 可视化
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['Arial Unicode MS']

df_next = {"月度会员":[1453, 85, 34, 28649],"季度会员":[21, 175, 2, 10584]}
index_next = ["继续购买，成为月度会员","继续购买，成为季度会员","继续购买，成为年度会员","不继续购买，流失"]

df = pd.DataFrame(df_next , index = index_next)
sumNum = df.sum()
df = df / sumNum
datapercent = pd.DataFrame(df.values.T, index=df.columns, columns=df.index)

datapercent.plot.barh(stacked=True, title = "月度/季度会员是否继续购买分布")
plt.xlabel("占比")
plt.ylabel("会员类别")
plt.legend(loc = "upper right")
plt.tight_layout()

plt.show()
```

Yoyo从订单数据中，交叉分析，制作了以下图表：各类型的会员，在平台和支付渠道的分布。

```
# 导入模块
import pandas as pd

# 读取路径"/Users/clean/视频会员订单数据源.csv"的文件
df = pd.read_csv("/Users/xiaojiangyue/programming-study-notes/Python/数据分析/lesson_9_output/clean/视频会员订单数据源.csv")

# 商品价格price，单位分转化成元
df['price'] = df['price'] /100

# 订单创建时间create_time和支付时间pay_time，转化成时间格式
df['create_time'] = pd.to_datetime(df['create_time'])
df['pay_time'] = pd.to_datetime(df['pay_time'])

# 处理缺失值
# 删除payment_provider这一列缺失值的行
dfPayNull = df[df['payment_provider'].isnull()]
df.drop(index=dfPayNull.index, inplace = True)

# 删除platform这一列缺失值的行
dfPlatNull = df[df['platform'].isnull()]
df.drop(index=dfPlatNull.index,inplace = True)

# 处理异常值
# 删除price这一列不是25.00，68.00，248.00的异常值
dfWrongPrice = df[~df['price'].isin([25.00,68.00,248.00])]
df.drop(index=dfWrongPrice.index,inplace = True)

# 删除支付时间pay_time小于创建时间create_time的异常值
dfWrongTime = df[df['pay_time'] < df['create_time']]
df.drop(index = dfWrongTime.index ,inplace=True)

# 处理重复值
# 删除order_id这一列的重复值
dfOrderDu = df[df['order_id'].duplicated()]
df.drop(index = dfOrderDu.index, inplace = True)


# 可视化
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['Arial Unicode MS']

# 三类会员ios/android平台支付占比
data = df["order_id"].groupby([df["price"],df["platform"]]).count()
data = data.unstack("platform")
sumNum = data.sum(axis=1)
def getPercentage(item):
    return item / sumNum[item.index]
datapercent = data.apply(getPercentage)
datapercent.plot.barh(stacked=True, title = "三类会员ios/android平台支付占比", ax = plt.subplot(211))
plt.xlabel("销量占比")
plt.ylabel("会员类别")
plt.legend()
plt.tight_layout()


# 三类会员微信、支付宝、苹果支付占比
data = df["order_id"].groupby([df["price"],df["payment_provider"]]).count()
data = data.unstack("payment_provider")
sumNum = data.sum(axis=1)
def getPercentage(item):
    return item / sumNum[item.index]
datapercent = data.apply(getPercentage)
datapercent.plot.barh(stacked=True, title = "三类会员微信/支付宝/apple支付占比", ax = plt.subplot(212))
plt.xlabel("销量占比")
plt.ylabel("会员类别")
plt.legend()
plt.tight_layout()

plt.show()
```

通过这样一份基础的订单数据，经过清洗之后，我们帮Yoyo获得一份干净的数据。

进行了分析和可视化，了解现在的业务概况，确定了下一个阶段的工作重点。

# 百题斩题目

## 种草与“排雷”
小雨是一名准大学生，她想买一台电脑，无奈电脑品牌实在太多，她很担心会“踩雷”。

现在她得到了一组某平台用户对各类电脑的评分数据

小雨想通过这份数据，计算各电脑品牌的平均评分。

她已经通过info()函数确认评分数据中order_id这一列存在缺失值，所以会对计算平均值造成影响，要将其剔除。

请先找出order_id这一列的缺失值，然后将存在缺失值的所有行删除，并计算清洗后的数据中每类电脑的平均评分。

使用print()格式化输出如下结果：
各大平台苹苹电脑平均评分为XX，华华电脑平均评分为XX，联联电脑平均评分为XX，惠惠电脑平均评分为XX，戴戴电脑平均评分为XX，硕硕电脑平均评分为XX

本题会用到今天所学的drop()函数和之前学过的布尔索引。

除此之外，还需要用到 计算DataFrame某列数据的均值 这个知识点，请先点击提示进行学习。

```
计算DataFrame某列数据的均值

通过列索引访问到某列数据后，直接使用mean()函数计算该列数据的均值。

例如，计算df变量里"rating"列的均值的具体代码为：
mean = df["rating"].mean()
print(mean)
输出是：
2.896
```

In [1]:
# 导入pandas模块，简称为pd
import pandas as pd

# 使用read_csv()函数读取路径为"/Users/rate/电脑评分.csv"，并赋值给变量df
df = pd.read_csv("/Users/xiaojiangyue/programming-study-notes/Python/数据分析/lesson_9_output/rate/电脑评分.csv")

# TODO 使用drop()函数和布尔索引，将"order_id"这一列的缺失值删除
df.drop(index=df[df['order_id'].isnull()].index, inplace = True)

# TODO 使用列索引和布尔索引
# 依次筛选出"brand"为苹苹电脑、华华电脑、联联电脑、惠惠电脑、戴戴电脑、硕硕电脑
# 分别赋值给变量df1、df2、df3、df4、df5、df6
df1 = df[df['brand'] == "苹苹电脑"]
df2 = df[df['brand'] == "华华电脑"]
df3 = df[df['brand'] == "联联电脑"]
df4 = df[df['brand'] == "惠惠电脑"]
df5 = df[df['brand'] == "戴戴电脑"]
df6 = df[df['brand'] == "硕硕电脑"]

# TODO 使用mean()函数，计算各类电脑的评分均值
mean1 = df1["rating"].mean()
mean2 = df2["rating"].mean()
mean3 = df3["rating"].mean()
mean4 = df4["rating"].mean()
mean5 = df5["rating"].mean()
mean6 = df6["rating"].mean()

# TODO 格式化输出结果
# 各大平台苹苹电脑平均评分为XX，华华电脑平均评分为XX，联联电脑平均评分为XX，惠惠电脑平均评分为XX，戴戴电脑平均评分为XX，硕硕电脑平均评分为XX
print(f"各大平台苹苹电脑平均评分为{mean1}，华华电脑平均评分为{mean2}，联联电脑平均评分为{mean3}，惠惠电脑平均评分为{mean4}，戴戴电脑平均评分为{mean5}，硕硕电脑平均评分为{mean6}")

各大平台苹苹电脑平均评分为2.7564102564102564，华华电脑平均评分为3.0123456790123457，联联电脑平均评分为3.0，惠惠电脑平均评分为2.8617021276595747，戴戴电脑平均评分为2.742857142857143，硕硕电脑平均评分为2.950617283950617


## 电商交易数据清洗
CC拿到了一份2018.01.01--2019.06.30平台销售订单数据。她需要对这份数据进行清洗。

这份数据在工作目录下，文件名是"180101-190630交易数据.csv"。

各个字段的要求如下：

id，作为index

order_id，不存在<=0的异常值，不存在重复值

user_id，不存在<=0的异常值

payment，不存在<0的异常值，转化成单位元

price，不存在<0的异常值，转化成单位元

items_count，不存在<0的异常值

cutdown_price，不存在<0的异常值，转化成单位元

post_fee，不存在<0的异常值，转化成单位元

create_time，pay_time，转化成时间格式，不存在create_time>pay_time的异常值

数据集中，是否存在缺失值、异常值、重复值，需要自行进行判断。然后再进行处理。

最后，用df.info()输出清洗后的结果。

In [5]:
import pandas as pd
df = pd.read_csv("/Users/xiaojiangyue/programming-study-notes/Python/数据分析/lesson_9_output/data_clean/180101-190630交易数据.csv", index_col="id")

#换算
df['payment'] = df['payment'] / 100
df['price'] = df['price'] / 100
df['cutdown_price'] = df['cutdown_price'] / 100
df['post_fee'] = df['post_fee'] / 100

#转化成时间格式
df['create_time'] = pd.to_datetime(df['create_time'])
df['pay_time'] = pd.to_datetime(df['pay_time'])

#检查后并没有缺失值
#处理异常值
df.drop(index=df[df['order_id']<=0].index, inplace = True)
df.drop(index=df[df['user_id']<=0].index, inplace = True)
df.drop(index=df[df['payment']<0].index, inplace = True)
df.drop(index=df[df['price']<0].index, inplace = True)
df.drop(index=df[df['cutdown_price']<0].index, inplace = True)
df.drop(index=df[df['post_fee']<0].index, inplace = True)
df.drop(index=df[df['create_time']>df['pay_time']].index, inplace = True)
#处理重复值
df.drop(index=df[df['order_id'].duplicated()].index, inplace = True)

df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 84992 entries, 1 to 86132
Data columns (total 9 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   order_id       84992 non-null  int64         
 1   user_id        84992 non-null  int64         
 2   payment        84992 non-null  float64       
 3   price          84992 non-null  float64       
 4   items_count    84992 non-null  int64         
 5   cutdown_price  84992 non-null  float64       
 6   post_fee       84992 non-null  float64       
 7   create_time    84992 non-null  datetime64[ns]
 8   pay_time       84992 non-null  datetime64[ns]
dtypes: datetime64[ns](2), float64(4), int64(3)
memory usage: 6.5 MB
