# 导入工具包

In [16]:
import numpy as np  # numpy库
import pandas as pd  # pandas库

# 定义数据缺失查看函数

In [33]:
def na_summary(df):
    '''
    查看数据集的缺失数据列、行记录数
    :param df: 数据框
    :return: 无
    '''
    print ('{:*^60}'.format('含有缺失值的列数:'))
    print (df.isnull().any().sum())  # 查找是否还有缺失值
    na_cols = df.isnull().any(axis=0)  # 查看每一列是否具有缺失值
    print ('{:*^60}'.format('含有缺失值的列:'))
    print (na_cols)  # 查看具有缺失值的列
    na_lines = df.isnull().any(axis=1)  # 查看每一行是否具有缺失值
    print ('{:*^60}'.format('含有缺失值的总行数:'))
    print (na_lines.sum())  # 查看具有缺失值的行总记录数
    print ('{:*^60}'.format('具有缺失值的行信息:'))
    print (df[na_lines])  # 只查看具有缺失值的行信息

# 读取数据

In [34]:
# 数据应用
# 定义特殊字段数据格式
dtypes = {'order_id': np.object,'pro_id': np.object,'use_id': np.object}

raw_data = pd.read_table('abnormal_orders.txt', delimiter=',', dtype=dtypes)  # 读取数据集

# 执行数据缺失查看函数

In [35]:
na_summary(raw_data)  # 缺失值审查

*************************含有缺失值的列数:**************************
4
**************************含有缺失值的列:**************************
order_id          False
order_date        False
order_time        False
cat                True
attribution       False
pro_id            False
pro_brand          True
total_money        True
total_quantity    False
order_source      False
pay_type          False
use_id            False
city               True
abnormal_label    False
dtype: bool
*************************含有缺失值的总行数:*************************
1429
*************************具有缺失值的行信息:*************************
          order_id  order_date order_time  cat attribution      pro_id  \
0       4277880103  2013-10-17   13:09:16  NaN          GO  8000001215   
2       4277700101  2013-08-27   14:26:38  NaN          GO  7000000960   
16      4277880104  2013-09-16   14:00:36  NaN          GO  8000422353   
167     4277880230  2013-09-14   21:24:35  NaN          GO  8000257396   
487     4247561387  2013-10-13 

# 缺失值处理

## 丢弃处理
将含有缺失值的行数全部丢弃

In [20]:
drop_na_set = raw_data.dropna()  # 丢弃带有NA值的数据行

In [39]:
na_cols = drop_na_set.isnull().any(axis=0)  # 查看每一列是否具有缺失值
print ('{:*^60}'.format('含有缺失值的列数:'))
print (drop_na_set.isnull().any().sum())  # 查找是否还有缺失值
print ('{:*^60}'.format('含有缺失值的列:'))
print (na_cols)  # 查看具有缺失值的列

*************************含有缺失值的列数:**************************
0
**************************含有缺失值的列:**************************
order_id          False
order_date        False
order_time        False
cat               False
attribution       False
pro_id            False
pro_brand         False
total_money       False
total_quantity    False
order_source      False
pay_type          False
use_id            False
city              False
abnormal_label    False
dtype: bool


## 替换处理
将数值型的列通过均值的方式进行替换

In [44]:
def na_replace(df):
    '''
    将数据集中的NA值使用自定义方法替换
    :param df: 数据框
    :return: NA值替换后的数据框
    '''
    na_rules = {'total_money': df['total_money'].mean()
                }  # 字典：定义各个列数据转换方法
    df = df.fillna(na_rules)  # 使用指定方法填充缺失值
    print ('{:*^60}'.format('含有缺失值的列数:'))
    print (df.isnull().any().sum())  # 查找是否还有缺失值
    return df

In [45]:
drop_na_set_replace = na_replace(raw_data)

na_cols = drop_na_set_replace.isnull().any(axis=0)  # 查看每一列是否具有缺失值
print ('{:*^60}'.format('含有缺失值的列:'))
print (na_cols)  # 查看具有缺失值的列

*************************含有缺失值的列数:**************************
3
**************************含有缺失值的列:**************************
order_id          False
order_date        False
order_time        False
cat                True
attribution       False
pro_id            False
pro_brand          True
total_money       False
total_quantity    False
order_source      False
pay_type          False
use_id            False
city               True
abnormal_label    False
dtype: bool
