在数据挖掘中，海量的数据有不合理的数据会影响到数据挖掘的执行效率，产生偏差，因此需要数据清洗并数据集成、转换、规约

一方面提高数据质量，另一方面是让数据更好地适应特定的数据挖掘技术或工具

# 4.1 数据清洗

数据清洗主要是删除数据集中无关数据、重复数据、平滑噪音数据和处理缺失值、异常值

## 4.1.1 缺失值处理

删除、数据插补和不处理

均值、中位数、众数插补  
使用固定值  
最近邻插补  
回归方法  
插值法  

In [19]:
import pandas as pd
from scipy.interpolate import lagrange
inputfile = '/Users/wangduan/python_machine_learning/数据挖掘/data/catering_sale.xls'
data = pd.read_excel(inputfile, header=None)


def ployinterp_column(s, n, k=5):
    y = s[list(range(n-k, n)) + list(range(n+1, n+1+k))] # 取数
    y = y[y.notnull()]
    return lagrange(y.index,list(y))(n)  # 差值并返回差值结果
# 逐个元素判断是否需要插值


for i in data.columns:
    for j in range(len(data)):
        if (data[i].isnull())[j]:
            data[i][j] = ployinterp_column(data[i], j)
print(data)

                       0       1
0                     日期      销量
1    2015-03-01 00:00:00      51
2    2015-02-28 00:00:00  2618.2
3    2015-02-27 00:00:00  2608.4
4    2015-02-26 00:00:00  2651.9
..                   ...     ...
197  2014-08-06 00:00:00  2915.8
198  2014-08-05 00:00:00  2618.1
199  2014-08-04 00:00:00    2993
200  2014-08-03 00:00:00  3436.4
201  2014-08-02 00:00:00  2261.7

[202 rows x 2 columns]


## 4.1.2 异常值处理

删除含有异常值的数据  
是为缺失值  
平均值修正  
不处理

# 4.2 数据集成

## 4.2.1 实体识别

从不同数据源识别现实世界的实体

## 4.2.2 冗余属性识别

## 4.2.3 数据变换

1.简单的函数变换  
2.规范化   
最小最大规范化  
零-均值规范化  
小数定标规范化  
3.连续属性离散化  
4.属性构成  
5.小波变换

In [21]:
import pandas as pd
import numpy as np
datafile = '/Users/wangduan/python_machine_learning/数据挖掘/data/normalization_data.xls'  # 参数初始化
data = pd.read_excel(datafile, header = None)  # 读取数据
print(data)
 # 最小-最大规范化
print((data - data.min()) / (data.max() - data.min()))
# 零-均值规范化
(data - data.mean()) / data.std()  
# 小数定标规范化
data / 10 ** np.ceil(np.log10(data.abs().max())）  


     0    1    2     3
0   78  521  602  2863
1  144 -600 -521  2245
2   95 -457  468 -1283
3   69  596  695  1054
4  190  527  691  2051
5  101  403  470  2487
6  146  413  435  2571
          0         1         2         3
0  0.074380  0.937291  0.923520  1.000000
1  0.619835  0.000000  0.000000  0.850941
2  0.214876  0.119565  0.813322  0.000000
3  0.000000  1.000000  1.000000  0.563676
4  1.000000  0.942308  0.996711  0.804149
5  0.264463  0.838629  0.814967  0.909310
6  0.636364  0.846990  0.786184  0.929571


Unnamed: 0,0,1,2,3
0,0.078,0.521,0.602,0.2863
1,0.144,-0.6,-0.521,0.2245
2,0.095,-0.457,0.468,-0.1283
3,0.069,0.596,0.695,0.1054
4,0.19,0.527,0.691,0.2051
5,0.101,0.403,0.47,0.2487
6,0.146,0.413,0.435,0.2571


## 4.2.7 属性构造

在数据挖掘的过程中，为了帮助提取更有用的信息、挖掘更深层次的模式，提高挖掘结果的精度，需要利用已有的属性集构造出新的属性，并加入到现有的属性集合中。

# 4.3 数据规约

数据规约是将海量数据进行规约，规约之后的数据仍接近于保持原数据的完整性，但数据量小得多。

## 4.3.1 属性规约

属性规约常用方法有：合并属性、逐步向前选择、逐步向后删除、决策树归纳、主成分分析

主成分分析

In [2]:
# 代码4-6 主成分分析降维
import pandas as pd

# 参数初始化
inputfile = '/Users/wangduan/python_machine_learning/数据挖掘/data/principal_component.xls'
outputfile = '/Users/wangduan/python_machine_learning/数据挖掘/dimention_reducted.xls'  # 降维后的数据

data = pd.read_excel(inputfile, header = None)  # 读入数据

from sklearn.decomposition import PCA

pca = PCA()
pca.fit(data)
print(pca.components_)  # 返回模型的各个特征向量
print("\n")
print(pca.explained_variance_ratio_ ) # 返回各个成分各自的方差百分比

[[ 0.56788461  0.2280431   0.23281436  0.22427336  0.3358618   0.43679539
   0.03861081  0.46466998]
 [ 0.64801531  0.24732373 -0.17085432 -0.2089819  -0.36050922 -0.55908747
   0.00186891  0.05910423]
 [-0.45139763  0.23802089 -0.17685792 -0.11843804 -0.05173347 -0.20091919
  -0.00124421  0.80699041]
 [-0.19404741  0.9021939  -0.00730164 -0.01424541  0.03106289  0.12563004
   0.11152105 -0.3448924 ]
 [-0.06133747 -0.03383817  0.12652433  0.64325682 -0.3896425  -0.10681901
   0.63233277  0.04720838]
 [ 0.02579655 -0.06678747  0.12816343 -0.57023937 -0.52642373  0.52280144
   0.31167833  0.0754221 ]
 [-0.03800378  0.09520111  0.15593386  0.34300352 -0.56640021  0.18985251
  -0.69902952  0.04505823]
 [-0.10147399  0.03937889  0.91023327 -0.18760016  0.06193777 -0.34598258
  -0.02090066  0.02137393]]


[7.74011263e-01 1.56949443e-01 4.27594216e-02 2.40659228e-02
 1.50278048e-03 4.10990447e-04 2.07718405e-04 9.24594471e-05]


## 4.3.2 数值规约