## **1.数据清洗**
### **1.1 缺失值**
有时候我们获取的数据存在缺失值，这个往往⽤NaN来表示。

In [1]:
import numpy as np
import pandas as pd
raw_data = {'first_name': ['Jason', np.nan, 'Tina', 'Jake', 'Amy'],
'last_name': ['Miller', np.nan, 'Ali', 'Milner', 'Cooze'],
'age': [42, np.nan, 36, 24, 73],
'sex': ['m', np.nan, 'f', 'm', 'f'],
'preTestScore': [4, np.nan, np.nan, 2, 3],
'postTestScore': [25, np.nan, np.nan, 62, 70]}
df = pd.DataFrame(raw_data)
df

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore
0,Jason,Miller,42.0,m,4.0,25.0
1,,,,,,
2,Tina,Ali,36.0,f,,
3,Jake,Milner,24.0,m,2.0,62.0
4,Amy,Cooze,73.0,f,3.0,70.0


#### **忽略缺失值**
当缺失值较少的时候，我们可以丢弃缺失的元组，⽽缺失值较多的时候，我们需要采取别的⽅法。

In [2]:
## 判断缺失值
df.isnull()

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore
0,False,False,False,False,False,False
1,True,True,True,True,True,True
2,False,False,False,False,True,True
3,False,False,False,False,False,False
4,False,False,False,False,False,False


In [3]:
## 删除缺失值所在的元组（⾏）
df.dropna(axis=0)

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore
0,Jason,Miller,42.0,m,4.0,25.0
3,Jake,Milner,24.0,m,2.0,62.0
4,Amy,Cooze,73.0,f,3.0,70.0


#### **⼈⼯填写缺失值**
该⽅法对少数缺失值有效，但费时，且当数据⾮常⼤时难以实现

In [4]:
## 将序号 1 的年龄填写为30
df_manual = df.copy()
df_manual.loc[1,'age'] = 30
df_manual

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore
0,Jason,Miller,42.0,m,4.0,25.0
1,,,30.0,,,
2,Tina,Ali,36.0,f,,
3,Jake,Milner,24.0,m,2.0,62.0
4,Amy,Cooze,73.0,f,3.0,70.0


#### **使用一个全局常量填充缺失值**

In [5]:
## 用999填充缺失值
df.fillna(value=999)

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore
0,Jason,Miller,42.0,m,4.0,25.0
1,999,999,999.0,999,999.0,999.0
2,Tina,Ali,36.0,f,999.0,999.0
3,Jake,Milner,24.0,m,2.0,62.0
4,Amy,Cooze,73.0,f,3.0,70.0


#### **使用属性中心度填充缺失值**

In [7]:
df.fillna(value=df.mean())

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore
0,Jason,Miller,42.0,m,4.0,25.0
1,,,43.75,,3.0,52.333333
2,Tina,Ali,36.0,f,3.0,52.333333
3,Jake,Milner,24.0,m,2.0,62.0
4,Amy,Cooze,73.0,f,3.0,70.0


#### **使⽤最可能的值填充缺失值**
可使⽤是回归、⻉叶斯等⽅法确定最可能的值。也可以使⽤插值法填充。

In [8]:
## 使用上一值替代
df.fillna(method='ffill')

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore
0,Jason,Miller,42.0,m,4.0,25.0
1,Jason,Miller,42.0,m,4.0,25.0
2,Tina,Ali,36.0,f,4.0,25.0
3,Jake,Milner,24.0,m,2.0,62.0
4,Amy,Cooze,73.0,f,3.0,70.0


In [9]:
## 使用线性插值法填充
df.interpolate()

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore
0,Jason,Miller,42.0,m,4.0,25.0
1,,,39.0,,3.333333,37.333333
2,Tina,Ali,36.0,f,2.666667,49.666667
3,Jake,Milner,24.0,m,2.0,62.0
4,Amy,Cooze,73.0,f,3.0,70.0


### **1.2 噪声数据**
噪声（noise）是被测量的变量的随机误差或⽅差。
#### **分箱（binning）**
分箱通过查考数据的“临近”即周围值来光滑有序数据值。由于分箱⽅法考察邻近值，因此它进⾏的是
局部光滑。
将数据分为个等频的箱中，可以⽤箱均值、箱中位数或箱边界光滑数据

In [10]:
data_price = np.array([15,4,8,21,28,21,24,25,34])
data_price.sort()   #对数据进行分类
data_price

array([ 4,  8, 15, 21, 21, 24, 25, 28, 34])

In [11]:
#对数据进行分箱，分3个箱
data_box = data_price.reshape([3,-1])
data_box

array([[ 4,  8, 15],
       [21, 21, 24],
       [25, 28, 34]])

数组新的shape属性应该要与原来的配套，如果等于-1的话，那么Numpy会根据剩下的维度计算出数组的另外一个shape属性值。

In [12]:
## 用箱均值光滑
np.repeat(data_box.mean(axis=1),3)

array([ 9.,  9.,  9., 22., 22., 22., 29., 29., 29.])

In [13]:
## 用箱中位数光滑
np.repeat(np.median(data_box, axis=1),3)

array([ 8.,  8.,  8., 21., 21., 21., 28., 28., 28.])

axis=1为横向，axis=0为纵向

In [14]:
## 用箱边界光滑
np.repeat(data_box.max(axis=1),3)

array([15, 15, 15, 24, 24, 24, 34, 34, 34])

## **2. 数据规范化**
#### **2.1 最⼤最⼩规范化(min-max scaled)**

In [15]:
from sklearn import preprocessing
X_train = np.array([[ 1., -1., 2.],
                    [ 2., 0., 0.],
                    [ 0., 1., -1.]])
min_max_scaler = preprocessing.MinMaxScaler()
X_train_minmax = min_max_scaler.fit_transform(X_train)
X_train_minmax

array([[0.5       , 0.        , 1.        ],
       [1.        , 0.5       , 0.33333333],
       [0.        , 1.        , 0.        ]])

#### **2.2 零均值规范化（Z-score scaled）**
通过z-socre规范化，将数值的均值转换成0， ⽅差转换成1

In [16]:
X_scaled = preprocessing.scale(X_train)
X_scaled

array([[ 0.        , -1.22474487,  1.33630621],
       [ 1.22474487,  0.        , -0.26726124],
       [-1.22474487,  1.22474487, -1.06904497]])

#### **2.3⼩数定标**
通过移动属性A的⼩数点位置来进⾏规范化

In [17]:
X_train / 10

array([[ 0.1, -0.1,  0.2],
       [ 0.2,  0. ,  0. ],
       [ 0. ,  0.1, -0.1]])