# Lecture 4: Data Preprocessing

In this section, we will introduce how to preprocess data with sklearn.

## Handling Missing Values :

Refer to lecture 3

## Feature Scaling: Standardization and normalization:
规范化是标准化的一种形式。

归一化将数据映射到区间[0,1]。

规范化是缩放数据以适应特定间隔的过程。

标准化数据的均值为0，标准差为1，因此标准化数据可以是正的，也可以是负的。

如果原始数据不符合高斯分布，则归一化数据不能很好地工作。（归一化的原因是，如果某些特征的方差太大，它将主导目标函数，并阻止参数估计器正确学习其他特征。）



In [1]:
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import MinMaxScaler
from matplotlib import gridspec
import numpy as np
import matplotlib.pyplot as plt

### Standardize data and inverse transformation  using sklearn

The process of Standard transformation is divided into two steps.

* Decentering of the mean (mean becomes 0).
* Scaling of the variance (variance becomes 1).


Each column is standardized to the standard normal distribution, note that the standardization is done for each column.

In [2]:
data=np.random.randn(30,4)*3+1

In [3]:
data

array([[ 4.34034473, -2.56403275, -2.20595222, -1.55515231],
       [ 4.98420483,  1.70783939, -5.22726858, -1.63016104],
       [ 0.96727146,  3.74030075,  0.57285362,  3.96660459],
       [ 1.18112706, -4.13461168, -0.4616024 ,  1.02744567],
       [ 2.97466854,  1.17887045, -2.80902217, -0.81939369],
       [-0.64699595,  7.70596802, -0.95125646, -0.45033805],
       [-1.05571373,  3.27779076, -3.60747056, -2.96623251],
       [ 0.42293312, -0.53531043, -1.53852872, -2.88049141],
       [ 1.62527047,  1.26051451,  1.37368187, -2.63389262],
       [-2.49477178,  5.58800905,  6.55953104,  3.61830439],
       [-6.08614393,  0.22721286,  3.68028979,  3.61756336],
       [ 3.82934169,  3.0683732 , -2.42532686, -1.07970914],
       [ 1.37783804, -0.01314783,  5.42150868,  0.20474677],
       [ 1.46553836,  1.34142618,  3.49302659,  3.3635342 ],
       [-1.90298762,  1.27959538, -2.31134518,  0.42438278],
       [ 3.49668813,  4.55299801,  2.02928547, -1.85959291],
       [ 0.31382936,  5.

In [4]:
data.std(axis=0)

array([2.65885258, 2.82928677, 2.95879463, 2.50034381])

In [5]:
std = StandardScaler()

In [6]:
data_n=std.fit_transform(data)

In [7]:
data_n

array([[ 1.36904461, -1.42713119, -0.88488783, -0.73572231],
       [ 1.61120173,  0.08274479, -1.90601865, -0.76572168],
       [ 0.10042472,  0.80111006,  0.05428037,  1.47267675],
       [ 0.18085626, -1.98224598, -0.29534038,  0.29717484],
       [ 0.85541094, -0.10421715, -1.08871068, -0.44145933],
       [-0.50670462,  2.20275916, -0.46083145, -0.29385737],
       [-0.66042423,  0.63763777, -1.35856665, -1.30007678],
       [-0.10430207, -0.71008747, -0.65931506, -1.26578505],
       [ 0.34789952, -0.07536039,  0.32494068, -1.1671591 ],
       [-1.20165696,  1.45417511,  2.07763048,  1.33337582],
       [-2.55237951, -0.44057669,  1.10451757,  1.33307945],
       [ 1.1768553 ,  0.56361998, -0.95903108, -0.54557119],
       [ 0.25483967, -0.52553121,  1.69300684, -0.03185948],
       [ 0.28782394, -0.04676248,  1.0412272 ,  1.23148176],
       [-0.9790857 , -0.06861633, -0.92050807,  0.05598285],
       [ 1.0517436 ,  1.08835463,  0.54651861, -0.85748181],
       [-0.14533622,  1.

In [8]:
data_n.std(axis=0)

array([1., 1., 1., 1.])

In [9]:
oringin_data=std.inverse_transform(data_n)

In [10]:
oringin_data

array([[ 4.34034473, -2.56403275, -2.20595222, -1.55515231],
       [ 4.98420483,  1.70783939, -5.22726858, -1.63016104],
       [ 0.96727146,  3.74030075,  0.57285362,  3.96660459],
       [ 1.18112706, -4.13461168, -0.4616024 ,  1.02744567],
       [ 2.97466854,  1.17887045, -2.80902217, -0.81939369],
       [-0.64699595,  7.70596802, -0.95125646, -0.45033805],
       [-1.05571373,  3.27779076, -3.60747056, -2.96623251],
       [ 0.42293312, -0.53531043, -1.53852872, -2.88049141],
       [ 1.62527047,  1.26051451,  1.37368187, -2.63389262],
       [-2.49477178,  5.58800905,  6.55953104,  3.61830439],
       [-6.08614393,  0.22721286,  3.68028979,  3.61756336],
       [ 3.82934169,  3.0683732 , -2.42532686, -1.07970914],
       [ 1.37783804, -0.01314783,  5.42150868,  0.20474677],
       [ 1.46553836,  1.34142618,  3.49302659,  3.3635342 ],
       [-1.90298762,  1.27959538, -2.31134518,  0.42438278],
       [ 3.49668813,  4.55299801,  2.02928547, -1.85959291],
       [ 0.31382936,  5.

消除量纲影响：
当数据的特征具有不同的量纲（单位）时，标准化可以消除量纲的影响，使得不同特征之间具有可比性。

加速模型收敛：
对于基于梯度下降的优化算法（如线性回归、逻辑回归、神经网络等），标准化可以加速模型的收敛速度。

适用于高斯分布：
如果数据近似服从高斯分布，标准化可以使数据更符合标准正态分布，从而提高模型的性能。

适用于线性模型：
线性模型（如线性回归、支持向量机等）对特征的尺度敏感，标准化可以提高模型的稳定性和准确性

### Data normalization and inverse normalization  using sklearn. [0,1]

In [11]:
mm = MinMaxScaler()# 创建MinMaxScaler 对象
mm_data = mm.fit_transform(data) # 归一化数据
origin_data = mm.inverse_transform(mm_data)

In [12]:
mm_data

array([[0.94183922, 0.19496307, 0.25633051, 0.36517236],
       [1.        , 0.5298233 , 0.        , 0.35784513],
       [0.63714482, 0.68914232, 0.49208627, 0.90456499],
       [0.6564627 , 0.07184974, 0.40432232, 0.61745335],
       [0.81847579, 0.48835889, 0.20516565, 0.43704491],
       [0.4913258 , 1.        , 0.36277974, 0.4730961 ],
       [0.45440576, 0.65288744, 0.13742475, 0.22733104],
       [0.58797398, 0.353989  , 0.31295517, 0.23570665],
       [0.69658279, 0.49475875, 0.56002907, 0.25979565],
       [0.32441364, 0.83397906, 1.        , 0.8705413 ],
       [0.        , 0.41376109, 0.75572324, 0.87046891],
       [0.89567961, 0.63647178, 0.23771862, 0.41161601],
       [0.67423187, 0.39491988, 0.90344942, 0.53708804],
       [0.68215396, 0.50110119, 0.7398357 , 0.84565408],
       [0.37787033, 0.49625444, 0.2473889 , 0.55854318],
       [0.86563055, 0.75284741, 0.61565092, 0.33543309],
       [0.57811849, 0.80158513, 0.47465147, 0.43258059],
       [0.91583751, 0.36867426,


将数据缩放到固定范围：
归一化可以将数据限制在一个固定的范围内（如 [0, 1]），避免某些特征因取值范围过大而主导模型。

适用于非高斯分布：
归一化不依赖于数据的分布，适用于非高斯分布的数据。

提高计算效率：
对于某些算法（如神经网络），归一化可以加快计算速度。

适用于图像数据：
图像像素值通常范围在 [0, 255]，归一化到 [0, 1] 可以简化模型处理。

## Encoding the Categorical variables

机器学习模型通常只能处理数值数据，不能直接处理分类数据（如颜色、性别等）。下面将介绍one-hot encoding。独热编码将分类变量转换为二进制向量，使得模型能够理解和处理这些特征。

避免模型误认为分类变量之间存在数值关系（例如，将“红色”编码为 1，“绿色”编码为 2，模型可能会误认为“绿色”比“红色”大）。


In [13]:
import pandas as pd

In [14]:
s = pd.Series(list('abca'))
s

0    a
1    b
2    c
3    a
dtype: object

In [15]:
print(pd.get_dummies(s))

       a      b      c
0   True  False  False
1  False   True  False
2  False  False   True
3   True  False  False


In [16]:
s1 = ['a', 'b', np.nan]
print(pd.get_dummies(s1))

       a      b
0   True  False
1  False   True
2  False  False


In [17]:
print(pd.get_dummies(s1, dummy_na=True))

       a      b    NaN
0   True  False  False
1  False   True  False
2  False  False   True


In [18]:
df = pd.DataFrame({'A': ['a', 'b', 'a'], 'B': ['b', 'a', 'c'],
                   'C': [1, 2, 3]})
print(df)

   A  B  C
0  a  b  1
1  b  a  2
2  a  c  3


In [19]:
print(pd.get_dummies(df))

   C    A_a    A_b    B_a    B_b    B_c
0  1   True  False  False   True  False
1  2  False   True   True  False  False
2  3   True  False  False  False   True


In [20]:
pd.get_dummies(pd.Series(list('abcaa')))


Unnamed: 0,a,b,c
0,True,False,False
1,False,True,False
2,False,False,True
3,True,False,False
4,True,False,False


In [21]:
pd.get_dummies(pd.Series(list('abcaa')), drop_first=True)

Unnamed: 0,b,c
0,False,False
1,True,False
2,False,True
3,False,False
4,False,False


In [22]:
pd.get_dummies(pd.Series(list('abc')), dtype=float)

Unnamed: 0,a,b,c
0,1.0,0.0,0.0
1,0.0,1.0,0.0
2,0.0,0.0,1.0


高维稀疏性：
独热编码会将每个类别转换为一个二进制向量，如果类别数量很多，会导致数据维度急剧增加，产生高维稀疏矩阵。
解决方法：使用特征选择或降维技术（如 PCA）。

多重共线性：
独热编码后的特征之间存在线性关系（例如，Color_Red + Color_Green + Color_Blue = 1），这可能导致模型不稳定。
解决方法：删除一个类别（设置 drop_first=True）。

类别不平衡：
如果某些类别出现频率极低，独热编码可能会导致模型过拟合。
解决方法：合并低频类别或使用其他编码方法（如目标编码）