# 数据预处理
## 1) 标准化（均值移除）
让样本矩阵中每一列的平均值为0，标准差为1.如有三个数a,b,c 则平均值为
$$ m = (a + b + c) / 3 $$
$$ a' = a - m $$
$$ b' = b - m $$
$$ c' = c - m $$

预处理后的平均值为0(根据上面计算的均值，计算均值为0公式如下)：
$$ (a' + b' + c')/3  =0 $$
预处理后的标准差（计算标准差为1）：

$$ a'' = a' / m $$
$$ b'' = b' / m $$
$$ c'' = c' / m $$

推导过程
$$ s = sqrt(((a-m)^{2}+(b-m)^{2}+(c-m)^{2}) / 3) $$
$$ s'' = sqrt(((a'/s)^{2} + (b'/s)^{2} + (c'/s)^{2})/3) $$
$$     = sqrt((a'^{2}+b'^{2}+c'^{2})/(3*s^{2})) $$
$$     = 1 $$


In [7]:
'''
    均值移除， 调整数据的分布状态，以列为单位
    让每列的均值为0，标准差为1. 主要的功能是让测试样本中的数据平均。不要出现特异的异常数据
    数学步骤：
    1. 原始数据减去均值
    2. 减完之后的结果除以元素数据的标准差
'''
import numpy as np
# 样本数据
raw_sample = np.array([[3.0, -1.0, 2.0], [0.3, 4.0, 3.0], [1.0, -4.0, 2.0]])
# 数学步骤计算
# std_sample = raw_sample.copy()
# # 获取每一列的数据, 使用的方法为。 使用 T 方法对数据进行旋转
# for col in std_sample.T:
#     # 求出均值
#     col_mean = col.mean()
#     # 求出标准差
#     col_std = col.std()
#     # 原始数据减去均值
#     col -= col_mean
#     # 原始数据除以标准差
#     col /= col_std
# 使用 sklearn 提供的 api 进行数据预处理
import sklearn.preprocessing as sp
res = sp.scale(raw_sample)

print(f'使用 SKLearn 处理均值: {res.mean(axis=0)}')
print(f'使用 SKLearn 标准差: {res.std(axis=0)}')

使用 SKLearn 处理均值: [ 0.00000000e+00  0.00000000e+00 -2.96059473e-16]
使用 SKLearn 标准差: [1. 1. 1.]


# 范围缩放
*范围缩放*的作用和*均值移除*差不多。
*范围缩放*是将每列数据中最大的值变为`1`，最小值变为`0`，其他的值等比例缩放
## 数学方法
    <br>1. 用原始数据 - 最小值
    <br>2. 减完之后的结果 /（原始数据的最大值 - 最小值）

In [11]:
import numpy as np
import sklearn.preprocessing as sp

# 样本数据
raw_sample = np.array([[3.0, 11.0, 2.0], [0.3, 4.0, 3.0], [9.0, 8.0, 2.0]])

mms_sample = raw_sample.copy()

for col in mms_sample.T:
    col_min = col.min()
    col_max = col.max()
    col -= col_min
    col /= (col_max - col_min)

print(f'math : {mms_sample}')
print('-' * 50)
# 使用 api 计算范围缩放
# 创建一个范围缩放器, feature_range 指定最大最小值的范围
mms = sp.MinMaxScaler(feature_range=(0, 1))
# 进行缩放
mms_sample = mms.fit_transform(raw_sample)
print(f'api fit transform {mms_sample}')


math : [[0.31034483 1.         0.        ]
 [0.         0.         1.        ]
 [1.         0.57142857 0.        ]]
--------------------------------------------------
api fit transform [[0.31034483 1.         0.        ]
 [0.         0.         1.        ]
 [1.         0.57142857 0.        ]]


# 归一化
将每一行的数据转换为百分比(0-1)， 可以有效的反应数据的占比。
<Br> 每一个样本数据 / 每个数据绝对值之和
<hr>
<br> 归一化是数学中的一种技术，通常用于处理和标准化数据。归一化通过将数据转换为具有相同尺度的新数据，以确保所有数据具有相同的权重。在机器学习中，归一化通常用于预处理数据，以确保所有特征具有相似的尺度，从而使模型能够更好地拟合数据。

In [16]:
import numpy as np
import sklearn.preprocessing as sp
 
# 样本数据
raw_sample = np.array([[10., 20., 5.], [8., 10., 1.]])

nor_sample = raw_sample.copy()

for row in nor_sample:
    # 绝对值之和
    row /= abs(row).sum()
print('math: ', nor_sample)
print('-'*50)
# norm的参数 l1 或 l2 是计算时每一个元素指定使用 绝对值 还是 平方
# l1 每一个元素绝对值之和
# l2 每一个元素平方之和
nor_sample = sp.normalize(raw_sample, norm='l1')
print(f'sklearn: {nor_sample}')

math:  [[0.28571429 0.57142857 0.14285714]
 [0.42105263 0.52631579 0.05263158]]
--------------------------------------------------
sklearn: [[0.28571429 0.57142857 0.14285714]
 [0.42105263 0.52631579 0.05263158]]


# 二值化
根据给定的阈值，将样本数据用`0`和`1`来表示样本数据的特征是否超过阈值
<hr>
二值化是数字图像处理中的一种技术，用于将图像中的每个像素点的灰度值转换为黑或白。它将整个图像的灰度分布限制在两个级别，通常是0和255，以此来简化图像的处理。

二值化有以下作用：

去除噪声：二值化可以帮助去除图像中的噪声，从而使图像更清晰。

简化图像：二值化可以简化图像，使其变得更容易处理。

提高边缘检测的效率：二值化可以帮助提高边缘检测的效率，因为图像中的边缘变得更明显。

文字识别：二值化可以帮助文字识别，因为文字在二值图像中变得更明显。

二值化是图像处理的常见技术，在计算机视觉和图像处理领域有着广泛的应

In [5]:
import numpy as np
import sklearn.preprocessing as sp

raw_sample = np.array([[65., 89., 73.], [55., 99.,98.], [45.,22.5, 60.]])

bin_sample = raw_sample.copy()
# 生成掩码
mask1 = bin_sample < 60
mask2 = bin_sample >= 60
bin_sample[mask1] = 0
bin_sample[mask2] = 1
print(bin_sample)
print('-'*50)
bin = sp.Binarizer(threshold=59)
bin_sample = bin.transform(raw_sample)
print(f'MKLearn 二值化: \n{bin_sample}')



[[1. 1. 1.]
 [0. 1. 1.]
 [0. 0. 1.]]
--------------------------------------------------
MKLearn 二值化: 
[[1. 1. 1.]
 [0. 1. 1.]
 [0. 0. 1.]]


# 独热编码
<hr>
独热编码是可逆的
<br>
独热编码的主要作用是将分类变量（categorical variable）转换为数字型变量，以便用于机器学习模型的训练。独热编码的原理是对每一个分类创建一个二元（0/1）变量，表示该样本是否属于该分类。这样，机器学习模型就可以对数字型特征进行训练。

In [11]:
import numpy as np
import sklearn.preprocessing as sp

data = np.array([[1,2,3,4],[2,3,9,0],[1,3,8,9]])

one_hot_encode = sp.OneHotEncoder(
    sparse=False, dtype='int32', categories='auto')
# 进行编码
res = one_hot_encode.fit_transform(data)
print(f'编码: {res}')
print('-'*50)
print(f'解码: {one_hot_encode.inverse_transform(res)}')


编码: [[1 0 1 0 1 0 0 0 1 0]
 [0 1 0 1 0 0 1 1 0 0]
 [1 0 0 1 0 1 0 0 0 1]]
--------------------------------------------------
解码: [[1 2 3 4]
 [2 3 9 0]
 [1 3 8 9]]


# 标签编码
<hr>
标签编码就是将字符串的标签,转换为一组数值的方法

In [8]:
'''
    将目标数据标签,转换为一组数值
'''
import numpy as np
import sklearn.preprocessing as sp
import pandas as pd

# 读取目标文件
datas = pd.read_csv('../data_test/car.txt', header=None)

res_datas = pd.DataFrame()
# 这个遍历时获取到每一列的列名
for i in datas:
    encoder = sp.LabelEncoder()
    # 将每一列的数据根据标签编码进行转换, 它的结果为一个一维数组
    res = encoder.fit_transform(datas[i])
    # 将转换的结果赋值给新的DataFrame对象中, 赋值时会将当前的一维数组,转换为 DataFrame 中的列
    res_datas[i] = res
    
print(res_datas)
    



[3 3 3 ... 1 1 1]
[3 3 3 ... 1 1 1]
[0 0 0 ... 3 3 3]
[0 0 0 ... 2 2 2]
[2 2 2 ... 0 0 0]
[1 2 0 ... 1 2 0]
[2 2 2 ... 2 1 3]
      0  1  2  3  4  5  6
0     3  3  0  0  2  1  2
1     3  3  0  0  2  2  2
2     3  3  0  0  2  0  2
3     3  3  0  0  1  1  2
4     3  3  0  0  1  2  2
...  .. .. .. .. .. .. ..
1723  1  1  3  2  1  2  1
1724  1  1  3  2  1  0  3
1725  1  1  3  2  0  1  2
1726  1  1  3  2  0  2  1
1727  1  1  3  2  0  0  3

[1728 rows x 7 columns]
