# 数据预处理之特征编码

LabelEncoder

LabelEncoder是用来对分类型特征值进行编码，即对不连续的数值或文本进行编码。其中包含以下常用方法：

fit(y) ：fit可看做一本空字典，y可看作要塞到字典中的词。

fit_transform(y)：相当于先进行fit再进行transform，即把y塞到字典中去以后再进行transform得到索引值。

inverse_transform(y)：根据索引值y获得原始数据。

transform(y) ：将y转变成索引值。


In [None]:
from sklearn import preprocessing
le = preprocessing.LabelEncoder()
le.fit(["paris", "paris", "tokyo", "amsterdam"])
list(le.classes_)#即amsterdam代表0，paris代表1，tokyo代表2
le.transform(["tokyo", "tokyo", "paris"]) #此时编码后的值为2，2，1
list(le.inverse_transform([2, 2, 1]))


In [None]:
le.fit_transform(["from Europe", "from US", "from Asia"])

OneHotEncoder

有一些特征并不是以连续值的形式给出。例如：人的性别 [“male”, “female”]，来自的国家 [“from Europe”, “from US”, “from Asia”]，使用的浏览器[“uses Firefox”, “uses Chrome”, “uses Safari”, “uses Internet Explorer”]。这种特征可以采用整数的形式进行编码，如： [“male”, “from US”, “uses Internet Explorer”] 可表示成 [0, 1, 3] ，[“female”, “from Asia”, “uses Chrome”] 可表示成[1, 2, 1]。 但是，这些整数形式的表示不能直接作为某些机器学习算法输入，因为有些机器学习算法是需要连续型的输入数据，同一列数据之间数值的大小可代表差异程度。如： [0, 1, 3]与[0,1,0]的特征差异比[0, 1, 3]与[0,1,2]之间的差异要大，但事实上它们的差异是一样的，都是浏览器使用不一样。

一个解决办法就是采用OneHotEncoder，这种表示方式将每一个分类特征变量的m个可能的取值转变成m个二值特征，对于每一条数据这m个值中仅有一个特征值为1，其他的都为0


In [None]:
enc = preprocessing.OneHotEncoder()
enc.fit([[0, 0, 3], [1, 1, 0], [0, 2, 1], [1, 0, 2]])
enc.transform([[0, 2, 1]]).toarray()#给0，1，3编码


# 数据预处理之归一化

MinMaxScaler：归一到 [ 0，1 ]

每一列特征中的最小值变成了0，最大值变成了1.

MaxAbsScaler：归一到 [ -1，1 ] 


In [None]:
from sklearn import preprocessing
import numpy as np
 
x = ([[3., -1., 2., 0.],
      [2., 1., 1., 1],
      [1., 0., 0., 2]])
 
min_max_scaler = preprocessing.MinMaxScaler()
x_minmax = min_max_scaler.fit_transform(x)
print("数据归一化后\n",x_minmax)
print("将数据还原\n",min_max_scaler.inverse_transform(x_minmax))#任意输入数据都可以被还原，但是注意带还原的数据需要和归一化后的数据是同样的列数 如x是3*4，带还原数据应该是某*4的


#如果有新的测试数据进来，也想做同样的转换，那么将新的测试数据添加到原数据末尾即可

y = [7., 1., -4., 987]#新的测试数据
x.append(y)#将y添加到x的末尾
print('x ：\n', x)
x_minmax = min_max_scaler.fit_transform(x)
print('x_minmax :\n', x_minmax)

# 模型评估参数

In [None]:
print('MSE为：',mean_squared_error(y_test,y_pred))
print('RMSE为：',np.sqrt(mean_squared_error(y_test,y_pred)))
print('MSLE为：',mean_squared_log_error(y_test,y_pred))
print('MAE为：',mean_absolute_error(y_test,y_pred))

# Keras 核心网络层

In [None]:
#Permute 根据指定的模式更换输入的维度
model = Sequential()
model.add(Permute((2, 1), input_shape=(10, 64)))
# 现在： model.output_shape == (None, 64, 10)
# 注意： `None` 是批表示的维度
#该层的输出与输入尺寸相同，但是维度根据指定的模式重新排列

In [None]:
#RepeatVector 将输入重复n次
model = Sequential()
model.add(Dense(32, input_dim=32))
# 现在： model.output_shape == (None, 32)
# 注意： `None` 是批表示的维度

model.add(RepeatVector(3))
# 现在： model.output_shape == (None, 3, 32)
#输入尺寸2D 张量，尺寸为 (num_samples, features)
#输出尺寸3D 张量，尺寸为 (num_samp


In [None]:
#Flatten 将输入展平。不影响批量大小
model = Sequential()
model.add(Conv2D(64, (3, 3),
                 input_shape=(3, 32, 32), padding='same',))
# 现在：model.output_shape == (None, 64, 32, 32)

model.add(Flatten())
# 现在：model.output_shape == (None, 65536)