## 使用IRIS数据集

In [1]:
from sklearn.datasets import load_iris

In [2]:
iris = load_iris()

In [3]:
# 数据集的四个特征名称
# 1.花萼长度
# 2.花萼宽度
# 3.花瓣长度
# 4.花瓣宽度
iris.feature_names

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

In [4]:
# 数据集的目标名称
# 0.山鸢尾
# 1.杂色鸢尾
# 2.维吉尼亚鸢尾
iris.target_names

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

In [5]:
# 详细数据,查看前10
iris.data[:10]

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1]])

In [6]:
# 分类数据,已经用OneHot编码标志好,
iris.target[:10]

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

# 1.数据预处理
## 使用sklearn的数据处理酷preprocessing进行数据的预处理

## 1.1 标准化（将数据调整为正态分布，去均值的中心化（均值变为0）；方差的规模化（方差变为1）：
$$\acute{x} = \frac{x-\bar{x}}{S} ,\bar{x}:为均值, S：为方差$$


In [7]:
from sklearn.preprocessing import StandardScaler

SS = StandardScaler()   # 因为StandardScaler是一个Class,所以先要实例化
SS_data = SS.fit_transform(iris.data)

In [8]:
SS_data[:10]

array([[-0.90068117,  1.03205722, -1.3412724 , -1.31297673],
       [-1.14301691, -0.1249576 , -1.3412724 , -1.31297673],
       [-1.38535265,  0.33784833, -1.39813811, -1.31297673],
       [-1.50652052,  0.10644536, -1.2844067 , -1.31297673],
       [-1.02184904,  1.26346019, -1.3412724 , -1.31297673],
       [-0.53717756,  1.95766909, -1.17067529, -1.05003079],
       [-1.50652052,  0.80065426, -1.3412724 , -1.18150376],
       [-1.02184904,  0.80065426, -1.2844067 , -1.31297673],
       [-1.74885626, -0.35636057, -1.3412724 , -1.31297673],
       [-1.14301691,  0.10644536, -1.2844067 , -1.4444497 ]])

## 1.2区间规模化，这里规模到[0,1]的范围：
$$\acute{x} = \frac{x-Min}{Max-Min},Max为样本某一特征的最大值，Min为样本某以特征的最小值$$

In [9]:
from sklearn.preprocessing import MinMaxScaler

mm = MinMaxScaler()
mm_data = mm.fit_transform(iris.data)

## 1.3 正则化Normalization

In [10]:
from sklearn.preprocessing import Normalizer

nor = Normalizer() # 默认norm='l2'，l2正则化
no_data = nor.fit_transform(iris.data)

## 1.4 二值化
#### 即设定某个阈值，当某个样本的某个特征值大于这个阈值的时候，设为1，小于等于这个阈值的时候则为0
#### 这个也经常用在预测类别的时候使用，当confidence> 0.5的时候就为1，confidence <= 0.5 则为0
公式：
$$\acute{x} = \begin{cases}1,x > threshold\\ 0, x <= threshold \end{cases}$$

In [11]:
from sklearn.preprocessing import Binarizer

# 这里仅作示范，我随便设置了threshold=0.5,真实情况还是要具体观察数据的量纲规格
Bin = Binarizer(threshold=0.5)
Bin_data = Bin.fit_transform(iris.data)

## 1.5 独热编码OneHotEncoder
假设x1样本对应于类别y1=0, 任务里具有的类别数目为3种类别，则经过OneHotEncoder之后，y1=[1, 0, 0]

In [12]:
from sklearn.preprocessing import OneHotEncoder

one_hot = OneHotEncoder()
true_class = one_hot.fit_transform(iris.target.reshape(-1, 1)).toarray()

## 1.6 缺失值处理
对于一些大型数据集，会存在不少样本的某些特征值是缺失的，缺失的数据会对模型的训练造成不好的影响。因此我们需要进行缺失值的填补

In [13]:
from numpy import nan, array
from sklearn.preprocessing import Imputer

# 创建一个具有nan的array以作示范
a = array([[1, 1.3, 2.3, 3],
           [1.4, 1.5, 2.0, 3.3],
    [nan, nan, nan, nan]])
im = Imputer(strategy='mean')  # 默认与mean均值方式进行填补，也可以选择中位数，众数等方式进行填补
a = im.fit_transform(a, str)

In [14]:
a[1]

array([1.4, 1.5, 2. , 3.3])