### 标签二值化

http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelBinarizer.html#sklearn.preprocessing.LabelBinarizer

对于标称型数据来说，preprocessing.LabelBinarizer是一个很好用的工具。比如可以把yes和no转化为0和1，或是把incident和normal转化为0和1。当然，对于两类以上的标签也是适用的。这里举一个简单的例子，说明将标签二值化后用决策树分类，以及其逆过程。二值化的函数是preprocessing.LabelBinarizer.fit_transfrom(),参数可以是一个list对象。二值化逆过程函数为preprocessing.LabelBinarizer.inverse_transform(),参数不能是一个list对象，只能是numpy的array对象。

这里需要强调的是，LabelBinarizer有三个方法，fit、transform、fit_transform。这三个方法都只需要一个参数，但是有什么不同？举个例子，如果有三个类x=[A,B,C]，那么直接用fit_transform(x),就可以得到[[1,0,0],[0,1,0],[0,0,1]]。这种情况下，与先fit(x)，再transform(x)所得到的结果是一样的。但是如果现在要求分成4类，但是你x只有ABC三个值，用这种方法只能得到[[1,0,0],[0,1,0],[0,0,1]]，而你想要得到的其实是[[1,0,0,0],[0,1,0,0],[0,0,1,0]]。那么就必须先fit(y)，这个y是一个一行四列的array，比如range(4)或np.zeros((1,4))都可以，只是让fit方法去读y的shape，从而保证要分成4类而不是三类，然后再transform(x)。下面是fit方法的原代码：

``` python    
    def fit(self, y):
        """Fit label binarizer
        Parameters
        ----------
        y : array of shape [n_samples,] or [n_samples, n_classes]
            Target values. The 2-d matrix should only contain 0 and 1,
            represents multilabel classification.
        Returns
        -------
        self : returns an instance of self.
        """
        self.y_type_ = type_of_target(y)
        if 'multioutput' in self.y_type_:
            raise ValueError("Multioutput target data is not supported with "
                             "label binarization")
        if _num_samples(y) == 0:
            raise ValueError('y has 0 samples: %r' % y)

        self.sparse_input_ = sp.issparse(y)
        self.classes_ = unique_labels(y)
        return self
```

### 用例一

In [2]:
# -*- coding: UTF-8 -*-
from sklearn import preprocessing
from sklearn import tree
import numpy as np

# help(preprocessing.LabelBinarizer)#取消注释可以查看详细用法

# 特征矩阵
featureList=[[1,0],[1,1],[0,0],[0,1]]
# 标签矩阵
labelList=['yes', 'no', 'no', 'yes']
# 将标签矩阵二值化
lb = preprocessing.LabelBinarizer()
dummY=lb.fit_transform(labelList)
print(type(dummY))
print("dummY is ",dummY)
# 模型建立和训练
clf = tree.DecisionTreeClassifier()
clf = clf.fit(featureList, dummY)
p=clf.predict([[0,1]])
# print(p)#取消注释可以查看p的值

# 逆过程
yesORno=lb.inverse_transform(p)
print(yesORno)
a=np.array([[1],[0]])
print(lb.inverse_transform(a))

<class 'numpy.ndarray'>
dummY is  [[1]
 [0]
 [0]
 [1]]
['yes']
['yes' 'no']


### 数据分裂成训练集和测试集
train_test_split是交叉验证中常用的函数，功能是从样本中随机的按比例选取train_data和test_data，形式为：
X_train,X_test, y_train, y_test =cross_validation.train_test_split(train_data,train_target,test_size=0.4, random_state=0)
- test_size：测试集大小占比，如果是整数的话就是样本的数量
- random_state：是随机数的种子。

In [1]:
import numpy as np  
from sklearn.model_selection import train_test_split  
  
X=np.array([[0,1],[2,3],[4,5],[6,7],[8,9]])  
y=[0,1,2,3,4]  
print(X)  
print(y)  
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=0)  
print(X_train)  
print(y_train)  
print(X_test)  
print(y_test)  

[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]
[0, 1, 2, 3, 4]
[[2 3]
 [6 7]
 [8 9]]
[1, 3, 4]
[[4 5]
 [0 1]]
[2, 0]
