# The demo for the scikit learn

## cross_valitaion  交叉验证

In [1]:
import numpy as np
from sklearn import cross_validation
from sklearn import datasets
from sklearn import svm

In [3]:
iris = datasets.load_iris()
iris.data.shape, iris.target.shape


((150, 4), (150,))

In [7]:
iris.data[1]

array([ 4.9,  3. ,  1.4,  0.2])

用train_test_split来分出训练集和测试集

In [11]:
x_train, x_test, y_train, y_test = cross_validation.train_test_split(iris.data, iris.target, test_size= 0.4, random_state = 0)
x_train.shape, y_train.shape

((90, 4), (90,))

In [12]:
clf = svm.SVC(kernel= 'linear', C= 1).fit(x_train, y_train)
clf.score(x_test, y_test)

0.96666666666666667

score是用来评判这个模型的好坏，即在测试集中的正确率

下面提到交叉验证。**它也只是一种判断模型好坏的方法。**

运用它的目的和原因：
①避免了数据量过少的麻烦
②避免了人为的过拟合
有数据d，经过k次平均分割，每次分割成traini和testi分别代表第i个测试集合训练集，用traini训练模型，并用testi测试模型，得到的第i个模型的得分是scorei，当结果k次执行后，共得到k个得分[score1,score2,⋯,scorek]，求这k个得分的平均值作为模型的最终得分。

In [14]:
scores = cross_validation.cross_val_score(clf, iris.data, iris.target, cv = 5)
scores

array([ 0.96666667,  1.        ,  0.96666667,  0.96666667,  1.        ])

这里的参数（训练模型，特征数据，目标数据，折叠交叉次数5次即验证5次），
然后输出平均分数和具有95%置信区间的分数估计

In [16]:
print("Accuracy: %0.2f (+/- %0.2f)" % (scores.mean(), scores.std() * 2))

Accuracy: 0.98 (+/- 0.03)


>
>cross_validation.cross_val_score(estimator, X, y=None, scoring=None, cv=None, n_jobs=1, >verbose=0, fit_params=None, pre_dispatch='2*n_jobs')
>cross_val_score的所有参数，score=可以用来改变计分方式，比如加权score='f1_weight'




# preprocessing 数据标准化模块

In [18]:
from sklearn import preprocessing


1. **将数据转化为标准正态分布**
  preprocessing.scale(X, axis=0, with_mean=True, with_std=True, copy=True)

  两种实现方式：
    x_scale = preprocessing.scale(x)
    scaler = preprocessing.StandarScaler()
    x_scaled = scaled.fit_transform(x)

  
2. **将特征取值缩小到一个范围（如0到1）**
  方法目的：①对于方差非常小的属性可以增强其稳定性
  ②维持稀疏矩阵中为0的条目

  preprocessing.minmax_scale(X, feature_range=(0, 1), axis=0, copy=True)

  或者
  min_max_scaler = preprocessing.MinMaxScaler()
  X_minMax = min_max_scaler.fit_transform(X)
  
  
3. **正则化，归一化**
  preprocessing.normalize(X, norm='l2', axis=1, copy=True)
  norm可取值 'l1', 'l2', 'max'

  或者
  normalizer = preprocessing.Normalizer().fit(X)
  normalizer.transform(X)
  fit的过程并没有做什么，知道使用属性transform才使得数据变形
  
  
4. **二值化**
  preprocessing.binarize(X, threshold=0.0, copy=True)
  threshold为阈值，小于等于threshold为0，大于的为1

  binarizer = preprocessing.Binarizer(threshold=1.1)
  binarizer.transform(X)
  
  
5. **数据缺失**
  class preprocessing.Imputer(missing_values='NaN', strategy='mean', axis=0, verbose=0,   copy=True)
  这是一个类，上面的有er的也都是类，赋值到一个对象上后，可以用它自身的方法
  参数： 
  •missing_values：int 或者 “NaN”，对np.nan的值用 "NaN"
  •strategy："mean"、"median"、"most_frequent"
  属性： 
  •statistics_：ndarray，当axis==0时，取每列填补时用的值
  方法：fit(X[, y])、transform(X[, y, copy])、fit_transform(X[, y])、get_params([deep])、   set_params(**params)
  
  
6. **生成多维特征**
可以将数据多项式结合生成多维特征，比如 [a, b] 的二次多项式特征为 [1, a, b, a^2, ab, b^2]

•class preprocessing.PolynomialFeatures(degree=2, interaction_only=False, include_bias=True)：
参数： 
•degree：int，多项式次数
•interaction_only：boolean，是否只产生交叉相乘的特征
•include_bias：boolean，是否包含偏移列，即全为 1 的列
属性： 
•powers_：ndarray，二维数组。powers_[i, j] 表示第 i 维输出中包含的第 j 维输入的次数
•n_input_features_：int，输入维数
•n_output_features_：int，输出维数
方法：fit(X[, y])、transform(X[, y, copy])、fit_transform(X[, y])、get_params([deep])、set_params(**params)

In [20]:
scaler  = preprocessing.StandardScaler().fit(x_train)
x_train_transformed = scaler.transform(x_train)
clf = svm.SVC(C=1).fit(x_train_transformed, y_train)
x_test_transformed = scaler.transform(x_test)
clf.score(x_test_transformed, y_test)

0.93333333333333335