# 机器学习教程
【http://scikit-learn.org/stable/tutorial/basic/tutorial.html#loading-an-example-dataset】
## 相关机器学习的词汇
### 监督学习 supervised learning（with attributes and features）
- 分类classification （有name的训练）
- 回归regression（预测是连续的）


### 非监督学习 unsupervise learning(without any corresponding target values)
- 聚类 clustering
- 降维 reduce high-dimensional to two or three

### data set (with property)
- training data
- testing data


## 数据准备
- sklearn 有一些标准数据，如分类的iris和回归的波士顿房间
## 数据分为两类
- 训练数据（X,y）
- 预测数据（T）

In [2]:
#phython
from sklearn import datasets
iris =  datasets.load_iris()
digits =  datasets.load_digits()
print(digits.data)
print(digits.target)

[[ 0.  0.  5. ...  0.  0.  0.]
 [ 0.  0.  0. ... 10.  0.  0.]
 [ 0.  0.  0. ... 16.  9.  0.]
 ...
 [ 0.  0.  1. ...  6.  0.  0.]
 [ 0.  0.  2. ... 12.  0.  0.]
 [ 0.  0. 10. ... 12.  1.  0.]]
[0 1 2 ... 8 9 8]


In [3]:
digits.images[0]

array([[ 0.,  0.,  5., 13.,  9.,  1.,  0.,  0.],
       [ 0.,  0., 13., 15., 10., 15.,  5.,  0.],
       [ 0.,  3., 15.,  2.,  0., 11.,  8.,  0.],
       [ 0.,  4., 12.,  0.,  0.,  8.,  8.,  0.],
       [ 0.,  5.,  8.,  0.,  0.,  9.,  8.,  0.],
       [ 0.,  4., 11.,  0.,  1., 12.,  7.,  0.],
       [ 0.,  2., 14.,  5., 10., 12.,  0.,  0.],
       [ 0.,  0.,  6., 13., 10.,  0.,  0.,  0.]])

In [4]:
from sklearn import svm
clf = svm.SVC(gamma=0.001,C=100.)
clf.fit(digits.data[:-1],digits.target[:-1])
print(digits.data)
print(digits.target)
clf.predict(digits.data[-1:])

[[ 0.  0.  5. ...  0.  0.  0.]
 [ 0.  0.  0. ... 10.  0.  0.]
 [ 0.  0.  0. ... 16.  9.  0.]
 ...
 [ 0.  0.  1. ...  6.  0.  0.]
 [ 0.  0.  2. ... 12.  0.  0.]
 [ 0.  0. 10. ... 12.  1.  0.]]
[0 1 2 ... 8 9 8]


array([8])

## svm是什么？
[http://scikit-learn.org/stable/modules/svm.html#svm-classification]
## Support vector machines (SVMs) 是支持向量机，是监督学习的方法；
### 优点：
- 支持高维度计算；
- 即使训练sample模型小于实际测试数据量，依然有效；
- 使用子集进行的训练点，使用内存的效率更高；
- 多样性，内核函数的不同会产生不同的决策结果，普通的内核函数也可以进行指定。
### 缺点：
- 若是features的数量超过了sample,为了避免过度拟合，选择什么样的内核函数和规则就很关键了
- SVM并不直接提供评估结果，而是通过5重交叉验证提供？

SVM接受稠密矩阵和稀疏矩阵的输入，其中稀疏矩阵需要经过训练；
更多的选择：C-ordered numpy.ndarray (dense) or scipy.sparse.csr_matrix (sparse) with dtype=float64.

SVM & NuSVM 非常相似，只是接受的参数集不同；
linearSVM 是线性SVM,不接受Kernel的相关参数/函数设定，默认是线性模型，同时也缺少support_相关函数设定；
三种模型的输入：训练模型【数组arrayX(n_samlpe,n_feature)】,类标签【array y(n_sample)】


In [5]:
from sklearn import svm
X = [[3,0],[1,5]]
y = [0,8]
clf = svm.SVC(gamma='scale')
clf.fit(X,y)
print(X)
print(y)
clf.predict([[1,2.5]])

[[3, 0], [1, 5]]
[0, 8]


array([8])

In [6]:
clf.support_vectors_
clf.support_
clf.n_support_

array([1, 1], dtype=int32)

### SVM决策依靠训练模型，也就是支持向量；
### 这些向量的特征可以是support_vectors ,support_ / , n_support;

In [7]:
from sklearn import svm
X = [[0,1],[1,1]]
y = [0,1]
clf = svm.SVC(gamma='scale')
clf.fit(X,y)
clf.predict([[2,2]])

array([1])

# 模型的固化

In [8]:

from sklearn import svm
from sklearn import datasets
clf = svm.SVC(gamma='scale')
iris = datasets.load_iris()
X,y = iris.data, iris.target
clf.fit(X,y)
# 使用pickle处理数组信息或字符串
import pickle
s = pickle.dumps(clf)
clf2 = pickle.loads(s)
clf2.predict(X[0:1])
y[0]

0

### 处理大量数据时，用joblib更高效

In [9]:

from sklearn.externals import joblib
joblib.dump(clf,'filename.joblib')
clf = joblib.load('filename.joblib')

# 共约：sklearn estimators有这某种的专用规则，规范其预测行为；
## Type casting

In [10]:
import numpy as np
from sklearn import random_projection
rng =  np.random.RandomState(0)
X = rng.rand(10,2000)
X = np.array(X,dtype='float32')
X.dtype

dtype('float32')

In [14]:
transformer = random_projection.GaussianRandomProjection()
X_new = transformer.fit_transform(X)
X_new.dtype

dtype('float64')

### 回归是重铸到64位，而分类做法大体如下：

In [0]:
from sklearn import datasets
from sklearn.svm import SVC
iris = datasets.load_iris()
clf = SVC(gamma='scale')
clf.fit(iris.data,iris.target)
list(clf.predict(iris.data[:3]))

In [0]:
clf.fit(iris.data,iris.target_names[iris.target])
list(clf.predict(iris.data[:3]))

### 通过set_params()的方法，可以多次进行超高参数的更新，而多次调用fit()可重新覆盖前fit的数据

In [0]:
import numpy as np
from sklearn.svm import SVC
rng = np.random.RandomState(0)
X = rng.rand(100,10)
y = rng.binomial(1,0.5,100)
X_test = rng.rand(5,10)

clf = SVC()
# Support Vector Classification.
clf.set_params(kernel='linear').fit(X,y)
clf.predict(X_test)


In [13]:
# 多类和多标签
### 多类分类器是元分类器（不可再拆分的分类器）,多类分类器的学习结果和预测都依靠于数据的格式和数量；

In [0]:
from sklearn.svm import SVC
from sklearn.multiclass import OneVsRestClassifier
from sklearn.preprocessing import LabelBinarizer
X = [[1,2],[2,4],[4,5],[3,2],[3,1]]
y = [0,0,1,1,6]
classif = OneVsRestClassifier(estimator=SVC(gamma='scale',random_state=0))
classif.fit(X,y).predict(X)

y = LabelBinarizer().fit_transform(y)
classif.fit(X,y).predict(X)