In [1]:
from sklearn import datasets
iris = datasets.load_iris()
digits = datasets.load_digits()

In [2]:
digits.data

array([[  0.,   0.,   5., ...,   0.,   0.,   0.],
       [  0.,   0.,   0., ...,  10.,   0.,   0.],
       [  0.,   0.,   0., ...,  16.,   9.,   0.],
       ..., 
       [  0.,   0.,   1., ...,   6.,   0.,   0.],
       [  0.,   0.,   2., ...,  12.,   0.,   0.],
       [  0.,   0.,  10., ...,  12.,   1.,   0.]])

digits.target表示了数据集内的每个数字的真实类别

In [3]:
digits.target

array([0, 1, 2, ..., 8, 9, 8])

#### 数据数组的形状
数据总是二维数组,形状(n_samples, n_features), 尽管原始数据可能具有不同的形状.在数字的情况下,每个原始样本是形状(8, 8)的图像,可以使用一下方式访问.

In [4]:
digits.images[0]

array([[  0.,   0.,   5.,  13.,   9.,   1.,   0.,   0.],
       [  0.,   0.,  13.,  15.,  10.,  15.,   5.,   0.],
       [  0.,   3.,  15.,   2.,   0.,  11.,   8.,   0.],
       [  0.,   4.,  12.,   0.,   0.,   8.,   8.,   0.],
       [  0.,   5.,   8.,   0.,   0.,   9.,   8.,   0.],
       [  0.,   4.,  11.,   0.,   1.,  12.,   7.,   0.],
       [  0.,   2.,  14.,   5.,  10.,  12.,   0.,   0.],
       [  0.,   0.,   6.,  13.,  10.,   0.,   0.,   0.]])

## 学习和预测
在数字数据集的情况下,任务是给出图像来预测其表示的数字.给出了10个可能类(数字0到9)中的每一个的样本,我们
们在这些类上你和一个估计器,以便能够预测未知的样本所属的类

在scikit-learn中,分类的估计器是一个Python对象,它实现了fit(X, y)和predict(T)等方法


In [37]:
from sklearn import svm
clf = svm.SVC(gamma=0.001, C=100.)
clf.fit(digits.data[:-1], digits.target[:-1])

SVC(C=100.0, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma=0.001, kernel='rbf',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False)

In [38]:
print(digits.target[-1:])
clf.predict(digits.data[-1:])

[8]


array([8])

In [26]:
import cv2

cv2.imwrite("filename.png", digits.images[-1])
from PIL import Image
image = Image.open('filename.png')
clf.predict(digits.data[-1:])


array([8])

## 模型持久化

In [27]:
from sklearn import svm
from sklearn import datasets
clf = svm.SVC()
iris = datasets.load_iris()
X, y = iris.data, iris.target
clf.fit(X, y)

SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma='auto', kernel='rbf',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False)

使用python的内置持久化模块(即pickle)将模型保存

In [32]:
import pickle
s = pickle.dumps(clf)
clf2 = pickle.loads(s)
clf2.predict(X[0:1])


array([0])

In [29]:
y[0]

0

在scikit的具体情况下,使用joblib替换pickle(joblib.dump & joblib.load)可能会更有趣
这对大数据更有效,但只能序列化(pickle)到磁盘而不是字符串变量

In [31]:
from sklearn.externals import joblib
joblib.dump(clf, 'filename.pkl')

['filename.pkl']

In [40]:
clf3 = joblib.load('filename.pkl')
clf3.predict(X[0:1])


array([0])