### Загрузка данных: Сначала данные MNIST загружаются с помощью функции load_digits(). Этот набор данных содержит изображения рукописных цифр от 0 до 9.

In [28]:
from sklearn import svm, metrics
from sklearn.model_selection import train_test_split
from sklearn.datasets import fetch_mldata, load_digits

from sklearn.model_selection import GridSearchCV

### Подготовка данных: Изображения цифр преобразуются в одномерные массивы, чтобы их можно было использовать для обучения модели.
### Разделение данных: Данные разделяются на обучающий и тестовый наборы с использованием функции train_test_split(). Обычно используется разделение в пропорции 70% для обучения и 30% для тестирования.

In [29]:
digits = load_digits()
n_samples = len(digits.images)
data = digits.images.reshape((n_samples, -1))
X_train, X_test, y_train, y_test = train_test_split(data, digits.target, test_size=0.3, random_state=0)

### Обучение модели без подбора гиперпараметров: Сначала обучается базовая модель SVM без подбора гиперпараметров, и точность этой модели оценивается на тестовом наборе.

In [35]:
classifier = svm.SVC()
classifier.fit(X_train, y_train)
predicted = classifier.predict(X_test)
print("Accuracy: %.3f" % metrics.accuracy_score(y_test, predicted))

Accuracy: 0.472


### Подбор гиперпараметров с помощью GridSearchCV: Для улучшения точности модели используется метод GridSearchCV для перебора различных комбинаций гиперпараметров модели SVM, таких как ядро, gamma и параметр регуляризации C.

In [36]:
svc = svm.SVC()

hyperparam_grid = {
    'kernel':('linear', 'rbf'),
    'gamma':[0.00001, 0.0001, 0.001, 0.01, 0.1, 1],
    'C':[1, 3, 5, 7, 9]
}

classifier = GridSearchCV(svc, hyperparam_grid)
classifier.fit(X_train, y_train)

GridSearchCV(cv=None, error_score='raise',
       estimator=SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma='auto', kernel='rbf',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False),
       fit_params={}, iid=True, n_jobs=1,
       param_grid={'kernel': ('linear', 'rbf'), 'C': [1, 3, 5, 7, 9], 'gamma': [1e-05, 0.0001, 0.001, 0.01, 0.1, 1]},
       pre_dispatch='2*n_jobs', refit=True, return_train_score=True,
       scoring=None, verbose=0)

### Оценка лучших параметров модели: После обучения GridSearchCV выводятся лучшие параметры модели.

In [37]:
print('Best score for data1:', classifier.best_score_)

('Best score for data1:', 0.98965791567223549)


### Оценка точности модели с лучшими параметрами: Модель SVM обучается на обучающем наборе с лучшими гиперпараметрами, и ее точность оценивается на тестовом наборе.

In [43]:
print('Best Kernel:\t%s' % classifier.best_estimator_.kernel)
print('Best Gamma:\t%s' % classifier.best_estimator_.gamma)
print('Best C:\t\t%s' % classifier.best_estimator_.C)

Best Kernel:	rbf
Best Gamma:	0.001
Best C:		3


In [47]:
predicted = classifier.predict(X_test)
print("Accuracy: %.3f" % metrics.accuracy_score(y_test, predicted))

Accuracy: 0.991


In [46]:
len(data[0])

64

In [None]:
print("Classification report for classifier %s:\n%s\n"
      % (classifier, metrics.classification_report(y_test, predicted)))
print("Confusion matrix:\n%s" % metrics.confusion_matrix(y_test, predicted))