# Ведение в scikit-learn

 Библиотека scikit-learn реализует множество алгоритмов машинного обучения. 

нашей целью здесь будет не изучение методов машинного обучения, а знакомство с инструментом для его применения.

сначала нужно проверить номер версии пакета

In [None]:
import sklearn
sklearn.__version__

Если номер версии ниже, то следует установить новую не ниже 20.

!pip install -U scikit-learn

## scikit-learn

- коллекция алгоритмов машинного обучения и вспомогательных инстркментов на Python
- BSD Licensed
- разрабатывался около 20 специалистами
- хорошая документация и большое число примеров в открытом доступе (в т.ч. на русском)


Охватывает три вида машинного обучения

- Supervised
- Unsupervised
- Reinforcement 

### Supervised learning
Training:набор X_train вместе с метками (labels) y_train.

Testing: заданный X_test, предсказывается y_test.

Например:

- Classification (spam, sentiment analysis, ...)
- Regression (акции, продажи, ...)
- Ranking (извлечение, поиск, ...)

### Unsupervised Learning
Набор X. Узнать что-либо о  X.

Например:

- Сокращение размерности (линейные методы)
- Кластеризация
- Представление многообразиями для сокращения размерности нелинейными методами - (Manifold) learning - 

![image.png](attachment:image.png)

### Пример (игрушечный) для иллюстрации

In [None]:
from sklearn.datasets import load_digits
digits = load_digits()

In [None]:
print("images shape: %s" % str(digits.images.shape))
print("targets shape: %s" % str(digits.target.shape))

сейчас мы будем использовать визуализацию

In [None]:
import matplotlib.pyplot as plt

Вот так выглядят наши цифры

In [None]:
digits.images[0]

In [None]:
digits.images.shape

In [None]:
plt.matshow(digits.images[0], cmap=plt.cm.Greys);

А это метки - по одной  для каждого массива изображения

In [None]:
digits.target

#### Подготовка данных

Sklearn требует работы только c 2 D массивами, поэтому преобразуем 3D (тензор 3 ранга) массив в плоский

In [None]:
X = digits.data.reshape(-1, 64)
print(X.shape)

In [None]:
y = digits.target
print(y.shape)

Теперь вместо 1797 8Х8 матриц изображений мы  имеем 1797 точек данных в 64 мерном пространстве - 1797 64  мерных векторов

X.shape всегда (n_samples, n_feature)

In [None]:
print(X)

## С чего начать
Dimensionality Reduction and Manifold Learning

- сначала всегда нужно посмотреть на имеющиеся данные
- спроектировать многомерные данные на двумерное пространство (плоскость) - самый простой путь

### Анализ по главным компонентам Principal Component Analysis (PCA)

In [None]:

from sklearn.decomposition import PCA

Выберем модель и установим параметры.

In [None]:
pca = PCA(n_components=2)

Обучим модель (подгонка внутренних параметров fitting)

In [None]:
pca.fit(X)

теперь модель можно применять. Она может выступать как преобразователь (transformer) для декомпозиции или эмбеддинга - получения представлений в другом пространстве

In [None]:
X_pca = pca.transform(X)
X_pca.shape

In [None]:
plt.figure(figsize=(16, 10))
plt.scatter(X_pca[:, 0], X_pca[:, 1], c=y);

In [None]:
print(pca.mean_.shape)
print(pca.components_.shape)

In [None]:

fix, ax = plt.subplots(1, 3,figsize=(16, 16))
ax[0].matshow(pca.mean_.reshape(8, 8), cmap=plt.cm.Greys)
ax[1].matshow(pca.components_[0, :].reshape(8, 8), cmap=plt.cm.Greys)
ax[2].matshow(pca.components_[1, :].reshape(8, 8), cmap=plt.cm.Greys);

### А теперь пример использования нелинейного представления Manifold learning, называется  Isomap

In [None]:
from sklearn.manifold import Isomap

Модель так и называется. Установим гиперпараметры

In [None]:
isomap = Isomap(n_components=2, n_neighbors=20)

Теперь обучим модель

In [None]:
isomap.fit(X)

Теперь модель может быть применена для трансформации

In [None]:
X_isomap = isomap.transform(X)
X_isomap.shape

In [None]:
plt.figure(figsize=(16, 10))
plt.scatter(X_isomap[:, 0], X_isomap[:, 1], c=y)

## Задача классификации Classification

сначала разделим имеющиеся у нас данные на обучающий датасет и тестовый набор

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

In [None]:
print("X_train shape: %s" % repr(X_train.shape))
print("y_train shape: %s" % repr(y_train.shape))
print("X_test shape: %s" % repr(X_test.shape))
print("y_test shape: %s" % repr(y_test.shape))

#### Начнем с простого алгоритма Linear SVMs

он строит линейную разделительную поверхность между классами

In [None]:
from sklearn.svm import LinearSVC

In [None]:
svm = LinearSVC(random_state=0, tol=1e-5)

используя имеющийся вектор меток, выполним обучение модели

In [None]:
svm.fit(X_train, y_train);

In [None]:
print(svm.coef_)

Посмотрим как обученная модель классифицирует наши цифры на обучающем датасете

In [None]:
svm.predict(X_train)

Вот так можно найти ошибку классификации

In [None]:
svm.score(X_train, y_train)

А теперь для тестового набора

In [None]:
svm.score(X_test, y_test)

### Более сложный алгоритм классификации: Random Forests

In [None]:
from sklearn.ensemble import RandomForestClassifier

In [None]:
rf = RandomForestClassifier()

In [None]:
rf.fit(X_train, y_train)

In [None]:
rf.score(X_train, y_train)

In [None]:
rf.score(X_test, y_test)

## Выбор модели и оценивание характеристик

используем оценивание методом кросс-валидации

In [None]:
import numpy as np

In [None]:
from sklearn.model_selection import cross_val_score
scores =  cross_val_score(rf, X_train, y_train, cv=5)
print("scores: %s  mean: %f  std: %f" % (str(scores), np.mean(scores), np.std(scores)))

Попробуем увеличить число деревьев в лесе

In [None]:
rf2 = RandomForestClassifier(n_estimators=50)
scores =  cross_val_score(rf2, X_train, y_train, cv=5)
print("scores: %s  mean: %f  std: %f" % (str(scores), np.mean(scores), np.std(scores)))

Поиск наилучших для задачи гиперпараметров очень важен. Он может быть автоматизирован с помощью имеющегося в пакете оптимизатора grid search

In [None]:
from sklearn.model_selection import GridSearchCV

Снова вернемся к классификатору на  LinearSVC.
Он имеет только один важный гиперпараметр: C

In [None]:
param_grid = {'C': 10. ** np.arange(-3, 4)}
grid_search = GridSearchCV(svm, param_grid=param_grid, cv=3, verbose=3, return_train_score=True)

In [None]:
grid_search.fit(X_train, y_train);

In [None]:
print(grid_search.best_params_)
print(grid_search.best_score_)

In [None]:
grid_search.cv_results_

In [None]:
c=grid_search.cv_results_

In [None]:
c['mean_train_score']

### Контроль за переобучением (Overfitting) управление сложностью Complexity Control

In [None]:
plt.plot(c['mean_train_score'],label="training score")
plt.plot(c['mean_test_score'], label="training error")
plt.xticks(np.arange(6), param_grid['C']); plt.xlabel("C"); plt.ylabel("Accuracy");plt.legend(loc='best');

# The end of slides