 # AI Community @ Семинар  № 3
 ## Введение в машинное обучение
Суть: Мы знаем какую-то характеристику объектов, надо научиться узнавать эту же характеристику для похожих объектов  
 ### Строгая формулировка
 Дано: множество объектов $O$   
 Каждый объект имеет множество определяющих переменных (known characteristics) $x \in X$ и определяемых переменных (predicted characteristics) $y \in Y$
 
 $o \in O \to (x,y)$
 
 Задача: найти функцию, наиболее точно приближающую $X \to Y$
 
 Классификация - если $Y$ конечно  
 Регрессия - если $Y = \mathbb{R} $ 
 
 ### Supervised и unsupervised learning
 Supervised - есть какой-то набор данных, для которого известны и $x$, и $y$  
 Unsupervised - $y$ неизвестно для всех данных
 
 #### Примеры:
 Superised:
 <img src="./data/Regression_Analysis_Linear.gif" alt="Drawing" style="height: 400px;"/>
 
 Unsupervised
 ![Clustering](./data/xclara-clusters-colour.png)
 
 ### Стандартная процедура для supervised learning
 1. Разбить выборку на train и test
 2. Выбрать метод
 3. Обучить его на train
 4. Посмотреть, что он предсказывает для test
 5. Сравнить с истинными значениями для test

Шаблон алгоритма:

    train_x, test_x, train_y, test_y = extract(data)
    predictor = MySuperPredictor()
    predictor.fit(train_x, train_y)
    preds = predictor.predict(test_x)
    score = compare(preds, test_y)

 ### Case study
 Распознавание рукописных цифр
 
 http://yann.lecun.com/exdb/mnist/

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline
from sklearn import datasets
import numpy as np

In [None]:
digits = datasets.load_digits()

In [None]:
def show_digit(digit):
    """
    Displays sample from MNIST in human-readable format
    
    Arguments:
    digit - numpy 1-d array of size 64
    """
    f = plt.figure(figsize=(7, 1))
    ax = f.add_subplot(111)
    ax.matshow(digit.reshape(8, 8))
    ax.axis('off')
    plt.show()

In [None]:
for i in range(5):
    print('x =', digits.data[i])
    print('y =', digits.target[ i])
    show_digit(digits.data[i])
    print('----------------------------')

Разделение выборки на train и test

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(digits.data, digits.target, test_size=0.2)
print('X_train:', X_train.shape)
print('X_test:', X_test.shape)
print('y_train:', y_train.shape)
print('y_test:', y_test.shape)

 ### Линейная регрессия
  <img src="./data/Regression_Analysis_Linear.gif" alt="Drawing" style="height: 300px;"/>
  Данные аппроксимируются линией таким образом, чтобы среднее расстояние от точки до линии было наименьшим.  
  Почитать ещё: https://habrahabr.ru/company/ods/blog/323890/

In [None]:
from sklearn.linear_model import LinearRegression
predictor = LinearRegression()
predictor.fit(X_train, y_train)
y_pred = predictor.predict(X_test)
print(y_pred)

Оцениваем, насколько хороши предсказания

In [None]:
from sklearn.metrics import accuracy_score
y_pred = np.round(y_pred)
accuracy_score(y_test, y_pred)

Посмотрим пример, где предсказано правильно, и где неправильно

In [None]:
true_sample = X_test[y_test == y_pred][0]
print('true:', y_test[y_test == y_pred][0])
print('predicted:', y_pred[y_test == y_pred][0])
show_digit(true_sample)

false_sample = X_test[y_test != y_pred][0]
print('true:', y_test[y_test != y_pred][0])
print('predicted:', y_pred[y_test != y_pred][0])
show_digit(false_sample)

 ### Логистическая регрессия
  <img src="./data/LogReg.png" alt="Drawing" style="height: 300px;"/>
  То же самое, что и линейная регрессия, но аппроксимация ведётся не линией $y = \theta_0 + \theta_1x_1 + ... + \theta_nx_n$, а функцией $$y = \frac{1}{1+e^{-z}}$$ Где $z = \theta_0 + \theta_1x_1 + ... + \theta_nx_n$

In [None]:
from sklearn.linear_model import LogisticRegression
predictor = LogisticRegression()
predictor.fit(X_train, y_train)
y_pred = predictor.predict(X_test)
print(y_pred)

In [None]:
accuracy_score(y_test, y_pred)

In [None]:
true_sample = X_test[y_test == y_pred][0]
print('true:', y_test[y_test == y_pred][0])
print('predicted:', y_pred[y_test == y_pred][0])
show_digit(true_sample)

false_sample = X_test[y_test != y_pred][0]
print('true:', y_test[y_test != y_pred][0])
print('predicted:', y_pred[y_test != y_pred][0])
show_digit(false_sample)

 ### k-nearest-neighbors classifier
 <img src="./data/knn_classifier.png" alt="Drawing" style="width: 300px;"/>
 Для заданной точки алгоритм ищет k ближайших к ней соседей из обучающей выборки, и возвращает класс, который встречался среди этих k точек чаще остальных.  
 Почитать ещё: https://kevinzakka.github.io/2016/07/13/k-nearest-neighbor/

In [None]:
from sklearn.neighbors import KNeighborsClassifier
predictor = KNeighborsClassifier(n_neighbors=4)
predictor.fit(X_train, y_train)
y_pred = predictor.predict(X_test)

In [None]:
accuracy_score(y_test, y_pred)

In [None]:
true_sample = X_test[y_test == y_pred][0]
print('true:', y_test[y_test == y_pred][0])
print('predicted:', y_pred[y_test == y_pred][0])
show_digit(true_sample)

false_sample = X_test[y_test != y_pred][0]
print('true:', y_test[y_test != y_pred][0])
print('predicted:', y_pred[y_test != y_pred][0])
show_digit(false_sample)

 ### Нейронная сеть
  ![LR](./data/220px-Neural_network.svg.png)
  Несколько линейных регрессий, объединённых в сеть.  
  Почитать ещё: https://ujjwalkarn.me/2016/08/09/quick-intro-neural-networks/

In [None]:
from sklearn.neural_network import MLPClassifier 
predictor = MLPClassifier()
predictor.fit(X_train, y_train)
y_pred = predictor.predict(X_test)

In [None]:
accuracy_score(y_test, y_pred)

In [None]:
true_sample = X_test[y_test == y_pred][0]
print('true:', y_test[y_test == y_pred][0])
print('predicted:', y_pred[y_test == y_pred][0])
show_digit(true_sample)

false_sample = X_test[y_test != y_pred][0]
print('true:', y_test[y_test != y_pred][0])
print('predicted:', y_pred[y_test != y_pred][0])
show_digit(false_sample)

### Деревья
<img src="./data/F3.large.jpg" alt="Drawing" style="width: 500px;"/>
С помощью статистических методов строится дерево решений (или несколько деревьев). Каждый раз при предсказывании алгоритм проходит дерево от корня до одного из листов и возвращает класс, соответствующий листу.  
Почитать ещё: https://sadanand-singh.github.io/posts/treebasedmodels/

In [None]:
from sklearn.ensemble import GradientBoostingClassifier
predictor = GradientBoostingClassifier(n_estimators=5)
predictor.fit(X_train, y_train)
y_pred = predictor.predict(X_test)

In [None]:
accuracy_score(y_test, y_pred)

In [None]:
true_sample = X_test[y_test == y_pred][0]
print('true:', y_test[y_test == y_pred][0])
print('predicted:', y_pred[y_test == y_pred][0])
show_digit(true_sample)

false_sample = X_test[y_test != y_pred][0]
print('true:', y_test[y_test != y_pred][0])
print('predicted:', y_pred[y_test != y_pred][0])
show_digit(false_sample)

### Кластеризация (KMeans)
  <img src="./data/kmeans.png" alt="Drawing" style="height: 300px;"/>
 Алгоритм ищет K центров кластеров и относит каждую точку к тому кластеру, которому соответствует ближайший из центров.  
 При этом центры выбираются таким образом, чтобы сумма расстояний от точки до центра соответствующего ей кластера была минимальной
 Почитать ещё: https://www.datascience.com/blog/introduction-to-k-means-clustering-algorithm-learn-data-science-tutorials

In [None]:
from sklearn.cluster import KMeans
clusterer = KMeans(n_clusters=10)
classes = clusterer.fit_predict(digits.data)

In [None]:
for i in np.unique(classes):
    f, axs = plt.subplots(1, 5, sharey=True, figsize=(7, 1))
    for i,sample in enumerate(digits.data[classes == i][:5]):
        axs[i].matshow(sample.reshape((8, 8)))
        axs[i].axis('off')
    plt.show()

Отрисуем центры кластеров

In [None]:
for center in clusterer.cluster_centers_:
    f = plt.figure(figsize=(7, 1))
    ax = f.add_subplot(111)
    ax.matshow(center.reshape(8, 8))
    ax.axis('off')
    plt.show()