# Фреймворк машинного обучения. Метод ближайших соседей.
В этом ноутбуке мы обучим и протестируем самую простую модель машинного обучения --- метод ближайших соседей. Мы будем решать с его помощью задачу распознавания классов в датасете "Игрушка дьявола".

Импортируем необходимые библиотеки. Numpy --- это библиотека для быстрой и удобной работы с массивами числовых данных. Matplotlib --- библиотека для построения графиков и визуализации.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

### Датасет

Создадим функцию, которая генерирует датасет "Игрушка дьявола" из N точек и K классов в D-мерном пространстве.

In [None]:
def devil(N, D=2, K=3):
    N = 100
    D = 2
    K = 3
    X = np.zeros((N * K, D))
    y = np.zeros(N * K, dtype='uint8')

    for j in range(K):
        ix = range(N * j,N * (j + 1))
        r = np.linspace(0.0, 1, N)
        t = np.linspace(j * 4, (j + 1) * 4,N) + np.random.randn(N) * 0.2 # theta
        X[ix] = np.c_[r * np.sin(t), r * np.cos(t)]
        y[ix] = j
    return X, y

In [None]:
X, y = devil(300)

Добавим в данные шум, чтобы усложнить задачу.

In [None]:
X[:, 0] += np.random.normal(loc=0, scale=0.15, size=300)
X[:, 1] += np.random.normal(loc=0, scale=0.15, size=300)

In [None]:
# Отрисовочная магия
from matplotlib.colors import ListedColormap

cmap_light = ListedColormap(['#FFAAAA', '#AAFFAA', '#AAAAFF'])

x_min, x_max = (-1, 1)
y_min, y_max = (-1, 1)

h = 0.05

Вот как выглядит наш датасет. Три цвета обозначают три различных класса.

In [None]:
plt.figure(figsize=(12, 12))

plt.scatter(X[:, 0], X[:, 1], c=y)

plt.xlim((x_min, x_max))
plt.ylim((y_min, y_max))

plt.grid(True)

plt.show()

### Разбиение на train и test

Перед началом работы необходимо разбить датасет на обучающую и тестовую выборки.

### Задание
Разбейте данные на обучающую и тестовую выборки в соотношении 60:40.

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = #YOUR CODE

### Моделирование
Импортируем и обучим модель K ближайших соседей
### Задание
Обучите модель 5 ближайших соседей на обучающей выборке

In [None]:
from sklearn.neighbors import KNeighborsClassifier

In [None]:
model = #YOUR CODE
#YOUR CODE

### Применение модели и измерение качества
Измерим качество работы модели на train и test.
### Задание
Предскажите ответы на обучающей и тестовой выборках

In [None]:
y_train_pred = #YOUR CODE
y_test_pred = #YOUR CODE

In [None]:
# Импортируем метрику качества из sklearn metrics. 
# Функция accuracy_score принимает на вход 
# истинные и предсказанные лейблы и возвращает 
# процент совпавших ответов
from sklearn.metrics import accuracy_score

print(f'Процент правильно угаданных ответов на обучающем множестве: {accuracy_score(y_train, y_train_pred)}')
print(f'Процент правильно угаданных ответов на тестовом множестве: {accuracy_score(y_test, y_test_pred)}')

Видим, что процент угаданных ответов на обучающем множестве больше, чем на тестовом. Это следствие переобучения модели. О реальном качестве работы свидетельствует именно качество на test.

### Визуализация результатов

In [None]:
plt.figure(figsize=(12, 12))

plt.xlim((x_min, x_max))
plt.ylim((y_min, y_max))
xx, yy = np.meshgrid(np.linspace(x_min, x_max, 100),
                     np.linspace(y_min, y_max, 100))

Z = model.predict(np.c_[xx.ravel(), yy.ravel()])

Z = Z.reshape(xx.shape)
plt.pcolormesh(xx, yy, Z, cmap=cmap_light)
plt.scatter(X_test[:, 0], X_test[:, 1], c=y_test, label='Тестовые точки')

plt.legend()

plt.show()

### Рассмотрим вырожденный случай: метод одного ближайшего соседа
Проделаем для него все вычисления

### Задание. Проделайте всё то же самое для K = 1

In [None]:
model = #YOUR CODE
y_train_pred = #YOUR CODE
y_test_pred = #YOUR CODE

print(f'Процент правильно угаданных ответов на обучающем множестве: {accuracy_score(y_train, y_train_pred)}')
print(f'Процент правильно угаданных ответов на тестовом множестве: {accuracy_score(y_test, y_test_pred)}')

plt.figure(figsize=(12, 12))

plt.xlim((x_min, x_max))
plt.ylim((y_min, y_max))
xx, yy = np.meshgrid(np.linspace(x_min, x_max, 100),
                     np.linspace(y_min, y_max, 100))

Z = model.predict(np.c_[xx.ravel(), yy.ravel()])

Z = Z.reshape(xx.shape)
plt.pcolormesh(xx, yy, Z, cmap=cmap_light)
plt.scatter(X_test[:, 0], X_test[:, 1], c=y_test, label='Тестовые точки')

plt.legend()

plt.show()

### Задание
Посмотрите на картинку и сделайте выводы. Какой алгоритм работает лучше? 

### Необязательное задание
Найдите оптимальное значение $k$ с помощью метода, описанного в последнем задании в ноутбуке с семинара (кросс-валидация)

In [None]:
#YOUR CODE