## Введение в анализ данных и машинное обучение на Python

### Тема 8: Задача классификации. kNN (14 декабря 2019)

__kNN__ (_k Nearest Neighbours_ или *метод k ближайших соседей*) – один из простейших методов классификации и регрессии (но мы будем рассматривать его только для задачи классификации). 

Описание метода: 
1. Дана выборка $X$, $Y$. Этап «обучения»: «запомнить выборку».
2. При поступлении нового наблюдения $x$:
    1. Отсортировать все объекты обучающей выборки по расстоянию до $x$.
    2. Выбрать класс, наиболее популярный среди $k$ ближайших соседей.
    
Число соседей ($k$) – __гиперпараметр__ алгоритма (задаётся из вне, подбирается).

Основное предположение метода – гипотеза компактности.

Для тестирования метода рассмотрим набор данных `UniversalBank`, в котором содержится информация о характеристиках клиента и факте выдачи ему кредита.

In [1]:
import numpy as np
import pandas as pd
import matplotlib as plt

In [2]:
data = pd.read_csv('UniversalBank.csv')

In [3]:
data.head()

Unnamed: 0,ID,Age,Experience,Income,ZIP Code,Family,CCAvg,Education,Mortgage,Personal Loan,Securities Account,CD Account,Online,CreditCard
0,1,25,1,49,91107,4,1.6,1,0,0,1,0,0,0
1,2,45,19,34,90089,3,1.5,1,0,0,1,0,0,0
2,3,39,15,11,94720,1,1.0,1,0,0,0,0,0,0
3,4,35,9,100,94112,1,2.7,2,0,0,0,0,0,0
4,5,35,8,45,91330,4,1.0,2,0,0,0,0,0,1


__Задание:__ Выделите зависимую переменную (`Personal Loan`). Обозначьте зависимую переменную `Y`. 

In [6]:
Y = data['Personal Loan']

__Задание:__ Выделите выборку из следующих характеристик клиента: возраст, опыт работы, доход, уровень образования. Обозначьте выборку как `X`.

In [10]:
X = data[['Age', 'Experience', 'Income', 'Education']]

__Задание:__ Разделите выборку на обучающую и тестовую. Не забудьте зафиксировать `seed`.

In [13]:
from sklearn.model_selection import train_test_split
np.random.seed(123)
X_train, X_test, y_train, y_test = train_test_split(X, Y)

__Задание:__ Обучите классификатор kNN для 1, 5 и 7 соседей. 

In [14]:
from sklearn.neighbors import KNeighborsClassifier

In [15]:
model1 = KNeighborsClassifier(n_neighbors = 1)
model5 = KNeighborsClassifier(n_neighbors = 5)
model7 = KNeighborsClassifier(n_neighbors = 7)

In [16]:
model1.fit(X_train, y_train)
model5.fit(X_train, y_train)
model7.fit(X_train, y_train)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
                     metric_params=None, n_jobs=None, n_neighbors=7, p=2,
                     weights='uniform')

In [17]:
pred1 = model1.predict(X_test)
pred5 = model5.predict(X_test)
pred7 = model7.predict(X_test)

In [19]:
pred1_train = model1.predict(X_train)
pred5_train = model5.predict(X_train)
pred7_train = model7.predict(X_train)

__Задание:__ В каждом случае проверьте качество на обучающей и тестовой выборке, используя метрику `accuracy`. Прокомментируйте качество работы каждого алгоритма. Выберите лучший алгоритм.

In [18]:
from sklearn.metrics import accuracy_score

In [21]:
accuracy_score(y_test, pred1)

0.9192

In [22]:
accuracy_score(y_test, pred5)

0.916

In [23]:
accuracy_score(y_test, pred7)

0.9152

In [24]:
accuracy_score(y_train, pred1_train)

0.9986666666666667

In [25]:
accuracy_score(y_train, pred5_train)

0.9424

In [26]:
accuracy_score(y_train, pred7_train)

0.936

__Задание:__ Создайте новое наблюдение: индивида с собственными характеристиками. Используя лучший классификатор, предскажите, получит ли он кредит.

In [30]:
ind = np.array([30, 8, 100, 4])

In [37]:
model1.predict(ind.reshape(1, -1))

array([0])