In [1]:
import numpy as np
import pandas as pd
%matplotlib inline

## Apple vs Pears

Считаем данные из csv файла с помощью библиотеки pandas:

In [None]:
data = pd.read_csv("apple_pears.csv")
data.head() #data.head(n)

Посмотрим на распределения признаков:

In [None]:
import matplotlib.pyplot as plt

fig = plt.figure(1, figsize=(8, 6))
plt.scatter(data.values[:, 0], data.values[:, 1], c=data.values[:, 2],
           cmap=plt.cm.Set1, edgecolor='k', s=40)

### Train-test split

In [None]:
target = np.array(data[['target']])
features = np.array(data[['yellowness', 'symmetry']])

Чтобы обучить и оценить качество нашей модели, нужно разбить данные на тренировочную и тестовую выборки. В этом нам поможет функция train_test_split из библиотеки sklearn:

http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X_train, X_test, Y_train, Y_test = train_test_split(features, target, test_size=0.15, random_state=37)

print(X_train.shape)
print(X_test.shape)

### KNN

http://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html

In [None]:
from sklearn.neighbors import KNeighborsClassifier

Собственно, обучим KNeighboursClassifier на тренировочных данных и посмотрим, че предскажет

In [None]:
knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(X_train, Y_train)

In [None]:
knn.predict(X_test)

Посчитаем метрику качества -- например, accuracy. Для этого в sklearn тоже есть функция:

In [None]:
from sklearn.metrics import accuracy_score
accuracy_score(knn.predict(X_test), Y_test)

#### Hmmmmmmm, 1!!!!

Это нормально? Это хорошо?

Давайте разбираться. Для этого посмотрим на то, какие примеры были отнесены к какому классу нашим алгоритмом:

In [None]:
min_x, max_x = 0, 1 #0.65, 0.95 #<- uncomment this to see part of the plot closer
min_y, max_y = 0, 1 #0.2, 0.35  #<- uncomment this to see part of the plot closer

f, (ax1, ax2) = plt.subplots(1, 2, sharey=True, figsize=(14,7))

ax1.scatter(X_train[:, 0], X_train[:, 1], color='k')
ax1.scatter(X_test[:, 0], X_test[:, 1], color='g')

ax1.set_ylim(min_y, max_y)
ax1.set_xlim(min_x, max_x)

ax2.scatter(data.values[:, 0], data.values[:, 1], c=data.values[:, 2], edgecolor='k', s=40)

ax2.set_ylim(min_y, max_y)
ax2.set_xlim(min_x, max_x)

plt.show()

Теперь мы понимаем, что нам просто повезло с seed (random_state) в train_test_split, при разбиении данных. Слишком "хороший" тест-сет получился.

#### Вопрос: как бороться с такой проблемой?

P.S. try http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_val_score.html

Давайте ради интереса посмотрим на то, насколько хорошо будет работать KNN на нашей задаче при разных значениях параметра n_neighbors:

In [None]:
X_train, X_test, Y_train, Y_test = train_test_split(features, target, test_size=0.15, random_state=<choose your own>)

In [None]:
results = []
for n_neighbors in range(1, 11):
    knn = KNeighborsClassifier(n_neighbors=n_neighbors).fit(X_train, Y_train)
    results.append(accuracy_score(knn.predict(X_test), Y_test))

In [None]:
plt.figure(figsize=(16, 8))
plt.plot(list(range(1, 11)), results)
plt.show()

#### Подумайте: почему n_neighbors=2 самое бесполезное значение параметра

------------------

## Предсказание сердечно-сосудистых заболеваний

https://mlbootcamp.ru/round/12/sandbox/

Обратите внимание --для этой задачи данные уже разбиты на train и test выборки и помещены в отдельные файлы

In [None]:
train_data = pd.read_csv("train_med.csv", delimiter=';')
train_data.head()

In [None]:
X_train, Y_train = np.array(train_data.drop("cardio", axis=1)), np.array(train_data['cardio'])

<do something with KNN>

In [None]:
# other classifiers?