# Построение модели ML методом k-ближайщих соседей с использованием датасета "Ирисы Фишера"

### Содержание
1. [Подключение библиотек и загрузка датасета](#Подключение-библиотек-и-загрузка-датасета)
2. [О датасете "Ирисы Фишера"](#О-датасете-"Ирисы-Фишера")
3. [Разделение датасета на тренировочную и тестовую выборки](#Разделение-датасета-на-тренировочную-и-тестовую-выборки)
4. [Матрица рассеивания](#Матрица-рассеивания)
5. [Построение модели машинного обучения методом k-ближайших соседей](#Построение-модели-машинного-обучения-методом-k-ближайших-соседей)
6. [Прогнозирование с использованием полученной модели](#Прогнозирование-с-использованием-полученной-модели)
7. [Точность полученной модели](#Точность-полученной-модели)

### Подключение библиотек и загрузка датасета

In [None]:
from sklearn.datasets import load_iris
import pandas as pd
import numpy as np

iris_dataset = load_iris()

### О датасете "Ирисы Фишера"

В интернете представлено огромное множество информации о датасете "Ирисы Фишера". Почитать, например, можно [здесь](https://ru.wikipedia.org/wiki/%D0%98%D1%80%D0%B8%D1%81%D1%8B_%D0%A4%D0%B8%D1%88%D0%B5%D1%80%D0%B0).

In [None]:
print("Поля датасета: {}".format(iris_dataset.keys()))

In [None]:
print("Количество элементов в датасете - {}".format(len(iris_dataset['data'])))

In [None]:
iris_dataset['data']

In [None]:
iris_dataset['target']

In [None]:
iris_dataset['target_names']

In [None]:
iris_dataset['feature_names']

In [None]:
print(iris_dataset['DESCR'])

### Разделение датасета на тренировочную и тестовую выборки

На тренировочную выборку по умолчанию распределяется в случайном порядке 75% от датасета, а на тестовую 25%

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(iris_dataset['data'],
                                                    iris_dataset['target'],random_state=0)

print(
    f"Тренировочная выборка:\
    \nРазмерность матрицы признаков: {X_train.shape}\
    \nРазмерность вектора меток: {y_train.shape}\
    \n\nТестовая выборка:\
    \nРазмерность матрицы признаков:{X_test.shape}\
    \nРазмерность вектора меток: {y_test.shape}"
)

### Матрица рассеивания

In [None]:
iris_dataframe = pd.DataFrame(X_train, columns=iris_dataset.feature_names)

plot = pd.plotting.scatter_matrix(iris_dataframe,
                                  c=y_train, figsize=(15,15), marker='o',
                                  hist_kwds={'bins':20}, s=60, alpha=.8)

### Построение модели машинного обучения методом k-ближайших соседей

Описание метода можно найти в интернете. Например,
[тут](https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_k-%D0%B1%D0%BB%D0%B8%D0%B6%D0%B0%D0%B9%D1%88%D0%B8%D1%85_%D1%81%D0%BE%D1%81%D0%B5%D0%B4%D0%B5%D0%B9), 
[тут](http://www.machinelearning.ru/wiki/index.php?title=%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B1%D0%BB%D0%B8%D0%B6%D0%B0%D0%B9%D1%88%D0%B8%D1%85_%D1%81%D0%BE%D1%81%D0%B5%D0%B4%D0%B5%D0%B9),
[тут](https://wiki.loginom.ru/articles/k-nearest-neighbor.html)
и [тут](https://habr.com/ru/post/149693/). \
Гиперпараметр - переменная, влияющая на точность. В этом методе таковым является число соседей.

In [None]:
from sklearn.neighbors import KNeighborsClassifier

knn = KNeighborsClassifier(n_neighbors=1)

knn.fit(X_train, y_train)

### Прогнозирование с использованием полученной модели

In [None]:
x_new = np.array([[5, 2.9, 1, 0.2]])

prediction = knn.predict(x_new)
print('Прогноз: {}'.format(prediction))
print('Спрогнозированная метка: {}'.format(iris_dataset['target_names'][prediction]))

In [None]:
y_pred = knn.predict(X_test)
print('Прогнозы для тестового набора: \n {}'.format(y_pred))
print('Метки тестового набора: \n {}'.format(y_test))

### Точность полученной модели

In [None]:
print('Accurancy: {:.2f}'.format(knn.score(X_test, y_test)))

Расчет ошибок с использованием [F-score](https://en.wikipedia.org/wiki/F-score).

In [None]:
from sklearn.metrics import precision_recall_fscore_support

print("Использование других метрик для определения точности модели:")
print(
    "precision = {}\
    \nrecall = {}\
    \nfbeta_score = {}\
    \nsupport = {}".format(*precision_recall_fscore_support(y_test, y_pred, average='macro'))
)