In [22]:
import pandas as pd 
import sklearn
import numpy as np
from sklearn.datasets import fetch_openml
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

Что такое классические модели обучения?
В развитии машинного обучения можно выделить 2 основных вехи - до начала активного использования нейронных сетей и глубого обучения и после.
Все, что использовали в первой эпохе, соответственно, называют классическими моделями - сюда входит метод опорных векторов, метод ближайших соседей, логистическая и линейная регрессия и т.д

Основным преимуществом этих моделей является высокая степень интерпретируемости результатов по сравнению с моделями глубого обучения, а также меньшие вычислительные затраты. 

Основным недостатком этих моделей является то, что во многих задачах они проигрывают моделям глубого обучения.

Рассмотрим первую и самую простую для интерпретируемости модель - решающее дерево. 
Решающее дерево - это классическая модель машииного обучения, которая состоит из дерева, в вершинах которого находятся предикаты, принимающие вектор, на котором мы хотим выполнить предсказание, и которые говорят нам в какую ветку нужно идти - если false - влево, если true - вправо. В листьях лежат классы.

![decision tree](https://www.researchgate.net/profile/Amir-Akbari-19/publication/348456545/figure/fig1/AS:981743439994883@1611077284634/Schematic-of-a-Decision-Tree-The-figure-shows-an-example-of-a-decision-tree-with-3.png)

Будем работать с датасетом iris.

Загрузим данные и разобьем их на обучающая и проверочную выборки:

In [27]:
X, y = fetch_openml("iris", version=1, as_frame=True, return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, test_size=0.2)
X_train.head()

Unnamed: 0,sepallength,sepalwidth,petallength,petalwidth
43,5.0,3.5,1.6,0.6
30,4.8,3.1,1.6,0.2
114,5.8,2.8,5.1,2.4
37,4.9,3.1,1.5,0.1
23,5.1,3.3,1.7,0.5


In [28]:
y_train.head()

43        Iris-setosa
30        Iris-setosa
114    Iris-virginica
37        Iris-setosa
23        Iris-setosa
Name: class, dtype: category
Categories (3, object): ['Iris-setosa', 'Iris-versicolor', 'Iris-virginica']

Создадим классификатор и обучим его:

In [23]:
decision_tree_classifier = DecisionTreeClassifier()
decision_tree_classifier.fit(X_train, y_train)

DecisionTreeClassifier()

Найдем предсказания на тестовой выборке и посчитаем точность:

In [25]:
y_pred  = decision_tree_classifier.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
accuracy

0.8333333333333334

Рассмотрим следующую модель, которая является усовершенствованием идеи решающего дерева - случайный лес.

Случайный лес - ансамбль решающих деревьев, полученный с помощью следующего алгоритма:

trees = list()
for i in range(1, n):
  X = bootstrap(X_train)
  t = train(X)
  trees = append(X)

где bootstrap - операция получения случайной выборки с возвратом. 

То есть мы генерируем n случайных подвыборок и обучаем на них n решающих деревьев. 

Для предсказания на векторе x в качестве классификатора мы делаем следующее:

preds = list()
for t in trees:
  preds = append(preds, t.predict(x))

и затем из этого массива предсказаний достаем значение, которое встречается чаще всего.

Для предсказания на векторе x в качестве регрессора мы так же накапливаем n предсказаний, а затем считаем их арифметическое среднее.

![random forest](https://miro.medium.com/max/1200/0*YEwFetXQGPB8aDFV)

Рассмотрим использование на примере датасета iris и сравним точность с decision tree.

Обучим модель:

In [34]:
from sklearn.ensemble import RandomForestClassifier

random_forest_classifier = RandomForestClassifier()
random_forest_classifier.fit(X_train, y_train)

RandomForestClassifier()

Найдем предсказание на тестовой выборке и посчитаем точность:

In [35]:
y_pred  = random_forest_classifier.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
accuracy

0.9333333333333333

Как можно увидеть, точность случайного леса - 93%, в то время как решающего дерева - 83%. Что дало нам 10% прирост точности.

Следующая модель - метод k ближайших соседей. Он основан на том, что мы представляем вектора в некотором метрическом пространстве, и когда хотим найти предсказание для вектора x, находим k векторов, имеющих наименьшее значение метрики, а затем выбираем из них предсказание так же как в случайном лесе - находим класс, который встречается чаще всего, или усредняем значение в случае регрессии.

![knn](https://miro.medium.com/max/484/1*B6ADaptU3rJWN1mXwki6eA.jpeg)

Обучим модель:


In [37]:
from sklearn.neighbors import KNeighborsClassifier

knn_classifier = KNeighborsClassifier()
knn_classifier.fit(X, y)

KNeighborsClassifier()

Найдем предсказание на тестовой выборке и посчитаем точность:

In [39]:
y_pred  = knn_classifier.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
accuracy

0.9666666666666667

Метод ближайших соседей дал 96% точности, выше любого другого классификатора.