Самая доступная библиотека для машинного обучения &ndash; scikit-learn.

```pip install scikit-learn```

https://scikit-learn.org/stable/user_guide.html

Классификаторы в этой библиотеке имеют одинаковый интерфейс:

In [1]:
from sklearn.neighbors import KNeighborsClassifier  # К-ближайших соседей
from sklearn.tree import DecisionTreeClassifier  # дерево принятия решений
from sklearn.svm import SVC  # метод опорных векторов

Вспомогательные функции:

In [20]:
from sklearn.model_selection import train_test_split  # обучающее и тестовое множество

from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix  # оценка

import matplotlib.pyplot as plt
import numpy as np

![](https://upload.wikimedia.org/wikipedia/commons/2/26/Precisionrecall.svg)

$$accuracy = \frac{TP + TN}{TP + TN + FP + FN}$$

$$precision = \frac{TP}{TP + FP}$$

$$recall = \frac{TP}{TP + FN}$$

$$ F_1 = 2 \frac{precision \cdot recall}{precision + recall} = \frac{2 \cdot TP}{2 \cdot TP + FP + FN}$$

In [3]:
clf = DecisionTreeClassifier()

In [26]:
data_x = [[1], [3], [-4], [5], [-7], [2], [-1], [-1], [1]] # двумерный массив (вектор векторов признаков для классификации)!
data_y = ["p", "p", "n", "p", "n", "p", "n", "n", "p"] # метки классов

x_train, x_test, y_train, y_test = train_test_split(data_x, data_y, test_size=0.2)

In [None]:
print(x_train, x_test, y_train, y_test)

In [None]:
clf.fit(x_train, y_train)

In [None]:
y_prediction = clf.predict(x_test)
print(y_test, y_prediction)

In [None]:
accuracy_score(y_test, y_prediction)

In [None]:
confusion_matrix(y_test, y_prediction)

Визуализация дерева:

In [19]:
from sklearn.tree import plot_tree

In [None]:
fig, ax = plt.subplots()
plot_tree(clf)

**Задание для выполнения в классе:** реализовать свои функции для вычисления accuracy, precision, recall, F1-score, построения матрицы ошибок.

**Задание 2:** применить классификатор к данным с формантами гласных. Оценить результат.

Иногда для лучшего результата нужно провести предобработку данных. Это может быть:

1. Масштабирование
2. Восполнение отсутствующих данных

In [None]:
from sklearn import preprocessing

Простой датасет:

In [10]:
samples = [
    ("a", [-1, 5]),
    ("a", [-2, 2]),
    ("a", [-3, 3]),
    ("a", [-4, 6]),
    ("a", [-5, 3]),
    ("a", [-6, 1]),
    ("b", [0, -1]),
    ("b", [1, -4]),
    ("b", [2, -3]),
    ("b", [3, -2]),
    ("b", [4, -1]),
    ("b", [5, -5]),
    ("c", [0, 3]),
    ("c", [1, 8]),
    ("c", [2, 1]),
    ("c", [3, 2]),
    ("c", [4, 2]),
    ("c", [5, 2]),
    ("d", [-1, -3]),
    ("d", [-2, -4]),
    ("d", [-3, -6]),
    ("d", [-4, -6]),
    ("d", [-5, -2]),
    ("d", [-6, -1])]

In [11]:
Y, X = zip(*samples)

In [12]:
scaler = preprocessing.StandardScaler().fit(X) # среднее = 0, дисперсия = 1
standardized_X = scaler.transform(X)

In [13]:
min_max_scaler = preprocessing.MinMaxScaler().fit(X) # от 0 до 1
normalized_X = min_max_scaler.transform(X)

Сравним:

In [None]:
fig, axs = plt.subplots(2, 2)
axs[0, 0].scatter(*zip(*X))
axs[0, 1].scatter(*zip(*normalized_X))
axs[1, 1].scatter(*zip(*standardized_X))

Датасет с пропущенными значениями:

In [15]:
samples_missing = [
    ("a", [-1, 5]),
    ("a", [-2, np.nan]),
    ("a", [-3, 3]),
    ("a", [-4, 6]),
    ("a", [-5, 3]),
    ("a", [-6, 1]),
    ("b", [0, -1]),
    ("b", [1, -4]),
    ("b", [np.nan, -3]),
    ("b", [3, -2]),
    ("b", [4, -1]),
    ("b", [5, -5]),
    ("c", [0, 3]),
    ("c", [1, 8]),
    ("c", [2, 1]),
    ("c", [3, 2]),
    ("c", [np.nan, 2]),
    ("c", [5, 2]),
    ("d", [-1, -3]),
    ("d", [-2, -4]),
    ("d", [-3, -6]),
    ("d", [-4, np.nan]),
    ("d", [-5, -2]),
    ("d", [-6, -1])]

In [16]:
Ym, Xm = zip(*samples_missing)

In [17]:
from sklearn.impute import SimpleImputer
imp = SimpleImputer(missing_values=np.nan, strategy='mean')
imp.fit(Xm)
Xm_imputed = imp.transform(Xm)

In [None]:
Xm_imputed

**Задание:** проверить, как изменится работа классификатора, если:
1. нормализовать данные
2. стандартизировать данные
3. рассматривать неправдоподобные значения формант как отсутствующие