## Занятие №5. Задача классификации. Обзор моделей и способов оценки качества.


#### План занятия.
1. Повторение основных понятий.
2. Основные моменты при работе с данными, о которых стоит помнить.
3. Способы оценки качества решения в задаче классификации.
4. Обзор типов моделей.
5. Решение задачи с табличными данными.

### Recap: основные понятия
__Объект__ – атомарная сущность в некоторой задаче. Как правило, для объекта необходимо предсказать значение целевой переменной, принадлежность к некоторой группе объектов или же другое свойство.

__Признак__ – величина, описывающая одно из свойств объекта. Например, число (рост), категория (цвет глаз). К признаковому описанию объекта могут быть отнесены и более сложные структуры, например, изображение или запись голоса.

__Задача обучения с учителем, supervised learning problem__ – задача, в которой необходимо предсказать значение __целевой переменной (ответа)__ на новом (ранее не наблюдаемом) объекте. __Для некоторого множества объектов эти значения известны (например, получены с помощью экспертной разметки).__

__Задача обучения без учителя, unsupervised learning__ – задача, в которой __нет целевой переменной__ и, как правило, необходимо найти некоторую внутреннюю структуру данных.

__Задача регрессии__ – задача обучения с учителем, где целевая переменная является континуальным числом (т.е. принимает континуальное число значений). Например, предсказание ожидаемой зарплаты на основе резюме соискателя. Или же предсказание возраста пользователя интернета на основе его поведения в интернете.

__Задача классификации__ – задача обучения с учителем, где целевая переменная является меткой класса (т.е. может принимать конечное число значений). Например, определение эмоциональной окраски сообщения (позитивная или негативная), или же определение социальной группы, к которой принадлежит клиент банка на основе его трат. Часто разделяют бинарную классификацию (где рассматривается всего два класса, например фрод/не фрод) и мультиклассовую классификацию (где классов может быть конечное число, например пять социальных групп).

__Модель__ (в обучении с учителем) – функция или правило, позволяющая предсказать ответ для любого объекта подходящей структуры (т.е. описываемого теми же признаками, с которыми работает модель). Формально, отображение из пространства объектов в пространство ответов.

__Набор данных, выборка, датасет__  – множество пар объект-ответ (в обучении с учителем), которое используется при настройке параметров (обучении) модели. В обучении без учителя просто множество объектов.

__Обучающая выборка__ – выборка, на которой происходит настройка параметров модели.

__Тестовая выборка__ – выборка, на которой происходит оценка качества модели. Должна быть максимально приближена к реальным данным, на которых планируется эксплуатировать модель.

__Валидационная выборка__ – выборка, на которой происходит выбор оптимальной структуры модели и подбор ее гиперпараметров.


__Валидационная выборка не является тестовой!__

## Какой природы бывают данные?
* __Табличные данные__. Классическая ситуация: на каждой строке отдельный объект, каждый столбец – некоторый признак, описывающий этот объект. Бывают мультикоррелирующие признаки. Информация кроется в значениях признаков. Перестановка признаков местами (перестановка столбцов) ни на что не влияет.

* __Изображения__. Данные представляют собой изображение, состоящее из пикселей. Обладает пространственной структурой, информация кроется в том, как пиксели упорядочены. Перестановка пикселей приводит к потере информации.

* __Последовательности__. Набор значений, на которых задано отношение порядка. Значения могут быть дискретными (например, ДНК), или же могут принимать значения из непрерывного интервала (временной ряд энергопотребления дата центра). Перестановка значений приводит к потере информации. Нельзя нарушать отношение порядка (тестирование на прошлом, обучение на будущем).

* __Тексты__. Данные представляют собой набор слов/символов. По факту являются последовательностями значений из конечного алфавита, но обладают достаточно строгой внутренней структурой ввиду существования грамматики.

* __Графы__. Данные представляют собой набор вершин и связей между ними. Связь между парой вершин означает наличие некоторого отношения между этими вершинами, которое может быть как направленным, так и ненаправленным. Например, в социальной сети вершинами могут являться пользователи, пользователи находящиеся в списке друзей друг у друга связаны ребрами типа "дружба". Подписчики связаны с пользовтелем, на которого они подписаны направленным ребром типа "подписка".

* __Данные сложной природы__. Например, видео – последовательность изображений. Или граф социальной сети, где для каждого пользователя доступны не только списки друзей и подписчиков, но и фотография/аватар, некоторые высказывания и пр.

*Конечно, это далеко не все типы данных, с которыми можно столкнуться. На текущий момент ограничимся этим списком.*

## Работа с данными
Сегодня мы рассмотрим табличные [данные об автомобилях](https://archive.ics.uci.edu/ml/datasets/Statlog+%28Vehicle+Silhouettes%29). Каждый автомобиль – отдельный объект, который описывается числовыми признаками и относится к одному из четырех классов. Т.е. решается задача многоклассовой классификации с числом классов $k=4$.

На что стоит обратить внимание при начале работы с табличными данными?
* На наличие пропусков в данных.
* На баланс/дисбаланс классов.
* На типы данных, с которыми предстоит работать.

Ответим на эти вопросы

In [None]:
# If on colab, uncomment the following lines

! wget https://raw.githubusercontent.com/girafe-ai/madmo-basic/madmo-basic-21-11/05_linear_classification/car_data.csv

In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

In [None]:
import sys
import numpy as np
import warnings
warnings.filterwarnings("ignore")
import matplotlib.pyplot as plt
import matplotlib
matplotlib.rcParams.update({'font.size': 15})

from IPython.display import clear_output

print(f'Python version: {sys.version}\n')
import plotly.io as pio
import plotly.express as px

from plotly import graph_objects as go
import seaborn as sns
sns.set(style="ticks", context="talk")
plt.style.use('dark_background')
sns.set_style('dark')
pio.templates.default = "plotly_dark"




In [None]:
column_names = [
    "Compactness", "Circularity", "Distance Circularity", "Radius Ratio", "Praxis Aspect Ratio",
    "Maxlength Aspect Ratio", "Scatter Ratio", "Elongatedness", "Praxis Rectangularity", "Maxlength Rectangularity",
    "Scaled Variance Along Major Axis", "Scaled Variance Along Minor Axis", "Scaled Radius of Gyration",
    "Skewness About Major Axis", "Skewness About Minor Axis", "Kurtosis About Minor Axis", "Kurtosis About Major Axis",
    "Hollows Ratio", "Class Label"
]
column_names = [e.upper() for e in column_names]

In [None]:
dataset = pd.read_csv('car_data.csv', delimiter=',', header=None, names=column_names, index_col=0)

Датасет небольших размеров:

In [None]:
dataset.shape

Посмотрим на набор данных:

In [None]:
dataset.head()

In [None]:
dataset.head()

Не слишком информативно. Рассмотрим статистики по всему датасету.

In [None]:
dataset.describe()

In [None]:
dataset.info()

In [None]:
dataset.nunique()

Пропусков в данных нет, все значения признаков – целые числа.

In [None]:
class_counts = dataset['CLASS LABEL'].value_counts()

In [None]:
plt.figure(figsize=(10, 10))
plt.pie(class_counts.values, labels=class_counts.index, autopct = '%.2f%%')
plt.title('Different classes', fontsize = 30)



In [None]:
color_mapper = {'saab': 'orange', 'bus': 'green', 'opel': 'blue', 'van': 'red'}

Видим, что классы хорошо сбалансированы. 

Подведем небольшой итог:
* Пропусков в данных нет
* Классы сбалансированы
* Все признаки числовые

С учетом вышесказанного можно сделать вывод, что сегодня наша задача не требует серьезной работы для предобработки данных.

## Разведочный анализ и визуализация данных.
На данные полезно посмотреть в различных визуализациях. Есть множество способов представить многомерные данные, обратимся к наиболее простым и визуально информативным.

In [None]:
feature_columns = dataset.columns[:-1]
target_column = dataset.columns[-1]

In [None]:
corr = dataset[feature_columns].corr()

heat = go.Heatmap(z=corr,
                  x=feature_columns,
                  y=feature_columns,
                  xgap=1, ygap=1,
                  colorbar_thickness=20,
                  colorbar_ticklen=3
                   )

layout = go.Layout(title_text="Correlation matrix", title_x=0.5, 
                   width=600, height=600,
                   xaxis_showgrid=False,
                   yaxis_showgrid=False,
                   yaxis_autorange='reversed')
   
fig=go.Figure(data=[heat], layout=layout)   
fig.update_layout(
    xaxis = dict(
        tickmode = 'linear',
        tick0 = 0,
        dtick = 1
    ),
    yaxis = dict(
        tickmode = 'linear',
        tick0 = 0,
        dtick = 1
    )
)
fig.show()

Некоторые признаки очень сильно коррелируют. Выделим их.

In [None]:
heat = go.Heatmap(z=(abs(corr.values) > 0.99) * 1,
                  x=feature_columns,
                  y=feature_columns,
                  xgap=1, ygap=1,
                  colorbar_thickness=20,
                  colorbar_ticklen=1
                   )

layout = go.Layout(title_text="Correlation matrix with elements are greater 0.99", title_x=0.5, 
                   width=600, height=600,
                   xaxis_showgrid=False,
                   yaxis_showgrid=False,
                   yaxis_autorange='reversed')
   
fig = go.Figure(data=[heat], layout=layout)     
fig.update_layout(
    xaxis = dict(
        tickmode = 'linear',
        tick0 = 0,
        dtick = 1
    ),
    yaxis = dict(
        tickmode = 'linear',
        tick0 = 0,
        dtick = 1
    )
)
fig.show()

Исключим 8 и 11 признаки (нумерация начинается с нуля).

In [None]:
_drop_features_indices = [8, 11]
print(feature_columns[_drop_features_indices])
selected_feature_columns = [feature for idx, feature in enumerate(feature_columns) if idx not in _drop_features_indices]

In [None]:
selected_feature_columns

Также посмотрим на визуализацию объектов с помощью t-SNE. Это вероятностная техника снижения размерности, часто используемая для визуализации. Не вдаваясь в подробности, этот метод старается сохранить близкие объекты близко друг к другу, а далекие – далеко друг от друга в пространстве меньшей размерности.

In [None]:
from sklearn.manifold import TSNE
tsne = TSNE()
X_transformed = tsne.fit_transform(dataset[selected_feature_columns].values)
# mapper = {x: idx for idx, x in enumerate(list(set(dataset[target_column])))}
plt.figure(figsize=(12, 10))
for class_label in np.unique(dataset[target_column].values):
    ix = np.where(dataset[target_column].values==class_label)
    plt.scatter(X_transformed[ix,0], X_transformed[ix, 1], c=color_mapper[class_label], label=class_label)
plt.legend()

Можно заметить, что класс `bus` достаточно хорошо отделяется от остальных классов. Класс `van` также имеет достаточно четкую структуру. Классы же `opel` и `saab` серьезно перекрывают друг друга.

Конечно, на основании такого графика нельзя делать серьезных выводов, но на некоторые мысли он может наводить.

## Обзор основных мер качества в задаче классификации
К сожалению, для оценки качества итоговой модели далеко не всегда удается учесть ее прямое влияние на бизнес. В таких случаях стоит использовать те критерии, которые наиболее согласованы с бизнес значимостью решения. Далее рассмотрим основные способы оценки качества в задачах классификации.

### Accuracy
__Accuracy__ определяет долю правильно предсказанных меток класса к общему числу объектов. Используется почти всегда вместе с другими метриками, но не подходит для случая сильно несбалансированных классов. В таких случаях может использоваться balanced accuracy.

__Precision или же Точность__ требует выбора целевого класса. Оценивает долю объектов, отнесенных к целевому классу корректно относительно общего числа объектов, отнесенного к целевому классу.

__Recall или же Полнота__ требует выбора целевого класса. Оценивает долю объектов, отнесенных к целевому классу корректно относительно общего числа объектов целевого класса.

Для простоты можно обратиться к иллюстрации

![](https://upload.wikimedia.org/wikipedia/commons/thumb/2/26/Precisionrecall.svg/495px-Precisionrecall.svg.png)
_By Walber - Own work, CC BY-SA 4.0, https://commons.wikimedia.org/w/index.php?curid=36926283_

__F-score__ – среднее гармоническое между Precision и Recall.

__ROC-AUC__ – площадь под ROC-кривой. Подходит для бинарной классификации. В многоклассовом случае рассматривает каждый класс против всех остальных. Минимальное осмысленное значение $0.5$, значение меньше сигнализирует о том, что банальная смена меток классов на противоположные даст результат выше $0.5$. Для построения информативной кривой требуется модель, которая умеет предсказывать не только метки классов, но и оценивать уверенность в том или ином предсказании. Пример можно увидеть ниже. Почитать подробнее можно [здесь](https://dyakonov.org/2017/07/28/auc-roc-площадь-под-кривой-ошибок/).

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import plot_roc_curve, roc_auc_score
_binary_indices = np.where(dataset[target_column].apply(lambda x: x in ['saab', 'opel']))
_binary_problem_feature_matrix = dataset[selected_feature_columns].values[_binary_indices]
_binary_problem_target = dataset[target_column].values[_binary_indices]

lr = LogisticRegression()
lr.fit(_binary_problem_feature_matrix, _binary_problem_target)
plot_roc_curve(lr, _binary_problem_feature_matrix, _binary_problem_target)

Как видим, результат выше $0.5$, но при этом далек от идеального. Стоит учесть, что это результат на той выборке, на которой обучалась модель, т.е. указанные классы линейно неразделимы.

## Основные модели в задаче классификации
Рассмотрим известные нам семейства моделей и их свойства.

__Метод ближайших соседей, kNN__. Метка класса предсказывается на основе ближайших объектов из обучающей выборки. Просто запоминает выборку, слабо подходит для огромных наборов данных без доработок. Страдает от проклятия размерности.

__Логистическая регрессия__. Одна из наиболее популярных моделей. Строит линейную разделяющую поверхность. При качественном подброе признаков является отличным baseline-решением, с которым достаточно сложно спорить. Нейронная сеть без скрытого слоя – и есть логистическая регрессия.

__Наивный Байесовский классификатор__. Модель, основанная на формуле Байеса. Часто применялась в задаче обнаружения спама. Хорошо работает с категориальными признаками. Может использоваться в качестве простого baseline-решения.


## Решение задачи классификации.
Разделим выборку на `train` и `test` составляющие. Затем обучим каждую из моделей и проинтерпретируем результаты.

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report

X_train, X_test, y_train, y_test = train_test_split(
    dataset[selected_feature_columns].values,
    dataset[target_column].values,
    test_size = 0.3,
    random_state = 42
)

# checking the shapes

print("Shape of X_train :", X_train.shape)
print("Shape of y_train :", y_train.shape)
print("Shape of X_test :", X_test.shape)
print("Shape of y_test :", y_test.shape)

### Логистическая регрессия
Перед обучением отнормируем данные, приведя их к одной шкале.

In [None]:
pipeline = Pipeline(
    [
        ('scaler', StandardScaler()),
        ('linear', LogisticRegression(multi_class='multinomial', solver='saga', tol=1e-3, max_iter=500))
    ]
)

clf = GridSearchCV(pipeline, param_grid={'linear__C': np.linspace(0.1, 10, 21), 
                                         'linear__penalty': ['l1', 'l2']}, 
                   scoring=('f1_weighted', 'accuracy'), refit='f1_weighted', verbose=1, n_jobs=-1, cv=5)


clf.fit(X_train, y_train)
clf.best_params_, clf.best_score_

In [None]:
best_lr = clf.best_estimator_

In [None]:
# evaluating the model
print(f"Training Accuracy : {clf.best_estimator_.score(X_train, y_train):.4f}")
print(f"Testing Accuracy : {clf.best_estimator_.score(X_test, y_test):.4f}")

# confusion matrix
cm = confusion_matrix(y_test, clf.best_estimator_.predict(X_test))
plt.rcParams['figure.figsize'] = (6, 6)
sns.heatmap(cm ,annot = True)

# classification report
cr = classification_report(y_test, clf.best_estimator_.predict(X_test))
print(cr)

In [None]:
import scikitplot

scikitplot.metrics.plot_roc(y_test, clf.best_estimator_.predict_proba(X_test), figsize=(16, 10))

### kNN
В случае с kNN важна нормировка данных. В отсутствие нормировки большее внимание будет уделяться признакам в больших шкалах.

In [None]:
from sklearn.neighbors import KNeighborsClassifier

pipeline = Pipeline(
    [
        ('scaler', StandardScaler()),
        ('knn', KNeighborsClassifier()),
    ]
)

clf = GridSearchCV(pipeline, param_grid={'knn__n_neighbors': np.arange(2, 35, 5)}, 
                   scoring=('f1_weighted', 'accuracy'), refit='f1_weighted', n_jobs=-1, verbose=1, cv=5)
clf.fit(X_train, y_train)


best_knn = clf.best_estimator_

# evaluating the model
print(f"Training Accuracy : {clf.best_estimator_.score(X_train, y_train):.4f}")
print(f"Testing Accuracy : {clf.best_estimator_.score(X_test, y_test):.4f}")

# confusion matrix
cm = confusion_matrix(y_test, clf.best_estimator_.predict(X_test))
plt.rcParams['figure.figsize'] = (6, 6)
sns.heatmap(cm ,annot = True)

# classification report
cr = classification_report(y_test, clf.best_estimator_.predict(X_test))
print(cr)

scikitplot.metrics.plot_roc(y_test, clf.best_estimator_.predict_proba(X_test), figsize=(16, 10))

### Анализ моделей при малых объемах выборки
Также проанализируем качество моделей в зависимости от объема обучающей выборки.

In [None]:
best_lr

In [None]:
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

In [None]:
import random

from sklearn.metrics import f1_score
colors = ['255,0,0', '0,255,0', '0,0,255', '120,120,0']


estimators = [
    LogisticRegression(C=1.5, penalty='l1', multi_class='multinomial', solver='saga', tol=1e-3, max_iter=1000),
    KNeighborsClassifier(n_neighbors=22)
]
figures = []
for i, clf in enumerate(estimators):
    f1_mean = []
    f1_std = []
    for split in (np.arange(1, 11) / 10):
        f1 = []
        for random_state in [27, 42, 2020, 11, 2]:
            random.seed(random_state)
            index = random.choices(np.arange(X_train_scaled.shape[0]), k=np.ceil(split * X_train_scaled.shape[0]).astype(int))
            clf.fit(X_train_scaled[index], y_train[index])
            y_pred = clf.predict(X_test_scaled)
            f1.append(f1_score(y_test, y_pred, average='weighted'))
        f1_mean.append(np.mean(f1))
        f1_std.append(np.std(f1))
    f1_mean = np.array(f1_mean)
    f1_std = np.array(f1_std)
    figures += [
        go.Scatter(
            x = np.arange(1, 11) / 10,
            y = f1_mean,
            name = f"F1 for {type(clf).__name__}",
            line=dict(color=f'rgb({colors[i]})'),
            fill=None
        ),
        go.Scatter(
            x = np.concatenate([np.arange(1, 11), np.arange(10, -1, -1)]) / 10,
            y = np.concatenate([f1_mean + f1_std, (f1_mean - f1_std)[::-1]]),
            showlegend=False,
            fill='tozerox',
            fillcolor=f'rgba({colors[i]},0.1)',
            mode='none'
        )
    ]
    
fig = go.Figure(figures)
fig.update_xaxes(type='category')
fig.update_layout(
    xaxis_title="Part of the data",
    yaxis_title="score",
    title='Learning curve'
)
fig.show()

Можно заметить, что при использовании всего 10% данных при обучении существенно ухудшилось качество kNN. Это согласуется с принципом действия модели: она лишь сравнивает новые объекты с известными объектами из обучающей выборки.

Логистическая регрессия показывает хорошие результаты. Скорее всего, использование нелинейных преобразований над признаками, позволило бы повысить качество результатов.

## Выводы
* Первичный анализ данных позволяет взглянуть на задачу под новым углом и может навести на важные идеи.
* Начинать решения лучше с простых моделей, используя полученные результаты в качестве baseline.
* Простые модели хорошо работают в условиях малого объема доступных данных.
* Линейные модели – дают хорошие baseline результаты.
* Предобработка данных (в т.ч. нормировка, работа с пропусками) должна производиться с учетом используемой модели.
* Анализ ошибки и качества моделей должен проводиться с привязкой используемых способов оценки качества к бизнес-метрикам.