# Семинар по линейной классификации

В этом семинаре мы научимся решать задачи классификации с помощью линейной модели из scikit-learn.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()

Работать будем с очень известным в мат.статистике набором данных - "Ирисы Фишера": https://ru.wikipedia.org/wiki/%D0%98%D1%80%D0%B8%D1%81%D1%8B_%D0%A4%D0%B8%D1%88%D0%B5%D1%80%D0%B0

Этот датасет содержит в себе три класса. На лекциях мы пока разбирали только случай бинарной классификации, но все наши определения можно обобщить и на многоклассовый случай (на следующей лекции немного уделим этому время).

In [None]:
# датасет доступен сразу из sklearn
from sklearn.datasets import load_iris

data, target = load_iris(return_X_y=True, as_frame=True)

In [None]:
data.head()

In [None]:
data.info()

In [None]:
target.value_counts()

Каждый ирис описывается 4-мя численными признаками и отнесен к одному из 3-х классов.

Разобьём данные на обучение и тест:

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(data, target, test_size=0.25, stratify=target, random_state=14300631)

Для предсказания класса ириса используем модель "Логистическая регрессия" (это линейный классификатор, почему он так называется - доразберем на лекции)

In [None]:
from sklearn.linear_model import LogisticRegression

clf = LogisticRegression()
clf.fit(X_train, y_train)

Посчитае метрики, которые мы ранее обсуждали: долю правильных ответов, точность, полноту, F-меру

*В вызове функций появился какой-то параметр "macro". Попробуйте разобраться с помощью документации, что он означает? И почему для accuracy_score его нет?*

In [None]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

y_pred_train = clf.predict(X_train)
y_pred_test = clf.predict(X_test)

print("Метрики на трейне")
print("-" * 20)
print(f"Accuracy: {accuracy_score(y_train, y_pred_train)}")
print(f"Precision: {precision_score(y_train, y_pred_train, average='macro')}")
print(f"Recall: {recall_score(y_train, y_pred_train, average='macro')}")
print(f"F1: {f1_score(y_train, y_pred_train, average='macro')}")
print("-" * 20)
print("\n")
print("Метрики на тесте")
print("-" * 20)
print(f"Accuracy: {accuracy_score(y_test, y_pred_test)}")
print(f"Precision: {precision_score(y_test, y_pred_test, average='macro')}")
print(f"Recall: {recall_score(y_test, y_pred_test, average='macro')}")
print(f"F1: {f1_score(y_test, y_pred_test, average='macro')}")

Видно, что предсказывается очень неплохо :)

Сразу получить набор метрик можно с помощью функции classification_report:

In [None]:
from sklearn.metrics import classification_report

print(classification_report(y_test, y_pred_test))

Заодно отобразим матрицу ошибок:

In [None]:
from sklearn.metrics import ConfusionMatrixDisplay

cm = ConfusionMatrixDisplay.from_predictions(y_test, y_pred_test, cmap=plt.cm.Blues)
cm.ax_.grid(False)  # отключаем координатную сетку

# Домашнее задание

Попытаемся предсказывать "опасность" различных астероидов для Земли, основываясь на наборе данных от NASA. Каждый астероид описывается набором признаков (подробное описание датасета можно посмотреть тут: https://www.kaggle.com/datasets/shrutimehta/nasa-asteroids-classification) и целевой переменной "Hazardous". Таким образом, задача является бинарной классификацией.

Ссылка на датасет (GDrive): https://drive.google.com/file/d/13_Ko3rmiE6s-Hx34sQ7jtF3BNt08hTjN/view?usp=share_link

Задание:

1.   Разбить выборку на обучение/валидацию/тест (0.7/0.2/0.1). Датасет не сбалансированный, поэтому не забудьте про параметр `stratify`. Для воспроизводимости экспериментов используйте параметр `random_state=179`.
2.   Работа с признаками: нужно подумать, какие признаки полезные, какие нет, можно ли на основе имеющихся данных придумать какие-то новые полезные для модели признаки, каким образом лучше закодировать имеющиеся признаки. Проводя эксперименты, обучайте модель на train и следите за метрикой F1 на валидации. Не забудьте про важность нормирования признаков с помощью `MinMaxScaler` или `StandardScaler`.
3. *Опционально: можете также поэкспериментировать с гиперпараметрами самой модели `LogisticRegression`, основываясь на документации.*
4. Для вашего лучшего эксперимента из пунктов 2 и 3 обучите модель совместно на данных train + val и посчитайте все метрики на тестовой части.
5. Попробуйте заменить модель логистической регрессии на обычную линейную регрессию. Станет ли качество модели хуже?



