# Лабораторная работа 8: Построение моделей классификации

**Цель:** Самостоятельно применить все изученные на лекции и семинаре методы для решения реальной задачи бинарной классификации, включая инжиниринг признаков, обучение модели и ее оценку.

**Формат сдачи:** Заполненный Jupyter Notebook.

**Система оценивания:**
- **Семинар:** 3 балла (за разбор кода).
- **Лабораторная работа:** 5 баллов (за выполнение одного из вариантов).
- **Проверочная работа:** 8 баллов.

!!!Проверочная будет содержать задания по семинару и лабораторной, на знание датасета по вариантам!!!
---

### Инструкции к выполнению

Вам предлагается на выбор два варианта. Выполнить нужно **только один**.

1.  **Основной вариант (Датасет "Social Network Ads"):** Этот вариант нацелен на прямое закрепление материала семинара. Он позволит вам уверенно отработать все ключевые шаги. **Максимальная оценка за эту работу — 5 баллов.**

2.  **Продвинутый вариант (Датасет "Титаник"):** Этот вариант для тех, кто хочет решить более комплексную задачу. Здесь вам предстоит дополнительно применить навыки работы с пропущенными данными. **Максимальная оценка за эту работу — 5 баллов + 2 бонусных балла.**

**Ваш главный ориентир при выполнении — это блокнот с Семинара 8.** Следуйте его структуре, адаптируя код под новый набор данных.

--- 
## Вариант 1 (Основной): Предсказание покупки продукта

**Контекст:** У вас есть данные о пользователях социальной сети. На основе их пола, возраста и предполагаемой зарплаты нужно предсказать, совершат ли они покупку (`Purchased`) определенного продукта, рекламу которого они видели.

**Данные:** `Social_Network_Ads.csv` доступны по пути `https://raw.githubusercontent.com/yuliya-sabirova/ml-course/main/data/Social_Network_Ads.csv`

### Шаг 1: Загрузка и EDA
**Задание:** Загрузите данные, выведите первые 5 строк и информацию о датафрейме. Визуализируйте распределение целевой переменной `Purchased`.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# -- ВАШ КОД ЗДЕСЬ --
# url = '...'
# df = pd.read_csv(url)

# df.head()
# df.info()

# sns.countplot(...)


### Шаг 2: Инжиниринг признаков и подготовка данных

**Задание:** 
1. Удалите ненужный столбец `User ID`.
2. Преобразуйте столбец `Gender` в фиктивную переменную (dummy) с помощью `pd.get_dummies`. Не забудьте `drop_first=True`.
3. Разделите данные на `X` и `y`, а затем на обучающую и тестовую выборки (test_size=0.2, random_state=42).
4. Масштабируйте числовые признаки (`Age`, `EstimatedSalary`) с помощью `StandardScaler`.

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# -- ВАШ КОД ЗДЕСЬ --
# df = df.drop('User ID', axis=1)
# df = pd.get_dummies(df, columns=['Gender'], drop_first=True)

# X = ...
# y = ...

# X_train, X_test, y_train, y_test = train_test_split(...)

# scaler = StandardScaler()
# X_train[['Age', 'EstimatedSalary']] = scaler.fit_transform(X_train[['Age', 'EstimatedSalary']])
# X_test[['Age', 'EstimatedSalary']] = scaler.transform(X_test[['Age', 'EstimatedSalary']])


### Шаг 3: Обучение модели

**Задание:** Создайте и обучите модель `LogisticRegression` с подбором гиперпараметров через `GridSearchCV`, как это было сделано на семинаре.

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import GridSearchCV

# -- ВАШ КОД ЗДЕСЬ --
# log_model = ...
# param_grid = {...}

# grid_search = GridSearchCV(...)
# grid_search.fit(...)

# print("Лучшие параметры:", grid_search.best_params_)


### Шаг 4: Оценка модели

**Задание:** Оцените качество вашей лучшей модели на тестовых данных. Выведите матрицу ошибок, отчет о классификации и ROC-кривую.

In [None]:
from sklearn.metrics import confusion_matrix, classification_report, plot_confusion_matrix, plot_roc_curve

# -- ВАШ КОД ЗДЕСЬ --
# y_pred = ...

# plot_confusion_matrix(...)
# print(classification_report(...))
# plot_roc_curve(...)


--- 
## Вариант 2 (Продвинутый): Предсказание выживаемости на "Титанике"

**Контекст:** Используя данные о пассажирах "Титаника", постройте модель, которая предсказывает, выжил пассажир или нет (`Survived`).

**Данные:** `Titanic-Dataset.csv` доступен по ссылке `https://raw.githubusercontent.com/yuliya-sabirova/ml-course/main/data/Titanic-Dataset.csv`

### Шаг 1: Загрузка и EDA
**Задание:** Загрузите данные, изучите их с помощью `.info()` и `.isNone().sum()`, чтобы найти пропущенные значения.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# -- ВАШ КОД ЗДЕСЬ --
# url_titanic = '...'
# titanic_df = pd.read_csv(url_titanic)

# titanic_df.info()
# titanic_df.isNone().sum()


### Шаг 2: Инжиниринг признаков и подготовка данных

**Задание:** 
1. **Обработайте пропуски:** Заполните пропущенные значения в `Age` медианным возрастом.
2. **Удалите ненужные столбцы:** `PassengerId`, `Name`, `Ticket`, `Cabin` (в нем слишком много пропусков).
3. **Преобразуйте категории:** Примените `pd.get_dummies` к столбцам `Sex` и `Embarked`, не забывая `drop_first=True`.
4. **Разделите и масштабируйте:** Разделите данные на `X` и `y` (`Survived`), затем на train/test и примените `StandardScaler` ко всем признакам.

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# -- ВАШ КОД ЗДЕСЬ --
# titanic_df['Age'].fillna(titanic_df['Age'].median(), inplace=True)
# titanic_df.drop(['PassengerId', 'Name', 'Ticket', 'Cabin'], axis=1, inplace=True)
# titanic_df = pd.get_dummies(titanic_df, columns=['Sex', 'Embarked'], drop_first=True)

# X = ...
# y = ...

# X_train, X_test, y_train, y_test = train_test_split(...)

# scaler = StandardScaler()
# scaled_X_train = scaler.fit_transform(X_train)
# scaled_X_test = scaler.transform(X_test)


### Шаг 3: Обучение модели

**Задание:** Создайте и обучите модель `LogisticRegression` с подбором гиперпараметров через `GridSearchCV`.

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import GridSearchCV

# -- ВАШ КОД ЗДЕСЬ --
# log_model_titanic = ...
# param_grid_titanic = {...}

# grid_search_titanic = GridSearchCV(...)
# grid_search_titanic.fit(scaled_X_train, y_train)

# print("Лучшие параметры:", grid_search_titanic.best_params_)


### Шаг 4: Оценка модели

**Задание:** Оцените качество вашей лучшей модели на тестовых данных. Выведите матрицу ошибок, отчет о классификации и ROC-кривую.

In [None]:
from sklearn.metrics import confusion_matrix, classification_report, plot_confusion_matrix, plot_roc_curve

# -- ВАШ КОД ЗДЕСЬ --
