# Лабораторная работа №9: Сравнение KNN и SVM на несбалансированных данных

**ФИО студента:** ________________________

**Цель работы:**
1.  Самостоятельно применить модели KNN и SVM для решения задачи бинарной классификации.
2.  Научиться диагностировать проблему **несбалансированных классов**.
3.  Освоить и сравнить два подхода к решению этой проблемы: выбор правильной метрики для `GridSearchCV` и использование весов классов в модели.
4.  Провести глубокий сравнительный анализ производительности моделей.

<div class="alert alert-block alert-danger">
<b>ВАЖНОЕ ПРЕДУПРЕЖДЕНИЕ О ПЛАГИАТЕ</b>
<br>
Эта лабораторная работа является индивидуальной. Код в ячейках может быть похож у разных студентов (поскольку вы используете одни и те же инструменты), но <b>текстовые ячейки с анализом и выводами должны быть написаны вами лично и быть оригинальными.</b>
    
<ul>
    <li>Работы с дословно скопированными или перефразированными выводами из других источников (включая работы одногруппников) <b>будут аннулированы без возможности пересдачи.</b></li>
    <li>Ваша задача — не просто получить цифры, а <b>продемонстрировать понимание</b> того, что эти цифры означают в контексте решаемой задачи.</li>
    <li>Ответы на аналитические вопросы должны быть развернутыми и обоснованными.</li>
</ul>
</div>

### Задание 1: Загрузка и разведочный анализ данных (EDA)

1.  Импортируйте необходимые библиотеки (`pandas`, `seaborn`, `matplotlib.pyplot`).
2.  Загрузите датасет `wine_fraud.csv` в DataFrame.
3.  Проанализируйте целевую переменную `quality`:
    *   Выведите количество значений для каждого класса (`Legit`, `Fraud`).
    *   Постройте график `countplot` для визуализации баланса классов.
4.  **Напишите текстовый вывод:** Являются ли классы сбалансированными? Почему **сильный дисбаланс** может быть проблемой для обучения модели, особенно если наша цель — находить объекты редкого класса?

In [None]:
# Ваш код здесь

**Ваш вывод по Заданию 1:**

*   *(здесь должен быть ваш оригинальный текст)*

### Задание 2: Подготовка данных

1.  Создайте матрицу признаков `X` и вектор цели `y`.
2.  Преобразуйте текстовые метки цели в числовые: `Legit` -> 0, `Fraud` -> 1.
3.  Преобразуйте категориальный признак `type` в числовой формат с помощью `pd.get_dummies()` (`drop_first=True`).
4.  Разделите данные на обучающую и тестовую выборки в соотношении 70/30. Используйте `random_state=101`.

In [None]:
# Ваш код здесь

### Задание 3: Модель KNN (Наивный подход)

Сначала мы построим модель, используя стандартный подход, где `GridSearchCV` будет оптимизировать общую точность (`accuracy`).

1.  Импортируйте `StandardScaler`, `KNeighborsClassifier`, `Pipeline`, `GridSearchCV`.
2.  Создайте `Pipeline`, состоящий из `StandardScaler` и `KNeighborsClassifier`.
3.  Создайте сетку параметров для `knn__n_neighbors` с диапазоном `range(1, 31)`.
4.  Создайте экземпляр `GridSearchCV`, передав в него пайплайн, сетку параметров, `cv=5` и **`scoring='accuracy'`**.
5.  Обучите `GridSearchCV` на обучающих данных.
6.  Сделайте предсказания на тестовых данных и выведите `classification_report`.

In [None]:
# Ваш код здесь

### Задание 4: Анализ наивного подхода

**Напишите текстовый вывод, ответив на вопросы:**
1.  Внимательно посмотрите на метрики для класса `Fraud` (метка 1) в полученном отчете. Что вы видите? Предсказывает ли модель этот класс вообще?
2.  Свяжите этот результат с дисбалансом классов, который вы обнаружили в Задании 1.
3.  Почему общая точность (`accuracy`) такая высокая, если модель по факту не находит подделки? Можно ли считать такую модель полезной на практике?

**Ваш вывод по Заданию 4:**

*   *(здесь должен быть ваш оригинальный текст)*

### Задание 5: Модель KNN (Улучшенный подход)

Как мы увидели, `accuracy` — плохая метрика для оптимизации на несбалансированных данных. Давайте сменим цель нашей оптимизации. Вместо общей точности будем максимизировать `f1-score`, который является средним гармоническим между точностью (`precision`) и полнотой (`recall`) и лучше подходит для таких задач.

1.  Повторите все шаги из Задания 3, но при создании `GridSearchCV` укажите **`scoring='f1_weighted'`**.
2.  Обучите новую модель.
3.  Сделайте предсказания и выведите `classification_report`.

In [None]:
# Ваш код здесь

### Задание 6: Анализ улучшенного подхода

**Напишите текстовый вывод, ответив на вопросы:**
1.  Сравните этот отчет с отчетом из Задания 4. Какие метрики для класса `Fraud` изменились? 
2.  Как изменилась (и изменилась ли) общая `accuracy`? 
3.  Объясните, почему новая модель, возможно, с чуть меньшей `accuracy`, на самом деле гораздо полезнее для решения нашей бизнес-задачи.

**Ваш вывод по Заданию 6:**

*   *(здесь должен быть ваш оригинальный текст)*

### Задание 7: Модель SVM с учетом дисбаланса классов

SVM предлагает другой, более прямой способ борьбы с дисбалансом — параметр `class_weight='balanced'`. Он автоматически взвешивает классы обратно пропорционально их частоте, заставляя модель уделять больше внимания редкому классу.

1.  Импортируйте `SVC`.
2.  Создайте `Pipeline`, состоящий из `StandardScaler` и `SVC(class_weight='balanced')`.
3.  Создайте сетку параметров для `GridSearchCV`. Переберите несколько значений для `C` (например, `[0.1, 1, 10, 100]`) и `gamma` (например, `['scale', 'auto', 0.01]`).
4.  Обучите `GridSearchCV` (можно использовать `scoring='f1_weighted'` для согласованности) и выведите лучшие параметры.
5.  Сделайте предсказания и выведите `classification_report`.

In [None]:
# Ваш код здесь

### Задание 8: Итоговый сравнительный анализ

**Напишите развернутый вывод, ответив на следующие вопросы:**
1.  Какая из двух моделей (**улучшенный KNN** из Задания 5 или **SVM** из Задания 7) показала себя лучше в данной задаче? Обоснуйте свой ответ, ссылаясь на конкретные метрики (`f1-score`, `recall` для класса `Fraud`).
2.  Мы использовали два разных подхода для борьбы с дисбалансом: изменение `scoring` в `GridSearchCV` для KNN и использование `class_weight='balanced'` в `SVC`. Какой из подходов, по-вашему, сработал эффективнее в данной задаче?
3.  В контексте задачи определения поддельного вина, какая ошибка страшнее для бизнеса: **False Positive** (настоящее вино помечено как подделка) или **False Negative** (поддельное вино пропущено и помечено как настоящее)? Какую метрику (`precision` или `recall` для класса `Fraud`) в таком случае важнее максимизировать? Обоснуйте свой выбор.

**Ваш итоговый вывод:**

*   *(здесь должен быть ваш оригинальный, развернутый анализ)*