### Практикум: Линейная классификация

Датасет: Heart Disease UCI (303 наблюдения, 13 признаков, бинарная классификация).
Цель: Предсказать наличие сердечного заболевания (целевой признак target: 0 = здоров, 1 = болен).

#### Шаг 1: Загрузка и первичный анализ данных

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

# Загрузите данные
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/heart-disease/processed.cleveland.data"
df = pd.read_csv(url, header=None)
df.columns = [
    'age', 'sex', 'cp', 'trestbps', 'chol', 'fbs', 'restecg',
    'thalach', 'exang', 'oldpeak', 'slope', 'ca', 'thal', 'target'
]

0. Найдите, что обозначает, каждый признак (в смысле поищите описание датасета в Интернете)
1. Выведите первые 5 строк.
2. Проверьте пропуски (например, есть ли '?' в данных).
3. Постройте гистограмму возраста и распределение целевого признака.

In [None]:
# <Ваш код здесь>

#### Шаг 2: Предобработка данных

Задания:

- Замените пропуски (строки с '?') в колонках ca и thal на медианные значения.
- Преобразуйте категориальные признаки (например, cp – тип боли в груди) в one-hot encoding.
- Нормализуйте числовые признаки (например, trestbps, chol).

In [None]:
from sklearn.preprocessing import StandardScaler

# Пример для замены пропусков
df['ca'] = pd.to_numeric(df['ca'], errors='coerce')
df['ca'].fillna(df['ca'].median(), inplace=True)

# Ваш код:
# 1. Обработайте колонку 'thal'.
# 2. Преобразуйте категориальные признаки.
# 3. Нормализуйте данные.
# <Ваш код>

#### Шаг 3: Конструирование признаков
Придумайте 2 новых признака на основе существующих. Например:
- `age_chol_ratio` = возраст / уровень холестерина
- `blood_pressure_category` (категория на основе `trestbps`)

In [None]:
# Пример:
df['age_chol_ratio'] = df['age'] / df['chol']

# Ваш код: добавьте 1-2 своих признака
# <Ваш код>

#### Шаг 4: Обучение линейного классификатора

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

# Разделите данные на X (все признаки) и y (target)
X = df.drop('target', axis=1)
y = (df['target'] > 0).astype(int)  # Преобразуем в бинарную задачу

# Разделите на train/test

# Обучите модель

# Оцените метрики

#### Шаг 5: Визуализация разделяющей плоскости
Для многомерных данных используем **PCA** (principal component analysis, метод главных компонент - преобразование, позволяющее перевести данные из многомерного пространства, не теряя информацию), чтобы спроецировать данные на 2D.

Вам дан готовый код, давайте посмотрим что получится

In [None]:
from sklearn.decomposition import PCA

# Применяем PCA
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_train)

# Обучаем модель на PCA-признаках
model_pca = LogisticRegression()
model_pca.fit(X_pca, y_train)

# Строим разделяющую плоскость
xx, yy = np.meshgrid(np.linspace(-5, 5, 100), np.linspace(-5, 5, 100))
Z = model_pca.predict(np.c_[xx.ravel(), yy.ravel()]).reshape(xx.shape)

plt.contourf(xx, yy, Z, alpha=0.3)
plt.scatter(X_pca[:,0], X_pca[:,1], c=y_train, edgecolors='k')
plt.title("Разделяющая плоскость в PCA-пространстве")
plt.show()

#### Шаг 6: Эксперименты и выводы
**Задания:**
1. Измените параметр регуляризации `C` в LogisticRegression. Как изменилась граница?
2. Уберите созданные вами новые признаки. Повлияло ли это на метрики?
3. *Сложное:* Постройте график коэффициентов модели (`model.coef_`). Какие признаки самые важные?


In [None]:
# Пример для анализа коэффициентов
coef = pd.DataFrame({'feature': X.columns, 'weight': model.coef_[0]})
coef.sort_values(by='weight', ascending=False, inplace=True)
plt.barh(coef['feature'], coef['weight'])
plt.title("Важность признаков")
plt.show()