In [114]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline 
from sklearn.linear_model import LogisticRegression 
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics import precision_score,recall_score,precision_recall_curve 
from sklearn.metrics import PrecisionRecallDisplay
from sklearn.metrics import accuracy_score
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report
import seaborn as sns
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import Ridge 
from sklearn.linear_model import Lasso
from sklearn.model_selection import GridSearchCV
from sklearn.linear_model import RidgeCV
from sklearn.linear_model import LassoCV
from sklearn.feature_selection import RFE
from sklearn.feature_selection import SelectKBest, f_regression
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import roc_auc_score, roc_curve
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans

# Заметка
🧠 В какой ситуации что использовать?
1. MAE - Когда важны средние реальные ошибки. Например: $$$, км, баллах и т.д.
2. MSE - Когда надо сильно наказывать большие ошибки. Например: Используется в оптимизации
3. R² - Когда хочешь знать, как модель объясняет разброс Например: От 0 до 1 (лучше — ближе к 1)

df = pd.read_csv("housing.csv")

# Заметка
model.coef_[0] — это массив, но в линейной регрессии он одномерный,
так что: оставляй просто model.coef_

# Заметка
🔧 Параметры PolynomialFeatures(...):


Параметр	Что делает
degree=2	Добавляет степени до 2 (x, x²)
interaction_only=True	Только взаимодействия, без x²
include_bias=False	Не добавлять колонку "1" (переменная-смещение)
🧠 Когда полезно использовать?

Если ты чувствуешь, что данные ведут себя нелинейно
Если R² в линейной регрессии низкий
Если есть предположение, что влияние не прямое

# Заметка
🧠 ЗАЧЕМ НУЖНА РЕГУЛЯРИЗАЦИЯ?
Ridge and Lasso
Когда у тебя:

🔹 Много признаков
🔹 Они коррелируют между собой
🔹 Или модель переобучается
→ Тогда веса (коэффициенты) начинают "скакать" и быть нестабильными
Решение — наказать модель за слишком большие веса. Это и есть регуляризация.

# Заметка

Что такое RidgeCV? 
Ridge-модель с встроенным кросс-валидационным подбором alpha

🔍 Что такое GridSearchCV?

Это способ перебрать все возможные значения параметров модели (например, alpha в Ridge), чтобы найти:

🔥 Лучшее сочетание параметров, дающее максимум точности.
Допустим, ты хочешь найти лучший alpha для Ridge:
Ты даёшь это GridSearchCV, и он:

Подставляет каждое значение
Обучает модель на подвыборках (см. ниже 👇)
Сравнивает метрики (R², MSE, MAE...)
Выбирает самое лучшее

🔁 Что такое кросс-валидация (CV)?
Например, cv=5 значит:
Разделим выборку на 5 кусков. Обучим на 4, проверим на 1. Потом повторим 5 раз, каждый раз меняя кусок.
📌 Это предохраняет от переобучения и даёт стабильную оценку.


Что значит .best_score_?
Если ты ищешь scoring="r2", то .best_score_ = максимальный средний R²
✅ В итоге ты получаешь:

📊 Статистически обоснованное значение alpha
💪 Устойчивую к переобучению модель
🎯 Чёткую метрику, которую можно доверять
Это способ разбить данные на несколько частей и проверить модель в разных "сценариях":

# Заметка 
SelectKBest | Выбирает k лучших признаков по статистике (f_regression)
RFE | Рекурсивно удаляет признаки, оставляя только важные
LassoCV | Использует L1-регуляризацию, чтобы автоматически обнулять ненужные признаки

🔍 1. SelectKBest

📌 Принцип:
Он оценивает каждый признак по отдельности, насколько он связан с целевой переменной (в регрессии — через f_regression, то есть корреляцию).

📦 Ты выбираешь k лучших признаков — например, топ-3, топ-5 и т.д.

2. RFE — Recursive Feature Elimination

📌 Принцип:
Он использует модель (например, линейную регрессию) и пошагово удаляет наименее важный признак, пока не останется нужное количество.

✂️ 3. LassoCV — L1-регуляризация с автоподбором alpha

📌 Принцип:
Модель сама обнуляет веса у ненужных признаков.
То есть нужные признаки получают вес ≠ 0, а мусор — обнуляется.

In [74]:
df.head(10)

Unnamed: 0,Age,Sex,ChestPainType,RestingBP,Cholesterol,FastingBS,RestingECG,MaxHR,ExerciseAngina,Oldpeak,ST_Slope,HeartDisease
0,40,M,ATA,140,289,0,Normal,172,N,0.0,Up,0
1,49,F,NAP,160,180,0,Normal,156,N,1.0,Flat,1
2,37,M,ATA,130,283,0,ST,98,N,0.0,Up,0
3,48,F,ASY,138,214,0,Normal,108,Y,1.5,Flat,1
4,54,M,NAP,150,195,0,Normal,122,N,0.0,Up,0
5,39,M,NAP,120,339,0,Normal,170,N,0.0,Up,0
6,45,F,ATA,130,237,0,Normal,170,N,0.0,Up,0
7,54,M,ATA,110,208,0,Normal,142,N,0.0,Up,0
8,37,M,ASY,140,207,0,Normal,130,Y,1.5,Flat,1
9,48,F,ATA,120,284,0,Normal,120,N,0.0,Up,0


In [77]:
df.shape

(918, 12)

# Заметка
KNeighborsClassifier() — модель ближайших соседей, смотрит на соседние точки, чтобы предсказать класс
RandomForestClassifier() — ансамблевая модель, обучает кучу деревьев и голосует

# Заметка
## 🔺 А теперь про ROC-AUC (кратко):

### 🎯 ROC-AUC = метрика для бинарной классификации, особенно когда классы несбалансированы

ROC-кривая - Это график показывает насколько хорошо модель отделяет классы?
AUC - Это площадь под кривой от 0 до 1. Чем ближе к 1 — тем лучше.
### 🧠 Представь:

У тебя модель, которая предсказывает: “есть болезнь” или “нет”
Для каждого пациента модель говорит:
“я на 89% уверен, что у него болезнь”
“я на 22% уверен, что нет”
📌 В ROC нас интересует не просто правильность (accuracy), а:

Насколько высоко модель ранжирует “1” по сравнению с “0”
### 📐 Ось ROC-кривой:

X (FPR) - False Positive Rate (ложные тревоги),
Y (TPR) - True Positive Rate (чувствительность),
### 🏆 AUC (Area Under Curve):
1.0 - Идеальное разделение (классы разделяются чётко),
0.9–0.99 - Отличная модель,
0.8–0.9	- Хорошая,
0.7–0.8	- Ок, но можно лучше,
0.5	- Хуже — это как гадать монеткой 😐,
### 📌 Отличие от accuracy:

accuracy — просто сколько правильно
roc-auc — насколько модель уверенно и правильно отделяет 0 от 1

# Заметка
## 🔷 Что такое КЛАСТЕРИЗАЦИЯ?

Это неподконтрольное машинное обучение (unsupervised learning) — то есть без целевой переменной (без Y).

📌 Цель:

Разделить объекты (людей, товары, тексты) на группы (кластеры) по схожим признакам.
## 📦 Основные алгоритмы кластеризации:



KMeans - Разбивает данные на K кластеров, минимизируя расстояние до центра.
DBSCAN - Находит плотные группы, игнорируя выбросы.
Hierarchical - Создаёт древо кластеров (как семейное дерево).

## 🧪 Что важно при кластеризации:

📊 Данные нужно масштабировать (StandardScaler)
🎯 Ты сам выбираешь K — число кластеров
📉 Метрика — Silhouette score, Inertia (расстояние)

In [116]:
df = pd.read_csv("Mall_Customers.csv")