# 1. Выбор начальных условий

## 1.1 Задача классификации

Датасет:
Default of Credit Card Clients Dataset
Постановка задачи:
Бинарная классификация — определить, будет ли клиент иметь дефолт по кредитной карте в следующем месяце.
Почему это реальная задача:
Подобные модели используются банками для:
оценки кредитных рисков
автоматического принятия решений по выдаче кредитов
снижения финансовых потерь
Целевая переменная:
default.payment.next.month (0 — нет дефолта, 1 — дефолт)

## 1.2 Задача регрессии

 Датасет:
Air Quality Dataset
Постановка задачи:
Предсказание концентрации загрязнителя воздуха (например, CO(GT)) на основе метеоданных и показаний сенсоров.
Почему это реальная задача:
мониторинг качества воздуха
прогноз загрязнений
экология и городское планирование
Целевая переменная:
CO(GT) — концентрация угарного газа

# 2. Выбор метрик качества

## Для классификации:

Accuracy — общая точность
ROC-AUC — качество разделения классов (важно при дисбалансе)
Обоснование:
В задаче дефолта важно не только общее количество верных ответов, но и способность модели различать классы.

## Для регрессии:

MAE (Mean Absolute Error) — средняя абсолютная ошибка
RMSE (Root Mean Squared Error) — штрафует большие ошибки
Обоснование:
Эти метрики хорошо интерпретируемы и широко применяются в задачах прогнозирования.

# 3. Создание бейзлайна для классификации

In [1]:
## Импортируем необходимые библиотеки для работы с данными и KNN.
import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, roc_auc_score

In [2]:
## Загружаем датасет и смотрим на структуру данных.
df = pd.read_csv("UCI_Credit_Card.csv")
df.head()

Unnamed: 0,ID,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_0,PAY_2,PAY_3,PAY_4,...,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default.payment.next.month
0,1,20000.0,2,2,1,24,2,2,-1,-1,...,0.0,0.0,0.0,0.0,689.0,0.0,0.0,0.0,0.0,1
1,2,120000.0,2,2,2,26,-1,2,0,0,...,3272.0,3455.0,3261.0,0.0,1000.0,1000.0,1000.0,0.0,2000.0,1
2,3,90000.0,2,2,2,34,0,0,0,0,...,14331.0,14948.0,15549.0,1518.0,1500.0,1000.0,1000.0,1000.0,5000.0,0
3,4,50000.0,2,2,1,37,0,0,0,0,...,28314.0,28959.0,29547.0,2000.0,2019.0,1200.0,1100.0,1069.0,1000.0,0
4,5,50000.0,1,2,1,57,-1,0,-1,0,...,20940.0,19146.0,19131.0,2000.0,36681.0,10000.0,9000.0,689.0,679.0,0


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30000 entries, 0 to 29999
Data columns (total 25 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   ID                          30000 non-null  int64  
 1   LIMIT_BAL                   30000 non-null  float64
 2   SEX                         30000 non-null  int64  
 3   EDUCATION                   30000 non-null  int64  
 4   MARRIAGE                    30000 non-null  int64  
 5   AGE                         30000 non-null  int64  
 6   PAY_0                       30000 non-null  int64  
 7   PAY_2                       30000 non-null  int64  
 8   PAY_3                       30000 non-null  int64  
 9   PAY_4                       30000 non-null  int64  
 10  PAY_5                       30000 non-null  int64  
 11  PAY_6                       30000 non-null  int64  
 12  BILL_AMT1                   30000 non-null  float64
 13  BILL_AMT2                   300

In [4]:
## Разделяем признаки и целевую переменную.
X = df.drop("default.payment.next.month", axis=1)
y = df["default.payment.next.month"]

In [5]:
## Делим данные на обучающую и тестовую выборки.
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

In [6]:
## Обучаем KNN с базовым параметром k=5.
knn_clf = KNeighborsClassifier(n_neighbors=5)
knn_clf.fit(X_train, y_train)

In [7]:
## Оцениваем качество бейзлайн-модели по выбранным метрикам.
y_pred = knn_clf.predict(X_test)
y_proba = knn_clf.predict_proba(X_test)[:, 1]

accuracy = accuracy_score(y_test, y_pred)
roc_auc = roc_auc_score(y_test, y_proba)

accuracy, roc_auc

(0.7508333333333334, 0.5954151839664117)

# 4. Улучшение бейзлайна
## Гипотезы:
### KNN чувствителен к масштабу → нормализация признаков улучшит качество
### Подбор оптимального k через кросс-валидацию повысит метрики

In [8]:
## Используем StandardScaler для нормализации данных.
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline

In [9]:
## Создаем pipeline: масштабирование + KNN.
pipeline = Pipeline([
    ("scaler", StandardScaler()),
    ("knn", KNeighborsClassifier())
])

In [10]:
## Определяем сетку гиперпараметров.
from sklearn.model_selection import GridSearchCV

param_grid = {
    "knn__n_neighbors": [3, 5, 7, 9, 11],
    "knn__weights": ["uniform", "distance"]
}

In [11]:
## Выполняем кросс-валидацию для поиска лучших параметров.
grid = GridSearchCV(
    pipeline,
    param_grid,
    cv=5,
    scoring="roc_auc"
)

grid.fit(X_train, y_train)

In [12]:
## Оцениваем улучшенный бейзлайн.
best_model = grid.best_estimator_

y_pred_best = best_model.predict(X_test)
y_proba_best = best_model.predict_proba(X_test)[:, 1]

accuracy_best = accuracy_score(y_test, y_pred_best)
roc_auc_best = roc_auc_score(y_test, y_proba_best)

accuracy_best, roc_auc_best

(0.8091666666666667, 0.7238914623601993)

* Масштабирование признаков существенно улучшило качество модели, поскольку KNN чувствителен к разным масштабам данных
* Подбор гиперпараметров через GridSearchCV позволил найти более оптимальные значения k и весов
* ROC-AUC улучшился значительно, что говорит о лучшей способности модели разделять классы (дефолт / не дефолт)

# 5. Создание бейзлайна для регрессии

In [13]:
df_air = pd.read_csv("AirQuality.csv", sep=";", decimal=",")
df_air.head()

Unnamed: 0,Date,Time,CO(GT),PT08.S1(CO),NMHC(GT),C6H6(GT),PT08.S2(NMHC),NOx(GT),PT08.S3(NOx),NO2(GT),PT08.S4(NO2),PT08.S5(O3),T,RH,AH,Unnamed: 15,Unnamed: 16
0,10/03/2004,18.00.00,2.6,1360.0,150.0,11.9,1046.0,166.0,1056.0,113.0,1692.0,1268.0,13.6,48.9,0.7578,,
1,10/03/2004,19.00.00,2.0,1292.0,112.0,9.4,955.0,103.0,1174.0,92.0,1559.0,972.0,13.3,47.7,0.7255,,
2,10/03/2004,20.00.00,2.2,1402.0,88.0,9.0,939.0,131.0,1140.0,114.0,1555.0,1074.0,11.9,54.0,0.7502,,
3,10/03/2004,21.00.00,2.2,1376.0,80.0,9.2,948.0,172.0,1092.0,122.0,1584.0,1203.0,11.0,60.0,0.7867,,
4,10/03/2004,22.00.00,1.6,1272.0,51.0,6.5,836.0,131.0,1205.0,116.0,1490.0,1110.0,11.2,59.6,0.7888,,


In [14]:
df_air.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9471 entries, 0 to 9470
Data columns (total 17 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Date           9357 non-null   object 
 1   Time           9357 non-null   object 
 2   CO(GT)         9357 non-null   float64
 3   PT08.S1(CO)    9357 non-null   float64
 4   NMHC(GT)       9357 non-null   float64
 5   C6H6(GT)       9357 non-null   float64
 6   PT08.S2(NMHC)  9357 non-null   float64
 7   NOx(GT)        9357 non-null   float64
 8   PT08.S3(NOx)   9357 non-null   float64
 9   NO2(GT)        9357 non-null   float64
 10  PT08.S4(NO2)   9357 non-null   float64
 11  PT08.S5(O3)    9357 non-null   float64
 12  T              9357 non-null   float64
 13  RH             9357 non-null   float64
 14  AH             9357 non-null   float64
 15  Unnamed: 15    0 non-null      float64
 16  Unnamed: 16    0 non-null      float64
dtypes: float64(15), object(2)
memory usage: 1.2+ MB


In [15]:
## Удаляем пустые столбцы
df_air = df_air.dropna(axis=1, how='all')

## Заменяем -200 (пропуски) на NaN
df_air = df_air.replace(-200, np.nan)

## Удаляем строки с пропусками
df_air = df_air.dropna()

In [16]:
## Выделяем признаки и целевую переменную.
X = df_air.drop(['CO(GT)', 'Date', 'Time'], axis=1)
y = df_air['CO(GT)']

In [17]:
## Делим данные на train/test.
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

In [18]:
from sklearn.neighbors import KNeighborsRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error

In [19]:
## Обучаем KNN-регрессию с базовыми параметрами.
knn_reg = KNeighborsRegressor(n_neighbors=5)
knn_reg.fit(X_train, y_train)

In [20]:
## Оцениваем качество бейзлайна.
y_pred = knn_reg.predict(X_test)

mae = mean_absolute_error(y_test, y_pred)
rmse = mean_squared_error(y_test, y_pred, squared=False)

mae, rmse



(0.2075903614457831, 0.27884875202522263)

# 6. Улучшение бейзлайна 
## Гипотезы:
### Масштабирование улучшит расстояния
### Подбор k снизит ошибку

In [21]:
# Создаём pipeline, который:
# стандартизирует признаки (нулевое среднее и единичная дисперсия),
# обучает модель KNN-регрессии на масштабированных данных.
pipeline_reg = Pipeline([
    ("scaler", StandardScaler()),
    ("knn", KNeighborsRegressor())
])

In [22]:
# Импортируем инструмент для перебора гиперпараметров с кросс-валидацией.
param_grid = {
    "knn__n_neighbors": [3, 5, 7, 9, 11],
    "knn__weights": ["uniform", "distance"]
}

In [23]:
# Задаём сетку гиперпараметров:
# количество соседей k,
# способ взвешивания соседей.
grid_reg = GridSearchCV(
    pipeline_reg,
    param_grid,
    cv=5,
    scoring="neg_mean_absolute_error"
)

grid_reg.fit(X_train, y_train)

In [24]:
# Оцениваем качество улучшенного бейзлайна по метрикам MAE и RMSE.
best_reg = grid_reg.best_estimator_

y_pred_best = best_reg.predict(X_test)

mae_best = mean_absolute_error(y_test, y_pred_best)
rmse_best = mean_squared_error(y_test, y_pred_best, squared=False)

mae_best, rmse_best



(0.16812277664268355, 0.24594881038115898)

* Нормализация данных оказалась важной для регрессии KNN
* Оптимизация гиперпараметров позволила снизить обе метрики ошибки (MAE и RMSE)
* Уменьшение RMSE означает, что модель стала лучше справляться с большими отклонениями в прогнозах