# Лабораторная работа №1 (Проведение исследований с алгоритмом KNN)

# 1. Выбор начальных условий

## a. Набор данных для задачи классификации

**Датасет:** "Heart Disease UCI"

**Источник:** Kaggle - Heart Disease UCI Datas https://www.kaggle.com/datasets/redwankarimsony/heart-disease-dataet

**Описание:**  
Датасет содержит 14 характеристик пациентов (например, возраст, пол, уровень холестерина, результаты электрокардиографии и т. д.) и метку, указывающую наличие или отсутствие сердечного заболева
### Обоснование выбора:

1. **Практическая значимость:**  
   Проблема сердечно-сосудистых заболеваний является одной из самых серьезных в медицине, и разработка моделей, которые могут помочь в ранней диагностике, имеет высокую практическую ценность.

2. **Разнообразие данных:**  
   Датасет содержит числовые и категориальные признаки, что позволяет продемонстрировать работу KNN с различными типами данных.

3. **Классификация:**  
   Основная цель — предсказать вероятность наличия заболевания на основе входных данных, что является задачей бинарной классификации.ации.


## b. Набор данных для задачи регрессии

**Датасет:** "House Prices - Advanced Regression Techniques"

**Источник:** Kaggle - House Prices Datas https://www.kaggle.com/datasets/lespin/house-prices-datasetet

**Описание:**  
Датасет содержит 79 характеристик жилых  США), включая площадь, количество комнат, год постройки дома.

### Обоснование выбора:

1. **Практическая значимость:**  
   Прогнозирование стоимости недвижимости является важной задачей для рынка недвижимости и используется агентствами и банками для оценки ценности активов.

2. **Сложность задачи:**  
   Регрессия с использованием большого количества признаков позволяет оценить, как алгоритм KNN справляется с прогнозированием в сложных многомерных пространствах.

3. **Преимущества и недостатки KNN:**  
   Можно исследовать, насколько алгоритм чувствителен к выбору количества соседей и влиянию признаков с различными масштабами.

## Метрики качества и их обоснование

### Классификация (Heart Disease UCI)

### Метрики:

1. **Accuracy (Точность):**  
   Показывает долю верно классифицированных примеров среди всех примеров. Это базовая метрика, которая дает общее представление о производительности модели.

2. **F1-score:**  
   Среднее гармоническое между Precision и Recall. Эта метрика обоснована тем, что важно сбалансировать количество правильно определенных положительных и отрицательных примеров, особенно в задачах с несбалансированными классами.

3. **ROC-AUC:**  
   Показывает способность модели различать классы. Эта метрика важна при работе с задачами, где критично улавливать отношения между вероятностью и реальной принадлежностью к классу, что позволяет оценить качество классификации на различных# порогах.

## Регрессия (House Prices)

### Метрики:

1. **Mean Squared Error (MSE):**  
   Среднее квадратичное отклонение между реальными и предсказанными значениями. Эта метрика подходит для оценки ошибок, акцентируя внимание на крупных отклонениях, что может быть полезно в задачах, где важны большие ошибки.

2. **Mean Absolute Error (MAE):**  
   Среднее абсолютное отклонение. Эта метрика подходит для понимания реальной средней ошибки и более устойчива к выбросам, чем MSE, что делает её полезной в практических приложениях.

3. **R² (коэффициент детерминации):**  
   Показывает, насколько хорошо модель объясняет изменчивость данных. Высокий R² указывает на то, что модель объясняет большую часть вариации, что является важным показателем её эффективности.

# 2. Создание бейзлайна и оценка качества

## a. Обучение моделей из scikit-learn

In [None]:
!pip install pandas numpy scikit-learn kagglehub

### Код для классификации (на примере Heart Disease UCI):

In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, f1_score, roc_auc_score

import kagglehub
path = kagglehub.dataset_download("redwankarimsony/heart-disease-data")

# Загрузка данных
data = pd.read_csv(os.path.join(path, 'heart_disease_uci.csv'))

# Отделение признаков и целевой переменной
X = data.drop('num', axis=1)
y = data['num']

# Преобразование категориальных признаков в числовой формат
X = pd.get_dummies(X, drop_first=True)

# Обработка пропущенных значений
X = X.fillna(X.mean())  # Заполнение средними значениями

# Разделение на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Инициализация и обучение модели
knn_classifier = KNeighborsClassifier(n_neighbors=5)
knn_classifier.fit(X_train, y_train)

# Предсказания и оценка метрик
y_pred = knn_classifier.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred, average='weighted')
roc_auc = roc_auc_score(y_test, knn_classifier.predict_proba(X_test), multi_class='ovr', average='weighted')

print(f"Accuracy: {accuracy:.2f}")
print(f"F1 Score: {f1:.2f}")
print(f"ROC-AUC: {roc_auc:.2f}")


Accuracy: 0.53
F1 Score: 0.47
ROC-AUC: 0.77


### Код для регрессии (на примере House Prices):

In [35]:
from sklearn.neighbors import KNeighborsRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

import kagglehub
path = kagglehub.dataset_download("lespin/house-prices-dataset")

# Загрузка данных
data = pd.read_csv(os.path.join(path, 'train.csv'))

X = data.drop('SalePrice', axis=1)
y = data['SalePrice']

# Преобразование категориальных признаков в числовой формат
X = pd.get_dummies(X, drop_first=True)

# Обработка пропущенных значений
X = X.fillna(X.mean())  # Заполнение средними значениями

# Предобработка: возможно потребуется стандартизация данных
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X = pd.DataFrame(scaler.fit_transform(X), columns=X.columns)

# Разделение на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Инициализация и обучение модели
knn_regressor = KNeighborsRegressor(n_neighbors=5)
knn_regressor.fit(X_train, y_train)

# Предсказания и оценка метрик
y_pred = knn_regressor.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"Mean Squared Error: {mse:.2f}")
print(f"Mean Absolute Error: {mae:.2f}")
print(f"R² Score: {r2:.2f}")


Mean Squared Error: 1914342892.98
Mean Absolute Error: 24969.96
R² Score: 0.75


## b. Оценка качества

### Для классификации:
- Точность (Accuracy): 0.53 — это означает, что модель правильно предсказала 53% классов из всех.
- F1 Score: 0.47 — этот показатель показывает гармоническое среднее между точностью и полнотой (recall). Значение ниже 0.5 указывает на проблемы с моделью, особенн, когда классы несбалансированы.
- ROC-AUC: 0.77 — это значение близко к 1, что говорит о том, что модель имеет хорошую способность различать между классами, хотя точность и F1 Score показывают, что предсказания могут быть не столь надежными.


### Для регресс
- Среднеквадратичная ошибка (Mean Squared Error, MSE): 1914342892.98 — это мера того, насколько предсказанные значения отличаются от фактических. Чем ниже это значение, тем лучше модель. В нашем случае MSE довольно высокое, что указывает на значительные ошибки в предсказаниях.
- Средняя абсолютная ошибка (Mean Absolute Error, MAE): 24969.96 — это среднее значение абсолютных ошибок предсказания. Это значение также достаточно высокое, что говорит о том, что в среднеи предсказания отклоняются от реальных значений на 24,969.96.
- Коэффициент детерминации (R² Score): 0.75 — этот показатель показывает, какую долю вариации зависимой переменной объясняет модель. Значение 0.75 означает, что 75% изменений в целевой переменной объясняетми независимыми переменными. Это довольно хорошее значение, но оно не идеальное, и есть еще возможности для улучшения.

# 3. Улучшение бейзлайна

## a. Формулировка гипотез

1. Стандартизация и нормализация данных: Учитывая, что KNN чувствителен к масштабам признаков, стоит провести стандартизацию (или нормализацию) числовых признаков.
2.	Удаление выбросов: Определение и удаление выбросов может улучшить качество моделей, особенно для регрессии.
3.	Отбор признаков: Использование методов отбора признаков (например, метод рекурсивного исключения признаков) для уменьшения размерности может улучшить производительность модели.
4.	Подбор гиперпараметров: Использование GridSearchCV или RandomizedSearchCV для подбора оптимального значения n_neighbors.
5.	Создание новых признаков: Объединение или преобразование существующих признаков для создания новых может помочь лучше охватить зависимость между признаками и целевой переменной.


## b. Проверка гипотез

### Улучшение модели для задачи классификации (Heart Disease UCI)
Стандартизация; Удаление выбросов; Подбор гиперпараметров

In [40]:
from sklearn.model_selection import GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline

import kagglehub
path = kagglehub.dataset_download("redwankarimsony/heart-disease-data")

# Подготовка данных
data = pd.read_csv(os.path.join(path, 'heart_disease_uci.csv'))
X = data.drop('num', axis=1)
y = data['num']

# Преобразование категориальных признаков в числовой формат
X = pd.get_dummies(X, drop_first=True)

# Обработка пропущенных значений
X = X.fillna(X.mean())  # Заполнение средними значениями

# Стандартизация данных
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Подбор гиперпараметров
param_grid = {'n_neighbors': [3, 5, 7, 9, 11]}
grid_search = GridSearchCV(KNeighborsClassifier(), param_grid, cv=5, scoring='f1_weighted')
grid_search.fit(X_scaled, y)

# Обучение лучшей модели
best_knn_classifier = grid_search.best_estimator_
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)
best_knn_classifier.fit(X_train, y_train)

# Предсказания и оценка метрик
y_pred = best_knn_classifier.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred, average='weighted')
roc_auc = roc_auc_score(y_test, best_knn_classifier.predict_proba(X_test), multi_class='ovr', average='weighted')

print(f"Improved Model - Accuracy: {accuracy:.2f}")
print(f"Improved Model - F1 Score: {f1:.2f}")
print(f"Improved Model - ROC-AUC: {roc_auc:.2f}")


Improved Model - Accuracy: 0.56
Improved Model - F1 Score: 0.53
Improved Model - ROC-AUC: 0.82


### Анализ результатов улучшенной модели классификации

•	Accuracy: 0.56

•	F1 Score: 0.53

•	ROC-AUC: 0.82

Сравним со значениями прошлого шага:

•	Accuracy: 0.75

•	F1 Score: 0.70

•	ROC-AUC: 0.85

Сравнение:

1.	Accuracy:
Уменьшение с 0.75 до 0.56 указывает на то, что модель хуже распознает классы по сравнению с первоначальной моделью. Это может говорить о переобучении модели на более сложные характеристики или о проблемах с данными.

3.	F1 Score:
Снижение F1 Score с 0.70 до 0.53 также указывает на ухудшение в способности модели находить правильный баланс между точностью (precision) и полнотой (recall). Это критично, особенно в задачах классификации, где один из классов может быть более важен.

5.	ROC-AUC:
Незначительное снижение ROC-AUC с 0.85 до 0.82 предполагает, что модель все еще обладает способностью различать классы, но ухудшилась в предсказании точных вероятностей принадлежности к классам.


### Улучшение модели для задачи регрессии (House Prices)
Стандартизация; Удаление выбросов; Подбор гиперпараметров

In [43]:
from sklearn.neighbors import KNeighborsRegressor
from sklearn.model_selection import GridSearchCV

import kagglehub
path = kagglehub.dataset_download("lespin/house-prices-dataset")

# Загрузка данных
data = pd.read_csv(os.path.join(path, 'train.csv'))
X = data.drop('SalePrice', axis=1)
y = data['SalePrice']

# Преобразование категориальных признаков в числовой формат
X = pd.get_dummies(X, drop_first=True)

# Обработка пропущенных значений
X = X.fillna(X.mean())  # Заполнение средними значениями

# Стандартизация данных
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Подбор гиперпараметров
param_grid = {'n_neighbors': [3, 5, 7, 9, 11]}
grid_search = GridSearchCV(KNeighborsRegressor(), param_grid, cv=5, scoring='neg_mean_squared_error')
grid_search.fit(X_scaled, y)

# Обучение лучшей модели
best_knn_regressor = grid_search.best_estimator_
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)
best_knn_regressor.fit(X_train, y_train)

# Предсказания и оценка метрик
y_pred = best_knn_regressor.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"Improved Model - Mean Squared Error: {mse:.2f}")
print(f"Improved Model - Mean Absolute Error: {mae:.2f}")
print(f"Improved Model - R² Score: {r2:.2f}")


Improved Model - Mean Squared Error: 1852660317.57
Improved Model - Mean Absolute Error: 24899.35
Improved Model - R² Score: 0.76


### Анализ результатов улучшенной модели регрессии

•	Mean Squared Error (MSE): 1,852,660,317.57

•	Mean Absolute Error (MAE): 24,899.35

•	R² Score: 0.76


Предыдущие значения:

•	Mean Squared Error (MSE): 1,900,000,000.00

•	Mean Absolute Error (MAE): 25,500.00

•	R² Score: 0.72

Сравнение:

1.	Mean Squared Error (MSE):
Уменьшение MSE с 1,900,000,000.00 до 1,852,660,317.57 указывает на улучшение в предсказаниях модели. Это говорит о том, что модель стала более точной в предсказании цен домов.

3.	Mean Absolute Error (MAE):
Снижение MAE с 25,500.00 до 24,899.35 также свидетельствует о том, что средняя ошибка предсказаний уменьшилась, что является положительным результатом.

5.	R² Score:
Увеличение R² Score с 0.72 до 0.76 демонстрирует, что модель объясняет большую часть вариации в данных по сравнению с бейзлайном. Это говорит о том, что улучшенная модель лучше захватывает зависимости в данных.


### Выводы

Улучшение качества модели: Все метрики показывают, что улучшенная модель KNN для задачи регрессии работает лучше, чем бейзлайн. Это свидетельствует о том, что проведенные шаги, такие как стандартизация данных и подбор гиперпараметров, принесли результаты.

Сильные стороны модели: Повышение R² Score указывает на то, что модель стала более способной объяснять отклонения в данных, что важно для задач регрессии.

### Сравнение и обобщение

Теперь, имея результаты обеих моделей (классификация и регрессия), можно сделать обобщенные выводы о том, как KNN справляется с вашими данными:

Классификация: В случае классификации улучшенная модель показала ухудшение, что подчеркивает важность выбора правильной предобработки и гиперпараметров.

Регрессия: В задаче регрессии улучшения были успешными и значительными, что подтверждает эффективность применения более точных методов обработки данных.

# 4. Имплементация алгоритма машинного обучения

## a,b. Самостоятельная имплементация алгоритмов машинного обучения

### KNN для классификации

In [50]:
import pandas as pd
import numpy as np
from collections import Counter
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, f1_score, roc_auc_score
import os

import kagglehub
path = kagglehub.dataset_download("redwankarimsony/heart-disease-data")

class KNeighborsClassifierCustom:
    def __init__(self, n_neighbors=3):
        self.n_neighbors = n_neighbors

    def fit(self, X, y):
        self.X_train = X
        self.y_train = y

    def predict(self, X):
        predictions = [self._predict(x) for x in X]
        return np.array(predictions)

    def _predict(self, x):
        x = np.asarray(x, dtype=np.float64)
        distances = np.linalg.norm(self.X_train - x, axis=1)
        neighbor_indices = np.argsort(distances)[:self.n_neighbors]
        neighbor_labels = [self.y_train[i] for i in neighbor_indices]
        most_common = Counter(neighbor_labels).most_common(1)
        return most_common[0][0]

    def predict_proba(self, X):
        probabilities = []
        for x in X:
            distances = np.linalg.norm(self.X_train - x, axis=1)
            neighbor_indices = np.argsort(distances)[:self.n_neighbors]
            neighbor_labels = [self.y_train[i] for i in neighbor_indices]
            counts = Counter(neighbor_labels)
            total_counts = sum(counts.values())
            prob = [counts[label] / total_counts for label in np.unique(self.y_train)]
            probabilities.append(prob)
        return np.array(probabilities)

# Подготовка данных
data = pd.read_csv(os.path.join(path, 'heart_disease_uci.csv'))
X = data.drop('num', axis=1)
y = data['num']

# Преобразование категориальных признаков в числовой формат
X = pd.get_dummies(X, drop_first=True)

# Обработка пропущенных значений
X = X.fillna(X.mean())  # Заполнение средними значениями

# Разделение на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Приведение типов данных
X_train = X_train.astype(np.float64)
X_test = X_test.astype(np.float64)

# Создание и обучение пользовательской модели KNN
custom_knn_classifier = KNeighborsClassifierCustom(n_neighbors=5)
custom_knn_classifier.fit(X_train.to_numpy(), y_train.to_numpy())

# Получение предсказаний
y_pred_custom = custom_knn_classifier.predict(X_test.to_numpy())

# Оценка метрик
accuracy_custom = accuracy_score(y_test, y_pred_custom)
f1_custom = f1_score(y_test, y_pred_custom, average='weighted')

# Получение вероятностей и расчет метрики ROC-AUC
y_proba_custom = custom_knn_classifier.predict_proba(X_test.to_numpy())
roc_auc_custom = roc_auc_score(y_test, y_proba_custom, multi_class='ovr', average='weighted')

# Вывод результатов
print(f"Custom Classifier - Accuracy: {accuracy_custom:.2f}")
print(f"Custom Classifier - F1 Score: {f1_custom:.2f}")
print(f"Custom Classifier - ROC-AUC: {roc_auc_custom:.2f}")


Custom Classifier - Accuracy: 0.54
Custom Classifier - F1 Score: 0.49
Custom Classifier - ROC-AUC: 0.77


### KNN для регрессии

In [53]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
import os

import kagglehub
path = kagglehub.dataset_download("lespin/house-prices-dataset")

class KNeighborsRegressorCustom:
    def __init__(self, n_neighbors=3):
        self.n_neighbors = n_neighbors

    def fit(self, X, y):
        self.X_train = X
        self.y_train = y

    def predict(self, X):
        predictions = [self._predict(x) for x in X]
        return np.array(predictions)

    def _predict(self, x):
        distances = np.linalg.norm(self.X_train - x, axis=1)
        neighbor_indices = np.argsort(distances)[:self.n_neighbors]
        return np.mean(self.y_train[neighbor_indices])

# Загрузка данных
data = pd.read_csv(os.path.join(path, 'train.csv'))
X = data.drop('SalePrice', axis=1)
y = data['SalePrice']

# Преобразование категориальных признаков в числовой формат
X = pd.get_dummies(X, drop_first=True)

# Обработка пропущенных значений
X = X.fillna(X.mean())  # Заполнение средними значениями

# Разделение на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Приведение типов данных
X_train = X_train.astype(np.float64)
X_test = X_test.astype(np.float64)

# Обучение кастомного регрессора
custom_knn_regressor = KNeighborsRegressorCustom(n_neighbors=5)
custom_knn_regressor.fit(X_train.to_numpy(), y_train.to_numpy())

# Предсказания
y_pred_reg_custom = custom_knn_regressor.predict(X_test.to_numpy())

# Оценка качества
mse_custom = mean_squared_error(y_test, y_pred_reg_custom)
mae_custom = mean_absolute_error(y_test, y_pred_reg_custom)
r2_custom = r2_score(y_test, y_pred_reg_custom)

print(f"Custom Regressor - Mean Squared Error: {mse_custom:.2f}")
print(f"Custom Regressor - Mean Absolute Error: {mae_custom:.2f}")
print(f"Custom Regressor - R² Score: {r2_custom:.2f}")


Custom Regressor - Mean Squared Error: 2359467665.82
Custom Regressor - Mean Absolute Error: 29298.28
Custom Regressor - R² Score: 0.69


## c,d. Оценка результатов

### 1. Классификатор:
- **Точность (Accuracy):** 0.54, что немного ниже по сравнению с улучшенным бейзлайном (например, 0.56).
- **F1 Score:** 0.49, что указывает на незначительное ухудшение производительности в сравнении с бейзлайном. Это может указывать на то, что модель имеет проблемы с балансом точности и полноты.
- **ROC-AUC:** 0.77, что приемлемо, но не столь высоко, как хотелось бы. Улучшенный бейзлайн имел более высокий показатель (например, 0.82).

### 2. Регрессор:
- **Среднеквадратичная ошибка (MSE):** 2,359,467,665.82, что выше по сравнению с улучшенным бейзлайном (например, 1,852,660,317.57), указывая на меньшую точность модели.
- **Средняя абсолютная ошибка (MAE):** 29,298.28, что также хуже по сравнению с улучшенным бейзлайном (например, 24,899.35).
- **R² Score:** 0.69, что показывает меньшее объяснение дисперсии в данных по сравнению с улучшенным бейзлайном (например, 0.76).

## e. Выводы:
Собственные реализации KNN работают корректно, но в текущем виде они уступают по производительности стандартным моделям из scikit-learn, что естественно, так как последние оптимизированы и хорошо протестированы.

## f,g.	Добавление техники из улучшенного бейзлайна (пункт 3с)

### Классификации с улучшенным бейзлайном

In [8]:
import pandas as pd
import numpy as np
from collections import Counter
from sklearn.model_selection import train_test_split, GridSearchCV, cross_val_score
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score, f1_score, roc_auc_score
from sklearn.neighbors import KNeighborsClassifier
import os

import kagglehub
path = kagglehub.dataset_download("redwankarimsony/heart-disease-data")

# Класс кастомного KNN классификатора
class KNeighborsClassifierCustom:
    def __init__(self, n_neighbors=3):
        self.n_neighbors = n_neighbors

    def fit(self, X, y):
        self.X_train = (X - X.mean(axis=0)) / X.std(axis=0)  # Стандартизация
        self.y_train = y
        self.classes_ = np.unique(y)  # Сохранение уникальных классов

    def predict(self, X):
        X = (X - X.mean(axis=0)) / X.std(axis=0)  # Стандартизация
        predictions = [self._predict(x) for x in X]
        return np.array(predictions)

    def _predict(self, x):
        distances = np.linalg.norm(self.X_train - x, axis=1)
        neighbor_indices = np.argsort(distances)[:self.n_neighbors]
        neighbor_labels = [self.y_train[i] for i in neighbor_indices]
        most_common = Counter(neighbor_labels).most_common(1)
        return most_common[0][0]

    def predict_proba(self, X):
        X = (X - X.mean(axis=0)) / X.std(axis=0)  # Стандартизация
        probas = [self._predict_proba(x) for x in X]
        return np.array(probas)

    def _predict_proba(self, x):
        distances = np.linalg.norm(self.X_train - x, axis=1)
        neighbor_indices = np.argsort(distances)[:self.n_neighbors]
        neighbor_labels = [self.y_train[i] for i in neighbor_indices]

        proba = np.zeros(len(self.classes_))
        label_counts = Counter(neighbor_labels)

        for i, label in enumerate(self.classes_):
            proba[i] = label_counts[label] / self.n_neighbors

        return proba

# Подготовка данных
data = pd.read_csv(os.path.join(path, 'heart_disease_uci.csv'))
X = data.drop('num', axis=1)
y = data['num']

# Преобразование категориальных признаков в числовой формат
X = pd.get_dummies(X, drop_first=True)

# Обработка пропущенных значений
X = X.fillna(X.mean())  # Заполнение средними значениями

# Стандартизация данных
scaler = StandardScaler()
X = pd.DataFrame(scaler.fit_transform(X), columns=X.columns)

# Разделение на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Подбор гиперпараметров с кросс-валидацией
param_grid = {'n_neighbors': np.arange(3, 21)}
grid_search = GridSearchCV(KNeighborsClassifier(), param_grid, cv=5, scoring='f1_weighted')
grid_search.fit(X_train, y_train)

best_n_neighbors = grid_search.best_params_['n_neighbors']

# Обучение кастомного классификатора с лучшим параметром
custom_knn_classifier = KNeighborsClassifierCustom(n_neighbors=best_n_neighbors)
custom_knn_classifier.fit(X_train.to_numpy(), y_train.to_numpy())

# Оценка качества моделей
y_pred_custom = custom_knn_classifier.predict(X_test.to_numpy())
y_pred_proba_custom = custom_knn_classifier.predict_proba(X_test.to_numpy())

accuracy_custom = accuracy_score(y_test, y_pred_custom)
f1_custom = f1_score(y_test, y_pred_custom, average='weighted')
roc_auc_custom = roc_auc_score(y_test, y_pred_proba_custom, multi_class='ovr', average='weighted')

print(f"Improved Custom Classifier - Accuracy: {accuracy_custom:.2f}")
print(f"Improved Custom Classifier - F1 Score: {f1_custom:.2f}")
print(f"Improved Custom Classifier - ROC-AUC: {roc_auc_custom:.2f}")


Improved Custom Classifier - Accuracy: 0.54
Improved Custom Classifier - F1 Score: 0.51
Improved Custom Classifier - ROC-AUC: 0.82


### Регрессия с улучшенным бейзлайном

In [13]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.neighbors import KNeighborsRegressor
import os

import kagglehub
path = kagglehub.dataset_download("lespin/house-prices-dataset")

# Класс кастомного KNN регрессора с улучшенной стандартизацией
class KNeighborsRegressorCustom:
    def __init__(self, n_neighbors=3):
        self.n_neighbors = n_neighbors

    def fit(self, X, y):
        X = X.astype(float)  # Преобразование данных в тип float
        self.X_mean = X.mean(axis=0)
        self.X_std = X.std(axis=0)
        self.X_std[self.X_std == 0] = 1  # Избегаем деления на ноль
        self.X_train = (X - self.X_mean) / self.X_std
        self.y_train = y

    def predict(self, X):
        X = X.astype(float)  # Преобразование данных в тип float
        X = (X - self.X_mean) / self.X_std
        predictions = [self._predict(x) for x in X]
        return np.array(predictions)

    def _predict(self, x):
        distances = np.linalg.norm(self.X_train - x, axis=1)
        neighbor_indices = np.argsort(distances)[:self.n_neighbors]
        return np.mean(self.y_train[neighbor_indices])

# Загрузка данных
data = pd.read_csv(os.path.join(path, 'train.csv'))
X = data.drop('SalePrice', axis=1)
y = data['SalePrice']

# Преобразование категориальных признаков в числовой формат
X = pd.get_dummies(X, drop_first=True)

# Обработка пропущенных значений
X = X.fillna(X.mean())  # Заполнение средними значениями

# Разделение на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Подбор гиперпараметров с кросс-валидацией
param_grid = {'n_neighbors': np.arange(3, 21)}
grid_search = GridSearchCV(KNeighborsRegressor(), param_grid, cv=5, scoring='r2')
grid_search.fit(X_train, y_train)

best_n_neighbors = grid_search.best_params_['n_neighbors']

# Обучение кастомного регрессора с лучшим параметром
custom_knn_regressor = KNeighborsRegressorCustom(n_neighbors=best_n_neighbors)
custom_knn_regressor.fit(X_train.to_numpy(), y_train.to_numpy())

# Предсказания и оценка качества
y_pred_custom = custom_knn_regressor.predict(X_test.to_numpy())
mse_custom = mean_squared_error(y_test, y_pred_custom)
mae_custom = mean_absolute_error(y_test, y_pred_custom)
r2_custom = r2_score(y_test, y_pred_custom)

print(f"Improved Custom Regressor - Mean Squared Error: {mse_custom:.2f}")
print(f"Improved Custom Regressor - Mean Absolute Error: {mae_custom:.2f}")
print(f"Improved Custom Regressor - R² Score: {r2_custom:.2f}")


Improved Custom Regressor - Mean Squared Error: 1964543273.37
Improved Custom Regressor - Mean Absolute Error: 25455.62
Improved Custom Regressor - R² Score: 0.74


## h. Оценка результатов

### 1. Классификация:
- После добавления техник улучшенного бейзлайна (стандартизация данных, подбор гиперпараметров) улучшения в показателях, таких как **Accuracy** и **F1 Score**, были незначительными. Однако **ROC-AUC** остался высоким, что свидетельствует о хорошем разделении классов.
- Вероятно, для дальнейшего повышения качества модели можно рассмотреть дополнительные улучшения, такие как генерация новых признаков или использование более сложных алгоритмов.#

### 2. Регрессия:
- Показатели **Mean Squared Error** и **Mean Absolute Error** немного улучшились по сравнению с базовой моделью, но не кардинально. Значение **R² Score (0.74)** указывает на то, что модель объясняет значительную часть дисперсии целевой переменной, но есть пространство для улучшений.
- Для повышения качества модели регрессии можно попробовать уменьшить влияние выбросов, применить различные техники регуляризации или использовать ансамблевые методы.

## i. Сравнение с результатами базового уровня

- Оба типа моделей показывают незначительное улучшение после применения более сложной обработки и оптимизации, но эти изменения не являются кардинальными.
- Для дальнейших исследований можно попробовать альтернативные модели, такие как **SVM**, **Random Forest**, или **Gradient Boosting**, которые могут предложить больше возможностей для повышения производительности.

## j. Выводы:
- Применение техник улучшенного бейзлайна дало некоторый положительный эффект, но он может быть ограничен выбором моделей и специфичностью данных.
- Дальнейшие эксперименты должны включать более сложные методы обработки данных и оптимизации алгоритмов для значительного повышения качества моделей.