# Домашняя работа
# Реализация линейных моделей для регрессии и классификации

## Цель работы

Данная домашняя работа направлена на практическое освоение двух фундаментальных алгоритмов машинного обучения: **линейной регрессии** и **логистической регрессии**. В рамках задания вам предстоит самостоятельно реализовать эти алгоритмы "с нуля", что позволит глубже понять их математические основы и принципы работы.

## Задачи

1. **Реализация алгоритмов** - самостоятельная реализация линейной и логистической регрессии на Python
2. **Работа с данными** - проведение полного цикла анализа данных и предобработки
4. **Визуализация** - графическое представление результатов работы алгоритмов

---

## Требования к оформлению ноутбука

### Форматирование кода

- Использовать понятные названия переменных и функций
- Добавлять комментарии к сложным участкам кода
- Разделять код на логические блоки с заголовками
- Соблюдать PEP8 (отступы, пробелы, длина строк)

### Визуализация

- Все графики должны иметь подписи осей и заголовки
- Легенды для многокомпонентных графиков
- Единый стиль оформления всех визуализаций

### Документирование

- Описание каждого этапа работы в markdown-ячейках
- Обоснование выбранных параметров моделей
- Анализ полученных результатов и выводы
- Необходимо указывать все используемые библиотеки (например, через вывод !pip list)

### Результаты
- Необходимо сохранять выводы всех кодовых ячеек (ноутбуки с пустыми выходами ячеек или с ошибками в выводах недопустимы)

> **Примечание:** Запрещается использование готовых реализаций регрессий из библиотек (кроме сравнительного анализа). Все алгоритмы должны быть реализованы самостоятельно.

# 1. Линейная регрессия

# 1.1. Обработка данных для линейной регрессии

## Цель
Подготовить данные для обучения моделей линейной, проведя полный цикл предобработки.

## Задачи

### 1. Анализ данных
- Провести разведовательный анализ данных (EDA)
- Изучить распределения признаков и целевой переменной
- Выявить выбросы и аномалии
- Проверить корреляции между признаками

### 2. Обработка пропущенных значений
- Определить количество и расположение пропущенных значений
- Выбрать стратегию заполнения пропусков (медиана, среднее, мода)
- Реализовать заполнение пропущенных значений

### 3. Обработка категориальных признаков
- Выявить категориальные переменные
- Применить One-Hot Encoding или Label Encoding
- Обосновать выбор метода кодирования

### 4. Масштабирование признаков
- Выбрать метод масштабирования (StandardScaler, MinMaxScaler)
- Обосновать выбор метода масштабирования
- Применить масштабирование к числовым признакам

### 5. Разделение на выборки
- Разделить данные на обучающую и тестовую выборки
- Сохранить распределение целевой переменной

### 6. Визуализация
- Построить графики распределений до и после обработки
- Создать матрицу корреляций
- Визуализировать взаимосвязи между признаками и целевой переменной

## Требования к реализации
- Каждый этап должен быть прокомментирован
- Выбор методов обработки должен быть обоснован
- Необходимо сравнивать результаты до и после обработки
- Код должен быть воспроизводимым

## Критерии оценки качества предобработки
- Отсутствие пропущенных значений
- Корректная обработка выбросов
- Сохранение информативности признаков
- Готовность данных к обучению моделей

In [1]:
import pandas as pd
import numpy as np

linear_data = pd.read_csv('diamonds.csv')

print("ДАТАСЕТ ДЛЯ ЛИНЕЙНОЙ РЕГРЕССИИ:")
print("Первые 5 строк:")
print(linear_data.head())
print(f"\nРазмерность данных: {linear_data.shape}")
print("\nИнформация о данных:")
print(linear_data.info())

ДАТАСЕТ ДЛЯ ЛИНЕЙНОЙ РЕГРЕССИИ:
Первые 5 строк:
   Unnamed: 0  carat      cut color clarity  depth  table  price     x     y  \
0           1   0.23    Ideal     E     SI2   61.5   55.0    326  3.95  3.98   
1           2   0.21  Premium     E     SI1   59.8   61.0    326  3.89  3.84   
2           3   0.23     Good     E     VS1   56.9   65.0    327  4.05  4.07   
3           4   0.29  Premium     I     VS2   62.4   58.0    334  4.20  4.23   
4           5   0.31     Good     J     SI2   63.3   58.0    335  4.34  4.35   

      z  
0  2.43  
1  2.31  
2  2.31  
3  2.63  
4  2.75  

Размерность данных: (53940, 11)

Информация о данных:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 53940 entries, 0 to 53939
Data columns (total 11 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Unnamed: 0  53940 non-null  int64  
 1   carat       53940 non-null  float64
 2   cut         53940 non-null  object 
 3   color       53940 non-null  object 
 

In [None]:
# YOUR CODE HERE

# 1.2. Реализация линейной регрессии

In [2]:
class LinearRegression:
    """
    Реализация линейной регрессии с использованием градиентного спуска

    Параметры:
    ----------
    learning_rate : float, default=0.01
        Скорость обучения для градиентного спуска
    n_iterations : int, default=1000
        Количество итераций градиентного спуска
    fit_intercept : bool, default=True
        Добавлять ли свободный член (intercept)
    verbose : bool, default=False
        Выводить ли процесс обучения

    Атрибуты:
    ---------
    weights : ndarray
        Веса модели (включая intercept)
    losses : list
        История значений функции потерь
    """

    def __init__(self, learning_rate=0.01, n_iterations=1000, fit_intercept=True, verbose=False):
        self.learning_rate = learning_rate
        self.n_iterations = n_iterations
        self.fit_intercept = fit_intercept
        self.verbose = verbose
        self.weights = None
        self.losses = []

    def _add_intercept(self, X):
        """Добавляет столбец единиц для intercept"""
        # YOUR CODE HERE
        pass

    def _compute_loss(self, y_true, y_pred):
        """Вычисляет MSE loss"""
        # YOUR CODE HERE
        pass

    def fit(self, X, y):
        """
        Обучение модели линейной регрессии

        Параметры:
        ----------
        X : array-like, shape (n_samples, n_features)
            Обучающие данные
        y : array-like, shape (n_samples,)
            Целевые значения

        Возвращает:
        -----------
        self : object
        """
        # YOUR CODE HERE
        # 1. Преобразование входных данных
        # 2. Добавление intercept если нужно
        # 3. Инициализация весов
        # 4. Градиентный спуск
        # 5. Сохранение истории loss
        pass

    def _predict(self, X, add_intercept=True):
        """
        Внутренний метод для предсказания

        Параметры:
        ----------
        X : array-like
            Входные данные
        add_intercept : bool
            Добавлять ли intercept

        Возвращает:
        -----------
        y_pred : array-like
            Предсказанные значения
        """
        # YOUR CODE HERE
        pass

    def predict(self, X):
        """
        Предсказание целевых значений

        Параметры:
        ----------
        X : array-like, shape (n_samples, n_features)
            Данные для предсказания

        Возвращает:
        -----------
        y_pred : array-like, shape (n_samples,)
            Предсказанные значения
        """
        # YOUR CODE HERE
        pass

    def score(self, X, y):
        """
        Вычисляет коэффициент детерминации R^2

        Параметры:
        ----------
        X : array-like
            Входные данные
        y : array-like
            Истинные значения

        Возвращает:
        -----------
        r2 : float
            R^2 score
        """
        # YOUR CODE HERE
        pass

    def plot_loss(self):
        """Визуализация истории функции потерь"""
        # YOUR CODE HERE
        pass

    def get_params(self):
        """Возвращает параметры модели"""
        # YOUR CODE HERE
        pass

# 1.3. Обучение и оценка линейной регрессии

## Часть 1: Базовое обучение модели

### Задание 1.1 - Инициализация и обучение
- Инициализируйте вашу модель линейной регрессии с параметрами по умолчанию
- Обучите модель на тренировочных данных
- Сохраните веса модели и историю ошибок

### Задание 1.2 - Визуализация процесса обучения
- Постройте график функции потерь (MSE) по итерациям
- Проанализируйте сходимость алгоритма:
  - Быстрая/медленная сходимость
  - Наличие колебаний
  - Достигнут ли минимум функции потерь

## Часть 2: Подбор гиперпараметров

### Задание 2.1 - Эксперименты со скоростью обучения
Проведите эксперименты с разными значениями `learning_rate`

**Для каждого эксперимента:**
- Обучите модель с новым learning_rate
- Зафиксируйте конечное значение MSE
- Отметьте количество итераций до сходимости
- Визуализируйте процесс обучения на одном графике

### Задание 2.2 - Эксперименты с количеством итераций
Исследуйте влияние `n_iterations`

**Анализ:**
- Определите оптимальное количество итераций
- Выявите момент, когда дальнейшее обучение не улучшает качество

**Оценка:**
- Сравните конечные значения MSE
- Проанализируйте веса моделей

## Часть 3: Сравнение с sklearn

### Задание 3.1 - Инициализация моделей
Создайте и обучите три модели:
1. **Ваша реализация** с лучшими найденными гиперпараметрами
2. **Sklearn LinearRegression** (обычная линейная регрессия)
3. **Sklearn SGDRegressor** (стохастический градиентный спуск)

### Задание 3.2 - Сравнение качества
Рассчитайте и сравните метрики для всех моделей:

**Основные метрики:**
- MSE (Mean Squared Error)
- MAE (Mean Absolute Error)
- R² (коэффициент детерминации)
- Время обучения

**Таблица сравнения:**
| Модель | MSE | MAE | R² | Время обучения |
|--------|-----|-----|----|----------------|
| Ваша реализация | | | | |
| Sklearn LinearRegression | | | | |
| Sklearn SGDRegressor | | | | |


## Часть 4: Анализ результатов

### Задание 4.1 - Выводы по гиперпараметрам
- Определите оптимальные гиперпараметры для ваших данных
- Объясните, почему выбранные значения работают лучше

### Задание 4.2 - Сравнение с sklearn
**Ответьте на вопросы:**
- Насколько ваша реализация близка к sklearn по качеству?
- В чем различия в скорости обучения?
- Какие особенности реализации влияют на результаты?

### Задание 4.3 - Рекомендации по улучшению
Предложите возможные улучшения вашей реализации:
- Методы ускорения сходимости
- Регуляризация (L1, L2)
- Более сложные оптимизаторы
- Обработка специфичных случаев данных

In [None]:
# YOUR CODE HERE

# 2. Логистическая регрессия

# 2.1. Обработка данных для логистической регрессии

## Цель
Подготовить данные для обучения моделей логистической регрессии, проведя полный цикл предобработки (по аналогии с пунктом 1.1).

In [3]:
import pandas as pd
import numpy as np

linear_data = pd.read_csv('framingham.csv')

print("ДАТАСЕТ ДЛЯ ЛИНЕЙНОЙ РЕГРЕССИИ:")
print("Первые 5 строк:")
print(linear_data.head())
print(f"\nРазмерность данных: {linear_data.shape}")
print("\nИнформация о данных:")
print(linear_data.info())

ДАТАСЕТ ДЛЯ ЛИНЕЙНОЙ РЕГРЕССИИ:
Первые 5 строк:
   male  age  education  currentSmoker  cigsPerDay  BPMeds  prevalentStroke  \
0     1   39        4.0              0         0.0     0.0                0   
1     0   46        2.0              0         0.0     0.0                0   
2     1   48        1.0              1        20.0     0.0                0   
3     0   61        3.0              1        30.0     0.0                0   
4     0   46        3.0              1        23.0     0.0                0   

   prevalentHyp  diabetes  totChol  sysBP  diaBP    BMI  heartRate  glucose  \
0             0         0    195.0  106.0   70.0  26.97       80.0     77.0   
1             0         0    250.0  121.0   81.0  28.73       95.0     76.0   
2             0         0    245.0  127.5   80.0  25.34       75.0     70.0   
3             1         0    225.0  150.0   95.0  28.58       65.0    103.0   
4             0         0    285.0  130.0   84.0  23.10       85.0     85.0   

  

# 2.2. Реализация логистической регрессии

In [4]:
class LogisticRegression:
    """
    Реализация логистической регрессии с использованием градиентного спуска

    Параметры:
    ----------
    learning_rate : float, default=0.01
        Скорость обучения для градиентного спуска
    n_iterations : int, default=1000
        Количество итераций градиентного спуска
    fit_intercept : bool, default=True
        Добавлять ли свободный член (intercept)
    verbose : bool, default=False
        Выводить ли процесс обучения
    penalty : str, default=None
        Тип регуляризации ('l1', 'l2', None)
    C : float, default=1.0
        Обратная сила регуляризации

    Атрибуты:
    ---------
    weights : ndarray
        Веса модели (включая intercept)
    losses : list
        История значений функции потерь
    """

    def __init__(self, learning_rate=0.01, n_iterations=1000, fit_intercept=True,
                 verbose=False, penalty=None, C=1.0):
        self.learning_rate = learning_rate
        self.n_iterations = n_iterations
        self.fit_intercept = fit_intercept
        self.verbose = verbose
        self.penalty = penalty
        self.C = C
        self.weights = None
        self.losses = []

    def _add_intercept(self, X):
        """Добавляет столбец единиц для intercept"""
        # YOUR CODE HERE
        pass

    def _sigmoid(self, z):
        """Вычисляет сигмоидную функцию"""
        # YOUR CODE HERE
        pass

    def _compute_loss(self, y_true, y_pred):
        """Вычисляет log loss с учетом регуляризации"""
        # YOUR CODE HERE
        pass

    def _compute_gradient(self, X, y_true, y_pred):
        """Вычисляет градиент с учетом регуляризации"""
        # YOUR CODE HERE
        pass

    def fit(self, X, y):
        """
        Обучение модели логистической регрессии

        Параметры:
        ----------
        X : array-like, shape (n_samples, n_features)
            Обучающие данные
        y : array-like, shape (n_samples,)
            Целевые значения (0 или 1)

        Возвращает:
        -----------
        self : object
        """
        # YOUR CODE HERE
        # 1. Преобразование входных данных
        # 2. Добавление intercept если нужно
        # 3. Инициализация весов
        # 4. Градиентный спуск
        # 5. Сохранение истории loss
        pass

    def predict_proba(self, X):
        """
        Предсказание вероятностей принадлежности к классу 1

        Параметры:
        ----------
        X : array-like, shape (n_samples, n_features)
            Данные для предсказания

        Возвращает:
        -----------
        probabilities : array-like, shape (n_samples,)
            Вероятности принадлежности к классу 1
        """
        # YOUR CODE HERE
        pass

    def predict(self, X, threshold=0.5):
        """
        Предсказание классов

        Параметры:
        ----------
        X : array-like, shape (n_samples, n_features)
            Данные для предсказания
        threshold : float, default=0.5
            Порог для классификации

        Возвращает:
        -----------
        y_pred : array-like, shape (n_samples,)
            Предсказанные классы (0 или 1)
        """
        # YOUR CODE HERE
        pass

    def score(self, X, y):
        """
        Вычисляет accuracy

        Параметры:
        ----------
        X : array-like
            Входные данные
        y : array-like
            Истинные значения

        Возвращает:
        -----------
        accuracy : float
            Доля правильных предсказаний
        """
        # YOUR CODE HERE
        pass

    def plot_loss(self):
        """Визуализация истории функции потерь"""
        # YOUR CODE HERE
        pass

    def get_params(self):
        """Возвращает параметры модели"""
        # YOUR CODE HERE
        pass

    def plot_decision_boundary(self, X, y):
        """
        Визуализация границы решения (только для 2D данных)

        Параметры:
        ----------
        X : array-like, shape (n_samples, 2)
            2D данные
        y : array-like, shape (n_samples,)
            Метки классов
        """
        # YOUR CODE HERE
        pass

# 2.3. Обучение и оценка логистической регрессии

## Часть 1: Базовое обучение модели

### Задание 1.1 - Инициализация и обучение
- Инициализируйте вашу модель логистической регрессии с параметрами по умолчанию
- Обучите модель на тренировочных данных
- Сохраните веса модели и историю ошибок

### Задание 1.2 - Визуализация процесса обучения
- Постройте график функции потерь (Log Loss) по итерациям
- Проанализируйте сходимость алгоритма:
  - Быстрая/медленная сходимость
  - Наличие колебаний
  - Достигнут ли минимум функции потерь

## Часть 2: Подбор гиперпараметров

### Задание 2.1 - Эксперименты со скоростью обучения
Проведите эксперименты с разными значениями `learning_rate`

**Для каждого эксперимента:**
- Обучите модель с новым learning_rate
- Зафиксируйте конечное значение Log Loss
- Отметьте количество итераций до сходимости
- Визуализируйте процесс обучения на одном графике

### Задание 2.2 - Эксперименты с регуляризацией
Исследуйте влияние регуляризации:
- Без регуляризации (`penalty=None`)
- L1 регуляризация (Lasso)
- L2 регуляризация (Ridge)
- Разные значения параметра `C` (0.1, 1.0, 10.0)

**Анализ:**
- Сравните веса моделей с разной регуляризацией
- Определите, помогает ли регуляризация бороться с переобучением
- Выберите оптимальный тип регуляризации и значение C

### Задание 2.3 - Порог классификации
Исследуйте влияние порога классификации:
- Стандартный порог (0.5)
- Высокий порог (0.7, 0.8) - для точности
- Низкий порог (0.3, 0.2) - для полноты

**Оценка:**
- Постройте Precision-Recall кривую
- Определите оптимальный порог для вашей задачи
- Проанализируйте trade-off между Precision и Recall

## Часть 3: Сравнение с sklearn

### Задание 3.1 - Инициализация моделей
Создайте и обучите три модели:
1. **Ваша реализация** с лучшими найденными гиперпараметрами
2. **Sklearn LogisticRegression** (обычная логистическая регрессия)
3. **Sklearn SGDClassifier** (стохастический градиентный спуск)

### Задание 3.2 - Сравнение качества
Рассчитайте и сравните метрики для всех моделей:

**Основные метрики:**
- Accuracy
- Precision, Recall, F1-score
- ROC-AUC
- Log Loss
- Время обучения

**Таблица сравнения:**
| Модель | Accuracy | Precision | Recall | F1 | ROC-AUC | Время обучения |
|--------|----------|-----------|--------|-----|---------|----------------|
| Ваша реализация | | | | | | |
| Sklearn LogisticRegression | | | | | | |
| Sklearn SGDClassifier | | | | | | |

### Задание 3.3 - Визуализация результатов
Постройте графики для всех моделей:
1. **Матрицы ошибок** (Confusion Matrix)
2. **ROC-кривые** на одном графике
3. **Распределение вероятностей** для двух классов

## Часть 4: Анализ результатов

### Задание 4.1 - Выводы по гиперпараметрам
- Определите оптимальные гиперпараметры для ваших данных
- Объясните влияние регуляризации на качество модели
- Опишите оптимальный баланс между точностью и полнотой

### Задание 4.2 - Сравнение с sklearn
**Ответьте на вопросы:**
- Насколько ваша реализация близка к sklearn по качеству?
- В чем различия в калибровке вероятностей?
- Какие особенности реализации влияют на результаты классификации?

### Задание 4.3 - Анализ границы решения
- Визуализируйте границу решения для 2D данных
- Проанализируйте, как модель разделяет классы
- Определите, какие признаки наиболее важны для классификации

### Задание 4.4 - Рекомендации по улучшению
Предложите возможные улучшения вашей реализации:
- Методы борьбы с несбалансированными классами
- Разные функции активации
- Продвинутые оптимизаторы (Adam, RMSprop)
- Ансамблирование с другими моделями

In [5]:
# YOUR CODE HERE