# Практическая работа: градиентный спуск

## Основные цели

- Реализовать несколько вариантов градиентного спуска
- Изучить влияние гиперпараметров на сходимость
- Сравнить методы оптимизации на примерах из реальных данных
- Применить градиентный спуск к разным задачам машинного обучения

---

## Установка зависимостей и импорт

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import make_regression, make_classification, load_boston
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression, LogisticRegression
from sklearn.metrics import mean_squared_error, accuracy_score, log_loss
import warnings
warnings.filterwarnings('ignore')
plt.style.use('default')
plt.rcParams['figure.figsize'] = (10, 6)
sns.set_palette("husl")
print("Библиотеки успешно импортированы!")

## Задание 1: Простейший градиентный спуск

Напишите реализацию градиентного спуска для простой квадратичной функции.

### TODO 1.1: Градиентный спуск для f(x) = (x-3)² + 5

Реализуйте алгоритм поиска минимума для функции f(x) = (x-3)² + 5

In [None]:
def objective_function(x):
    """Целевая функция f(x) = (x-3)² + 5"""
    pass

def gradient_function(x):
    """Градиент функции f(x) = (x-3)² + 5"""
    pass

def gradient_descent_simple(start_x, learning_rate, num_iterations):
    """
    Простой градиентный спуск
    """
    x = start_x
    history = [x]
    for i in range(num_iterations):
        pass
    return x, history

start_point = 0.0
learning_rate = 0.1
iterations = 50

final_x, x_history = gradient_descent_simple(start_point, learning_rate, iterations)

print(f"Начальная точка: {start_point}")
print(f"Финальная точка: {final_x:.6f}")
print(f"Ожидаемый минимум: x = 3")
print(f"Значение функции в минимуме: {objective_function(final_x):.6f}")

## Задание 2: Линейная регрессия с градиентным спуском

Реализуйте полную версию градиентного спуска для линейной регрессии.

### TODO 2.1: Batch Gradient Descent для линейной регрессии

Создайте класс для линейной регрессии с использованием градиентного спуска.

In [None]:
class LinearRegressionGD:
    def __init__(self, learning_rate=0.01, max_iterations=1000, tolerance=1e-6):
        self.learning_rate = learning_rate
        self.max_iterations = max_iterations
        self.tolerance = tolerance
        self.cost_history = []
        self.theta = None
    
    def _add_bias(self, X):
        """Добавляет колонку единиц для свободного члена"""
        pass
    
    def _compute_cost(self, X, y, theta):
        """Вычисляет функцию потерь MSE"""
        m = X.shape[0]
        pass
    
    def _compute_gradients(self, X, y, theta):
        """Вычисляет градиенты"""
        m = X.shape[0]
        pass
    
    def fit(self, X, y):
        """Обучает модель"""
        X_with_bias = self._add_bias(X)
        m, n = X_with_bias.shape
        self.theta = np.random.normal(0, 0.01, n)
        prev_cost = float('inf')
        for i in range(self.max_iterations):
            pass
        print(f"Обучение завершено за {len(self.cost_history)} итераций")
    
    def predict(self, X):
        """Делает предсказания"""
        X_with_bias = self._add_bias(X)
        pass

np.random.seed(42)
X, y = make_regression(n_samples=100, n_features=1, noise=10, random_state=42)

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

model = LinearRegressionGD(learning_rate=0.1, max_iterations=1000)

sklearn_model = LinearRegression()
sklearn_model.fit(X_scaled, y)

print("Сравнение с sklearn будет доступно после реализации ваших методов")

### TODO 2.2: Визуализация процесса обучения

Создайте визуализацию процесса обучения и сравните с sklearn.

In [None]:
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))

plt.tight_layout()
plt.show()

## Задание 3: Сравнение типов градиентного спуска

Реализуйте и сравните Batch, Stochastic и Mini-batch градиентный спуск.

### TODO 3.1: Stochastic Gradient Descent

Реализуйте стохастический градиентный спуск.

In [None]:
class LinearRegressionSGD:
    def __init__(self, learning_rate=0.01, max_iterations=1000):
        self.learning_rate = learning_rate
        self.max_iterations = max_iterations
        self.cost_history = []
        self.theta = None
    
    def fit(self, X, y):
        """Обучение с использованием SGD"""
        m, n = X.shape
        X_with_bias = np.column_stack([np.ones(m), X])
        self.theta = np.random.normal(0, 0.01, n + 1)
        for iteration in range(self.max_iterations):
            pass
    
    def predict(self, X):
        """Предсказания"""
        m = X.shape[0]
        X_with_bias = np.column_stack([np.ones(m), X])
        return X_with_bias.dot(self.theta)

### TODO 3.2: Mini-batch Gradient Descent

Реализуйте мини-пакетный градиентный спуск.

In [None]:
class LinearRegressionMiniBatch:
    def __init__(self, learning_rate=0.01, max_iterations=100, batch_size=32):
        self.learning_rate = learning_rate
        self.max_iterations = max_iterations
        self.batch_size = batch_size
        self.cost_history = []
        self.theta = None
    
    def fit(self, X, y):
        """Обучение с использованием Mini-batch GD"""
        m, n = X.shape
        X_with_bias = np.column_stack([np.ones(m), X])
        self.theta = np.random.normal(0, 0.01, n + 1)
        for iteration in range(self.max_iterations):
            pass
    
    def predict(self, X):
        """Предсказания"""
        m = X.shape[0]
        X_with_bias = np.column_stack([np.ones(m), X])
        return X_with_bias.dot(self.theta)

### TODO 3.3: Сравнение всех методов

Сравните производительность всех трех методов.

In [None]:
np.random.seed(42)
X_large, y_large = make_regression(n_samples=1000, n_features=5, noise=0.1, random_state=42)
X_large_scaled = StandardScaler().fit_transform(X_large)

results = {}

print("Сравнение методов градиентного спуска:")
print("-" * 50)

plt.figure(figsize=(15, 5))
plt.subplot(1, 3, 1)
plt.subplot(1, 3, 2)
plt.subplot(1, 3, 3)
plt.tight_layout()
plt.show()

## Задание 4: Исследование Learning Rate

Исследуйте влияние различных значений learning rate на сходимость.

### TODO 4.1: Тестирование различных Learning Rate

Протестируйте разные значения learning rate и проанализируйте результаты.

In [None]:
# TODO 4.1: Исследование влияния learning rate

def test_learning_rates(X, y, learning_rates, max_iterations=200):
    """
    Тестирует различные learning rates
    
    Parameters:
    X, y: данные
    learning_rates: список значений для тестирования
    max_iterations: максимальное количество итераций
    
    Returns:
    results: словарь с результатами
    """
    results = {}
    
    for lr in learning_rates:
        # ВАШ КОД ЗДЕСЬ
        # 1. Создайте модель с данным learning rate
        # 2. Обучите модель
        # 3. Сохраните результаты (сходимость, финальная ошибка, количество итераций)
        pass
    
    return results

# Тестируемые learning rates
learning_rates = [0.001, 0.01, 0.1, 0.5, 1.0, 1.5]

# Запуск тестирования
# results = test_learning_rates(X_scaled, y, learning_rates)

# Анализ результатов
print("Результаты тестирования learning rate:")
print("-" * 60)
print(f"{'Learning Rate':<15} {'Сходимость':<12} {'Итерации':<10} {'Финальная MSE':<15}")
print("-" * 60)

# ВАШ КОД ДЛЯ ВЫВОДА РЕЗУЛЬТАТОВ

# Визуализация результатов
plt.figure(figsize=(15, 10))

# ВАШ КОД ДЛЯ СОЗДАНИЯ 6 СУБПЛОТОВ (по одному для каждого learning rate)
# Показать график сходимости для каждого learning rate

plt.tight_layout()
plt.show()

### TODO 4.2: Поиск оптимального Learning Rate

Реализуйте простой алгоритм поиска оптимального learning rate.

In [None]:
# TODO 4.2: Поиск оптимального learning rate

def find_optimal_learning_rate(X, y, lr_min=0.001, lr_max=1.0, num_trials=20):
    """
    Находит оптимальный learning rate методом случайного поиска
    
    Parameters:
    X, y: данные
    lr_min, lr_max: диапазон поиска
    num_trials: количество попыток
    
    Returns:
    best_lr: лучший learning rate
    best_mse: лучшая MSE
    """
    best_lr = None
    best_mse = float('inf')
    results = []
    
    for i in range(num_trials):
        # ВАШ КОД ЗДЕСЬ
        # 1. Сгенерируйте случайный learning rate в заданном диапазоне
        # 2. Обучите модель
        # 3. Вычислите MSE
        # 4. Обновите лучший результат
        pass
    
    return best_lr, best_mse, results

# Поиск оптимального learning rate
# best_lr, best_mse, lr_results = find_optimal_learning_rate(X_scaled, y)

print(f"Оптимальный learning rate: {best_lr:.6f}")
print(f"Лучшая MSE: {best_mse:.6f}")

# Визуализация результатов поиска
# ВАШ КОД ДЛЯ ВИЗУАЛИЗАЦИИ

## Задание 5: Логистическая регрессия с градиентным спуском

Примените градиентный спуск к задаче классификации.

### TODO 5.1: Реализация логистической регрессии

Реализуйте логистическую регрессию с использованием градиентного спуска.

In [None]:
# TODO 5.1: Логистическая регрессия с градиентным спуском

class LogisticRegressionGD:
    def __init__(self, learning_rate=0.01, max_iterations=1000, tolerance=1e-6):
        self.learning_rate = learning_rate
        self.max_iterations = max_iterations
        self.tolerance = tolerance
        self.cost_history = []
        self.theta = None
    
    def sigmoid(self, z):
        """Сигмоидная функция"""
        # ВАШ КОД ЗДЕСЬ
        # Добавьте защиту от переполнения
        pass
    
    def _compute_cost(self, X, y, theta):
        """Вычисляет логистическую функцию потерь"""
        m = X.shape[0]
        # ВАШ КОД ЗДЕСЬ
        # Формула: J = -(1/m) * Σ[y*log(h) + (1-y)*log(1-h)]
        pass
    
    def fit(self, X, y):
        """Обучение модели"""
        m, n = X.shape
        X_with_bias = np.column_stack([np.ones(m), X])
        
        # Инициализация параметров
        self.theta = np.random.normal(0, 0.01, n + 1)
        
        prev_cost = float('inf')
        
        for i in range(self.max_iterations):
            # ВАШ КОД ЗДЕСЬ
            # 1. Вычислите предсказания через сигмоиду
            # 2. Вычислите функцию потерь
            # 3. Вычислите градиенты
            # 4. Обновите параметры
            # 5. Проверьте сходимость
            pass
    
    def predict_proba(self, X):
        """Предсказание вероятностей"""
        # ВАШ КОД ЗДЕСЬ
        pass
    
    def predict(self, X):
        """Предсказание классов"""
        # ВАШ КОД ЗДЕСЬ
        pass

# Создание данных для классификации
X_class, y_class = make_classification(n_samples=1000, n_features=2, n_redundant=0, 
                                      n_informative=2, n_clusters_per_class=1, random_state=42)

# Стандартизация
scaler_class = StandardScaler()
X_class_scaled = scaler_class.fit_transform(X_class)

# Тестирование логистической регрессии
# log_model = LogisticRegressionGD(learning_rate=0.1, max_iterations=1000)
# log_model.fit(X_class_scaled, y_class)

### TODO 5.2: Сравнение с sklearn и визуализация

Сравните вашу реализацию с sklearn и создайте визуализацию.

In [None]:
# TODO 5.2: Сравнение и визуализация логистической регрессии

# Сравнение с sklearn
sklearn_log = LogisticRegression(max_iter=1000)
sklearn_log.fit(X_class_scaled, y_class)

# Предсказания
# your_predictions = log_model.predict(X_class_scaled)
sklearn_predictions = sklearn_log.predict(X_class_scaled)

print("Сравнение логистической регрессии:")
# print(f"Accuracy (ваша реализация): {accuracy_score(y_class, your_predictions):.4f}")
print(f"Accuracy (sklearn): {accuracy_score(y_class, sklearn_predictions):.4f}")

# Визуализация
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))

# График 1: Данные и границы решения
ax1.scatter(X_class_scaled[y_class==0, 0], X_class_scaled[y_class==0, 1], 
           c='red', marker='o', alpha=0.6, label='Класс 0')
ax1.scatter(X_class_scaled[y_class==1, 0], X_class_scaled[y_class==1, 1], 
           c='blue', marker='s', alpha=0.6, label='Класс 1')

# ВАШ КОД ДЛЯ РИСОВАНИЯ ГРАНИЦЫ РЕШЕНИЯ

ax1.set_xlabel('Признак 1')
ax1.set_ylabel('Признак 2')
ax1.set_title('Логистическая регрессия')
ax1.legend()
ax1.grid(True, alpha=0.3)

# График 2: Сходимость функции потерь
# ВАШ КОД ДЛЯ ГРАФИКА СХОДИМОСТИ

plt.tight_layout()
plt.show()

## Задание 6: Продвинутые методы оптимизации

Реализуйте и сравните различные методы оптимизации.

### TODO 6.1: Gradient Descent с Momentum

Реализуйте градиентный спуск с импульсом.

In [None]:
# TODO 6.1: Реализация Momentum

class LinearRegressionMomentum:
    def __init__(self, learning_rate=0.01, momentum=0.9, max_iterations=1000):
        self.learning_rate = learning_rate
        self.momentum = momentum
        self.max_iterations = max_iterations
        self.cost_history = []
        self.theta = None
    
    def fit(self, X, y):
        """Обучение с использованием momentum"""
        m, n = X.shape
        X_with_bias = np.column_stack([np.ones(m), X])
        
        # Инициализация
        self.theta = np.random.normal(0, 0.01, n + 1)
        velocity = np.zeros_like(self.theta)
        
        for i in range(self.max_iterations):
            # ВАШ КОД ЗДЕСЬ
            # 1. Вычислите предсказания
            # 2. Вычислите функцию потерь
            # 3. Вычислите градиенты
            # 4. Обновите velocity: v = β*v + (1-β)*grad
            # 5. Обновите параметры: θ = θ - α*v
            pass
    
    def predict(self, X):
        """Предсказания"""
        m = X.shape[0]
        X_with_bias = np.column_stack([np.ones(m), X])
        return X_with_bias.dot(self.theta)

# Тестирование Momentum
# momentum_model = LinearRegressionMomentum(learning_rate=0.01, momentum=0.9)
# momentum_model.fit(X_scaled, y)

### TODO 6.2: Сравнение методов оптимизации

Сравните обычный GD, GD с momentum и другие методы.

In [None]:
# TODO 6.2: Сравнение методов оптимизации

# Создайте сложную функцию для демонстрации преимуществ momentum
np.random.seed(42)
X_complex = np.random.randn(300, 3)
# Добавьте корреляцию между признаками
X_complex[:, 1] = X_complex[:, 0] + 0.5 * np.random.randn(300)
X_complex[:, 2] = X_complex[:, 0] - 0.3 * X_complex[:, 1] + 0.2 * np.random.randn(300)
y_complex = 3 * X_complex[:, 0] + 2 * X_complex[:, 1] - X_complex[:, 2] + np.random.randn(300) * 0.1

# Словарь для хранения моделей
optimization_models = {}

# Обычный GD
# ВАШ КОД ЗДЕСЬ

# GD с Momentum
# ВАШ КОД ЗДЕСЬ

# GD с высоким learning rate (для демонстрации проблем)
# ВАШ КОД ЗДЕСЬ

# Сравнение результатов
print("Сравнение методов оптимизации:")
print("-" * 60)
# ВАШ КОД ДЛЯ ВЫВОДА РЕЗУЛЬТАТОВ

# Визуализация
plt.figure(figsize=(15, 5))

# График 1: Сравнение сходимости
plt.subplot(1, 3, 1)
# ВАШ КОД ДЛЯ ГРАФИКА СХОДИМОСТИ

# График 2: Первые 50 итераций
plt.subplot(1, 3, 2)
# ВАШ КОД ДЛЯ ДЕТАЛЬНОГО ВИДА

# График 3: Финальные результаты
plt.subplot(1, 3, 3)
# ВАШ КОД ДЛЯ СРАВНЕНИЯ ФИНАЛЬНЫХ РЕЗУЛЬТАТОВ

plt.tight_layout()
plt.show()

## Задание 7: Полиномиальная регрессия

Примените градиентный спуск к полиномиальной регрессии.

### TODO 7.1: Полиномиальные признаки

Создайте полиномиальные признаки и примените градиентный спуск.

In [None]:
# TODO 7.1: Полиномиальная регрессия с градиентным спуском

def create_polynomial_features(X, degree):
    """
    Создает полиномиальные признаки до заданной степени
    
    Parameters:
    X: исходные признаки (n_samples, n_features)
    degree: максимальная степень полинома
    
    Returns:
    X_poly: полиномиальные признаки
    """
    # ВАШ КОД ЗДЕСЬ
    # Подсказка: используйте nested loops для создания комбинаций признаков
    pass

# Создание нелинейных данных
np.random.seed(42)
X_nonlinear = np.random.uniform(-2, 2, (100, 1))
y_nonlinear = 0.5 * X_nonlinear.flatten()**3 - 2 * X_nonlinear.flatten()**2 + X_nonlinear.flatten() + np.random.normal(0, 0.5, 100)

# Создание полиномиальных признаков
# X_poly = create_polynomial_features(X_nonlinear, degree=3)

# Стандартизация
# scaler_poly = StandardScaler()
# X_poly_scaled = scaler_poly.fit_transform(X_poly)

# Обучение полиномиальной регрессии
# poly_model = LinearRegressionGD(learning_rate=0.01, max_iterations=1000)
# poly_model.fit(X_poly_scaled, y_nonlinear)

# Визуализация результатов
plt.figure(figsize=(15, 5))

# График 1: Исходные данные
plt.subplot(1, 3, 1)
plt.scatter(X_nonlinear, y_nonlinear, alpha=0.6)
plt.xlabel('X')
plt.ylabel('y')
plt.title('Нелинейные данные')
plt.grid(True, alpha=0.3)

# График 2: Полиномиальная регрессия
plt.subplot(1, 3, 2)
# ВАШ КОД ДЛЯ ВИЗУАЛИЗАЦИИ ПОЛИНОМИАЛЬНОЙ РЕГРЕССИИ

# График 3: Сходимость
plt.subplot(1, 3, 3)
# ВАШ КОД ДЛЯ ГРАФИКА СХОДИМОСТИ

plt.tight_layout()
plt.show()

## Задание 8: Анализ и выводы

Проанализируйте все полученные результаты и сделайте выводы.

### TODO 8.1: Создание итогового отчета

Создайте сводный анализ всех экспериментов.

In [None]:
# TODO 8.1: Итоговый анализ результатов

print("=" * 80)
print("ИТОГОВЫЙ ОТЧЕТ ПО ГРАДИЕНТНОМУ СПУСКУ")
print("=" * 80)

# 1. Сравнение типов градиентного спуска
print("\n1. СРАВНЕНИЕ ТИПОВ ГРАДИЕНТНОГО СПУСКА:")
print("-" * 50)
# ВАШ КОД ЗДЕСЬ - сравните Batch, SGD, Mini-batch

# 2. Влияние Learning Rate
print("\n2. ВЛИЯНИЕ LEARNING RATE:")
print("-" * 30)
# ВАШ КОД ЗДЕСЬ - проанализируйте результаты разных learning rates

# 3. Эффективность методов оптимизации
print("\n3. МЕТОДЫ ОПТИМИЗАЦИИ:")
print("-" * 25)
# ВАШ КОД ЗДЕСЬ - сравните обычный GD и Momentum

# 4. Применение к разным задачам
print("\n4. ПРИМЕНЕНИЕ К РАЗНЫМ ЗАДАЧАМ:")
print("-" * 35)
# ВАШ КОД ЗДЕСЬ - сравните линейную, логистическую и полиномиальную регрессию

# 5. Рекомендации
print("\n5. ПРАКТИЧЕСКИЕ РЕКОМЕНДАЦИИ:")
print("-" * 35)
recommendations = [
    "Для малых данных используйте...",
    "Для больших данных предпочтительнее...",
    "При нестабильной сходимости попробуйте...",
    "Для быстрого прототипирования начните с...",
    "Learning rate стоит выбирать в диапазоне..."
]

for i, rec in enumerate(recommendations, 1):
    print(f"{i}. {rec}")

print("\n" + "=" * 80)

### TODO 8.2: Финальная визуализация

Создайте финальную визуализацию, объединяющую все результаты.

In [None]:
# TODO 8.2: Финальная сводная визуализация

fig = plt.figure(figsize=(20, 15))

# График 1: Сравнение типов GD
plt.subplot(3, 3, 1)
# ВАШ КОД ДЛЯ СРАВНЕНИЯ ТИПОВ GD

# График 2: Влияние Learning Rate
plt.subplot(3, 3, 2)
# ВАШ КОД ДЛЯ ВИЗУАЛИЗАЦИИ LEARNING RATES

# График 3: Методы оптимизации
plt.subplot(3, 3, 3)
# ВАШ КОД ДЛЯ СРАВНЕНИЯ МЕТОДОВ ОПТИМИЗАЦИИ

# График 4: Линейная регрессия
plt.subplot(3, 3, 4)
# ВАШ КОД ДЛЯ ЛИНЕЙНОЙ РЕГРЕССИИ

# График 5: Логистическая регрессия
plt.subplot(3, 3, 5)
# ВАШ КОД ДЛЯ ЛОГИСТИЧЕСКОЙ РЕГРЕССИИ

# График 6: Полиномиальная регрессия
plt.subplot(3, 3, 6)
# ВАШ КОД ДЛЯ ПОЛИНОМИАЛЬНОЙ РЕГРЕССИИ

# График 7: Сводка по точности
plt.subplot(3, 3, 7)
# ВАШ КОД ДЛЯ СВОДКИ ПО ТОЧНОСТИ

# График 8: Сводка по времени сходимости
plt.subplot(3, 3, 8)
# ВАШ КОД ДЛЯ СВОДКИ ПО ВРЕМЕНИ

# График 9: Общие рекомендации (текст)
plt.subplot(3, 3, 9)
plt.text(0.1, 0.9, "ВЫВОДЫ:", fontsize=14, fontweight='bold', transform=plt.gca().transAxes)
conclusions = [
    "• Batch GD: точнее, но медленнее",
    "• SGD: быстрее, но нестабильнее", 
    "• Mini-batch: лучший компромисс",
    "• Learning rate критически важен",
    "• Momentum улучшает сходимость"
]

for i, conclusion in enumerate(conclusions):
    plt.text(0.1, 0.7 - i*0.1, conclusion, fontsize=10, transform=plt.gca().transAxes)

plt.gca().set_xticks([])
plt.gca().set_yticks([])
plt.gca().spines['top'].set_visible(False)
plt.gca().spines['right'].set_visible(False)
plt.gca().spines['bottom'].set_visible(False)
plt.gca().spines['left'].set_visible(False)

plt.tight_layout()
plt.show()

## Дополнительные задания (по желанию)

### Задание 9: Реализация Adam оптимизатора

Если у вас есть дополнительное время, реализуйте Adam оптимизатор.

In [None]:
# Бонусное задание: Adam оптимизатор

class LinearRegressionAdam:
    def __init__(self, learning_rate=0.001, beta1=0.9, beta2=0.999, epsilon=1e-8, max_iterations=1000):
        self.learning_rate = learning_rate
        self.beta1 = beta1
        self.beta2 = beta2
        self.epsilon = epsilon
        self.max_iterations = max_iterations
        self.cost_history = []
        self.theta = None
    
    def fit(self, X, y):
        """Обучение с использованием Adam"""
        m, n = X.shape
        X_with_bias = np.column_stack([np.ones(m), X])
        
        # Инициализация
        self.theta = np.random.normal(0, 0.01, n + 1)
        m_t = np.zeros_like(self.theta)  # Первый момент
        v_t = np.zeros_like(self.theta)  # Второй момент
        
        for t in range(1, self.max_iterations + 1):
            # ВАШ КОД ЗДЕСЬ (если решите реализовать)
            # Adam алгоритм:
            # 1. Вычислите градиенты
            # 2. Обновите моменты: m_t = β1*m_t + (1-β1)*grad
            # 3. Обновите моменты: v_t = β2*v_t + (1-β2)*grad²
            # 4. Скорректируйте bias: m̂_t = m_t/(1-β1^t), v̂_t = v_t/(1-β2^t)
            # 5. Обновите параметры: θ = θ - α*m̂_t/(√v̂_t + ε)
            pass
    
    def predict(self, X):
        """Предсказания"""
        m = X.shape[0]
        X_with_bias = np.column_stack([np.ones(m), X])
        return X_with_bias.dot(self.theta)

# Тестирование Adam (если реализован)
# adam_model = LinearRegressionAdam()
# adam_model.fit(X_scaled, y)

---

## Домашнее задание

1. Завершите все TODO задания в этом ноутбуке
2. Реализуйте градиентный спуск для задачи множественной классификации (3+ классов)
3. Сравните производительность всех методов на реальном датасете из sklearn
4. Создайте интерактивную визуализацию процесса градиентного спуска (используйте matplotlib animation)
5. Напишите краткий отчет (1-2 страницы) с выводами и рекомендациями

**Критерии оценки:**
- Корректность реализации алгоритмов (40%)
- Качество экспериментов и анализа (25%)
- Визуализации и их интерпретация (20%)
- Выводы и практические рекомендации (15%)

**Срок сдачи:** следующее занятие  
**Формат:** Jupyter notebook с выполненными заданиями + отчет