In [1]:
# %% [markdown]
# # Бінарна класифікація медичних тестів з використанням логістичної регресії
# 
# **Мета:** Передбачити результат медичного тесту (Normal vs Abnormal/Inconclusive) на основі медично-демографічних факторів.
# 
# **Модель:** Логістична регресія з реалізацією SGD та Mini-batch градієнтного спуску.

# %% [markdown]
# ## 1. Імпорт бібліотек

# %%
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix, accuracy_score, precision_score, recall_score, f1_score
import warnings
warnings.filterwarnings('ignore')

# Налаштування візуалізації
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")

# %% [markdown]
# ## 2. Завантаження та підготовка даних

# %%
# Завантаження даних
df = pd.read_csv('synthetic_coffee_health_10000.csv')

print("Розмір датасету:", df.shape)
print("\nПерші рядки:")
print(df.head())
print("\nІнформація про датасет:")
print(df.info())
print("\nСтатистика:")
print(df.describe())

# %%
# Перевірка пропущених значень
print("Пропущені значення:")
print(df.isnull().sum())

# %% [markdown]
# ## 3. Створення цільової змінної та видалення непотрібних стовпців

# %%
# Створення бінарної цільової змінної: 1 - Normal, 0 - Abnormal/Inconclusive
df['Test_Result_Normal'] = (df['Test Results'] == 'Normal').astype(int)

print("Розподіл цільової змінної:")
print(df['Test_Result_Normal'].value_counts())
print("\nВідсоткове співвідношення:")
print(df['Test_Result_Normal'].value_counts(normalize=True) * 100)

# Видалення непотрібних стовпців
columns_to_drop = ['Name', 'Date of Admission', 'Doctor', 'Hospital', 
                   'Room Number', 'Discharge Date', 'Test Results']
df_clean = df.drop(columns=[col for col in columns_to_drop if col in df.columns])

print("\nСтовпці після очищення:")
print(df_clean.columns.tolist())

# %% [markdown]
# ## 4. Аналіз даних
# 
# ### 4.1 Візуалізація розподілу цільової змінної

# %%
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Графік 1: Стовпчаста діаграма
df['Test_Result_Normal'].value_counts().plot(kind='bar', ax=axes[0], color=['#e74c3c', '#2ecc71'])
axes[0].set_title('Розподіл результатів тестів', fontsize=14, fontweight='bold')
axes[0].set_xlabel('Результат (0 = Abnormal, 1 = Normal)', fontsize=12)
axes[0].set_ylabel('Кількість', fontsize=12)
axes[0].set_xticklabels(['Abnormal/Inconclusive', 'Normal'], rotation=0)

# Графік 2: Кругова діаграма
df['Test_Result_Normal'].value_counts().plot(kind='pie', ax=axes[1], autopct='%1.1f%%',
                                              colors=['#e74c3c', '#2ecc71'],
                                              labels=['Abnormal/Inconclusive', 'Normal'])
axes[1].set_title('Відсоткове співвідношення', fontsize=14, fontweight='bold')
axes[1].set_ylabel('')

plt.tight_layout()
plt.show()

# %% [markdown]
# ### 4.2 Аналіз числових ознак

# %%
# Візуалізація розподілу числових ознак
numeric_cols = df_clean.select_dtypes(include=[np.number]).columns.tolist()
numeric_cols = [col for col in numeric_cols if col != 'Test_Result_Normal']

if numeric_cols:
    fig, axes = plt.subplots(1, len(numeric_cols), figsize=(6*len(numeric_cols), 5))
    if len(numeric_cols) == 1:
        axes = [axes]
    
    for idx, col in enumerate(numeric_cols):
        axes[idx].hist(df_clean[col].dropna(), bins=30, edgecolor='black', alpha=0.7)
        axes[idx].set_title(f'Розподіл {col}', fontsize=12, fontweight='bold')
        axes[idx].set_xlabel(col, fontsize=10)
        axes[idx].set_ylabel('Частота', fontsize=10)
    
    plt.tight_layout()
    plt.show()

# %% [markdown]
# ### 4.3 Кореляційна матриця

# %%
# One-hot encoding для побудови кореляційної матриці
df_encoded = pd.get_dummies(df_clean, drop_first=True)

# Кореляційна матриця
correlation_matrix = df_encoded.corr()

# Візуалізація
plt.figure(figsize=(14, 10))
sns.heatmap(correlation_matrix, annot=False, cmap='coolwarm', center=0, 
            linewidths=0.5, cbar_kws={"shrink": 0.8})
plt.title('Кореляційна матриця ознак', fontsize=16, fontweight='bold')
plt.tight_layout()
plt.show()

# Топ-10 кореляцій з цільовою змінною
target_corr = correlation_matrix['Test_Result_Normal'].sort_values(ascending=False)
print("\nТоп-10 ознак за кореляцією з Test_Result_Normal:")
print(target_corr.head(11))  # 11, бо перша - сама цільова змінна

# %% [markdown]
# ## 5. Підготовка даних для моделі
# 
# ### 5.1 One-hot encoding категоріальних ознак

# %%
# Відокремлення цільової змінної
y = df_clean['Test_Result_Normal'].values
X = df_clean.drop('Test_Result_Normal', axis=1)

# One-hot encoding
categorical_cols = X.select_dtypes(include=['object']).columns.tolist()
print(f"Категоріальні стовпці для кодування: {categorical_cols}")

X_encoded = pd.get_dummies(X, drop_first=True)
print(f"\nКількість ознак після one-hot encoding: {X_encoded.shape[1]}")

# %% [markdown]
# ### 5.2 Нормалізація числових ознак

# %%
# Нормалізація (стандартизація)
def normalize_features(X):
    """Z-score нормалізація"""
    mean = np.mean(X, axis=0)
    std = np.std(X, axis=0)
    # Уникненняділення на нуль
    std[std == 0] = 1
    return (X - mean) / std, mean, std

X_normalized, X_mean, X_std = normalize_features(X_encoded.values)
print("Дані нормалізовано")
print(f"Форма X: {X_normalized.shape}")
print(f"Форма y: {y.shape}")

# %% [markdown]
# ### 5.3 Розділення на тренувальний, валідаційний та тестовий набори

# %%
# Спочатку розділимо на train (60%) та temp (40%)
X_train, X_temp, y_train, y_temp = train_test_split(
    X_normalized, y, test_size=0.4, random_state=42, stratify=y
)

# Потім temp розділимо на validation (20%) та test (20%)
X_val, X_test, y_val, y_test = train_test_split(
    X_temp, y_temp, test_size=0.5, random_state=42, stratify=y_temp
)

print(f"Розмір тренувального набору: {X_train.shape}")
print(f"Розмір валідаційного набору: {X_val.shape}")
print(f"Розмір тестового набору: {X_test.shape}")

# Розподіл класів
print(f"\nТренувальний набір - Normal: {np.sum(y_train)} ({np.mean(y_train)*100:.1f}%)")
print(f"Валідаційний набір - Normal: {np.sum(y_val)} ({np.mean(y_val)*100:.1f}%)")
print(f"Тестовий набір - Normal: {np.sum(y_test)} ({np.mean(y_test)*100:.1f}%)")

# %% [markdown]
# ## 6. Реалізація логістичної регресії
# 
# ### 6.1 Основні функції

# %%
def sigmoid(z):
    """
    Сигмоїдна функція активації
    σ(z) = 1 / (1 + e^(-z))
    """
    # Обмеження для уникнення overflow
    z = np.clip(z, -500, 500)
    return 1 / (1 + np.exp(-z))

def compute_loss(X, y, weights, lambda_l1=0, lambda_l2=0):
    """
    Обчислення Log Loss (Binary Cross-Entropy) з регуляризацією
    
    L = -1/m * Σ[y*log(ŷ) + (1-y)*log(1-ŷ)] + регуляризація
    """
    m = len(y)
    predictions = sigmoid(np.dot(X, weights))
    
    # Уникнення log(0)
    epsilon = 1e-15
    predictions = np.clip(predictions, epsilon, 1 - epsilon)
    
    # Основна функція втрат
    loss = -np.mean(y * np.log(predictions) + (1 - y) * np.log(1 - predictions))
    
    # Додавання регуляризації (не застосовуємо до intercept - перша вага)
    if lambda_l2 > 0:
        loss += (lambda_l2 / (2 * m)) * np.sum(weights[1:]**2)
    if lambda_l1 > 0:
        loss += (lambda_l1 / m) * np.sum(np.abs(weights[1:]))
    
    return loss

def compute_gradient(X, y, weights, lambda_l1=0, lambda_l2=0):
    """
    Обчислення градієнта функції втрат
    
    ∂L/∂w = 1/m * X^T * (ŷ - y) + регуляризація
    """
    m = len(y)
    predictions = sigmoid(np.dot(X, weights))
    gradient = np.dot(X.T, (predictions - y)) / m
    
    # Додавання регуляризації (не застосовуємо до intercept)
    if lambda_l2 > 0:
        gradient[1:] += (lambda_l2 / m) * weights[1:]
    if lambda_l1 > 0:
        gradient[1:] += (lambda_l1 / m) * np.sign(weights[1:])
    
    return gradient

def initialize_weights(n_features):
    """Ініціалізація ваг малими випадковими значеннями"""
    return np.random.randn(n_features) * 0.01

# %% [markdown]
# ### 6.2 Стохастичний градієнтний спуск (SGD)

# %%
def sgd(X, y, X_val, y_val, learning_rate=0.01, max_epochs=100, 
        lambda_l1=0, lambda_l2=0, patience=10, verbose=True):
    """
    Стохастичний градієнтний спуск
    Оновлення ваг після кожного прикладу
    """
    n_features = X.shape[1]
    weights = initialize_weights(n_features)
    
    train_losses = []
    val_losses = []
    best_val_loss = float('inf')
    best_weights = None
    best_epoch = 0
    epochs_no_improve = 0
    
    for epoch in range(max_epochs):
        # Перемішування даних на кожній епосі
        indices = np.random.permutation(len(X))
        X_shuffled = X[indices]
        y_shuffled = y[indices]
        
        # Оновлення ваг для кожного прикладу
        for i in range(len(X)):
            X_i = X_shuffled[i:i+1]
            y_i = y_shuffled[i:i+1]
            
            gradient = compute_gradient(X_i, y_i, weights, lambda_l1, lambda_l2)
            weights -= learning_rate * gradient
        
        # Обчислення втрат після епохи
        train_loss = compute_loss(X, y, weights, lambda_l1, lambda_l2)
        val_loss = compute_loss(X_val, y_val, weights, lambda_l1, lambda_l2)
        
        train_losses.append(train_loss)
        val_losses.append(val_loss)
        
        # Early stopping
        if val_loss < best_val_loss:
            best_val_loss = val_loss
            best_weights = weights.copy()
            best_epoch = epoch
            epochs_no_improve = 0
        else:
            epochs_no_improve += 1
        
        if epochs_no_improve >= patience:
            if verbose:
                print(f"Early stopping на епосі {epoch}")
            break
        
        if verbose and (epoch + 1) % 10 == 0:
            print(f"Епоха {epoch+1}/{max_epochs} - Train Loss: {train_loss:.4f}, Val Loss: {val_loss:.4f}")
    
    if verbose:
        print(f"\nНайкраща модель на епосі {best_epoch} з Val Loss: {best_val_loss:.4f}")
    
    return best_weights, train_losses, val_losses, best_epoch

# %% [markdown]
# ### 6.3 Mini-batch градієнтний спуск

# %%
def mini_batch_gd(X, y, X_val, y_val, learning_rate=0.01, batch_size=32, 
                  max_epochs=100, lambda_l1=0, lambda_l2=0, patience=10, verbose=True):
    """
    Mini-batch градієнтний спуск
    Оновлення ваг після кожного батчу
    """
    n_features = X.shape[1]
    weights = initialize_weights(n_features)
    
    train_losses = []
    val_losses = []
    best_val_loss = float('inf')
    best_weights = None
    best_epoch = 0
    epochs_no_improve = 0
    
    for epoch in range(max_epochs):
        # Перемішування даних
        indices = np.random.permutation(len(X))
        X_shuffled = X[indices]
        y_shuffled = y[indices]
        
        # Оновлення ваг для кожного батчу
        for i in range(0, len(X), batch_size):
            X_batch = X_shuffled[i:i+batch_size]
            y_batch = y_shuffled[i:i+batch_size]
            
            gradient = compute_gradient(X_batch, y_batch, weights, lambda_l1, lambda_l2)
            weights -= learning_rate * gradient
        
        # Обчислення втрат після епохи
        train_loss = compute_loss(X, y, weights, lambda_l1, lambda_l2)
        val_loss = compute_loss(X_val, y_val, weights, lambda_l1, lambda_l2)
        
        train_losses.append(train_loss)
        val_losses.append(val_loss)
        
        # Early stopping
        if val_loss < best_val_loss:
            best_val_loss = val_loss
            best_weights = weights.copy()
            best_epoch = epoch
            epochs_no_improve = 0
        else:
            epochs_no_improve += 1
        
        if epochs_no_improve >= patience:
            if verbose:
                print(f"Early stopping на епосі {epoch}")
            break
        
        if verbose and (epoch + 1) % 10 == 0:
            print(f"Епоха {epoch+1}/{max_epochs} - Train Loss: {train_loss:.4f}, Val Loss: {val_loss:.4f}")
    
    if verbose:
        print(f"\nНайкраща модель на епосі {best_epoch} з Val Loss: {best_val_loss:.4f}")
    
    return best_weights, train_losses, val_losses, best_epoch

# %% [markdown]
# ### 6.4 Функція для прогнозування

# %%
def predict(X, weights, threshold=0.5):
    """
    Прогнозування класів
    """
    probabilities = sigmoid(np.dot(X, weights))
    return (probabilities >= threshold).astype(int)

def predict_proba(X, weights):
    """
    Прогнозування ймовірностей
    """
    return sigmoid(np.dot(X, weights))

# %% [markdown]
# ## 7. Навчання моделей
# 
# ### 7.1 Стохастичний градієнтний спуск

# %%
print("=" * 60)
print("НАВЧАННЯ: Стохастичний градієнтний спуск (SGD)")
print("=" * 60)

# Додавання intercept (стовпець одиниць)
X_train_sgd = np.c_[np.ones(X_train.shape[0]), X_train]
X_val_sgd = np.c_[np.ones(X_val.shape[0]), X_val]
X_test_sgd = np.c_[np.ones(X_test.shape[0]), X_test]

# Навчання
weights_sgd, train_losses_sgd, val_losses_sgd, best_epoch_sgd = sgd(
    X_train_sgd, y_train, X_val_sgd, y_val,
    learning_rate=0.1,
    max_epochs=200,
    patience=15,
    verbose=True
)

# %% [markdown]
# ### 7.2 Mini-batch градієнтний спуск

# %%
print("\n" + "=" * 60)
print("НАВЧАННЯ: Mini-batch градієнтний спуск")
print("=" * 60)

# Використовуємо ті ж дані з intercept
weights_mb, train_losses_mb, val_losses_mb, best_epoch_mb = mini_batch_gd(
    X_train_sgd, y_train, X_val_sgd, y_val,
    learning_rate=0.1,
    batch_size=32,
    max_epochs=200,
    patience=15,
    verbose=True
)

# %% [markdown]
# ## 8. Візуалізація кривих навчання

# %%
fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# SGD
axes[0].plot(train_losses_sgd, label='Train Loss', linewidth=2)
axes[0].plot(val_losses_sgd, label='Validation Loss', linewidth=2)
axes[0].axvline(x=best_epoch_sgd, color='r', linestyle='--', label=f'Best Epoch ({best_epoch_sgd})')
axes[0].set_xlabel('Епоха', fontsize=12)
axes[0].set_ylabel('Loss (Binary Cross-Entropy)', fontsize=12)
axes[0].set_title('Криві навчання: Стохастичний градієнтний спуск', fontsize=14, fontweight='bold')
axes[0].legend(fontsize=10)
axes[0].grid(True, alpha=0.3)

# Mini-batch
axes[1].plot(train_losses_mb, label='Train Loss', linewidth=2)
axes[1].plot(val_losses_mb, label='Validation Loss', linewidth=2)
axes[1].axvline(x=best_epoch_mb, color='r', linestyle='--', label=f'Best Epoch ({best_epoch_mb})')
axes[1].set_xlabel('Епоха', fontsize=12)
axes[1].set_ylabel('Loss (Binary Cross-Entropy)', fontsize=12)
axes[1].set_title('Криві навчання: Mini-batch градієнтний спуск', fontsize=14, fontweight='bold')
axes[1].legend(fontsize=10)
axes[1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# %% [markdown]
# ### Аналіз кривих навчання
# 
# **Інтерпретація:**
# - Якщо обидві криві зменшуються і виходять на плато → навчання успішне
# - Якщо валідаційна крива зростає, а тренувальна падає → перенавчання
# - Якщо обидві криві залишаються високими → недонавчення

# %% [markdown]
# ## 9. Оцінка моделей на тестовому наборі
# 
# ### 9.1 Функція для обчислення метрик

# %%
def evaluate_model(X, y, weights, model_name):
    """
    Оцінка моделі та виведення метрик
    """
    # Прогнози
    y_pred = predict(X, weights)
    y_proba = predict_proba(X, weights)
    
    # Метрики
    accuracy = accuracy_score(y, y_pred)
    precision = precision_score(y, y_pred, zero_division=0)
    recall = recall_score(y, y_pred, zero_division=0)
    f1 = f1_score(y, y_pred, zero_division=0)
    
    # Confusion Matrix
    cm = confusion_matrix(y, y_pred)
    
    print(f"\n{'='*60}")
    print(f"ОЦІНКА МОДЕЛІ: {model_name}")
    print(f"{'='*60}")
    print(f"Accuracy:  {accuracy:.4f} ({accuracy*100:.2f}%)")
    print(f"Precision: {precision:.4f}")
    print(f"Recall:    {recall:.4f}")
    print(f"F1-Score:  {f1:.4f}")
    
    return {
        'model': model_name,
        'accuracy': accuracy,
        'precision': precision,
        'recall': recall,
        'f1': f1,
        'confusion_matrix': cm
    }

# %% [markdown]
# ### 9.2 Оцінка SGD

# %%
results_sgd = evaluate_model(X_test_sgd, y_test, weights_sgd, "Stochastic Gradient Descent")

# %% [markdown]
# ### 9.3 Оцінка Mini-batch

# %%
results_mb = evaluate_model(X_test_sgd, y_test, weights_mb, "Mini-batch Gradient Descent")

# %% [markdown]
# ## 10. Візуалізація Confusion Matrix

# %%
fig, axes = plt.subplots(1, 2, figsize=(14, 6))

# SGD Confusion Matrix
sns.heatmap(results_sgd['confusion_matrix'], annot=True, fmt='d', cmap='Blues', 
            ax=axes[0], cbar_kws={'label': 'Count'})
axes[0].set_title('Confusion Matrix: SGD', fontsize=14, fontweight='bold')
axes[0].set_xlabel('Predicted', fontsize=12)
axes[0].set_ylabel('Actual', fontsize=12)
axes[0].set_xticklabels(['Abnormal', 'Normal'])
axes[0].set_yticklabels(['Abnormal', 'Normal'])

# Mini-batch Confusion Matrix
sns.heatmap(results_mb['confusion_matrix'], annot=True, fmt='d', cmap='Greens', 
            ax=axes[1], cbar_kws={'label': 'Count'})
axes[1].set_title('Confusion Matrix: Mini-batch GD', fontsize=14, fontweight='bold')
axes[1].set_xlabel('Predicted', fontsize=12)
axes[1].set_ylabel('Actual', fontsize=12)
axes[1].set_xticklabels(['Abnormal', 'Normal'])
axes[1].set_yticklabels(['Abnormal', 'Normal'])

plt.tight_layout()
plt.show()

# %% [markdown]
# ## 11. Порівняльна таблиця метрик

# %%
comparison_df = pd.DataFrame([
    {
        'Метод': 'SGD',
        'Accuracy': f"{results_sgd['accuracy']:.4f}",
        'Precision': f"{results_sgd['precision']:.4f}",
        'Recall': f"{results_sgd['recall']:.4f}",
        'F1-Score': f"{results_sgd['f1']:.4f}",
        'Епох до збіжності': len(train_losses_sgd)
    },
    {
        'Метод': 'Mini-batch GD',
        'Accuracy': f"{results_mb['accuracy']:.4f}",
        'Precision': f"{results_mb['precision']:.4f}",
        'Recall': f"{results_mb['recall']:.4f}",
        'F1-Score': f"{results_mb['f1']:.4f}",
        'Епох до збіжності': len(train_losses_mb)
    }
])

print("\n" + "="*80)
print("ПОРІВНЯЛЬНА ТАБЛИЦЯ МЕТРИК")
print("="*80)
print(comparison_df.to_string(index=False))

# %% [markdown]
# ## 12. Додатково: Регуляризація (L1 та L2)
# 
# ### 12.1 Навчання з L2 регуляризацією (Ridge)

# %%
print("\n" + "="*60)
print("НАВЧАННЯ З L2 РЕГУЛЯРИЗАЦІЄЮ (Ridge)")
print("="*60)

weights_l2, train_losses_l2, val_losses_l2, best_epoch_l2 = mini_batch_gd(
    X_train_sgd, y_train, X_val_sgd, y_val,
    learning_rate=0.1,
    batch_size=32,
    max_epochs=200,
    lambda_l2=0.01,  # Коефіцієнт L2 регуляризації
    patience=15,
    verbose=True
)

results_l2 = evaluate_model(X_test_sgd, y_test, weights_l2, "Mini-batch GD with L2")

# %% [markdown]
# ### 12.2 Навчання з L1 регуляризацією (Lasso)

# %%
print("\n" + "="*60)
print("НАВЧАННЯ З L1 РЕГУЛЯРИЗАЦІЄЮ (Lasso)")
print("="*60)

weights_l1, train_losses_l1, val_losses_l1, best_epoch_l1 = mini_batch_gd(
    X_train_sgd, y_train, X_val_sgd, y_val,
    learning_rate=0.1,
    batch_size=32,
    max_epochs=200,
    lambda_l1=0.01,  # Коефіцієнт L1 регуляризації
    patience=15,
    verbose=True
)

results_l1 = evaluate_model(X_test_sgd, y_test, weights_l1, "Mini-batch GD with L1")

# %% [markdown]
# ### 12.3 Порівняння всіх моделей

# %%
comparison_full_df = pd.DataFrame([
    {
        'Метод': 'SGD',
        'Accuracy': f"{results_sgd['accuracy']:.4f}",
        'Precision': f"{results_sgd['precision']:.4f}",
        'Recall': f"{results_sgd['recall']:.4f}",
        'F1-Score': f"{results_sgd['f1']:.4f}"
    },
    {
        'Метод': 'Mini-batch GD',
        'Accuracy': f"{results_mb['accuracy']:.4f}",
        'Precision': f"{results_mb['precision']:.4f}",
        'Recall': f"{results_mb['recall']:.4f}",
        'F1-Score': f"{results_mb['f1']:.4f}"
    },
    {
        'Метод': 'Mini-batch GD + L2',
        'Accuracy': f"{results_l2['accuracy']:.4f}",
        'Precision': f"{results_l2['precision']:.4f}",
        'Recall': f"{results_l2['recall']:.4f}",
        'F1-Score': f"{results_l2['f1']:.4f}"
    },
    {
        'Метод': 'Mini-batch GD + L1',
        'Accuracy': f"{results_l1['accuracy']:.4f}",
        'Precision': f"{results_l1['precision']:.4f}",
        'Recall': f"{results_l1['recall']:.4f}",
        'F1-Score': f"{results_l1['f1']:.4f}"
    }
])

print("\n" + "="*80)
print("ПОВНА ПОРІВНЯЛЬНА ТАБЛИЦЯ ВСІХ МОДЕЛЕЙ")
print("="*80)
print(comparison_full_df.to_string(index=False))

# %% [markdown]
# ### 12.4 Візуалізація кривих навчання для регуляризованих моделей

# %%
fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# L2 Regularization
axes[0].plot(train_losses_l2, label='Train Loss', linewidth=2)
axes[0].plot(val_losses_l2, label='Validation Loss', linewidth=2)
axes[0].axvline(x=best_epoch_l2, color='r', linestyle='--', label=f'Best Epoch ({best_epoch_l2})')
axes[0].set_xlabel('Епоха', fontsize=12)
axes[0].set_ylabel('Loss (Binary Cross-Entropy)', fontsize=12)
axes[0].set_title('Криві навчання: L2 Регуляризація (Ridge)', fontsize=14, fontweight='bold')
axes[0].legend(fontsize=10)
axes[0].grid(True, alpha=0.3)

# L1 Regularization
axes[1].plot(train_losses_l1, label='Train Loss', linewidth=2)
axes[1].plot(val_losses_l1, label='Validation Loss', linewidth=2)
axes[1].axvline(x=best_epoch_l1, color='r', linestyle='--', label=f'Best Epoch ({best_epoch_l1})')
axes[1].set_xlabel('Епоха', fontsize=12)
axes[1].set_ylabel('Loss (Binary Cross-Entropy)', fontsize=12)
axes[1].set_title('Криві навчання: L1 Регуляризація (Lasso)', fontsize=14, fontweight='bold')
axes[1].legend(fontsize=10)
axes[1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# %% [markdown]
# ## 13. Аналіз помилкових класифікацій

# %%
# Виконаємо детальний аналіз на прикладі найкращої моделі (наприклад, Mini-batch)
y_pred_mb = predict(X_test_sgd, weights_mb)

# Знаходимо індекси помилково класифікованих прикладів
false_positives = np.where((y_test == 0) & (y_pred_mb == 1))[0]
false_negatives = np.where((y_test == 1) & (y_pred_mb == 0))[0]

print("\n" + "="*80)
print("АНАЛІЗ ПОМИЛКОВИХ КЛАСИФІКАЦІЙ")
print("="*80)
print(f"\nКількість False Positives (передбачили Normal, насправді Abnormal): {len(false_positives)}")
print(f"Кількість False Negatives (передбачили Abnormal, насправді Normal): {len(false_negatives)}")

# Confusion Matrix детальний розбір
cm = results_mb['confusion_matrix']
tn, fp, fn, tp = cm.ravel()

print(f"\nДетальний розбір Confusion Matrix:")
print(f"True Negatives (правильно передбачені Abnormal):  {tn}")
print(f"False Positives (помилково передбачені Normal):   {fp}")
print(f"False Negatives (помилково передбачені Abnormal): {fn}")
print(f"True Positives (правильно передбачені Normal):    {tp}")

# Частота помилок
total = tn + fp + fn + tp
print(f"\nВідсотки:")
print(f"True Negative Rate:  {tn/total*100:.2f}%")
print(f"False Positive Rate: {fp/total*100:.2f}%")
print(f"False Negative Rate: {fn/total*100:.2f}%")
print(f"True Positive Rate:  {tp/total*100:.2f}%")

# %% [markdown]
# ### Інтерпретація помилок
# 
# **False Positives (FP):** Модель передбачила нормальний результат тесту, але насправді він був аномальним.
# - Це може бути небезпечно у медичному контексті, оскільки пацієнт з проблемою може не отримати необхідного лікування.
# 
# **False Negatives (FN):** Модель передбачила аномальний результат, але насправді тест був нормальним.
# - Це призводить до зайвих обстежень та тривоги пацієнта, але є менш критичним, ніж FP.
# 
# **Можливі причини помилок:**
# 1. Перетин розподілів класів у просторі ознак
# 2. Недостатня інформативність деяких ознак
# 3. Наявність викидів або аномалій у даних
# 4. Дисбаланс класів (якщо присутній)

# %% [markdown]
# ## 14. Візуалізація важливості ознак

# %%
# Аналіз ваг моделі (абсолютні значення показують важливість)
feature_names = ['Intercept'] + X_encoded.columns.tolist()
weights_abs = np.abs(weights_mb)

# Топ-15 найважливіших ознак
top_n = 15
top_indices = np.argsort(weights_abs)[-top_n:][::-1]
top_features = [feature_names[i] for i in top_indices]
top_weights = weights_abs[top_indices]

plt.figure(figsize=(12, 8))
plt.barh(range(len(top_features)), top_weights, color='steelblue')
plt.yticks(range(len(top_features)), top_features)
plt.xlabel('Абсолютне значення ваги', fontsize=12)
plt.title(f'Топ-{top_n} найважливіших ознак (Mini-batch GD)', fontsize=14, fontweight='bold')
plt.gca().invert_yaxis()
plt.grid(axis='x', alpha=0.3)
plt.tight_layout()
plt.show()

# %% [markdown]
# ## 15. Висновки та рекомендації

# %% [markdown]
# ### 15.1 Порівняння методів оптимізації
# 
# **Стохастичний градієнтний спуск (SGD):**
# - ✅ Швидше оновлює ваги (після кожного прикладу)
# - ✅ Може допомогти уникнути локальних мінімумів через шум
# - ❌ Більш нестабільна збіжність (коливання функції втрат)
# - ❌ Вимагає ретельного налаштування швидкості навчання
# 
# **Mini-batch градієнтний спуск:**
# - ✅ Баланс між швидкістю та стабільністю
# - ✅ Більш стабільна збіжність
# - ✅ Ефективне використання векторизації
# - ✅ Краще підходить для великих наборів даних
# - ❌ Потребує налаштування розміру батчу

# %% [markdown]
# ### 15.2 Вплив регуляризації
# 
# **L2 Регуляризація (Ridge):**
# - Зменшує всі ваги пропорційно
# - Допомагає запобігти перенавчанню
# - Зберігає всі ознаки у моделі
# - Корисна при мультиколінеарності
# 
# **L1 Регуляризація (Lasso):**
# - Може зменшити деякі ваги до нуля
# - Виконує відбір ознак (feature selection)
# - Створює розріджені моделі
# - Корисна при великій кількості нерелевантних ознак

# %% [markdown]
# ### 15.3 Загальні висновки
# 
# 1. **Якість моделі:** Модель показує [залежить від ваших даних] точність передбачення
# 
# 2. **Найкращий метод:** [Порівняйте метрики] показав найкращі результати
# 
# 3. **Регуляризація:** [Оцініть, чи покращила регуляризація результати]
# 
# 4. **Проблемні області:**
#    - Модель частіше помиляється на [опишіть патерни помилок]
#    - Можливо потрібно більше даних або інженерія ознак
# 
# 5. **Рекомендації для покращення:**
#    - Додати більше релевантних ознак
#    - Спробувати інші порогові значення класифікації
#    - Розглянути ансамблеві методи
#    - Провести балансування класів (якщо є дисбаланс)

# %% [markdown]
# ## 16. Додатковий аналіз: ROC-крива та AUC

# %%
from sklearn.metrics import roc_curve, auc

# Обчислення ROC-кривої для всіх моделей
models = [
    ('SGD', weights_sgd),
    ('Mini-batch GD', weights_mb),
    ('Mini-batch + L2', weights_l2),
    ('Mini-batch + L1', weights_l1)
]

plt.figure(figsize=(10, 8))

for name, weights in models:
    y_proba = predict_proba(X_test_sgd, weights)
    fpr, tpr, _ = roc_curve(y_test, y_proba)
    roc_auc = auc(fpr, tpr)
    plt.plot(fpr, tpr, linewidth=2, label=f'{name} (AUC = {roc_auc:.3f})')

plt.plot([0, 1], [0, 1], 'k--', linewidth=2, label='Random Classifier')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate', fontsize=12)
plt.ylabel('True Positive Rate', fontsize=12)
plt.title('ROC-криві для всіх моделей', fontsize=14, fontweight='bold')
plt.legend(loc="lower right", fontsize=10)
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

# %% [markdown]
# ### Інтерпретація ROC-кривої
# 
# - **AUC (Area Under Curve)** показує загальну якість моделі
# - AUC = 1.0: ідеальна модель
# - AUC = 0.5: випадкове передбачення
# - Чим вище крива над діагоналлю, тим краща модель

# %% [markdown]
# ## 17. Збереження найкращої моделі

# %%
# Зберігаємо найкращу модель
best_model_name = 'Mini-batch GD'  # Змініть на найкращу за вашими результатами
best_weights = weights_mb

# Зберігаємо параметри для майбутнього використання
model_params = {
    'weights': best_weights,
    'feature_names': feature_names,
    'X_mean': X_mean,
    'X_std': X_std,
    'model_type': best_model_name
}

# Можна зберегти за допомогою pickle або numpy
np.save('best_model_weights.npy', best_weights)
print(f"\n✅ Найкраща модель ({best_model_name}) збережена у файл 'best_model_weights.npy'")

# %% [markdown]
# ## 18. Функція для передбачення на нових даних

# %%
def predict_new_data(new_data_df, weights, X_mean, X_std, feature_names):
    """
    Функція для передбачення на нових даних
    
    Parameters:
    -----------
    new_data_df : DataFrame
        Нові дані у форматі pandas DataFrame
    weights : array
        Навчені ваги моделі
    X_mean, X_std : array
        Параметри нормалізації з тренувального набору
    feature_names : list
        Список назв ознак
    
    Returns:
    --------
    predictions : array
        Передбачені класи (0 або 1)
    probabilities : array
        Ймовірності належності до класу 1
    """
    # Підготовка даних (той самий препроцесинг, що і для тренувальних даних)
    X_new = pd.get_dummies(new_data_df, drop_first=True)
    
    # Переконуємося, що всі колонки присутні
    for col in feature_names[1:]:  # Пропускаємо Intercept
        if col not in X_new.columns:
            X_new[col] = 0
    
    # Вибираємо лише потрібні колонки у правильному порядку
    X_new = X_new[feature_names[1:]]
    
    # Нормалізація
    X_new_normalized = (X_new.values - X_mean) / X_std
    
    # Додаємо intercept
    X_new_with_intercept = np.c_[np.ones(X_new_normalized.shape[0]), X_new_normalized]
    
    # Передбачення
    probabilities = predict_proba(X_new_with_intercept, weights)
    predictions = (probabilities >= 0.5).astype(int)
    
    return predictions, probabilities

# Приклад використання (коментар, розкоментуйте для використання):
# new_patient = pd.DataFrame({...})  # Дані нового пацієнта
# pred, prob = predict_new_data(new_patient, best_weights, X_mean, X_std, feature_names)
# print(f"Передбачення: {'Normal' if pred[0] == 1 else 'Abnormal'}")
# print(f"Ймовірність Normal: {prob[0]:.2%}")

# %% [markdown]
# ---
# ## КІНЕЦЬ АНАЛІЗУ
# 
# **Автори:** [Ваше ім'я]
# 
# **Дата:** [Поточна дата]
# 
# **Версія:** 1.0
# 
# ---
# 
# ### Підсумок виконаної роботи:
# 
# ✅ Завантажено та проаналізовано медичні дані
# 
# ✅ Виконано препроцесинг даних (one-hot encoding, нормалізація)
# 
# ✅ Реалізовано логістичну регресію з нуля
# 
# ✅ Імплементовано SGD та Mini-batch градієнтний спуск
# 
# ✅ Додано L1 та L2 регуляризацію
# 
# ✅ Побудовано криві навчання та ROC-криві
# 
# ✅ Виконано детальну оцінку моделей
# 
# ✅ Проаналізовано помилки класифікації
# 
# ✅ Створено функцію для передбачення на нових даних

Розмір датасету: (10000, 16)

Перші рядки:
   ID  Age  Gender  Country  Coffee_Intake  Caffeine_mg  Sleep_Hours  \
0   1   40    Male  Germany            3.5        328.1          7.5   
1   2   33    Male  Germany            1.0         94.1          6.2   
2   3   42    Male   Brazil            5.3        503.7          5.9   
3   4   53    Male  Germany            2.6        249.2          7.3   
4   5   32  Female    Spain            3.1        298.0          5.3   

  Sleep_Quality   BMI  Heart_Rate Stress_Level  Physical_Activity_Hours  \
0          Good  24.9          78          Low                     14.5   
1          Good  20.0          67          Low                     11.0   
2          Fair  22.7          59       Medium                     11.2   
3          Good  24.7          71          Low                      6.6   
4          Fair  24.1          76       Medium                      8.5   

  Health_Issues Occupation  Smoking  Alcohol_Consumption  
0           Na

KeyError: 'Test Results'