In [None]:
# -*- coding: utf-8 -*-
"""projekt1_ESI.ipynb - Zoptymalizowana wersja

Automatically generated by Colab.

Original file is located at
    https://colab.research.google.com/drive/10inHZxNA_b_QBkFcEQaQTieRoGS4ZUZ_
"""

import numpy as np
import pandas as pd
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.model_selection import train_test_split, StratifiedKFold
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.ensemble import RandomForestClassifier
from imblearn.over_sampling import RandomOverSampler
import matplotlib.pyplot as plt
import seaborn as sns
import gc  # Garbage collector dla zarządzania pamięcią

# Wczytanie danych
df = pd.read_csv("train_data.csv", sep=";")

# Wyświetlenie ogólnych informacji
print("Kolumny w danych:\n", df.columns.tolist(), "\n")
print("Liczba obserwacji (przed czyszczeniem):", len(df))

# Usunięcie braków danych
df = df.dropna()
print("Liczba obserwacji (po usunięciu braków):", len(df))

# NOWE: Redukcja danych do 80,000 wierszy (losowo)
if len(df) > 80000:
    df_sampled = df.sample(n=80000, random_state=42)
    print(f"Dane zredukowane losowo do {len(df_sampled)} wierszy")
else:
    df_sampled = df.copy()
    print(f"Dane pozostały bez zmian: {len(df_sampled)} wierszy")

# Zwolnienie pamięci
del df
gc.collect()

# Liczba unikalnych wartości w kolumnie docelowej
print("\nUnikalne klasy w kolumnie 'Stay':")
print(df_sampled["Stay"].value_counts())

# Automatyczne wygenerowanie opisu tekstowego (do sprawozdania)
description = f"""
**Opis problemu klasyfikacyjnego**

Celem projektu jest przewidzenie długości pobytu pacjenta w szpitalu na podstawie danych demograficznych i szpitalnych. Problem ma charakter klasyfikacyjny – zmienną docelową jest kolumna **'Stay'**, która określa czas hospitalizacji w kategoriach przedziałów dni (np. '0-10', '11-20', ..., 'More than 100 Days').

Dane zawierają {df_sampled.shape[0]} obserwacji i {df_sampled.shape[1]} kolumn. Atrybuty wejściowe obejmują m.in. typ i kod szpitala, kod miasta, dział szpitalny, typ przyjęcia, wiek pacjenta, liczbę odwiedzających oraz kwotę depozytu przy przyjęciu.

Zmienna docelowa ('Stay') zawiera następujące klasy (po ich usunięciu z danych modelujących: {['More than 100 Days', '81-90', '91-100', '61-70']}):
{df_sampled['Stay'].value_counts().to_string()}

Celem modelu jest zaklasyfikowanie nowej obserwacji (pacjenta) do jednej z kategorii długości pobytu. Taki model może wspomagać planowanie zasobów szpitalnych i zarządzanie personelem.
"""

print(description)

X = df_sampled.drop("Stay", axis=1)
y = df_sampled["Stay"]
to_remove = ["More than 100 Days", "81-90", "91-100", "61-70"]
mask = ~y.isin(to_remove)
X = X[mask]
y = y[mask]

# Zwolnienie pamięci
del df_sampled
gc.collect()

# Liczba próbek na klasę
class_counts = y.value_counts().sort_index()
print(class_counts)

# Wykres rozkładu klas
plt.figure(figsize=(8,5))
sns.barplot(x=class_counts.index, y=class_counts.values)
plt.title("Rozkład liczby próbek w klasach")
plt.xlabel("Klasy")
plt.ylabel("Liczba próbek")
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

# One-hot encoding cech kategorycznych
categorical_cols = X.select_dtypes(include="object").columns.tolist()
preprocessor = ColumnTransformer(
    transformers=[
        ("cat", OneHotEncoder(handle_unknown="ignore", sparse_output=False), categorical_cols)
    ],
    remainder="passthrough"
)
X_processed = preprocessor.fit_transform(X)

# Zwolnienie pamięci
del X
gc.collect()

# One-hot encoding etykiet (kategoryczne)
y_cat = pd.Categorical(y)
class_names = y_cat.categories
y_encoded = pd.get_dummies(y_cat)

# ZMODYFIKOWANE: Bardziej konserwatywny oversampling
ros = RandomOverSampler(random_state=42, sampling_strategy='auto')
X_balanced, y_balanced = ros.fit_resample(X_processed, y_cat)
y_balanced_encoded = pd.get_dummies(y_balanced).to_numpy()

print(f"Rozmiar danych po balansowaniu: {X_balanced.shape}")

# Zwolnienie pamięci
del X_processed, y_encoded
gc.collect()

# Skalowanie danych (po oversamplingu)
scaler = StandardScaler(with_mean=False)
X_balanced_scaled = scaler.fit_transform(X_balanced)

# Zwolnienie pamięci
del X_balanced
gc.collect()

# Podział na zbiór treningowy i testowy
X_train, X_test, y_train, y_test = train_test_split(
    X_balanced_scaled, y_balanced_encoded, test_size=0.2, random_state=42, stratify=y_balanced
)

# Zwolnienie pamięci
del X_balanced_scaled, y_balanced_encoded
gc.collect()

from collections import Counter
print(Counter(y_balanced))

# Random Forest - szybkie porównanie
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, accuracy_score
import numpy as np

# Zakładam, że y_train i y_test są one-hot encoded
y_train_labels = np.argmax(y_train, axis=1)
y_test_labels = np.argmax(y_test, axis=1)

# Trening Random Forest (mniejsza liczba estimatorów dla szybkości)
rf = RandomForestClassifier(n_estimators=50, random_state=42, n_jobs=-1)
rf.fit(X_train, y_train_labels)

# Predykcja
y_pred_rf = rf.predict(X_test)

# Ewaluacja
print("Accuracy (Random Forest):", accuracy_score(y_test_labels, y_pred_rf))
print(classification_report(y_test_labels, y_pred_rf))

# ZOPTYMALIZOWANA SIEĆ NEURONOWA
class OptimizedNeuralNetwork:
    def __init__(self, input_size, hidden1_size, hidden2_size, output_size, learning_rate=0.01, lambda_reg=0.0, dropout_rate=0.2):
        # Inicjalizacja Xavier/Glorot
        self.W1 = np.random.randn(input_size, hidden1_size) * np.sqrt(2. / input_size)
        self.b1 = np.zeros((1, hidden1_size))
        self.W2 = np.random.randn(hidden1_size, hidden2_size) * np.sqrt(2. / hidden1_size)
        self.b2 = np.zeros((1, hidden2_size))
        self.W3 = np.random.randn(hidden2_size, output_size) * np.sqrt(2. / hidden2_size)
        self.b3 = np.zeros((1, output_size))

        self.lr = learning_rate
        self.lambda_reg = lambda_reg
        self.dropout_rate = dropout_rate

        # Parametry Adam optimizer
        self.mW1 = np.zeros_like(self.W1)
        self.vW1 = np.zeros_like(self.W1)
        self.mb1 = np.zeros_like(self.b1)
        self.vb1 = np.zeros_like(self.b1)

        self.mW2 = np.zeros_like(self.W2)
        self.vW2 = np.zeros_like(self.W2)
        self.mb2 = np.zeros_like(self.b2)
        self.vb2 = np.zeros_like(self.b2)

        self.mW3 = np.zeros_like(self.W3)
        self.vW3 = np.zeros_like(self.W3)
        self.mb3 = np.zeros_like(self.b3)
        self.vb3 = np.zeros_like(self.b3)

        self.beta1 = 0.9
        self.beta2 = 0.999
        self.epsilon = 1e-8
        self.t = 0

    def relu(self, x):
        return np.maximum(0, x)

    def relu_derivative(self, x):
        return (x > 0).astype(float)

    def softmax(self, z):
        # Stabilna wersja softmax
        exp_z = np.exp(z - np.max(z, axis=1, keepdims=True))
        return exp_z / np.sum(exp_z, axis=1, keepdims=True)

    def cross_entropy_loss(self, y_true, y_pred):
        eps = 1e-15
        y_pred = np.clip(y_pred, eps, 1 - eps)

        # Podstawowa cross-entropy loss
        loss = -np.mean(np.sum(y_true * np.log(y_pred), axis=1))

        # Regularizacja L2
        if self.lambda_reg > 0:
            loss += (self.lambda_reg / 2) * (np.sum(self.W1**2) + np.sum(self.W2**2) + np.sum(self.W3**2))

        return loss

    def dropout(self, A, training=True):
        if not training or self.dropout_rate == 0:
            return A, np.ones_like(A)

        mask = (np.random.rand(*A.shape) > self.dropout_rate).astype(float)
        mask /= (1.0 - self.dropout_rate)  # Scaling
        return A * mask, mask

    def forward(self, X, training=False):
        # Warstwa 1
        self.z1 = X @ self.W1 + self.b1
        self.a1 = self.relu(self.z1)
        self.a1, self.mask1 = self.dropout(self.a1, training)

        # Warstwa 2
        self.z2 = self.a1 @ self.W2 + self.b2
        self.a2 = self.relu(self.z2)
        self.a2, self.mask2 = self.dropout(self.a2, training)

        # Warstwa wyjściowa
        self.z3 = self.a2 @ self.W3 + self.b3
        self.a3 = self.softmax(self.z3)

        return self.a3

    def adam_update(self, param, grad, m, v):
        self.t += 1
        m = self.beta1 * m + (1 - self.beta1) * grad
        v = self.beta2 * v + (1 - self.beta2) * (grad ** 2)

        # Bias correction
        m_hat = m / (1 - self.beta1 ** self.t)
        v_hat = v / (1 - self.beta2 ** self.t)

        # Update
        param_update = self.lr * m_hat / (np.sqrt(v_hat) + self.epsilon)
        param -= param_update

        return param, m, v

    def backward(self, X, y_true):
        m = X.shape[0]

        # Backward pass warstwa 3
        dz3 = self.a3 - y_true
        dW3 = (self.a2.T @ dz3) / m + self.lambda_reg * self.W3
        db3 = np.sum(dz3, axis=0, keepdims=True) / m

        # Backward pass warstwa 2
        da2 = dz3 @ self.W3.T
        da2 *= self.mask2
        dz2 = da2 * self.relu_derivative(self.z2)
        dW2 = (self.a1.T @ dz2) / m + self.lambda_reg * self.W2
        db2 = np.sum(dz2, axis=0, keepdims=True) / m

        # Backward pass warstwa 1
        da1 = dz2 @ self.W2.T
        da1 *= self.mask1
        dz1 = da1 * self.relu_derivative(self.z1)
        dW1 = (X.T @ dz1) / m + self.lambda_reg * self.W1
        db1 = np.sum(dz1, axis=0, keepdims=True) / m

        # Adam updates
        self.W3, self.mW3, self.vW3 = self.adam_update(self.W3, dW3, self.mW3, self.vW3)
        self.b3, self.mb3, self.vb3 = self.adam_update(self.b3, db3, self.mb3, self.vb3)

        self.W2, self.mW2, self.vW2 = self.adam_update(self.W2, dW2, self.mW2, self.vW2)
        self.b2, self.mb2, self.vb2 = self.adam_update(self.b2, db2, self.mb2, self.vb2)

        self.W1, self.mW1, self.vW1 = self.adam_update(self.W1, dW1, self.mW1, self.vW1)
        self.b1, self.mb1, self.vb1 = self.adam_update(self.b1, db1, self.mb1, self.vb1)

    def train_batch(self, X_batch, y_batch, batch_size=1000, epochs=200, X_val=None, y_val=None):
        train_losses = []
        val_losses = []
        train_accuracies = []
        val_accuracies = []

        n_samples = X_batch.shape[0]
        n_batches = max(1, n_samples // batch_size)

        for epoch in range(epochs):
            epoch_loss = 0
            epoch_acc = 0

            # Shuffle danych
            indices = np.random.permutation(n_samples)
            X_shuffled = X_batch[indices]
            y_shuffled = y_batch[indices]

            # Mini-batch training
            for i in range(n_batches):
                start_idx = i * batch_size
                end_idx = min((i + 1) * batch_size, n_samples)

                X_mini = X_shuffled[start_idx:end_idx]
                y_mini = y_shuffled[start_idx:end_idx]

                # Forward i backward pass
                y_pred = self.forward(X_mini, training=True)
                loss = self.cross_entropy_loss(y_mini, y_pred)

                self.backward(X_mini, y_mini)

                epoch_loss += loss
                epoch_acc += self.accuracy(y_pred, y_mini)

            # Średnie dla epoki
            avg_loss = epoch_loss / n_batches
            avg_acc = epoch_acc / n_batches

            train_losses.append(avg_loss)
            train_accuracies.append(avg_acc)

            # Walidacja
            if X_val is not None and y_val is not None:
                val_pred = self.forward(X_val, training=False)
                val_loss = self.cross_entropy_loss(y_val, val_pred)
                val_acc = self.accuracy(val_pred, y_val)

                val_losses.append(val_loss)
                val_accuracies.append(val_acc)

            # Print co 50 epok
            if epoch % 50 == 0:
                print(f"Epoch {epoch}, Train loss: {avg_loss:.4f}, Train acc: {avg_acc:.4f}", end="")
                if X_val is not None:
                    print(f", Val loss: {val_loss:.4f}, Val acc: {val_acc:.4f}")
                else:
                    print()

        # Wykresy
        self.plot_training_history(train_losses, val_losses, train_accuracies, val_accuracies, epochs)

        return train_losses, val_losses

    def plot_training_history(self, train_losses, val_losses, train_accuracies, val_accuracies, epochs):
        epochs_range = np.arange(epochs)

        plt.figure(figsize=(12, 5))

        # Loss
        plt.subplot(1, 2, 1)
        plt.plot(epochs_range, train_losses, label="Train Loss", alpha=0.8)
        if val_losses:
            plt.plot(epochs_range, val_losses, label="Validation Loss", alpha=0.8)
        plt.xlabel("Epoch")
        plt.ylabel("Loss")
        plt.title("Loss over Epochs")
        plt.legend()
        plt.grid(True, alpha=0.3)

        # Accuracy
        plt.subplot(1, 2, 2)
        plt.plot(epochs_range, train_accuracies, label="Train Accuracy", alpha=0.8)
        if val_accuracies:
            plt.plot(epochs_range, val_accuracies, label="Validation Accuracy", alpha=0.8)
        plt.xlabel("Epoch")
        plt.ylabel("Accuracy")
        plt.title("Accuracy over Epochs")
        plt.legend()
        plt.grid(True, alpha=0.3)

        plt.tight_layout()
        plt.show()

    def predict(self, X):
        probs = self.forward(X, training=False)
        return np.argmax(probs, axis=1)

    def evaluate(self, X, y_true):
        y_pred = self.predict(X)
        y_true_labels = np.argmax(y_true, axis=1)
        return accuracy_score(y_true_labels, y_pred), y_true_labels, y_pred

    def accuracy(self, y_pred, y_true):
        pred_labels = np.argmax(y_pred, axis=1)
        true_labels = np.argmax(y_true, axis=1)
        return np.mean(pred_labels == true_labels)

# ZOPTYMALIZOWANE PARAMETRY SIECI
input_size = X_train.shape[1]
output_size = y_train.shape[1]

print(f"Input size: {input_size}")
print(f"Output size: {output_size}")
print(f"Training samples: {X_train.shape[0]}")

# Utworzenie sieci z mniejszymi warstwami ukrytymi
nn = OptimizedNeuralNetwork(
    input_size=input_size,
    hidden1_size=128,  # Zmniejszone z 256
    hidden2_size=64,   # Zmniejszone z 128
    output_size=output_size,
    learning_rate=0.001,  # Zwiększone dla szybszej konwergencji
    lambda_reg=0.0001,
    dropout_rate=0.3  # Zwiększone dropout
)

# Trening z batch processing
print("Rozpoczęcie treningu sieci neuronowej...")
train_losses, val_losses = nn.train_batch(
    X_train, y_train,
    X_val=X_test, y_val=y_test,
    batch_size=512,  # Mniejsze batche
    epochs=300  # Mniej epok
)

# Ewaluacja
print("\n" + "="*50)
print("EWALUACJA MODELI")
print("="*50)

accuracy, y_true_labels, y_pred = nn.evaluate(X_test, y_test)
print(f"Test accuracy (Neural Network): {accuracy:.4f}")

print("\nClassification report (Neural Network):")
print(classification_report(y_true_labels, y_pred, target_names=class_names))

# Macierz pomyłek
cm = confusion_matrix(y_true_labels, y_pred)
plt.figure(figsize=(10, 8))
sns.heatmap(cm, annot=True, fmt="d", xticklabels=class_names, yticklabels=class_names, cmap="Blues")
plt.title("Confusion Matrix - Neural Network")
plt.ylabel("True label")
plt.xlabel("Predicted label")
plt.tight_layout()
plt.show()

# Porównanie z Random Forest
print(f"\nPorównanie wyników:")
print(f"Random Forest accuracy: {accuracy_score(y_test_labels, y_pred_rf):.4f}")
print(f"Neural Network accuracy: {accuracy:.4f}")

# Zwolnienie pamięci na końcu
gc.collect()