# Laboratorium 5: zadanie klasyfikacji binarnej (ML)

Celem tego laboratorium jest wytrenowanie, ewaluacja i optymalizacja klasyfikatora binarnego, z wykorzystaniem Scikit Learn. 

**Do zaliczenia laboratorium, konieczne jest przesłanie kompletnego notatnika, zawierającego (1) kod potrzebny do wytrenowania klasyfikatora binarnego, (2) kod do ewaluacji metryk modelu na zbiorach train/test wraz z omówieniem wyników oraz (3) zbiór optymalnych parametrów modelu ze względu na `f1-score`.**

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from pathlib import Path
import joblib
from pydantic import BaseModel

from sklearn.model_selection import train_test_split, GridSearchCV, RandomizedSearchCV
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.impute import SimpleImputer
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline

from sklearn.metrics import confusion_matrix, accuracy_score, precision_score, recall_score, f1_score, ConfusionMatrixDisplay

In [None]:
# Definiowanie ścieżki do zapisu modelu
MODEL_DIR = Path("../../models")
MODEL_DIR.mkdir(parents=True, exist_ok=True)

model_path = MODEL_DIR / "titanic_rf_model.pkl"

print(f"Model zostanie zapisany do pliku: {model_path.resolve()}")

## Wczytanie danych i ich wstępna analiza

W tej sekcji, wczytaj dane do analizy z pliku `titanic.csv` i zapoznaj się z ich strukturą. Zidentyfikuj, ile wartości unikalnych znajduje się w kolumnach, jak rozłożone są dane i jakie informacje możemy pozyskać ze zbioru. Do wczytania danych wykorzystaj funkcję `read_csv`.

In [None]:
df = 

## Podział danych na dane trenujące i testowe

W tej części, podziel dane na zbiory testowe i treningowe w proporcji 20/80, zachowując poniższe cechy: `'Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked'`. Wykorzystaj do tego celu funkcję `train_test_split`:

In [None]:
# Wybór cech i zmiennej docelowej
features = 
X = 
y = 

# Podział danych (80/20, stratyfikowany)
X_train, X_test, y_train, y_test = 

print(f"Zbiór treningowy: {X_train.shape}")
print(f"Zbiór testowy: {X_test.shape}")

## Przetwarzanie danych

Na tym etapie, przygotowujemy `pipeline` do transformacji danych wejściowych na potrzeby dalszej analizy i trenowania modeli. Na potrzeby tego laboratorium, kompletna implementacja jest już gotowa.

In [None]:
# Podział cech na numeryczne i kategoryczne
numeric_features = ['Age', 'SibSp', 'Parch', 'Fare']
categorical_features = ['Pclass', 'Sex', 'Embarked']

# Pipeline dla cech numerycznych
numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='median')),
    ('scaler', StandardScaler())
])

# Pipeline dla cech kategorycznych
categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='most_frequent')),
    ('onehot', OneHotEncoder(drop='first', sparse_output=False))
])

# Połączenie pipeline'ów
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features)
    ])

print("Preprocessor gotowy!")

## Trenowanie modelu

Zaczniemy od wyboru algorytmu do klasyfikacji binarnej. Do wyboru mamy:  
- regresję logistyczną;
- lasy losowe;
- prostą sieć neuronową (MLP);
- maszynę wektorów nośnych.

In [None]:
# from sklearn.ensemble import RandomForestClassifier
# from sklearn.svm import SVC
# from sklearn.linear_model import LogisticRegression
# from sklearn.mlp import MLPClassifier

model = 

pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('classifier', model)
])

In [None]:
# Trenowanie modelu


## Ewaluacja modelu

Na tym etapie, dla wytrenowanego modelu wyznaczymy zbiór metryk ewaluacyjnych w postaci `precision`, `recall`, `accuracy` oraz `f1-score`. W tym celu, przypisz do zmiennych `yhat_train` oraz `yhat_test` predykcje modelu dla obu zbiorów danych. Następnie, wykorzystaj przygotowane funkcje do wyznaczenia metryk oraz wyświetl macierz pomyłek dla zbioru trenującego. 

**UWAGA**. W polu `markdown` pod wynikami opisz otrzymane wyniki, odnosząc się do zagadnienia wysokiej wariancji i stronniczości modelu (_overfitting_ i _underfitiing_)

In [None]:
class ClassificationMetrics(BaseModel):
    """Metryki klasyfikacji"""
    accuracy: float
    precision: float
    recall: float
    f1: float
    
    def display(self, title: str = "Metryki"):
        """Wyświetl metryki w czytelnej formie"""
        print(f"\n{'='*50}")
        print(f"{title}")
        print(f"{'='*50}")
        print(f"Accuracy:  {self.accuracy:.4f}")
        print(f"Precision: {self.precision:.4f}")
        print(f"Recall:    {self.recall:.4f}")
        print(f"F1-Score:  {self.f1:.4f}")


def calculate_metrics(y_true: np.ndarray, y_pred: np.ndarray) -> ClassificationMetrics:
    """Oblicz metryki klasyfikacji"""
    return ClassificationMetrics(
        accuracy=accuracy_score(y_true, y_pred),
        precision=precision_score(y_true, y_pred),
        recall=recall_score(y_true, y_pred),
        f1=f1_score(y_true, y_pred)
    )


def plot_confusion_matrix(y_true: np.ndarray, y_pred: np.ndarray, title: str = "Confusion Matrix"):
    """Narysuj macierz pomyłek"""
    cm = confusion_matrix(y_true, y_pred)
    disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=['Perished', 'Survived'])
    disp.plot(cmap='Blues')
    plt.title(title)
    plt.show()

In [None]:
# Wyznacz predykcje modelu dla każdego ze zbiorów
yhat_train = 
yhat_test = 

# Wyznacz metryki modelu dla każdego ze zbiorów
train_metrics = 
test_metrics = 

**WNIOSKI**: ...

## Optymalizacja modelu

W tej sekcji przeprowadzimy optymalizację modelu z wykorzystaniem `GridSearchCV` oraz `RandomSearchCV`. Celem jest zidentyfikowanie najlepszego klasyfikatora, oraz porównanie jego możliwości z pierwotnie wytrenowanym. Naszą metryką optymalizacyjną jest miara `f1`.

In [None]:
# Parametry do przeszukania
param_distributions = {
# --- YOUR CODE HERE ---

# --- YOUR CODE HERE ---
}

random_search = RandomizedSearchCV(
    pipeline,
    param_distributions=param_distributions,
    n_iter=20,
    cv=5,
    random_state=42,
    n_jobs=-1,
    verbose=1,
    scoring='f1'
)

print("Rozpoczynam RandomizedSearchCV...")
random_search.fit(X_train, y_train)

print(f"\nNajlepsze parametry: {random_search.best_params_}")
print(f"Najlepszy wynik CV: {random_search.best_score_:.4f}")
print(f"Wynik na zbiorze testowym: {random_search.score(X_test, y_test):.4f}")

In [None]:
# Węższy zakres parametrów (dostosuj na podstawie wyników RandomizedSearchCV)
param_grid = {
# --- YOUR CODE HERE ---

# --- YOUR CODE HERE ---
}

grid_search = GridSearchCV(
    pipeline,
    param_grid=param_grid,
    cv=5,
    n_jobs=-1,
    verbose=1,
    scoring='f1'
)

print("Rozpoczynam GridSearchCV...")
grid_search.fit(X_train, y_train)

print(f"\nNajlepsze parametry: {grid_search.best_params_}")
print(f"Najlepszy wynik CV: {grid_search.best_score_:.4f}")
print(f"Wynik na zbiorze testowym: {grid_search.score(X_test, y_test):.4f}")

In [None]:
# Używamy najlepszego modelu z GridSearchCV
best_model = grid_search.best_estimator_

# Predykcje
yhat_test_optimized = best_model.predict(X_test)

# Metryki
optimized_metrics = calculate_metrics(y_test, yhat_test_optimized)
optimized_metrics.display("Metryki - Zoptymalizowany model")

# Confusion matrix
plot_confusion_matrix(y_test, yhat_test_optimized, "Confusion Matrix - Optimized Model")

In [None]:
# Zapisywanie modelu do pliku
joblib.dump(best_model, model_path)
print(f"Model zapisany w: {model_path.resolve()}")

## Wykorzystanie wytrenowanego modelu w praktyce

In [None]:
class Passenger(BaseModel):
    """Model danych pasażera"""
    Pclass: int
    Sex: str
    Age: float
    SibSp: int
    Parch: int
    Fare: float
    Embarked: str

def predict_survival(model_path: str | Path, passenger: Passenger) -> bool:
    model = joblib.load(model_path)
    passenger_df = pd.DataFrame([passenger.model_dump()])
    prediction = model.predict(passenger_df)[0]
    return bool(prediction)


In [None]:
# Przykład 1: Kobieta, pierwsza klasa
passenger1 = Passenger(
    Pclass=1,
    Sex='female',
    Age=30,
    SibSp=0,
    Parch=0,
    Fare=100.0,
    Embarked='S'
)

result1 = predict_survival(model_path, passenger1)
print(f"Pasażer 1 (kobieta, 1 klasa): {'PRZEŻYJE ✓' if result1 else 'NIE PRZEŻYJE ✗'}")

In [None]:
# Przykład 2: Mężczyzna, trzecia klasa
passenger2 = Passenger(
    Pclass=3,
    Sex='male',
    Age=25,
    SibSp=0,
    Parch=0,
    Fare=7.5,
    Embarked='S'
)

result2 = predict_survival(model_path, passenger2)
print(f"Pasażer 2 (mężczyzna, 3 klasa): {'PRZEŻYJE ✓' if result2 else 'NIE PRZEŻYJE ✗'}")

In [None]:
# Przykład 3: Dziecko z rodziną
passenger3 = Passenger(
    Pclass=2,
    Sex='female',
    Age=5,
    SibSp=1,
    Parch=2,
    Fare=30.0,
    Embarked='C'
)

result3 = predict_survival(model_path, passenger3)
print(f"Pasażer 3 (dziecko z rodziną, 2 klasa): {'PRZEŻYJE ✓' if result3 else 'NIE PRZEŻYJE ✗'}")