## Lab 2.4: Platki sniadaniowe - klasyfikacja

### Paczki i dane

In [None]:
# Basic paczki do analizy
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from scipy import stats

# Paczki do klasyfikacji i modelowania
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler
from matplotlib.gridspec import GridSpec
from sklearn.metrics import classification_report, confusion_matrix

# Klasyfikatory
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.feature_selection import SelectFromModel
import warnings

warnings.filterwarnings('ignore')
import os
if not os.path.exists('Płatki-sniadaniowe-cereals.txt'):
    raise FileNotFoundError("Plik 'Płatki-sniadaniowe-cereals.txt' nie został znaleziony.")

In [None]:
# Ustawienia dla wykresów
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.family'] = 'DejaVu Sans'

# Wczytanie danych
df = pd.read_csv('Płatki-sniadaniowe-cereals.txt', sep='\t')

# Definicja zmiennych do analizy
nutrients = ['kalorie', 'cukry', 'weglowodany', 'proteiny', 'tluszcz', 'blonnik', 'sod', 'potas']
nutrient_names = ['Kalorie', 'Cukry', 'Węglowodany', 'Proteiny', 'Tłuszcz', 'Błonnik', 'Sód', 'Potas']

## Analiza danych - wykresy


### Wykresy skrzypcowe

In [None]:
def create_detailed_violin_plots():
    # Tworzymy osobny wykres dla każdej półki
    for shelf in sorted(df['Liczba_polek'].unique()):
        shelf_data = df[df['Liczba_polek'] == shelf]

        plt.figure(figsize=(15, 10))
        for i, (nutrient, name) in enumerate(zip(nutrients, nutrient_names)):
            plt.subplot(2, 4, i + 1)
            sns.violinplot(y=nutrient, data=shelf_data, inner='box')
            plt.title(f'{name} - Półka {shelf}')
            plt.ylabel('Wartość')

        plt.suptitle(f'Rozkłady składników odżywczych dla półki {shelf}', y=1.02)
        plt.tight_layout()
        plt.grid(True)
        plt.show()


create_detailed_violin_plots()

### Wykresy radarowe dla profilu odżywczego kazdej półki



In [None]:
def create_radar_plots() -> None:
    # Tworzymy osobne wykresy dla każdej półki
    shelf_means = df.groupby('Liczba_polek')[nutrients].mean()

    # Normalizacja danych do 0,1 bo skala wartości jest różna
    shelf_means_norm = (shelf_means - shelf_means.min()) / (shelf_means.max() - shelf_means.min())

    # Linespace tworzy równo odległe wartości w zadanym przedziale
    angles = np.linspace(0, 2 * np.pi, len(nutrients), endpoint=False)
    angles = np.concatenate((angles, [angles[0]]))  # Zamknięcie pętli

    for shelf in sorted(df['Liczba_polek'].unique()):
        fig, ax = plt.subplots(figsize=(10, 10), subplot_kw=dict(projection='polar'))

        values = shelf_means_norm.loc[shelf].values
        values = np.concatenate((values, [values[0]]))  # Konkatenacja ktora zamyka pętlę

        # Rysowanie wykresu
        ax.plot(angles, values, 'o-', linewidth=2, label=f'Półka {shelf}')
        ax.fill(angles, values, alpha=0.25)

        # Ustawienie nazw osi
        ax.set_xticks(angles[:-1])
        ax.set_xticklabels(nutrient_names)

        plt.title(f'Profil odżywczy - Półka {shelf}')

        # Dodanie oryginalnych wartości
        orig_values = shelf_means.loc[shelf].round(1)
        legend_text = '\n'.join([f'{name}: {value}'
                                 for name, value in zip(nutrient_names, orig_values)])
        plt.figtext(1.1, 0.5, f'Wartości średnie:\n\n{legend_text}',
                    bbox=dict(facecolor='white', alpha=0.8))

        plt.show()


create_radar_plots()

### Analiza skladu wedlug producenta - top 5


In [None]:
def analyze_by_manufacturer() -> None:
    # Grupowanie po producencie
    manufacturers = df['producent'].value_counts().head(5).index  # 5 najczęstszych producentów
    df_filtered = df[df['producent'].isin(manufacturers)]

    plt.figure(figsize=(15, 10))
    for i, (nutrient, name) in enumerate(zip(nutrients, nutrient_names)):
        plt.subplot(2, 4, i + 1)
        box_plot = sns.boxplot(x='producent', y=nutrient, data=df_filtered)
        plt.title(f'{name} - według producenta')
        plt.ylabel('Wartość')
        plt.xlabel('Producent')
        plt.xticks(rotation=45)

    plt.suptitle('Rozkłady składników odżywczych dla producentów', y=1.02)
    plt.tight_layout()
    plt.grid(True)
    plt.show()


analyze_by_manufacturer()

### Heatmapa srednich wartosci

In [None]:
def create_nutrient_heatmap() -> None:
    shelf_means = df.groupby('Liczba_polek')[nutrients].mean()
    shelf_means_normalized = (shelf_means - shelf_means.mean()) / shelf_means.std()

    plt.figure(figsize=(12, 6))
    sns.heatmap(shelf_means_normalized.T,
                annot=shelf_means.T.round(1),
                fmt='.1f',
                cmap='RdYlBu_r',
                center=0)
    plt.title('Średnie wartości składników odżywczych\n - kolory pokazuja znormalizowane wartosci')
    plt.xlabel('Numer półki')
    plt.ylabel('Składnik odżywczy')
    plt.grid(True)
    plt.show()


create_nutrient_heatmap()

### Wykresy przedzialow srednich wartosci dla polek z 95% przedzialem ufności

In [None]:
def plot_confidence_intervals() -> None:
    plt.figure(figsize=(15, 10))
    for i, (nutrient, name) in enumerate(zip(nutrients, nutrient_names)):
        plt.subplot(2, 4, i + 1)
        sns.barplot(x='Liczba_polek', y=nutrient, data=df, ci=95)
        plt.title(f'Średnia {name} z 95% przedziałem ufności')
        plt.xlabel('Numer półki')
        plt.ylabel(name)
    plt.suptitle('Średnie wartości składników z przedziałami ufności', y=1.02)
    plt.tight_layout()
    plt.grid(True)
    plt.show()


plot_confidence_intervals()

### Analiza korelacji miedzy potencjalnymi zmiennymi niezaleznymi

In [None]:
def plot_correlation_analysis() -> None:
    corr_matrix = df[nutrients].corr()  # Macierz korelacji

    plt.figure(figsize=(10, 8))
    mask = np.triu(np.ones_like(corr_matrix), k=1)  # Maskowanie górnej trójkątnej macierzy
    sns.heatmap(corr_matrix,
                mask=mask,
                annot=True,
                cmap='coolwarm',
                vmin=-1,  # Skala korelacji od -1 do 1 
                vmax=1,
                center=0)
    plt.title('Macierz korelacji między składnikami odżywczymi')
    plt.show()


plot_correlation_analysis()

### Analiza statystyczna - testy statystyczne np. dla P-value

In [None]:
def detailed_statistical_analysis() -> None:
    print("\nSzczegółowa analiza statystyczna składników:")

    for nutrient, name in zip(nutrients, nutrient_names):
        print(f"\n{name}:")

        # Statystyki opisowe
        stats_by_shelf = (df.groupby('Liczba_polek')[nutrient]
                          .agg(['count', 'mean', 'std', 'min', 'max']))
        print("\nStatystyki według półek:")
        print(stats_by_shelf.round(2))

        # Test Kruskal-Wallis
        groups = [group for _, group in df.groupby('Liczba_polek')[nutrient]]
        h_stat, p_val = stats.kruskal(*groups)
        print(f"\nTest Kruskal-Wallis:")
        print(f"H-statistic = {h_stat:.2f}")
        print(f"p-value = {p_val:.4f}")


detailed_statistical_analysis()

In [None]:
# Podsumowanie analiz
print("\nPodstawowe wnioski z analizy:")
for nutrient in nutrients:
    shelf_means = df.groupby('Liczba_polek')[nutrient].mean()  # Średnie wartości składników
    max_shelf = shelf_means.idxmax()
    min_shelf = shelf_means.idxmin()
    diff_percent = ((shelf_means[max_shelf] - shelf_means[min_shelf]) / shelf_means[min_shelf] * 100).round(2)

    print(f"\n{nutrient.capitalize()}:")
    print(f"- Różnica między półkami: {diff_percent:.1f}%")
    print(f"- Najwyższa średnia (półka {max_shelf}): {shelf_means[max_shelf]:.2f}")
    print(f"- Najniższa średnia (półka {min_shelf}): {shelf_means[min_shelf]:.2f}")

## Klasyfikator dla polki srodkowej oraz dla wszystkich pol, metodami: 
#### - KNN
#### - Naive Bayes
#### - Random Forest

### Kalkulator metryki danego klasyfikatora - funckja pomocnicza

In [None]:
def calculate_metrics(conf_matrix: np.ndarray, model_name="") -> dict:
    """
    Oblicza i wyświetla wszystkie metryki dla danego klasyfikatora
    """

    # Wyciągnięcie wartości z macierzy
    TN, FP, FN, TP = conf_matrix.ravel()

    # Basic metrics
    accuracy = (TP + TN) / (TP + TN + FP + FN)
    precision = TP / (TP + FP) if (TP + FP) > 0 else 0  # precyzja
    recall = TP / (TP + FN) if (TP + FN) > 0 else 0  # czułość
    specificity = TN / (TN + FP) if (TN + FP) > 0 else 0  # swoistość

    # F1 score mowi nam o zbalansowaniu pomiedzy precyzja i czułością
    f1_score = 2 * (precision * recall) / (precision + recall) if (precision + recall) > 0 else 0

    # Advanced metrics
    # Matthews Correlation Coefficient (MCC) mowi nam o zależności pomiedzy obserwowanymi i przewidywanymi wartościami
    mcc_numerator = (TP * TN) - (FP * FN)  # licznik współczynnika korelacji Matthews
    mcc_denominator = np.sqrt(
        (TP + FP) * (TP + FN) * (TN + FP) * (TN + FN))  # mianownik współczynnika korelacji Matthews
    mcc = mcc_numerator / mcc_denominator if mcc_denominator != 0 else 0

    balanced_accuracy = (recall + specificity) / 2  # zbalansowana dokładność
    informedness = recall + specificity - 1  # informacyjność
    markedness = precision + specificity - 1 if specificity > 0 else 0  # znakowność

    print(f"\n=== Metryki klasyfikacji {model_name} ===")
    print(f"Podstawowe metryki:")
    print(f"- Dokładność (Accuracy) = {accuracy:.3f}")
    print(f"- Precyzja (Precision) = {precision:.3f}")
    print(f"- Czułość (Recall/Sensitivity) = {recall:.3f}")
    print(f"- Swoistość (Specificity) = {specificity:.3f}")
    print(f"- F1 Score = {f1_score:.3f}")

    print(f"\nZaawansowane metryki:")
    print(f"- Matthews Correlation Coefficient (MCC) = {mcc:.3f}")
    print(f"- Balanced Accuracy = {balanced_accuracy:.3f}")
    print(f"- Informedness (Youden's J) = {informedness:.3f}")
    print(f"- Markedness = {markedness:.3f}")

    print(f"\nWartości macierzy pomyłek:")
    print(f"- True Negatives (TN) = {TN}")
    print(f"- False Positives (FP) = {FP}")
    print(f"- False Negatives (FN) = {FN}")
    print(f"- True Positives (TP) = {TP}")
    return {
        'accuracy': accuracy,
        'precision': precision,
        'recall': recall,
        'f1_score': f1_score,
        'mcc': mcc,
        'balanced_accuracy': balanced_accuracy
    }


In [None]:
df = pd.read_csv('Płatki-sniadaniowe-cereals.txt', sep='\t')

print("=== Analiza danych wejściowych ===")
print(f"\nLiczba produktów: {len(df)}")
print("\nRozkład produktów na półkach:")
print(df[['polka_1', 'polka_2', 'polka_3']].sum())

### Helper do trenowania i ewaluacji klasyfikatora

In [None]:
def train_and_evaluate_classifier(clf, X: np.ndarray, y: np.ndarray, classifier_name: str,
                                  is_simple_model=False):  # is_simple_model - model proponowany na podstawie wstepnej analizy danych
    """
    Trenuje i ewaluuje klasyfikator, zwraca metryki
    """
    try:
        # Cross-validation
        scores = cross_val_score(clf, X, y, cv=5)  # 5-krotna walidacja krzyżowa
        print(
            f"\nWyniki walidacji krzyżowej dla klasyfikatora {classifier_name}: {scores.mean():.3f} (±{scores.std():.3f})")

        clf.fit(X, y)  # Trenowanie klasyfikatora
        y_pred = clf.predict(X)  # Predykcja

        # Obliczanie metryk
        print(f"\n=== Wyniki klasyfikacji dla {classifier_name} ===")
        print(classification_report(y, y_pred))

        conf_matrix = confusion_matrix(y, y_pred)
        metrics = calculate_metrics(conf_matrix, classifier_name)

        if is_simple_model:
            # Wizualizacja macierzy pomyłek
            plt.figure(figsize=(10, 8))
            df_cm = pd.DataFrame(conf_matrix,
                                 index=['Nie na środkowej', 'Na środkowej'],
                                 columns=['Przewidziano: Nie', 'Przewidziano: Tak']
                                 )
            sns.heatmap(df_cm, annot=True, fmt='d', cmap='Blues')
            plt.title(f'Macierz pomyłek dla klasyfikatora {classifier_name}')
            plt.ylabel('Prawdizwa wartość')
            plt.xlabel('Przewidywana wartość')
            plt.show()

        return clf, metrics  # Zwracamy klasyfikator i metryki

    except Exception as e:
        print(f"Wystąpił błąd podczas trenowania {classifier_name}: {str(e)}")
        return clf, None  # Zwracamy None w przypadku błędu

## Model 1: Klasyfikacja dla półki środkowej

In [None]:
print("\n=== Model 1: Klasyfikacja dla półki środkowej (cukier i kalorie) ===")
X_simple = df[['cukry', 'kalorie']]
y_middle = (df['polka_2'] == 1).astype(int)  # Klasyfikacja dla półki środkowej

# Standaryzacja danych 
scaler_simple = StandardScaler()
scaler_simple.fit(X_simple)
X_simple_scaled = scaler_simple.transform(X_simple)

# Inicjalizacja klasyfikatorów
classifiers_simple = {
    'Random Forest': RandomForestClassifier(n_estimators=200, random_state=42),
    'KNN': KNeighborsClassifier(n_neighbors=5),
    'Naive Bayes': GaussianNB()
}

# Trenowanie i ewaulacja klasyfikatora dla prostego modelu
results_simple = {}
for name, clf in classifiers_simple.items():
    print(f"\n=== Klasyfikator: {name} ===")
    trained_clf, metrics = train_and_evaluate_classifier(clf,
                                                         X_simple_scaled,
                                                         y_middle,
                                                         f"{name} (Model 1 - środkowa półka)",
                                                         is_simple_model=True
                                                         )
    results_simple[name] = metrics


### Wizualizacja porównawcza dla prostego modelu (środkowa półka). Prosty model czyli ten gdzie to MY wybieramy zmienne niezalezne 

In [None]:
# Wizualizacja porównawcza dla prostego modelu (środkowa półka)
metrics_to_plot = ['accuracy', 'f1_score', 'balanced_accuracy']
metrics_labels = ['Dokładność', 'F1 Score', 'Zbalansowana dokładność']

plt.figure(figsize=(12, 6))
x = np.arange(len(metrics_to_plot))
width = 0.25

for i, (clf_name, metrics) in enumerate(results_simple.items()):
    values = [metrics[metric] for metric in metrics_to_plot]
    plt.bar(x + i * width, values, width, label=clf_name)

plt.xlabel('Metryka')
plt.ylabel('Wartość')
plt.title('Porównanie klasyfikatorów dla środkowej półki (Model 1)')
plt.xticks(x + width, metrics_labels)
plt.legend()
plt.tight_layout()
plt.show()

## Model 2: Klasyfikacja dla wszystkich polek i wybor optymalny cech

In [None]:
print("\n=== Model 2: Klasyfikacja dla poszczególnych półek ===")
features = ['kalorie', 'cukry', 'weglowodany', 'proteiny', 'tluszcz', 'blonnik', 'sod', 'potas']
X_full = df[features]
scaler_full = StandardScaler()
scaler_full.fit(X_full)
X_full_scaled = scaler_full.transform(X_full)  # Standaryzacja danych

# Inicjalizacja klasyfikatorów
results_full = {'polka_1': {}, 'polka_2': {}, 'polka_3': {}}

# Analiza kazdej polki z osobna
for shelf_num, shelf in enumerate(['polka_1', 'polka_2', 'polka_3'], 1):
    print(f"\n=== Analiza półki {shelf_num} ===")
    y_shelf = (df[shelf] == 1).astype(int)  # Klasyfikacja dla danej półki

    # Wybor cech za pomoca Random Forest
    selector = SelectFromModel(RandomForestClassifier(n_estimators=200, random_state=42))
    selector.fit(X_full_scaled, y_shelf)  # Trenowanie modelu
    selected_mask = selector.get_support()  # Wybor cech 

    # Wyswietlenie wybranych cech
    selected_features = [feat for feat, selected in zip(features, selected_mask) if selected]
    # tlumaczenie tego fora to: dla kazdego elementu w features i selected_mask jesli selected to dodaj do listy
    print(f"Wybrane cechy dla półki {shelf_num}: {selected_features}")

    # Trenowanie i ewaluacja klasyfikatora 
    X_selected = X_full_scaled[:, selected_mask]  # Wybranie cech
    for name in classifiers_simple.keys():
        if name == 'Random Forest':
            clf = RandomForestClassifier(n_estimators=200, random_state=42)
        elif name == 'k-NN':
            clf = KNeighborsClassifier(n_neighbors=5)
        else:  # Naive Bayes
            clf = GaussianNB()

        print(f"\n=== Klasyfikator: {name} ===")
        trained_clf, metrics = train_and_evaluate_classifier(
            clf,
            X_selected,
            y_shelf,
            f"{name} (Model 2 - półka {shelf_num})"
        )
        if metrics is not None:  # Dodajemy sprawdzenie
            results_full[shelf][name] = metrics
        else:
            print(f"Pominięto wyniki dla {name} na półce {shelf_num} z powodu błędu")

### Wizualizacja porównawcza dla wszystkich półek (Model 2)

In [None]:
# Wizualizacja porównawcza dla wszystkich półek (Model 2)
for metric in metrics_to_plot:
    plt.figure(figsize=(12, 6))
    x = np.arange(len(results_full))
    width = 0.25
    
    for i, clf_name in enumerate(classifiers_simple.keys()):
        values = [results_full[shelf][clf_name][metric] for shelf in results_full]
        plt.bar(x + i * width, values, width, label=clf_name)
    
    plt.xlabel('Półka')
    plt.ylabel(f'{metrics_labels[metrics_to_plot.index(metric)]}')
    plt.title(f'Porównanie klasyfikatorów dla wszystkich półek - {metrics_labels[metrics_to_plot.index(metric)]}')
    plt.xticks(x + width, ['Półka 1', 'Półka 2', 'Półka 3'])
    plt.legend()
    plt.tight_layout()
    plt.show()

### Podsumowanie wynikow tekstowe

In [None]:
# Podsumowanie wyników
print("\n=== Podsumowanie wyników ===")

print("\n++ Model 1 (Środkowa półka): ++")
for clf_name, metrics in results_simple.items():
    print(f"\n{clf_name}:")
    for metric, value in metrics.items():
        print(f"- {metric}: {value:.3f}")

print("\n++ Model 2 (Wszystkie półki): ++")
for shelf in results_full:
    print(f"\nPółka {shelf}:")
    for clf_name, metrics in results_full[shelf].items():
        print(f"\n{clf_name}:")
        for metric, value in metrics.items():
            print(f"- {metric}: {value:.3f}")

### Wizualizacja macierzy pomyłek dla wszystkich klasyfikatorów

In [None]:
# Wizualizacja macierzy pomyłek dla wszystkich klasyfikatorów
def plot_confusion_matrices():
    for shelf_num, shelf in enumerate(['polka_1', 'polka_2', 'polka_3'], 1):
        plt.figure(figsize=(15, 5))
        for i, (clf_name, metrics) in enumerate(results_full[shelf].items(), 1):
            y_shelf = (df[shelf] == 1).astype(int)
            
            if clf_name == 'Random Forest':
                clf = RandomForestClassifier(n_estimators=200, random_state=42)
            elif clf_name == 'KNN':
                clf = KNeighborsClassifier(n_neighbors=5)
            else:  # Naive Bayes
                clf = GaussianNB()
            
            # Wybór cech
            selector = SelectFromModel(RandomForestClassifier(n_estimators=200, random_state=42))
            selector.fit(X_full_scaled, y_shelf)
            selected_mask = selector.get_support()
            X_selected = X_full_scaled[:, selected_mask]
            
            # Trenowanie i predykcja
            clf.fit(X_selected, y_shelf)
            y_pred = clf.predict(X_selected)
            conf_matrix = confusion_matrix(y_shelf, y_pred)
            
            # Wizualizacja macierzy pomyłek
            plt.subplot(1, 3, i)
            df_cm = pd.DataFrame(
                conf_matrix,
                index=['Nie na półce', 'Na półce'],
                columns=['Przewidziano: Nie', 'Przewidziano: Tak']
            )
            sns.heatmap(df_cm, annot=True, fmt='d', cmap='Blues')
            plt.title(f'Macierz pomyłek - {clf_name}\nPółka {shelf_num}')
            plt.ylabel('Prawdziwa wartość')
            plt.xlabel('Przewidywana wartość')
        
        plt.tight_layout()
        plt.show()

# Generowanie wszystkich wizualizacji
print("=== Macierze pomyłek dla wszystkich klasyfikatorów ===")
plot_confusion_matrices()

### Wizualizacja wag zmiennych

In [None]:
def plot_feature_importance():
    for shelf_num, shelf in enumerate(['polka_1', 'polka_2', 'polka_3'], 1):
        y_shelf = (df[shelf] == 1).astype(int)
        
        # # Random Forest feature importance
        # rf = RandomForestClassifier(n_estimators=200, random_state=42)
        # rf.fit(X_full_scaled, y_shelf)
        
        # Wybór cech
        selector = SelectFromModel(RandomForestClassifier(n_estimators=200, random_state=42))
        selector.fit(X_full_scaled, y_shelf)
        selected_mask = selector.get_support()
        
        # Tylko wybrane cechy
        selected_features = [feat for feat, selected in zip(features, selected_mask) if selected]
        
        # Random Forest tylko na wybranych cechach
        rf = RandomForestClassifier(n_estimators=200, random_state=42)
        rf.fit(X_full_scaled[:, selected_mask], y_shelf)
        
        # Wizualizacja
        plt.figure(figsize=(10, 5))
        feature_importance = pd.DataFrame({
            'cecha': selected_features,
            'waga': rf.feature_importances_
        })
        feature_importance = feature_importance.sort_values('waga', ascending=False)
        sns.barplot(data=feature_importance, x='cecha', y='waga')
        plt.title(f'Ważność cech dla półki {shelf_num} (Random Forest)')
        plt.xticks(rotation=45)
        plt.tight_layout()
        plt.show()
        
print("\n=== Ważność cech dla każdej półki ===")
plot_feature_importance()

### Wykres rozmieszczenia płatków z prawdopodobieństwem

In [None]:
def plot_decision_boundary():
    plt.figure(figsize=(15, 10))
    
    # Granice decyzyjne dla Random Forest
    x_min, x_max = X_simple['cukry'].min() - 1, X_simple['cukry'].max() + 1 # -1 i +1 to margines
    y_min, y_max = X_simple['kalorie'].min() - 10, X_simple['kalorie'].max() + 10 # -10 i +10 to margines
    xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.5), # 0.5 to krok
                         np.arange(y_min, y_max, 2)) # 2 to krok
    
    # Standaryzacja danych
    grid_points = np.c_[xx.ravel(), yy.ravel()] # Ravel - splaszczanie tablicy\
    grid_points_scaled = scaler_simple.transform(grid_points) # Standaryzacja danych
    
    # Predykcja dla każdego punktu
    rf = classifiers_simple['Random Forest']
    Z = rf.predict_proba(grid_points_scaled)[:, 1]
    Z = Z.reshape(xx.shape)
    
    # Mapa decyzyjna
    plt.contourf(xx, yy, Z, levels=np.linspace(0, 1, 11), alpha=0.6, cmap='RdYlBu')
    plt.colorbar(label='Prawdopodobieństwo środkowej półki')
    
    # Punkty danych
    plt.scatter(X_simple['cukry'][y_middle == 0], X_simple['kalorie'][y_middle == 0],
                c='red', label='Inna półka', alpha=0.8)
    plt.scatter(X_simple['cukry'][y_middle == 1], X_simple['kalorie'][y_middle == 1], 
                c='blue', label='Środkowa półka', alpha=0.8)
    
    # Etykiety produktów
    for i, row in df.iterrows():
        point_scaled = scaler_simple.transform([[row['cukry'], row['kalorie']]])
        prob = rf.predict_proba(point_scaled)[0][1]
        if prob > 0.7 or prob < 0.3:
            plt.annotate(row['nazwa'],
                         (row['cukry'], row['kalorie']),
                         xytext=(5, 5),
                         textcoords='offset points',
                         fontsize=8,
                         bbox=dict(facecolor='white', edgecolor='none', alpha=0.7))
    
    plt.xlabel('Zawartość cukru (g)')
    plt.ylabel('Kalorie')
    plt.title('Klasyfikacja produktów na środkowej półce (Random Forest)')
    plt.legend()
    plt.grid(True)
    plt.tight_layout()
    plt.show()

print("\n=== Mapa decyzyjna dla klasyfikacji środkowej półki ===")
plot_decision_boundary()