
# Projekt

**Cel:** przeprowadzić kompletny projekt ML w oparciu o **tradycyjne algorytmy** i narzędzia scikit-learn
Wszystkie kroki są rozdzielone na **zadania** w osobnych komórkach.

**Dane:** `"data.csv"`



## Zasady i wymagania
- Używamy wyłącznie **tradycyjnego ML**: k-NN, regresja logistyczna, regresja liniowa, k-means.
- **Żadnych ręcznych encodingów** (poza *parsowaniem listy*); użyj `Pipeline`, `ColumnTransformer`, `SimpleImputer`, `OneHotEncoder`, `StandardScaler`.
- Kolumny listowe (np. `Recycling`, `Cooking_With`) przetwarzamy **funkcją/transformatorem** i włączamy w `ColumnTransformer`.


## Zadanie 0 — Importy i konfiguracja

In [1]:

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import ast

from sklearn.model_selection import train_test_split, GridSearchCV, cross_val_score
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import OneHotEncoder, StandardScaler, MultiLabelBinarizer
from sklearn.impute import SimpleImputer
from sklearn.neighbors import KNeighborsClassifier, KNeighborsRegressor
from sklearn.linear_model import LogisticRegression, LinearRegression
from sklearn.cluster import KMeans
from sklearn.metrics import (
    classification_report, roc_auc_score, roc_curve, confusion_matrix, ConfusionMatrixDisplay,
    mean_absolute_error, mean_squared_error, r2_score, silhouette_score
)
from sklearn.base import BaseEstimator, TransformerMixin

DATA_PATH = "data.csv"


print("Wersje:")
import sklearn; print("sklearn", sklearn.__version__)
print("pandas", pd.__version__)
print("numpy", np.__version__)


Wersje:
sklearn 1.6.1
pandas 2.2.3
numpy 2.1.3


## Zadanie 1 — Wczytanie danych

In [2]:

# TODO: wczytaj dane do DataFrame, wyświetl rozmiar, kilka pierwszych wierszy i podstawowe info.

df = pd.read_csv(DATA_PATH)
print("Shape:", df.shape)
display(df.head(10))
df.info()


Shape: (10000, 20)


Unnamed: 0,Body Type,Sex,Diet,How Often Shower,Heating Energy Source,Transport,Vehicle Type,Social Activity,Monthly Grocery Bill,Frequency of Traveling by Air,Vehicle Monthly Distance Km,Waste Bag Size,Waste Bag Weekly Count,How Long TV PC Daily Hour,How Many New Clothes Monthly,How Long Internet Daily Hour,Energy efficiency,Recycling,Cooking_With,CarbonEmission
0,overweight,female,pescatarian,daily,coal,public,,often,230,frequently,210,large,4,7,26,1,No,['Metal'],"['Stove', 'Oven']",2238
1,obese,female,vegetarian,less frequently,natural gas,walk/bicycle,,often,114,rarely,9,extra large,3,9,38,5,No,['Metal'],"['Stove', 'Microwave']",1892
2,overweight,male,omnivore,more frequently,wood,private,petrol,never,138,never,2472,small,1,14,47,6,Sometimes,['Metal'],"['Oven', 'Microwave']",2595
3,overweight,male,omnivore,twice a day,wood,walk/bicycle,,sometimes,157,rarely,74,medium,3,20,5,7,Sometimes,"['Paper', 'Plastic', 'Glass', 'Metal']","['Microwave', 'Grill', 'Airfryer']",1074
4,obese,female,vegetarian,daily,coal,private,diesel,often,266,very frequently,8457,large,1,3,5,6,Yes,['Paper'],['Oven'],4743
5,overweight,male,vegetarian,less frequently,wood,public,,sometimes,144,frequently,658,large,1,22,18,9,Sometimes,"['Paper', 'Glass', 'Metal']","['Stove', 'Oven', 'Microwave']",1647
6,underweight,female,vegan,less frequently,wood,private,hybrid,never,56,rarely,5363,medium,4,9,11,19,Sometimes,[],"['Grill', 'Airfryer']",1832
7,underweight,female,vegan,more frequently,coal,walk/bicycle,,sometimes,59,very frequently,54,extra large,3,5,39,15,No,"['Paper', 'Plastic', 'Glass']","['Stove', 'Microwave']",2322
8,overweight,male,omnivore,daily,wood,public,,never,200,frequently,1376,medium,3,3,31,15,Yes,['Glass'],"['Microwave', 'Grill', 'Airfryer']",2494
9,underweight,female,pescatarian,daily,wood,public,,often,135,rarely,440,extra large,1,8,23,18,Sometimes,['Glass'],"['Microwave', 'Grill', 'Airfryer']",1178


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 20 columns):
 #   Column                         Non-Null Count  Dtype 
---  ------                         --------------  ----- 
 0   Body Type                      10000 non-null  object
 1   Sex                            10000 non-null  object
 2   Diet                           10000 non-null  object
 3   How Often Shower               10000 non-null  object
 4   Heating Energy Source          10000 non-null  object
 5   Transport                      10000 non-null  object
 6   Vehicle Type                   3279 non-null   object
 7   Social Activity                10000 non-null  object
 8   Monthly Grocery Bill           10000 non-null  int64 
 9   Frequency of Traveling by Air  10000 non-null  object
 10  Vehicle Monthly Distance Km    10000 non-null  int64 
 11  Waste Bag Size                 10000 non-null  object
 12  Waste Bag Weekly Count         10000 non-null  int64 
 13  Ho

## Zadanie 2 — Słownik danych (do uzupełnienia)


Przypisz do zmiennych typ (kategoryczna/numeryczna/listowa) :
- Body Type —  
- Sex —  
- Diet —  
- How Often Shower —  
- Heating Energy Source —  
- Transport —  
- Vehicle Type —  
- Social Activity —  
- Monthly Grocery Bill —  
- Frequency of Traveling by Air —  
- Vehicle Monthly Distance Km —  
- Waste Bag Size —  
- Waste Bag Weekly Count —  
- How Long TV PC Daily Hour —  
- How Many New Clothes Monthly —  
- How Long Internet Daily Hour —  
- Energy efficiency —  
- Recycling (lista) —  
- Cooking_With (lista) —  
- CarbonEmission —  


## Zadanie 3 — EDA: braki danych i statystyki

In [None]:

# TODO: sprawdź braki danych oraz statystyki opisowe.


## Zadanie 4 — EDA: wizualizacje

In [None]:

# TODO: WIZUALIZACJE (opcjonalnie) - np.histogram, boxplot, scatter_matrix, heatmap korelacji itp.


## Zadanie 5 — Transformator dla kolumn listowych (MultiLabelBinarizer)


Zaimplementuj transformator scikit-learn, który:
1) parsuje stringową listę (np. `"['Paper','Plastic']"`) do listy Pythona,  
2) koduje wieloetykietowo przy pomocy `MultiLabelBinarizer`,  
3) współpracuje z `ColumnTransformer` i udostępnia `get_feature_names_out()`.


Ta częśc jest już stworzona i wypełniona, nie musisz nic zmieniac

In [None]:

class ListToMLB(BaseEstimator, TransformerMixin):
    def __init__(self):
        self.mlb_ = MultiLabelBinarizer()

    @staticmethod
    def _parse_cell(x):
        if isinstance(x, list):
            return x
        if isinstance(x, float) and pd.isna(x):
            return []
        if isinstance(x, str):
            s = x.strip()
            if s.startswith('[') and s.endswith(']'):
                try:
                    return ast.literal_eval(s)
                except Exception:
                    return []
            return []
        return []

    def fit(self, X, y=None):
        col = pd.Series(X.ravel()).apply(self._parse_cell)
        self.mlb_.fit(col)
        return self

    def transform(self, X):
        col = pd.Series(X.ravel()).apply(self._parse_cell)
        return self.mlb_.transform(col)

    def get_feature_names_out(self, input_features=None):
        return np.array([f"list__{c}" for c in self.mlb_.classes_], dtype=object)



**Jak zastosować ten transformator?**  
W `ColumnTransformer` dodaj osobny krok dla każdej kolumny listowej, np.:  
`('recycling', ListToMLB(), ['Recycling'])` oraz `('cooking', ListToMLB(), ['Cooking_With'])`.


## Zadanie 6 — Wybór kolumn do przetwarzania

In [None]:

# TODO: dostosuj listy kolumn do istniejących w danych.
num_cols = [] # TODO: uzupełnij
cat_cols = [] # TODO: uzupełnij
list_cols = []

print("Numeryczne:", num_cols)
print("Kategoryczne:", cat_cols)
print("Listowe:", list_cols)


## Zadanie 7 — Preprocessing z ColumnTransformer

In [None]:

num_pipe = None #TODO: uzupełnij pipeline dla cech numerycznych.

cat_pipe = None #TODO: uzupełnij pipeline dla cech kategorycznych.

list_transforms = [
    (f'list_{i}', Pipeline([
        ('list', ListToMLB()),
    ]), [col]) for i, col in enumerate(list_cols)
]
preprocess = ColumnTransformer(
    transformers=[
        ('num', num_pipe, num_cols),
        ('cat', cat_pipe, cat_cols),
        *list_transforms
    ],
    remainder='drop'
)

preprocess


## Zadanie 8 — Definicja etykiety klasyfikacyjnej (HighEmission)

In [None]:

# Ta część jest już stworzona i wypełniona, nie musisz nic zmieniac. Tworzy ona etykietę binarną bazując na kwantylu emisji (np. górny kwartyl) do celów klasyfikacji.
q = 0.75  # TODO: możesz zmienić np. na 0.8
y_reg = df['CarbonEmission'].copy()
thr = y_reg.quantile(q)
y_clf = (y_reg >= thr).astype(int)

X = df.drop(columns=['CarbonEmission'])
print("Próg emisji:", thr, " | Udział klasy 1:", y_clf.mean().round(3))


## Zadanie 9 — Klasyfikacja: k-NN i Regresja Logistyczna (Pipeline + GridSearchCV)

In [None]:

X_train, X_test, y_train, y_test =  None # TODO: podziel dane na zbiór treningowy i testowy (np. test_size=0.2, random_state=42, stratify=y_clf)

pipe_knn = None #TODO: stwórz pipeline z preprocess i KNeighborsClassifier
pipe_lr  = None #TODO: stwórz pipeline z preprocess i LogisticRegression (max_iter=2000, class_weight='balanced')
param_knn = None #TODO: zdefiniuj parametry do strojenia
param_lr  = None #TODO: zdefiniuj parametry do strojenia

gs_knn = GridSearchCV() #TODO: uzupełnij GridSearchCV z pipe_knn i param_knn
gs_lr  = GridSearchCV() #TODO: uzupełnij GridSearchCV z pipe_lr i param_lr

gs_knn.fit(X_train, y_train)
gs_lr.fit(X_train, y_train)

def evaluate_clf(model, name):
    y_pred = model.predict(X_test)
    if hasattr(model, "predict_proba"):
        y_prob = model.predict_proba(X_test)[:,1]
        auc = roc_auc_score(y_test, y_prob)
    else:
        auc = np.nan
        y_prob = None
    print(f"=== {name} ===")
    print("ROC-AUC:", round(auc,4))
    print(classification_report(y_test, y_pred, digits=4))
    # Macierz pomyłek
    cm = confusion_matrix(y_test, y_pred)
    disp = ConfusionMatrixDisplay(confusion_matrix=cm)
    plt.figure()
    disp.plot()
    plt.title(f"Confusion matrix — {name}")
    plt.show()
    # Krzywa ROC
    if y_prob is not None:
        fpr, tpr, _ = roc_curve(y_test, y_prob)
        plt.figure()
        plt.plot(fpr, tpr)
        plt.plot([0,1],[0,1],'--')
        plt.xlabel("FPR"); plt.ylabel("TPR"); plt.title(f"ROC — {name}")
        plt.show()

evaluate_clf(gs_knn.best_estimator_, "k-NN (best)")
evaluate_clf(gs_lr.best_estimator_,  "LogReg (best)")


## Zadanie 10 — Regresja: KNNRegressor i LinearRegression

In [None]:

y = df['CarbonEmission'].copy()
X = df.drop(columns=['CarbonEmission'])

X_train, X_test, y_train, y_test = #TODO: podziel dane na zbiór treningowy i testowy (np. test_size=0.2, random_state=42)

pipe_knnr = None #TODO: stwórz pipeline z preprocess i KNeighborsRegressor
param_knnr = None #TODO: zdefiniuj parametry do strojenia
gs_knnr = None #TODO: uzupełnij GridSearchCV z pipe_knnr i param_knnr
gs_knnr.fit(X_train, y_train)

pipe_lin = Pipeline([('prep', preprocess), ('reg', LinearRegression())])
pipe_lin.fit(X_train, y_train)

def evaluate_reg(model, name):
    pred = model.predict(X_test)
    rmse = mean_squared_error(y_test, pred, squared=False)
    mae  = mean_absolute_error(y_test, pred)
    r2   = r2_score(y_test, pred)
    print(f"=== {name} ===\nRMSE={rmse:.3f}  MAE={mae:.3f}  R2={r2:.3f}\n")
    return rmse, mae, r2

evaluate_reg(gs_knnr.best_estimator_, "KNNRegressor (best)")
evaluate_reg(pipe_lin, "LinearRegression")


## Zadanie 11 — Klasteryzacja: k-means (z wyborem k przez silhouette)

In [None]:

# Klastrowanie bez kolumny celu. Dla k-means przyda się pełne skalowanie całej macierzy po preprocessingu.

X = df.drop(columns=['CarbonEmission'])

pre_kmeans = #TODO: stwórz pipeline z preprocess i StandardScaler

best_k, best_score = None, -1.0
scores = {}

# TODO: znajdź najlepszą liczbę klastrów (np. z zakresu 2-10) bazując na silhouette_score



## Zadanie 12 — Wnioski i ograniczenia


Podsumuj wyniki projektu:
- **Klasyfikacja:** który model był lepszy (ROC-AUC, precyzja/recall)? Jaki wpływ miał wybór progu kwantyla?
- **Regresja:** który model ma niższy RMSE/MAE? Czy R² jest satysfakcjonujące?
- **Klasteryzacja:** interpretacja klastrów — czy widzisz sensowne segmenty?
- **Ograniczenia:** potencjalne źródła biasu, rozkłady cech, brak walidacji czasowej, możliwe przecieki cech, balans klas.
- **Kolejne kroki:** inżynieria cech, walidacja krzyżowa stratified, analiza metryk kosztowych, testy stabilności.
