In [2]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestRegressor
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

# Wczytanie danych z pełną ścieżką (zmień na swoją, jeśli inna!)
df = pd.read_csv(r"C:\Users\abero\Downloads\daily-bike-share.csv")
df.head()

Unnamed: 0,instant,dteday,season,yr,mnth,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed,rentals
0,1,1/1/2011,1,0,1,0,6,0,2,0.344167,0.363625,0.805833,0.160446,331
1,2,1/2/2011,1,0,1,0,0,0,2,0.363478,0.353739,0.696087,0.248539,131
2,3,1/3/2011,1,0,1,0,1,1,1,0.196364,0.189405,0.437273,0.248309,120
3,4,1/4/2011,1,0,1,0,2,1,1,0.2,0.212122,0.590435,0.160296,108
4,5,1/5/2011,1,0,1,0,3,1,1,0.226957,0.22927,0.436957,0.1869,82


In [3]:
# Usuwam kolumny ID i daty
df = df.drop(columns=["instant", "dteday"])

# Zmienna docelowa
y = df["rentals"]
X = df.drop(columns=["rentals"])

# Podział na zbiór treningowy i testowy
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [4]:
# Lista cech numerycznych
numeric_features = X.columns.tolist()

# Pipeline: skalowanie + model
pipeline_rf = Pipeline(steps=[
    ('scaler', StandardScaler()),
    ('model', RandomForestRegressor(random_state=42))
])

# Trenowanie modelu
pipeline_rf.fit(X_train, y_train)

# Predykcje
y_pred_rf = pipeline_rf.predict(X_test)

In [5]:
pipeline_lr = Pipeline(steps=[
    ('scaler', StandardScaler()),
    ('model', LinearRegression())
])

pipeline_lr.fit(X_train, y_train)
y_pred_lr = pipeline_lr.predict(X_test)

In [6]:
def evaluate(y_true, y_pred, model_name):
    print(f"📊 Wyniki dla: {model_name}")
    print("MSE :", mean_squared_error(y_true, y_pred))
    print("MAE :", mean_absolute_error(y_true, y_pred))
    print("R²  :", r2_score(y_true, y_pred))
    print("-" * 30)

evaluate(y_test, y_pred_rf, "Random Forest Regressor")
evaluate(y_test, y_pred_lr, "Linear Regression")

📊 Wyniki dla: Random Forest Regressor
MSE : 72578.09493061223
MAE : 172.8172789115646
R²  : 0.8137128997710564
------------------------------
📊 Wyniki dla: Linear Regression
MSE : 116696.46504890604
MAE : 267.10412813375575
R²  : 0.700473729687829
------------------------------


Wnioski do zadania 

W projekcie wykorzystałem dane "daily-bike-share.csv", które przedstawiają dzienną liczbę wypożyczeń rowerów w zależności od pogody, daty i innych czynników. Celem było stworzenie Pipeline’u do przetwarzania danych i uczenia modelu predykcyjnego.

Zbudowałem dwa modele:
random forest regressor oraz linear regression




| Model                  | MSE        | MAE       | R²      |
|------------------------|------------|-----------|----------|
| Random Forest Regressor | 72 578     | 172.82    | 0.81     |
| Linear Regression       | 116 696    | 267.10    | 0.70     |

Interpretacja

Model "random forest regressor" znacząco przewyższa regresję liniową:
- Ma znacznie mniejsze błędy (MSE i MAE)
- Lepiej dopasowuje się do danych (R² = 0.81)

Oznacza to, że nieliniowy model lasu losowego znacznie lepiej radzi sobie z przewidywaniem liczby wypożyczeń niż prosty model liniowy. Pipeline zapewnił automatyzację przetwarzania danych i treningu, co czyni go gotowym do wdrożenia lub testowania na nowych danych.