# **Regresja Liniowa w Uczeniu Maszynowym**

![](https://datascientest.com/en/files/2021/01/Machine-learning-def-.png)

_Bartek Bilski_

## **Wstęp**

Witaj na zajęciach dotyczących **regresji liniowej** – jednego z fundamentalnych algorytmów uczenia maszynowego. W ciągu tych zajęć poznasz podstawy regresji liniowej, nauczysz się implementować modele przy użyciu scikit-learn oraz zrozumiesz, jak regularyzacja może poprawić jakość modeli.

Regresja liniowa to idealny punkt startowy do nauki machine learning, ponieważ jest intuicyjna matematycznie, a jednocześnie stanowi podstawę dla bardziej zaawansowanych technik.



### **Struktura notebooka**

Notebook zawiera objaśnienia teoretyczne oraz praktyczne przykłady w Pythonie. Po każdej sekcji znajdziesz **zadania do samodzielnego wykonania** oznaczone jako **Zadanie**. Zachęcam do aktywnego wykonywania tych ćwiczeń.

### **Podstawowe Pojęcia Statystyczne – Wprowadzenie**

- **Zmienna objaśniająca (feature)**: Atrybut opisujący dane wejściowe (np. metraż mieszkania).
- **Zmienna docelowa (target)**: Wielkość, którą chcemy przewidzieć (np. cena mieszkania).
- **Próbka i populacja**: Na podstawie próby (posiadanych danych) wnioskujemy o całej populacji.
- **Miary położenia**: średnia, mediana.
- **Miary zmienności**: wariancja, odchylenie standardowe.
- **Rozkłady prawdopodobieństwa**: np. rozkład normalny.

Statystyka pomaga nam lepiej zrozumieć dane i ich struktury zanim zbudujemy model ML.

![](https://i.ibb.co/KVCdqr3/Screenshot-2024-12-10-112852.png)

### **Typy zmiennych w analizie danych**

W procesie eksploracji i modelowania danych niezwykle istotne jest zrozumienie typów zmiennych w zbiorze danych.

**Główne rodzaje zmiennych:**

1. **Numeryczne**
   - **Ciągłe:** Mogą przyjmować dowolną wartość z pewnego przedziału (np. metraż, temperatura)
   - **Dyskretne:** Przyjmują konkretne, zliczalne wartości (np. liczba pokoi)

2. **Kategoryczne**
   - Nie mają naturalnego porządku (np. nazwy miast, typ nieruchomości)
   - Wymagają enkodowania do postaci numerycznej (One-Hot Encoding)

3. **Porządkowe (ordinal)**
   - Mają naturalny porządek (np. ocena jakości 1-5, poziom edukacji)
   - Można kodować jako liczby zachowując hierarchię


![](https://statsandr.com/blog/variable-types_files/variable-types-and-examples.png)


## **Co to jest regresja?**

**Regresja** to typ uczenia nadzorowanego, którego celem jest przewidywanie **wartości ciągłych** (numerycznych) na podstawie innych zmiennych. W przeciwieństwie do klasyfikacji, która przewiduje kategorie, regresja przewiduje konkretne liczby.

**Przykłady zastosowań regresji:**
- Przewidywanie cen nieruchomości na podstawie powierzchni, lokalizacji, wieku
- Prognozowanie sprzedaży na podstawie nakładów na reklamę
- Szacowanie temperatury na podstawie ciśnienia atmosferycznego

**Popularne algorytmy regresji:**
- Regresja liniowa (Linear Regression)
- Drzewa regresyjne (Regression Trees) 
- Las losowy (Random Forest)
- Sieci neuronowe (Neural Networks)

## **Teoria Regresji Liniowej**

### **Czym jest regresja liniowa?**

Regresja liniowa to metoda statystyczna używana do modelowania związku między zmienną zależną (docelową) a jedną lub więcej zmiennymi niezależnymi (cechami). Główne założenia:

1. **Liniowość**: Związek między zmiennymi jest liniowy
2. **Niezależność**: Obserwacje są niezależne od siebie
3. **Homoscedastyczność**: Wariancja reszt jest stała
4. **Normalność**: Reszty mają rozkład normalny

### **Równanie regresji liniowej:**

**Regresja prosta (jedna cecha):**
$$ y = \beta_0 + \beta_1 x + \epsilon $$

**Regresja wielokrotna (wiele cech):**
$$y = β₀ + β₁x₁ + β₂x₂ + ... + βₙxₙ + ε$$
Gdzie:
- $y$ - zmienna docelowa (np. cena)
- $x_1,x_2,x_n$ - cechy (zmienne objaśniające)
- $\beta_0$ - wyraz wolny (przecięcie z osią Y, intercept)
- $\beta_1, \beta_2, \beta_n$ - współczynniki regresji (slopes)
- $\epsilon$ - składnik błędu

**Interpretacja parametrów:**
- $\beta_0$: wartość $y$ gdy $x = 0$
- $\beta_1$: o ile zmienia się $y$ przy wzroście $x$ o 1 jednostkę



### **Jak działa algorytm?**
#### **Metoda Najmniejszych Kwadratów (Ordinary Least Squares - OLS)**

Aby znaleźć najlepszą linię regresji, minimalizujemy **sumę kwadratów błędów** (SSE):

$$ \text{SSE} = \sum_{i=1}^{n}(y_i - \hat{y}_i)^2 $$

gdzie $\hat{y}_i = \beta_0 + \beta_1 x_i$ to przewidywana wartość.

**Rozwiązania analityczne dla regresji jednowymiarowej:**

$$ \hat{\beta}_1 = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n}(x_i - \bar{x})^2} $$

$$ \hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x} $$

Metoda OLS gwarantuje znalezienie globalnego optimum dla regresji liniowej.

![](https://vitalflux.com/wp-content/uploads/2022/02/ordinary-least-squares-method.jpg)


## **Problem Overfittingu i Regularyzacja**

### **Overfitting w regresji liniowej**

Kiedy model ma zbyt wiele cech w stosunku do liczby obserwacji, może wystąpić **overfitting**:
- Model "zapamiętuje" dane treningowe
- Słabo generalizuje na nowe dane
- Współczynniki mogą być bardzo duże i niestabilne

### **Regularyzacja jako rozwiązanie**

Regularyzacja dodaje "karę" za zbyt duże współczynniki, wymuszając prostsze modele:

**Funkcja kosztu z regularyzacją:**
$$ \text{Koszt} = \text{SSE} + \lambda \cdot \text{Kara} $$

gdzie $\lambda$ (lambda) kontroluje siłę regularyzacji.

### **Lasso (L1 Regularization)**

**Idea:** Dodaje karę $$ \lambda \sum |\beta_j| $$ do funkcji kosztu.

**Efekty Lasso:**
- **Selekcja cech:** Może wyzerować współczynniki nieistotnych cech
- **Modele rzadkie:** Pozostają tylko najważniejsze cechy
- **Łatwiejsza interpretacja:** Model używa mniej zmiennych

**Kiedy używać Lasso:**

✅ Gdy masz tysiące cech i chcesz przeprowadzić selekcję  
✅ Gdy zależy Ci na interpretowalności modelu  
✅ W wysokowymiarowych problemach (więcej cech niż obserwacji).
### **Ridge (L2 Regularization)**

**Idea:** Dodaje karę $\lambda \sum \beta_j^2$ do funkcji kosztu.

**Efekty Ridge:**
- **Stabilizacja współczynników:** Wszystkie współczynniki stają się mniejsze
- **Obsługa multikolinearności:** Lepiej radzi sobie ze skorelowanymi cechami
- **Zachowanie wszystkich cech:** Nie zeruje współczynników

**Kiedy używać Ridge:**

✅ Gdy masz wiele podobnych/skorelowanych cech  
✅ Gdy nie chcesz eliminować żadnych zmiennych  
✅ Gdy chcesz stabilizować model bez utraty informacji




#### **Elastic Net**
**Idea:** Dodaje karę $\lambda \sum \beta_j^2$ + $ \lambda \sum |\beta_j| $ do funkcji kosztu.

**Efekty Elastic Net**
- Kombinacja Ridge i Lasso
- Balansuje między stabilnością a selekcją cech



## **Wczytanie i Eksploracja Danych - California Housing**

Będziemy pracować ze zbiorem danych **California Housing**, który zawiera informacje o cenach domów w Kalifornii z 1990 roku. To klasyczny dataset do nauki regresji liniowej.

### **Opis zbioru danych:**
- **20,640 obserwacji** (bloków mieszkaniowych)
- **8 cech numerycznych**
- **Zmienna docelowa**: Mediana wartości domów (w $100k)

### **Cechy w zbiorze:**
1. **MedInc**: Mediana dochodu w bloku (w $10k)
2. **HouseAge**: Mediana wieku domów w bloku
3. **AveRooms**: Średnia liczba pokoi na dom
4. **AveBedrms**: Średnia liczba sypialni na dom
5. **Population**: Populacja bloku
6. **AveOccup**: Średnia liczba mieszkańców na dom
7. **Latitude**: Szerokość geograficzna
8. **Longitude**: Długość geograficzna

In [None]:
### =====================================
### IMPORT BIBLIOTEK I KONFIGURACJA
### =====================================

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Sklearn
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
from sklearn.linear_model import LinearRegression, Ridge, Lasso
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error

# Ustawienia wizualizacji
plt.rcParams['figure.figsize'] = (10, 6)
plt.rcParams['font.size'] = 12
sns.set_style("whitegrid")

print("✅ Wszystkie biblioteki zostały zaimportowane pomyślnie!")
print("🚀 Jesteśmy gotowi do pracy z regresją liniową!")

In [None]:
# =====================================
# WCZYTANIE DANYCH CALIFORNIA HOUSING
# =====================================

print("📊 WCZYTYWANIE DANYCH CALIFORNIA HOUSING:")
print("=" * 50)

# Wczytanie danych
data = fetch_california_housing()
df = pd.DataFrame(data.data, columns=data.feature_names)
df['MedHouseVal'] = data.target

print(f"✅ Dane wczytane pomyślnie!")
print(f"📏 Rozmiar zbioru: {df.shape[0]} obserwacji, {df.shape[1]} kolumn")
print(f"🎯 Zmienna docelowa: MedHouseVal (mediana wartości domów)")

# Podstawowe informacje
print("\n📋 PODSTAWOWE INFORMACJE O DANYCH:")
print("=" * 50)
print(df.info())

print("\n👀 PODGLĄD PIERWSZYCH 5 WIERSZY:")
print("=" * 50)
display(df.head())

In [None]:
# 📊 Statystyki opisowe
print("\n📈 STATYSTYKI OPISOWE:")
print("=" * 50)
display(df.describe().round(2))

print("\n💡 KLUCZOWE OBSERWACJE:")
print("✅ Wszystkie zmienne są numeryczne")
print("✅ Brak wartości NaN - dane są kompletne")
print("⚠️ Różne skale danych (MedInc: 0-15, Population: 3-35k)")
print("⚠️ Możliwe outliers (max AveRooms: 141!)")
print("🎯 Zmienna docelowa: MedHouseVal (0.15 - 5.0 * $100k)")

In [None]:
# 🔍 Sprawdzenie brakujących wartości
print("🔍 SPRAWDZENIE KOMPLETNOŚCI DANYCH:")
print("=" * 50)

missing_data = df.isnull().sum()
print("Brakujące wartości na kolumnę:")
print(missing_data)

if missing_data.sum() == 0:
    print("\n✅ Żadnych brakujących wartości - dane są kompletne!")
else:
    print(f"\n⚠️ Znaleziono {missing_data.sum()} brakujących wartości")

In [None]:
# 📊 Wizualizacja rozkładu zmiennej docelowej
print("📊 ANALIZA ZMIENNEJ DOCELOWEJ (CENY DOMÓW):")
print("=" * 50)

plt.figure(figsize=(12, 4))

# Histogram
plt.subplot(1, 2, 1)
sns.histplot(df['MedHouseVal'], kde=True, bins=50)
plt.title("Rozkład cen domów")
plt.xlabel("Mediana wartości domów ($100k)")
plt.ylabel("Liczba obserwacji")

# Boxplot
plt.subplot(1, 2, 2)
sns.boxplot(y=df['MedHouseVal'])
plt.title("Rozkład cen - wykres pudełkowy")
plt.ylabel("Mediana wartości domów ($100k)")

plt.tight_layout()
plt.show()

# Sprawdzenie wartości maksymalnych
max_value = df['MedHouseVal'].max()
max_count = (df['MedHouseVal'] == max_value).sum()
print(f"\n🔍 Analiza wartości maksymalnych:")
print(f"Maksymalna wartość: ${max_value} * 100k = ${max_value * 100000}")
print(f"Liczba obserwacji z maksymalną wartością: {max_count}")
if max_count > 100:
    print("⚠️ Możliwe, że dane są 'ucapowane' (ograniczone od góry)")

In [None]:
# 📈 Analiza zależności między kluczowymi zmiennymi
print("📈 ZALEŻNOŚCI MIĘDZY ZMIENNYMI:")
print("=" * 50)

# Wybieramy najciekawsze zmienne do analizy
key_vars = ['MedHouseVal', 'MedInc', 'AveRooms', 'HouseAge', 'Population']

plt.figure(figsize=(12, 10))
sns.pairplot(df[key_vars], diag_kind='hist', plot_kws={'alpha': 0.6})
plt.suptitle('Zależności między kluczowymi zmiennymi', y=1.02)
plt.show()

print("💡 Na co zwrócić uwagę:")
print("- Czy widać liniowe zależności?")
print("- Które zmienne wydają się najsilniej skorelowane z ceną?")
print("- Czy są wartości odstające?")

In [None]:
# 🔥 Mapa korelacji
print("🔥 ANALIZA KORELACJI:")
print("=" * 50)

plt.figure(figsize=(10, 8))
correlation_matrix = df.corr()
sns.heatmap(correlation_matrix, 
           annot=True, 
           cmap='RdBu_r', 
           center=0,
           square=True,
           linewidths=0.5,
           cbar_kws={"shrink": .8})
plt.title('Mapa korelacji - California Housing Dataset')
plt.tight_layout()
plt.show()

# Analiza korelacji z zmienną docelową
print("\n📈 KORELACJE Z CENĄ DOMÓW:")
target_corr = correlation_matrix['MedHouseVal'].drop('MedHouseVal').abs().sort_values(ascending=False)
for var, corr in target_corr.items():
    strength = "Silna" if corr > 0.6 else "Umiarkowana" if corr > 0.3 else "Słaba"
    print(f"{var:12s}: {corr:+.3f} ({strength})")

print(f"\n🏆 Najsilniejszy predyktor: {target_corr.index[0]} (r={target_corr.iloc[0]:.3f})")

In [None]:
# 🧹 Czyszczenie danych (opcjonalnie)
print("🧹 CZYSZCZENIE DANYCH:")
print("=" * 40)

max_value = df['MedHouseVal'].max()
capped_count = (df['MedHouseVal'] == max_value).sum()

print(f"Obserwacje z maksymalną wartością ({max_value}): {capped_count}")
print(f"Procent obserwacji: {(capped_count/len(df)*100):.1f}%")

if capped_count > 100:  # Jeśli więcej niż 100 obserwacji ma maksymalną wartość
    print(f"\n📊 Rozważamy usunięcie {capped_count} obserwacji z 'ucapowanymi' wartościami")
    print("(Te wartości mogą być artefaktem sposobu zbierania danych)")
    
    # Dla tego tutoriala zachowujemy wszystkie dane
    print("🔧 Dla celów edukacyjnych zachowujemy wszystkie dane")
else:
    print("\n✅ Brak potrzeby usuwania danych")

# Wizualizacja głównej zależności
plt.figure(figsize=(10, 6))
plt.scatter(df['MedInc'], df['MedHouseVal'], alpha=0.5, s=20)
plt.xlabel("Median Income (in $10k)")
plt.ylabel("Median House Value (in $100k)")
plt.title("Zależność między dochodem a ceną domów")
plt.grid(True, alpha=0.3)
plt.show()

print("\n💡 Obserwacja: Wyraźna pozytywna korelacja między dochodem a ceną!")

## **Przygotowanie Danych do Modelowania**

Przed rozpoczęciem modelowania musimy:

1. **Podzielić dane** na cechy (X) i zmienną docelową (y)
2. **Rozdzielić zbiór** na treningowy i testowy
3. **Przeanalizować skale** cech (ważne dla regularyzacji)
4. **Przygotować pipeline** z preprocessingiem

### **Dlaczego podział train/test jest ważny?**

- **Zapobiega overfitting**: Model uczy się tylko na danych treningowych
- **Ocena generalizacji**: Testujemy na "niewidzianych" danych
- **Uczciwa ewaluacja**: Symuluje rzeczywiste warunki użycia modelu

In [None]:
# =====================================
# PRZYGOTOWANIE DANYCH DO MODELOWANIA
# =====================================

print("🔧 PRZYGOTOWANIE DANYCH DO MODELOWANIA:")
print("=" * 50)

# Podział na cechy (X) i zmienną docelową (y)
X = df.drop('MedHouseVal', axis=1)
y = df['MedHouseVal']

print(f"Kształt macierzy cech (X): {X.shape}")
print(f"Kształt wektora etykiet (y): {y.shape}")
print(f"\nCechy w modelu: {list(X.columns)}")

# Podział na zbiory treningowy i testowy
X_train, X_test, y_train, y_test = train_test_split(
    X, y, 
    test_size=0.2,    # 20% danych na test
    random_state=42   # Dla powtarzalności wyników
)

print(f"\n📊 PODZIAŁ DANYCH:")
print(f"Zbiór treningowy: {X_train.shape[0]} obserwacji ({X_train.shape[0]/len(X)*100:.0f}%)")
print(f"Zbiór testowy:    {X_test.shape[0]} obserwacji ({X_test.shape[0]/len(X)*100:.0f}%)")
print("✅ Podział zachowuje proporcje!")

In [None]:
# 🔍 Analiza skal cech
print("🔍 ANALIZA SKAL CECH:")
print("=" * 40)

# Statystyki skal
scaling_analysis = pd.DataFrame({
    'Cecha': X_train.columns,
    'Średnia': X_train.mean(),
    'Odch. std.': X_train.std(),
    'Minimum': X_train.min(),
    'Maksimum': X_train.max(),
    'Zakres': X_train.max() - X_train.min()
}).round(2)

display(scaling_analysis)

print("\n💡 PROBLEM:")
print("- MedInc: skala 0-15 (dochody w dziesiątkach tysięcy)")
print("- Population: skala 3-35k (liczba mieszkańców)")
print("- AveRooms: skala 0-140 (pokoje na dom)")
print("\n⚠️ Różne skale mogą zdominować model!")
print("🔧 Rozwiązanie: Skalowanie (StandardScaler)")

## **Pierwszy Model - Regresja Liniowa bez Preprocessingu**

Zacznijmy od prostego modelu bez skalowania, żeby zobaczyć bazowe wyniki, a następnie porównamy je z modelem ze skalowaniem.

In [None]:
# =====================================
# PIERWSZY MODEL - BASIC LINEAR REGRESSION
# =====================================

print("🚀 PIERWSZY MODEL - REGRESJA LINIOWA (BEZ PREPROCESSINGU):")
print("=" * 60)
print("🎯 Cel: Uzyskanie wyników bazowych do porównania")

# Tworzenie i trenowanie modelu
lin_reg_basic = LinearRegression()
lin_reg_basic.fit(X_train, y_train)

# Predykcje
y_pred_basic = lin_reg_basic.predict(X_test)

# Obliczenie metryk
mse_basic = mean_squared_error(y_test, y_pred_basic)
rmse_basic = np.sqrt(mse_basic)
r2_basic = r2_score(y_test, y_pred_basic)
mae_basic = mean_absolute_error(y_test, y_pred_basic)

print("📊 WYNIKI MODELU BAZOWEGO:")
print(f"MSE:  {mse_basic:.4f}")
print(f"RMSE: ${rmse_basic*100:.0f}k (średni błąd predykcji)")
print(f"R²:   {r2_basic:.4f} ({r2_basic*100:.1f}% wyjaśnionej zmienności)")
print(f"MAE:  ${mae_basic*100:.0f}k (średni błąd bezwzględny)")

print(f"\n💡 INTERPRETACJA:")
print(f"Model wyjaśnia {r2_basic*100:.1f}% zmienności cen domów")
print(f"Średni błąd predykcji: ±${rmse_basic*100:.0f}k")

In [None]:
# 📊 Wizualizacja wyników
print("📊 WIZUALIZACJA WYNIKÓW:")
print("=" * 50)

plt.figure(figsize=(12, 5))

# Predykcje vs rzeczywiste wartości
plt.subplot(1, 2, 1)
plt.scatter(y_test, y_pred_basic, alpha=0.6, s=30)
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'r--', lw=2)
plt.xlabel('Rzeczywiste ceny')
plt.ylabel('Przewidywane ceny')
plt.title('Predykcje vs Rzeczywiste wartości')
plt.grid(True, alpha=0.3)

# Histogram reszt
plt.subplot(1, 2, 2)
residuals = y_test - y_pred_basic
plt.hist(residuals, bins=30, alpha=0.7, edgecolor='black')
plt.xlabel('Reszty (błędy predykcji)')
plt.ylabel('Liczba obserwacji')
plt.title('Rozkład reszt')
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print("💡 Obserwacje z wykresów:")
print("- Punkty blisko linii y=x oznaczają dobre predykcje")
print("- Reszty powinny być normalnie rozłożone wokół zera")

In [None]:
# 🔍 Analiza współczynników
print("🔍 ANALIZA WSPÓŁCZYNNIKÓW REGRESJI:")
print("=" * 50)

# Tworzenie DataFrame z współczynnikami
coef_df = pd.DataFrame({
    'Cecha': X.columns,
    'Współczynnik': lin_reg_basic.coef_,
    'Wartość_bezwzględna': np.abs(lin_reg_basic.coef_)
})

# Sortowanie według wartości bezwzględnej
coef_df = coef_df.sort_values('Wartość_bezwzględna', ascending=False)

print("📊 RANKING WAŻNOŚCI CECH:")
display(coef_df.round(4))

print(f"\n🏠 WYRAZ WOLNY (Intercept): {lin_reg_basic.intercept_:.4f}")

print("\n💡 INTERPRETACJA WSPÓŁCZYNNIKÓW:")
print("- Dodatni współczynnik = wzrost cechy zwiększa cenę")
print("- Ujemny współczynnik = wzrost cechy zmniejsza cenę")
print("- Większa wartość bezwzględna = silniejszy wpływ")
print("\n⚠️ UWAGA: Współczynniki zależą od skali cech!")

## **Model z Preprocessingiem - Skalowanie Danych**

Teraz stworzymy model z odpowiednim skalowaniem danych. Wykorzystamy **Pipeline** - potężne narzędzie scikit-learn, które:

1. **Automatyzuje** preprocessing i modelowanie
2. **Zapobiega data leakage** (preprocessor uczony tylko na train)
3. **Upraszcza kod** i zwiększa czytelność
4. **Ułatwia wdrożenie** modelu w produkcji



**Popularne metody skalowania:**

1. **StandardScaler (standaryzacja)**  
   - Przekształca dane tak, by miały średnią 0 i odchylenie standardowe 1.  
   - Wzór dla każdej cechy:  
     $$ x_{scaled} = \frac{x - \bar{x}}{\sigma} $$
   
2. **MinMaxScaler**  
   - Przekształca dane do przedziału [0,1].  
   - Wzór:  
     $$ x_{scaled} = \frac{x - x_{min}}{x_{max} - x_{min}} $$

### **Wpływ skalowania na modele**

**Algorytmy wrażliwe na skalę:**

✅ Regresja z regularyzacją (Ridge, Lasso)  
✅ SVM, KNN, K-means  
✅ Sieci neuronowe  
✅ PCA, LDA  

**Algorytmy odporne na skalę:**

❌ Drzewa decyzyjne  
❌ Random Forest  
❌ Naive Bayes  

### **Zadanie **

Zastanów się: dlaczego regularyzacja (Ridge/Lasso) jest wrażliwa na skalę cech? 
Wskazówka: przypomnij sobie wzory na kary L1 i L2!

![](https://kharshit.github.io/img/scaling.png)

In [None]:
# =====================================
# MODEL Z PREPROCESSINGIEM - PIPELINE
# =====================================

print("🔧 TWORZENIE MODELU Z PREPROCESSINGIEM:")
print("=" * 50)
print("🎯 Pipeline: Skalowanie + Regresja Liniowa")

# Tworzenie pipeline
lin_pipeline = Pipeline([
    ('scaler', StandardScaler()),      # Krok 1: Skalowanie
    ('linear_reg', LinearRegression()) # Krok 2: Regresja
])

print("✅ Pipeline utworzony!")
print("\n📊 Kroki w pipeline:")
print("1. 'scaler': StandardScaler (mean=0, std=1)")
print("2. 'linear_reg': LinearRegression")

# Trenowanie pipeline
print("\n🏃‍♂️ Trenowanie modelu...")
lin_pipeline.fit(X_train, y_train)

# Predykcje
y_pred_scaled = lin_pipeline.predict(X_test)

# Metryki
mse_scaled = mean_squared_error(y_test, y_pred_scaled)
rmse_scaled = np.sqrt(mse_scaled)
r2_scaled = r2_score(y_test, y_pred_scaled)
mae_scaled = mean_absolute_error(y_test, y_pred_scaled)

print("📊 WYNIKI MODELU Z SKALOWANIEM:")
print(f"MSE:  {mse_scaled:.4f}")
print(f"RMSE: ${rmse_scaled*100:.0f}k")
print(f"R²:   {r2_scaled:.4f} ({r2_scaled*100:.1f}%)")
print(f"MAE:  ${mae_scaled*100:.0f}k")

print(f"\n🔍 PORÓWNANIE Z MODELEM BAZOWYM:")
print(f"R² improvement: {r2_scaled - r2_basic:+.4f}")
print(f"RMSE change: ${(rmse_scaled - rmse_basic)*100:+.0f}k")

In [None]:
# 📊 Porównanie modeli
print("📊 PORÓWNANIE MODELI:")
print("=" * 50)

comparison_df = pd.DataFrame({
    'Metric': ['R²', 'RMSE ($k)', 'MAE ($k)'],
    'Bez skalowania': [r2_basic, rmse_basic*100, mae_basic*100],
    'Ze skalowaniem': [r2_scaled, rmse_scaled*100, mae_scaled*100]
}).round(3)

display(comparison_df)

# Wizualizacja porównania
plt.figure(figsize=(10, 6))
metrics = ['R²', 'RMSE', 'MAE']
basic_values = [r2_basic, rmse_basic, mae_basic]
scaled_values = [r2_scaled, rmse_scaled, mae_scaled]

x = np.arange(len(metrics))
width = 0.35

plt.bar(x - width/2, basic_values, width, label='Bez skalowania', alpha=0.8)
plt.bar(x + width/2, scaled_values, width, label='Ze skalowaniem', alpha=0.8)

plt.xlabel('Metryki')
plt.ylabel('Wartość')
plt.title('Porównanie modeli: z skalowaniem vs bez skalowania')
plt.xticks(x, metrics)
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

print("💡 WNIOSEK:")
if abs(r2_scaled - r2_basic) < 0.001:
    print("Skalowanie nie wpłynęło znacząco na Linear Regression")
    print("(To normalne - Linear Regression jest mało wrażliwa na skalę)")
    print("🔧 Skalowanie będzie ważne dla regularyzacji!")
else:
    print(f"Skalowanie {'poprawiło' if r2_scaled > r2_basic else 'pogorszyło'} wyniki")

## **Regularyzacja - Ridge i Lasso Regression**

Teraz przetestujemy modele z regularyzacją. Regularyzacja jest szczególnie przydatna gdy:

1. **Mamy wiele cech** (zapobiega overfitting)
2. **Cechy są skorelowane** (Ridge stabilizuje współczynniki)
3. **Podejrzewamy nieistotne cechy** (Lasso może je wyeliminować)
4. **Chcemy prostszy model** (Lasso redukuje liczbę cech)

### **Parametr α (alpha):**
- **α = 0**: Zwykła regresja liniowa
- **α → ∞**: Wszystkie współczynniki → 0
- **Optymalne α**: Znajdziemy przez cross-validation

In [None]:
# =====================================
# REGULARYZACJA - RIDGE I LASSO
# =====================================

print("⚖️ REGULARYZACJA - RIDGE I LASSO REGRESSION:")
print("=" * 60)
print("🎯 Cel: Porównanie różnych wartości alpha")

# Różne wartości alpha do przetestowania
alphas = [0.01, 0.1, 1, 10, 100]

print(f"🔧 Testowane wartości alpha: {alphas}")
print("📊 Dla każdego alpha trenujemy Ridge i Lasso")

# Przechowywanie wyników
results = []

for alpha in alphas:
    print(f"\n🔄 Testowanie alpha = {alpha}...")
    
    # Ridge Pipeline
    ridge_pipeline = Pipeline([
        ('scaler', StandardScaler()),
        ('ridge', Ridge(alpha=alpha))
    ])
    ridge_pipeline.fit(X_train, y_train)
    y_pred_ridge = ridge_pipeline.predict(X_test)
    
    # Lasso Pipeline
    lasso_pipeline = Pipeline([
        ('scaler', StandardScaler()),
        ('lasso', Lasso(alpha=alpha, max_iter=10000))
    ])
    lasso_pipeline.fit(X_train, y_train)
    y_pred_lasso = lasso_pipeline.predict(X_test)
    
    # Metryki
    ridge_r2 = r2_score(y_test, y_pred_ridge)
    lasso_r2 = r2_score(y_test, y_pred_lasso)
    ridge_rmse = np.sqrt(mean_squared_error(y_test, y_pred_ridge))
    lasso_rmse = np.sqrt(mean_squared_error(y_test, y_pred_lasso))
    
    results.append({
        'alpha': alpha,
        'Ridge_R2': ridge_r2,
        'Lasso_R2': lasso_r2,
        'Ridge_RMSE': ridge_rmse,
        'Lasso_RMSE': lasso_rmse
    })

print("✅ Testowanie zakończone!")

In [None]:
# 📊 Analiza wyników regularyzacji
print("📊 WYNIKI REGULARYZACJI:")
print("=" * 50)

results_df = pd.DataFrame(results)
display(results_df.round(4))

# Znajdź najlepsze alpha
best_ridge_alpha = results_df.loc[results_df['Ridge_R2'].idxmax(), 'alpha']
best_lasso_alpha = results_df.loc[results_df['Lasso_R2'].idxmax(), 'alpha']

print(f"\n🏆 NAJLEPSZE WYNIKI:")
print(f"Ridge - najlepsze α: {best_ridge_alpha} (R² = {results_df['Ridge_R2'].max():.4f})")
print(f"Lasso - najlepsze α: {best_lasso_alpha} (R² = {results_df['Lasso_R2'].max():.4f})")
print(f"Linear - R²: {r2_scaled:.4f}")

# Porównanie z modelem liniowym
best_ridge_r2 = results_df['Ridge_R2'].max()
best_lasso_r2 = results_df['Lasso_R2'].max()

print(f"\n📈 PORÓWNANIE Z LINEAR REGRESSION:")
print(f"Ridge improvement: {best_ridge_r2 - r2_scaled:+.4f}")
print(f"Lasso improvement: {best_lasso_r2 - r2_scaled:+.4f}")

In [None]:
# 📈 Wizualizacja wpływu alpha
print("📈 WIZUALIZACJA WPŁYWU ALPHA:")
print("=" * 50)

plt.figure(figsize=(12, 5))

# R² vs alpha
plt.subplot(1, 2, 1)
plt.semilogx(alphas, results_df['Ridge_R2'], 'o-', label='Ridge', linewidth=2, markersize=8)
plt.semilogx(alphas, results_df['Lasso_R2'], 's-', label='Lasso', linewidth=2, markersize=8)
plt.axhline(y=r2_scaled, color='red', linestyle='--', alpha=0.7, label='Linear Reg')
plt.xlabel('Alpha (log scale)')
plt.ylabel('R² Score')
plt.title('R² vs Alpha')
plt.legend()
plt.grid(True, alpha=0.3)

# RMSE vs alpha
plt.subplot(1, 2, 2)
plt.semilogx(alphas, results_df['Ridge_RMSE'], 'o-', label='Ridge', linewidth=2, markersize=8)
plt.semilogx(alphas, results_df['Lasso_RMSE'], 's-', label='Lasso', linewidth=2, markersize=8)
plt.axhline(y=rmse_scaled, color='red', linestyle='--', alpha=0.7, label='Linear Reg')
plt.xlabel('Alpha (log scale)')
plt.ylabel('RMSE')
plt.title('RMSE vs Alpha')
plt.legend()
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print("💡 INTERPRETACJA WYKRESÓW:")
print("1. Małe alpha → bliskie regresji liniowej")
print("2. Duże alpha → więcej regularyzacji")
print("3. Optimum to kompromis między underfitting a overfitting")
print("4. Ridge i Lasso mogą mieć różne optymalne alpha")

In [None]:
# 🔍 Analiza współczynników z regularyzacją
print("🔍 ANALIZA WSPÓŁCZYNNIKÓW Z REGULARYZACJĄ:")
print("=" * 60)
print("🎯 Porównanie jak regularyzacja wpływa na współczynniki")

# Trenujemy modele z najlepszymi alpha
ridge_final = Pipeline([
    ('scaler', StandardScaler()),
    ('ridge', Ridge(alpha=best_ridge_alpha))
])

lasso_final = Pipeline([
    ('scaler', StandardScaler()),
    ('lasso', Lasso(alpha=best_lasso_alpha, max_iter=10000))
])

ridge_final.fit(X_train, y_train)
lasso_final.fit(X_train, y_train)

# Porównanie współczynników
coef_comparison = pd.DataFrame({
    'Feature': X.columns,
    'Linear': lin_pipeline.named_steps['linear_reg'].coef_,
    'Ridge': ridge_final.named_steps['ridge'].coef_,
    'Lasso': lasso_final.named_steps['lasso'].coef_,
    'Lasso_Zero': np.abs(lasso_final.named_steps['lasso'].coef_) < 1e-6
})

print("📊 WSPÓŁCZYNNIKI WSZYSTKICH MODELI:")
display(coef_comparison.round(4))

# Analiza selekcji cech przez Lasso
zero_coefs = coef_comparison['Lasso_Zero'].sum()
total_coefs = len(coef_comparison)

print(f"\n🗑️ SELEKCJA CECH (LASSO α={best_lasso_alpha}):")
print(f"Współczynniki wyzerowane: {zero_coefs}/{total_coefs} ({zero_coefs/total_coefs*100:.0f}%)")

if zero_coefs > 0:
    removed_features = coef_comparison[coef_comparison['Lasso_Zero']]['Feature'].tolist()
    print("\n📋 CECHY USUNIĘTE PRZEZ LASSO:")
    for feature in removed_features:
        print(f"  - {feature}")
    
    remaining_features = coef_comparison[~coef_comparison['Lasso_Zero']]['Feature'].tolist()
    print("\n✅ CECHY ZACHOWANE PRZEZ LASSO:")
    for feature in remaining_features:
        coef_val = coef_comparison[coef_comparison['Feature'] == feature]['Lasso'].iloc[0]
        print(f"  - {feature}: {coef_val:.4f}")
else:
    print("✅ LASSO zachował wszystkie cechy (alpha może być za małe)")

In [None]:
# 📊 Wizualizacja współczynników
print("📊 WIZUALIZACJA WSPÓŁCZYNNIKÓW:")
print("=" * 50)

fig, axes = plt.subplots(2, 2, figsize=(15, 10))

# 1. Porównanie współczynników
ax1 = axes[0, 0]
x_pos = np.arange(len(X.columns))
width = 0.25

ax1.bar(x_pos - width, coef_comparison['Linear'], width, label='Linear', alpha=0.8)
ax1.bar(x_pos, coef_comparison['Ridge'], width, label='Ridge', alpha=0.8)
ax1.bar(x_pos + width, coef_comparison['Lasso'], width, label='Lasso', alpha=0.8)

ax1.set_xlabel('Cechy')
ax1.set_ylabel('Wartość współczynnika')
ax1.set_title('Porównanie współczynników')
ax1.set_xticks(x_pos)
ax1.set_xticklabels(X.columns, rotation=45, ha='right')
ax1.legend()
ax1.grid(True, alpha=0.3)

# 2. Wartości bezwzględne
ax2 = axes[0, 1]
ax2.bar(x_pos - width, np.abs(coef_comparison['Linear']), width, label='Linear', alpha=0.8)
ax2.bar(x_pos, np.abs(coef_comparison['Ridge']), width, label='Ridge', alpha=0.8)
ax2.bar(x_pos + width, np.abs(coef_comparison['Lasso']), width, label='Lasso', alpha=0.8)

ax2.set_xlabel('Cechy')
ax2.set_ylabel('|Współczynnik|')
ax2.set_title('Wartości bezwzględne współczynników')
ax2.set_xticks(x_pos)
ax2.set_xticklabels(X.columns, rotation=45, ha='right')
ax2.legend()
ax2.grid(True, alpha=0.3)

# 3. Ridge vs Lasso scatter
ax3 = axes[1, 0]
ax3.scatter(coef_comparison['Ridge'], coef_comparison['Lasso'], alpha=0.7, s=80)
for i, feature in enumerate(X.columns):
    ax3.annotate(feature, 
                (coef_comparison['Ridge'].iloc[i], coef_comparison['Lasso'].iloc[i]),
                xytext=(5, 5), textcoords='offset points', fontsize=8)

# Linia x=y
min_val = min(coef_comparison['Ridge'].min(), coef_comparison['Lasso'].min())
max_val = max(coef_comparison['Ridge'].max(), coef_comparison['Lasso'].max())
ax3.plot([min_val, max_val], [min_val, max_val], 'r--', alpha=0.5)

ax3.set_xlabel('Ridge współczynniki')
ax3.set_ylabel('Lasso współczynniki')
ax3.set_title('Ridge vs Lasso')
ax3.grid(True, alpha=0.3)

# 4. Porównanie metryk
ax4 = axes[1, 1]
models = ['Linear', 'Ridge\n(α=' + str(best_ridge_alpha) + ')', 'Lasso\n(α=' + str(best_lasso_alpha) + ')']
r2_scores = [r2_scaled, best_ridge_r2, best_lasso_r2]

bars = ax4.bar(models, r2_scores, color=['skyblue', 'lightgreen', 'lightcoral'], alpha=0.8)
ax4.set_ylabel('R² Score')
ax4.set_title('Porównanie jakości modeli')
ax4.set_ylim(0, 1)

# Dodanie wartości na słupkach
for bar, score in zip(bars, r2_scores):
    height = bar.get_height()
    ax4.text(bar.get_x() + bar.get_width()/2., height + 0.01,
             f'{score:.4f}', ha='center', va='bottom', fontweight='bold')

ax4.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print("💡 WNIOSKI Z WIZUALIZACJI:")
print("1. Ridge zmniejsza wszystkie współczynniki proporcjonalnie")
print("2. Lasso może eliminować cechy (zerowe współczynniki)")
print("3. Regularyzacja stabilizuje model i zapobiega overfittingu")
print("4. Wybór między Ridge/Lasso zależy od problemu i danych")

## **Zadania Praktyczne - Samodzielna Praca**

### **Zadanie 1: Eksperyment z cechami geograficznymi**
California Housing zawiera współrzędne geograficzne (Latitude, Longitude). Sprawdź:
1. Jak usunięcie lub dodanie tych cech wpływa na model?
2. Czy można stworzyć nową cechę "distance from center" (np. odległość od San Francisco)?
3. Porównaj wyniki z obecnym modelem

### **Zadanie 2: Analiza reszt (residuals)**
Dla najlepszego modelu:
1. Oblicz reszty: `residuals = y_true - y_pred`
2. Sprawdź czy reszty mają rozkład normalny (histogram + QQ-plot)
3. Narysuj reszty vs przewidywane wartości
4. Zidentyfikuj outliers - które domy są najgorzej przewidziane?

### **Zadanie 3: Feature Engineering**
Stwórz nowe cechy:
1. **Rooms per household**: `AveRooms / AveOccup`
2. **Income per room**: `MedInc / AveRooms`  
3. **Population density**: `Population / (HouseAge + 1)`
4. Przetestuj czy nowe cechy poprawiają R²

### **Zadanie 4: Cross-Validation i Grid Search**
```python
from sklearn.model_selection import GridSearchCV

# Znajdź optymalne alpha używając Grid Search
param_grid = {'lasso__alpha': [0.001, 0.01, 0.1, 1, 10]}
grid_search = GridSearchCV(lasso_pipeline, param_grid, cv=5, scoring='r2')
grid_search.fit(X_train, y_train)
```

### **Zadanie 5: Model Interpretability**
1. Ranking cech - które są najważniejsze dla przewidywania ceny?
2. Analiza business impact - co oznaczają współczynniki w praktyce?
3. Jak zmiana każdej cechy o 1 jednostkę wpływa na cenę domu?

## **Podsumowanie i Najlepsze Praktyki**

### **🏆 Co osiągnęliśmy:**

1. **📊 Eksploracja danych**: Poznaliśmy California Housing dataset
2. **🔧 Preprocessing**: Nauczyliśmy się skalowania i pipeline'ów
3. **📈 Modelowanie**: Zaimplementowaliśmy Linear, Ridge, i Lasso regression
4. **⚖️ Regularyzacja**: Zrozumieliśmy wpływ parametru alpha
5. **🔍 Interpretacja**: Przeanalizowaliśmy współczynniki i ich znaczenie



### **💡 Kluczowe wnioski:**

**O California Housing:**
- **MedInc** (dochód) to najsilniejszy predyktor ceny
- Model wyjaśnia ~60% zmienności cen domów
- Regularyzacja nie poprawiła znacząco wyników (dane są już dobrze przygotowane)

**O regresji liniowej:**
- ✅ Prosta i interpretowalana
- ✅ Dobra jako model bazowy  
- ⚠️ Zakłada liniowe zależności
- ⚠️ Wymaga odpowiedniego preprocessingu

**O regularyzacji:**
- **Ridge**: Stabilizuje współczynniki, dobry dla skorelowanych cech
- **Lasso**: Automatyczna selekcja cech, tworzy rzadkie modele
- **Alpha**: Kontroluje siłę regularyzacji (większe = więcej ograniczeń)

### **🔧 Najlepsze praktyki:**

1. **Zawsze skaluj dane** przy regularyzacji
2. **Używaj Pipeline** dla czystego kodu
3. **Dziel dane** na train/test przed preprocessingiem
4. **Waliduj cross-validation** dla lepszej oceny
5. **Interpretuj współczynniki** w kontekście biznesowym
6. **Sprawdzaj założenia** regresji liniowej

### **🚀 Co dalej:**

1. **Polynomial Features** - nieliniowe zależności
2. **Ensemble Methods** - Random Forest, Gradient Boosting
3. **Feature Selection** - automatyczna selekcja cech
4. **Hyperparameter Tuning** - Grid Search, Random Search
5. **Advanced Validation** - nested CV, time series splits

---

**💡 Pamiętaj**: 
> "All models are wrong, but some are useful" - George Box

Regresja liniowa może nie być idealna, ale jest **użyteczna**, **interpretowalana** i stanowi **solidną podstawę** do nauki bardziej zaawansowanych technik ML.



## **📚 Dalsze Materiały i Zasoby**

### **🔗 Przydatne linki:**

**Dokumentacja:**
- [Scikit-learn Linear Models](https://scikit-learn.org/stable/modules/linear_model.html)
- [Pandas Documentation](https://pandas.pydata.org/docs/)
- [Matplotlib Tutorials](https://matplotlib.org/stable/tutorials/index.html)

**Kursy online:**
- [Andrew Ng - Machine Learning Course](https://www.coursera.org/learn/machine-learning)
- [Fast.ai - Practical Deep Learning](https://www.fast.ai/)
- [Elements of Statistical Learning (książka)](https://hastie.su.domains/ElemStatLearn/)

**Praktyczne zasoby:**
- [Kaggle Learn](https://www.kaggle.com/learn) - darmowe kursy ML
- [Google Colab](https://colab.research.google.com/) - darmowe GPU do eksperymentów
- [Papers with Code](https://paperswithcode.com/) - najnowsze badania

### **📈 Datasety do ćwiczeń:**

1. **Boston Housing** - klasyczny dataset regresji
2. **Wine Quality** - regression + classification  
3. **Bike Sharing** - analiza szeregów czasowych
4. **Student Performance** - edukacyjny dataset
5. **Real Estate** - ceny nieruchomości

### **🔧 Narzędzia do zaawansowanej analizy:**

- **Seaborn** - zaawansowane wizualizacje
- **Plotly** - interaktywne wykresy
- **SHAP** - interpretowalny ML
- **MLflow** - tracking eksperymentów  
- **Streamlit** - szybkie web apps

---

**🚀 Powodzenia w dalszej nauce Machine Learning!**

Pamiętaj: najlepszy sposób nauki to praktyka. Eksperymentuj z różnymi algorytmami, dataset'ami i podejściami. Każdy projekt uczy czegoś nowego!

**Happy Coding! 🐍💻**