# **Regularized Regression Methods**  
### *Metody regresji z regularyzacją*

---

## **English**

Regularized regression methods add penalty terms to the standard linear regression cost function to prevent overfitting and improve generalization. These techniques are essential when dealing with high-dimensional data, multicollinearity, or when feature selection is needed.

### **Key Concepts**

1. **Regularization**: Adding penalty terms to control model complexity
2. **Bias-Variance Tradeoff**: Regularization increases bias but reduces variance
3. **Feature Selection**: Some methods can automatically select relevant features
4. **Hyperparameter Tuning**: Regularization strength needs to be optimized

### **Mathematical Foundation**

#### **Standard Linear Regression Cost Function**
$$
J(\theta) = \frac{1}{2m} \sum_{i=1}^{m} (h_\theta(x^{(i)}) - y^{(i)})^2
$$

#### **Ridge Regression (L2 Regularization)**
$$
J(\theta) = \frac{1}{2m} \sum_{i=1}^{m} (h_\theta(x^{(i)}) - y^{(i)})^2 + \alpha \sum_{j=1}^{n} \theta_j^2
$$

#### **Lasso Regression (L1 Regularization)**
$$
J(\theta) = \frac{1}{2m} \sum_{i=1}^{m} (h_\theta(x^{(i)}) - y^{(i)})^2 + \alpha \sum_{j=1}^{n} |\theta_j|
$$

#### **Elastic Net Regression (L1 + L2)**
$$
J(\theta) = \frac{1}{2m} \sum_{i=1}^{m} (h_\theta(x^{(i)}) - y^{(i)})^2 + \alpha \rho \sum_{j=1}^{n} |\theta_j| + \frac{\alpha(1-\rho)}{2} \sum_{j=1}^{n} \theta_j^2
$$

### **Comparison of Methods**

| Method | Penalty | Feature Selection | Multicollinearity | Use Case |
|--------|---------|-------------------|-------------------|----------|
| **Ridge** | L2 (squared) | No | Handles well | Many correlated features |
| **Lasso** | L1 (absolute) | Yes | Picks one from group | Sparse solutions needed |
| **Elastic Net** | L1 + L2 | Yes | Handles well | Best of both worlds |
| **SGD** | Any | Depends | Depends | Large datasets |

### **Advantages and Disadvantages**

#### **Ridge Regression**
- ✅ Handles multicollinearity well
- ✅ Stable solution
- ❌ Doesn't perform feature selection
- ❌ All features remain in model

#### **Lasso Regression**
- ✅ Automatic feature selection
- ✅ Sparse solutions
- ❌ Can be unstable with correlated features
- ❌ Arbitrary selection among correlated features

#### **Elastic Net**
- ✅ Combines benefits of Ridge and Lasso
- ✅ Handles correlated features better than Lasso
- ✅ Feature selection capability
- ❌ Additional hyperparameter to tune

#### **SGD Regressor**
- ✅ Scales to large datasets
- ✅ Memory efficient
- ✅ Supports different penalties
- ❌ Requires feature scaling
- ❌ Sensitive to hyperparameters

---

## **Polish**

Metody regresji z regularyzacją dodają składniki kary do standardowej funkcji kosztu regresji liniowej, aby zapobiec przeuczeniu i poprawić generalizację. Te techniki są niezbędne przy pracy z danymi wysokowymiarowymi, wielokoliniowością lub gdy potrzebna jest selekcja cech.

### **Kluczowe pojęcia**

1. **Regularyzacja**: Dodawanie składników kary do kontroli złożoności modelu
2. **Kompromis bias-wariancja**: Regularyzacja zwiększa bias, ale zmniejsza wariancję
3. **Selekcja cech**: Niektóre metody mogą automatycznie wybierać istotne cechy
4. **Tuning hiperparametrów**: Siła regularyzacji wymaga optymalizacji

### **Podstawy matematyczne**

#### **Standardowa funkcja kosztu regresji liniowej**
$$
J(\theta) = \frac{1}{2m} \sum_{i=1}^{m} (h_\theta(x^{(i)}) - y^{(i)})^2
$$

#### **Regresja Ridge (regularyzacja L2)**
$$
J(\theta) = \frac{1}{2m} \sum_{i=1}^{m} (h_\theta(x^{(i)}) - y^{(i)})^2 + \alpha \sum_{j=1}^{n} \theta_j^2
$$

#### **Regresja Lasso (regularyzacja L1)**
$$
J(\theta) = \frac{1}{2m} \sum_{i=1}^{m} (h_\theta(x^{(i)}) - y^{(i)})^2 + \alpha \sum_{j=1}^{n} |\theta_j|
$$

#### **Regresja Elastic Net (L1 + L2)**
$$
J(\theta) = \frac{1}{2m} \sum_{i=1}^{m} (h_\theta(x^{(i)}) - y^{(i)})^2 + \alpha \rho \sum_{j=1}^{n} |\theta_j| + \frac{\alpha(1-\rho)}{2} \sum_{j=1}^{n} \theta_j^2
$$

### **Porównanie metod**

| Metoda | Kara | Selekcja cech | Wielokoliniowość | Przypadek użycia |
|--------|------|---------------|------------------|------------------|
| **Ridge** | L2 (kwadratowa) | Nie | Dobrze radzi | Wiele skorelowanych cech |
| **Lasso** | L1 (bezwzględna) | Tak | Wybiera jedną z grupy | Potrzebne rzadkie rozwiązania |
| **Elastic Net** | L1 + L2 | Tak | Dobrze radzi | Najlepsze z obu światów |
| **SGD** | Dowolna | Zależy | Zależy | Duże zbiory danych |

### **Zalety i wady**

#### **Regresja Ridge**
- ✅ Dobrze radzi z wielokoliniowością
- ✅ Stabilne rozwiązanie
- ❌ Nie wykonuje selekcji cech
- ❌ Wszystkie cechy pozostają w modelu

#### **Regresja Lasso**
- ✅ Automatyczna selekcja cech
- ✅ Rzadkie rozwiązania
- ❌ Może być niestabilna ze skorelowanymi cechami
- ❌ Arbitralny wybór spośród skorelowanych cech

#### **Elastic Net**
- ✅ Łączy zalety Ridge i Lasso
- ✅ Lepiej radzi ze skorelowanymi cechami niż Lasso
- ✅ Możliwość selekcji cech
- ❌ Dodatkowy hiperparametr do tuningu

#### **SGD Regressor**
- ✅ Skaluje się do dużych zbiorów danych
- ✅ Efektywny pamięciowo
- ✅ Obsługuje różne kary
- ❌ Wymaga skalowania cech
- ❌ Wrażliwy na hiperparametry
