# **Ensemble Learning and Advanced Methods**  
### *Uczenie zespołowe i zaawansowane metody*

---

## **English**

Ensemble Learning combines multiple machine learning models to create a stronger predictor than any individual model alone. The key idea is that a group of weak learners can come together to form a strong learner. This approach often leads to better predictive performance and increased robustness.

### **Key Concepts**

1. **Weak Learners**: Simple models that perform slightly better than random guessing
2. **Strong Learner**: A model that can achieve arbitrarily high accuracy
3. **Diversity**: Different models should make different types of errors
4. **Aggregation**: Combining predictions from multiple models
5. **Bias-Variance Trade-off**: Ensembles can reduce both bias and variance

### **Main Ensemble Methods**

#### **1. Bagging (Bootstrap Aggregating)**
- **Principle**: Train multiple models on different bootstrap samples
- **Aggregation**: Voting (classification) or averaging (regression)
- **Examples**: Random Forest, Extra Trees
- **Reduces**: Variance and overfitting

#### **2. Boosting**
- **Principle**: Sequential training where each model corrects previous errors
- **Aggregation**: Weighted combination of weak learners
- **Examples**: AdaBoost, Gradient Boosting, XGBoost
- **Reduces**: Bias and underfitting

#### **3. Stacking (Stacked Generalization)**
- **Principle**: Use a meta-learner to combine base model predictions
- **Aggregation**: Meta-model learns optimal combination
- **Examples**: Stacked ensembles with various base models
- **Reduces**: Both bias and variance

#### **4. Voting**
- **Hard Voting**: Majority vote for classification
- **Soft Voting**: Average predicted probabilities
- **Simple but effective**: Works well with diverse models

### **Advanced Ensemble Techniques**

#### **Gradient Boosting**
Sequential ensemble where each model fits the residuals of the previous models:
$$
F_m(x) = F_{m-1}(x) + \gamma_m h_m(x)
$$

Where $h_m(x)$ is trained on the residuals of $F_{m-1}(x)$.

#### **AdaBoost**
Adaptive boosting that adjusts weights based on classification errors:
$$
\alpha_m = \frac{1}{2} \ln\left(\frac{1-\epsilon_m}{\epsilon_m}\right)
$$

Where $\epsilon_m$ is the weighted error rate of classifier $m$.

### **Advantages**
- **Better Performance**: Often outperforms individual models
- **Robustness**: Less sensitive to outliers and noise
- **Generalization**: Reduces overfitting
- **Flexibility**: Can combine different types of models

### **Disadvantages**
- **Complexity**: More difficult to interpret
- **Computational Cost**: Requires training multiple models
- **Memory Usage**: Need to store multiple models
- **Hyperparameter Tuning**: More parameters to optimize

---

## **Polish**

Uczenie zespołowe łączy wiele modeli uczenia maszynowego, aby stworzyć silniejszy predyktor niż jakikolwiek pojedynczy model. Kluczową ideą jest to, że grupa słabych uczniów może połączyć się, tworząc silnego ucznia. To podejście często prowadzi do lepszej wydajności predykcyjnej i zwiększonej odporności.

### **Kluczowe pojęcia**

1. **Słabi uczniowie**: Proste modele, które działają nieco lepiej niż losowe zgadywanie
2. **Silny uczeń**: Model, który może osiągnąć arbitralnie wysoką dokładność
3. **Różnorodność**: Różne modele powinny popełniać różne typy błędów
4. **Agregacja**: Łączenie przewidywań z wielu modeli
5. **Kompromis bias-wariancja**: Zespoły mogą zmniejszyć zarówno bias, jak i wariancję

### **Główne metody zespołowe**

#### **1. Bagging (Bootstrap Aggregating)**
- **Zasada**: Trenowanie wielu modeli na różnych próbkach bootstrap
- **Agregacja**: Głosowanie (klasyfikacja) lub uśrednianie (regresja)
- **Przykłady**: Random Forest, Extra Trees
- **Zmniejsza**: Wariancję i przeuczenie

#### **2. Boosting**
- **Zasada**: Sekwencyjne trenowanie, gdzie każdy model koryguje poprzednie błędy
- **Agregacja**: Ważona kombinacja słabych uczniów
- **Przykłady**: AdaBoost, Gradient Boosting, XGBoost
- **Zmniejsza**: Bias i niedouczenie

#### **3. Stacking (Stacked Generalization)**
- **Zasada**: Użycie meta-ucznia do łączenia przewidywań modeli bazowych
- **Agregacja**: Meta-model uczy się optymalnej kombinacji
- **Przykłady**: Zespoły układane z różnymi modelami bazowymi
- **Zmniejsza**: Zarówno bias, jak i wariancję

#### **4. Voting**
- **Głosowanie twarde**: Głosowanie większości dla klasyfikacji
- **Głosowanie miękkie**: Uśrednianie przewidywanych prawdopodobieństw
- **Proste, ale skuteczne**: Działa dobrze z różnorodnymi modelami

### **Zaawansowane techniki zespołowe**

#### **Gradient Boosting**
Sekwencyjny zespół, gdzie każdy model dopasowuje reszty poprzednich modeli:
$$
F_m(x) = F_{m-1}(x) + \gamma_m h_m(x)
$$

Gdzie $h_m(x)$ jest trenowany na resztach $F_{m-1}(x)$.

#### **AdaBoost**
Adaptacyjne wzmacnianie, które dostosowuje wagi na podstawie błędów klasyfikacji:
$$
\alpha_m = \frac{1}{2} \ln\left(\frac{1-\epsilon_m}{\epsilon_m}\right)
$$

Gdzie $\epsilon_m$ to ważony współczynnik błędów klasyfikatora $m$.

### **Zalety**
- **Lepsza wydajność**: Często przewyższa pojedyncze modele
- **Odporność**: Mniej wrażliwy na wartości odstające i szum
- **Generalizacja**: Zmniejsza przeuczenie
- **Elastyczność**: Może łączyć różne typy modeli

### **Wady**
- **Złożoność**: Trudniejsze do interpretacji
- **Koszt obliczeniowy**: Wymaga trenowania wielu modeli
- **Zużycie pamięci**: Konieczność przechowywania wielu modeli
- **Tuning hiperparametrów**: Więcej parametrów do optymalizacji
