# Modele boostingowe
Na poprzednich zajęciach wykorzystywaliśmy algorytymy losowego lasu oraz ekstremalnego losowego lasu, które opierały się na założeniu, że bardzo dobry model można uzyskać poprzez uśrednienie wyników wielu dobrych modeli (wisdom of crowd). Modele losowego lasu oraz ekstremalnego losowego lasu są przykładami - *ensembple bagging models*. 

> Ensemble bagging models, czyli modele zespołowe z baggingiem, to rodzaj metod zespołowego uczenia maszynowego, które mają na celu poprawę dokładności i odporności modeli predykcyjnych. "Bagging" to skrót od "Bootstrap Aggregating" i polega na tworzeniu wielu wersji zbioru danych treningowych za pomocą próbkowania bootstrapowego (losowego próbkowania ze zwracaniem) oraz trenowaniu modelu na każdym z tych zbiorów. Końcowa prognoza jest uzyskiwana przez uśrednianie prognoz (dla zadań regresji) lub poprzez głosowanie większościowe (dla zadań klasyfikacji) poszczególnych modeli.

Teraz zajmiemy się modelami boostingowymi. 

> Boosting (wzmacnianie) to klasa algorytmów zespołowych, w której modele są dodawane sekwencyjnie, tak aby późniejsze modele w sekwencji korygowały prognozy dokonane przez wcześniejsze modele w tej sekwencji.

# AdaBoost
Modelem podstawowym z którego wyewoluowały modele boostingowe jest AdaBoost. 

## Algorytm – AdaBoost (Adaptive Boosting)
1. **Przydzielanie jednolitych wag**: - Każdej próbce treningowej przypisywane są jednolite wagi. Mówiąc prościej, każda próbka treningowa ma taką samą szansę pojawienia się podczas pierwszego trenowania słabego modelu.
2. **Trenowanie słabego modelu**: - Trenuje się słaby model (base_estimator w scikit-learn) na losowym wyborze (z zastępowaniem) zbioru treningowego.
3. **Obliczanie błędu predykcji słabego modelu**: - Obliczany jest błąd predykcji słabego modelu na (całym) zbiorze treningowym, używając funkcji straty, takiej jak błąd kwadratowy lub błąd absolutny (loss w scikit-learn).
4. **Obliczanie pewności słabego modelu**: - Obliczana jest pewność słabego modelu na podstawie jego średniego błędu predykcji (obliczonego w kroku 3). Im mniejszy błąd, tym większa pewność.
5. **Aktualizacja wag zbioru treningowego**: - Wagi zbioru treningowego są aktualizowane na podstawie błędów słabego modelu, jego pewności i współczynnika uczenia (learning_rate w scikit-learn). Im niższy współczynnik uczenia, tym mniejszy wpływ na wagi zbioru treningowego. Innymi słowy, niski współczynnik uczenia spowalnia aktualizację wag, wymagając tym samym większej liczby drzew do znaczącej zmiany rozkładu zbioru treningowego. Próbki danych z największymi błędami predykcji otrzymują większą wagę, podczas gdy próbki danych z najmniejszymi błędami predykcji mają zmniejszaną wagę.
6. **Powtarzanie kroków 2-5**:
 - Kroki 2-5 są powtarzane, aż do dopasowania określonej liczby słabych modeli (n_estimators w scikit-learn).

**Końcowa prognoza modelu zespołowego**:
- Końcowa prognoza modelu zespołowego jest podawana jako ważona mediana prognoz wszystkich słabych uczących się modeli.


# Hiperparametry algorytmu AdaBoost
Parametry algorytmu AdaBoost:
- **base_estimator**: Jest to weak learner się, którego chcemy wzmocnić. Zazwyczaj używamy drzewa o określonej maksymalnej głębokości.
- **n_estimators**: Liczba wygenerowanych weak learners.
- **learning_rate**: Współczynnik, który zmniejsza ogólny wpływ każdego słabego modelu na wagi zbioru treningowego.
- **loss**: Funkcja straty używana przy aktualizacji przydziału wag dla każdej próbki przed ponownym przetasowaniem.



In [None]:
# Wczytaj dane (w oparciu o kod z porpzednich zajęć)

# Wykorzystując zbiór z poprzednich zajęć ToyotaCorolla zbuduj prosty model AdaBoost
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import AdaBoostRegressor

ada = AdaBoostRegressor(DecisionTreeRegressor(max_depth=8),
                        n_estimators=100, learning_rate=0.25, loss='square')
ada = ada.fit(X_train, Y_train)

# Oblicz parametry modelu wykorzystując funkcję KPI i porównaj z drzewami


# Optymalizacja modelu
Funkcje automatyzujące przeszukiwanie nie są w stanie automatycznie zoptymalizować max_depth dlatego trzeba wykorzystać funkcję for. Dokonaj optymalizacj parametrów

In [None]:
# n_estimators = [100]
learning_rate = [0.005, 0.01, 0.05, 0.1, 0.15, 0.2, 0.25, 0.3, 0.35]
loss = ['square', 'exponential', 'linear']
param_dist = {
    # 'n_estimators': n_estimators,
    'learning_rate': learning_rate,
    'loss': loss
}

# [ToDo] Napisz optymalizację 
# dla max_depth w zakresie od 2 do 18 ze skokiem dwa
# uruchom optymalizację wykorzystująć randomsearch
# dodaj najlepszy wynik dla danego max_depth do dataframe - best_parameters
# znajdź najlepszą wartość parametru Score
