# Zadania do tematu "Wzmocnienie gradientowe (Gradient Boosting)"

W tym Notebooku znajdują się zadania do tematu "Wzmocnienie gradientowe (Gradient Boosting)", które mają na celu pokazać podstawy implementacji algorytmów wzmocnienia gradientowego.

# Zbiór danych

Będziemy korzystać ze zbioru danych "F1 Race Results", który utworzony został na podstawie danych dostępnych na [Ergast](https://ergast.com/mrd/). Na podstawie dostępnych danych dodane zostały nowe kolumny. Dane można pobrać z folderu z zadaniami `Tasks`, z podfolderu `dane` (plik `f1_race_results.csv`).

Opis poszczególnych kolumn:
- `Year` - sezon, w którym odbywał się dany wyścig,
- `Round` - numer rundy w danym sezonie,
- `Date` - data wyścigu,
- `Circuit` - nazwa toru,
- `Country` - nazwa państwa, w którym organizowany był wyścig,
- `Driver` - imię i nazwisko kierowcy,
- `Driver ID` - ID kierowcy (unikalna nazwa),
- `Nationality`	- narodowość kierowcy,
- `Team` - nazwa zespołu, dla którego dany kierowca jechał,
- `Position` - zajęta pozycja w wyścigu,
- `Points` - liczba zdobytych punktów,
- `Age` - wiek w dni wyścigu (w latach),
- `Grid Position` - pozycja startowa,
- `Fastest Lap Time` - czas najszybszego okrążenia w wyścigu uzyskany przez danego kierowcę,
- `Fastest Lap Rank` - "pozycja" najszybszego okrążenia danego kierowcy w porównaniu z najszybszymi okrążeniami innych kierowców,
- `Sprint Race` - informacja czy był to sprint,
- `Seasonal Driver Standing Before The Race` - pozycja kierowcy w klasyfikacji generalnej przed wyścigiem,
- `Seasonal Driver Standing After The Race` - pozycja kierowcy w klasyfikacji generalnej po wyścigu,
- `Seasonal Average Position Before The Race` - średnia pozycja w wyścigach w tym sezonie,
- `Seasonal Average Grid Position Before The Race` - średnia pozycja startowa w tym sezonie,
- `Seasonal Average Points Before The Race` - średnia liczba punktów zdobywanych w wyścigach w tym sezonie,
- `Seasonal Wins Before The Race` - liczba wygranych w sezonie,
- `Seasonal Average Fastest Lap Rank Before The Race` - średnia "pozycja" najszybszego okrążenia danego kierowcy w porównaniu z najszybszymi okrążeniami innych kierowców,
- `Seasonal Driver Standing Before The Race with Sprints` - pozycja kierowcy w klasyfikacji generalnej przed wyścigiem z uwzględnieniem sprintów,
- `Seasonal Driver Standing After The Race with Sprints` - pozycja kierowcy w klasyfikacji generalnej po wyścigu z uwzględnieniem sprintów,
- `Seasonal Average Position Before The Race with Sprints` - średnia pozycja w wyścigach w tym sezonie z uwzględnieniem sprintów,
- `Seasonal Average Grid Position Before The Race with Sprints` - średnia pozycja startowa w wyścigach w tym sezonie z uwzględnieniem sprintów,
- `Seasonal Average Points Before The Race with Sprints` - średnia liczba punktów w wyścigach w tym sezonie z uwzględnieniem sprintów,
- `Seasonal Wins Before The Race with Sprints` - liczba wygranych w sezonie z uwzględnieniem sprintów,
- `Seasonal Constructor Standing Before The Race` - pozycja zespołu w klasyfikacji konstruktorów przed wyścigiem,
- `Seasonal Constructor Standing After The Race` - pozycja zespołu w klasyfikacji konstruktorów po wyścigu,
- `Seasonal Constructor Standing Before The Race with Sprints` - pozycja zespołu w klasyfikacji konstruktorów przed wyścigiem z uwzględnieniem sprintów,
- `Seasonal Constructor Standing After The Race with Sprints` - pozycja zespołu w klasyfikacji konstruktorów po wyścigu,
- `Seasonal Constructor Average Position Before The Race` - średnia pozycja zespołu w wyścigach w tym sezonie,
- `Seasonal Constructor Average Grid Position Before The Race` - średnia pozycja startowa zespołu w wyścigach w tym sezonie,
- `Seasonal Constructor Average Position Before The Race with Sprints` - średnia pozycja startowa zespołu w wyścigach w tym sezonie z uwzględnieniem sprintów,
- `Seasonal Constructor Average Grid Position Before The Race with Sprints` - średnia pozycja startowa zespołu w wyścigach w tym sezonie z uwzględnieniem sprintów,
- `Career Races Before The Race` - liczba wyścigów, w których kierowca wystartował w całej karierze,
- `Career Races On The Track Before The Race` - liczba wyścigów na danym torze, w których kierowca wystartował w całej karierze,
- `Career Wins Before The Race` - liczba wygranych wyścigów w karierze,
- `Career Average Position Before The Race` - średnia pozycja, którą kierowca zajmował w wyścigach w karierze,
- `Career Average Grid Position Before the Race` - średnia pozycja startowa, którą kierowca zajmował w karierze,
- `Career Average Fastest Lap Rank Before The Race` - średnia "pozycja" najszybszego okrążenia danego kierowcy w porównaniu z najszybszymi okrążeniami innych kierowców w karierze,
- `Career Wins Before The Race with Sprints` - liczba wygranych wyścigów w karierze z uwzględnieniem sprintów,
- `Career Average Position Before The Race with Sprints` - średnia pozycja, którą kierowca zajmował w wyścigach w karierze,
- `Career Average Grid Position Before The Race with Sprints` - średnia pozycja startowa, którą kierowca zajmował w karierze,


Na potrzeby przyjmiemy, że chcemy robić predykcję pozycji, którą kierowca zdobył w wyścigu (kolumna 'Position').

> **📌 Ważne**
>
> Dla pierwszych wyścigów w każdym roku (poza 1950) statystyki sezonowe są wyliczone na podstawie całego **poprzedniego** sezonu!



# 1. Wczytaj dane z pliku do postaci `pandas DataFrame`. Następnie wykorzystaj `head()`, żeby wyświetlić pierwsze 5 wierszy.

**Podpowiedź:** wykorzystaj `pd.set_option('display.max_columns', None)`, żeby wyświetlać dane z wszystkich kolumn.

In [None]:
# Wpisz swój kod poniżej


# 2. Wyświetl typy danych w każdej kolumnie oraz statystyki poszczególnych kolumn i liczbę brakujących wartości w każdej kolumnie.

In [None]:
# Wpisz swój kod poniżej


Statystyki z najszybszymi okrążeniami dostępne były dla wyścigów od sezonu 2004. Przez to brakuje tej informacji dla większości wyścigów.

# 3. Utwórz nowy DataFrame, w którym będą poniższe kolumny. Następnie odrzuć sprinty (wyścigi, które mają `True` w kolumnie `"Sprint Race"`) i wiersze z brakującymi danymi w kolumnach `"Seasonal Average Position Before The Race"`, `"Seasonal Constructor Average Position Before The Race"` i `"Career Average Position Before The Race"`.

```Python
columns_to_use = ["Year",
                  "Round",
                  "Driver",
                  "Position",
                  "Age",
                  "Grid Position",
                  "Sprint Race",
                  "Seasonal Driver Standing Before The Race",
                  "Seasonal Average Position Before The Race",
                  "Seasonal Average Grid Position Before The Race",
                  "Seasonal Wins Before The Race",
                  "Seasonal Constructor Standing Before The Race",
                  "Seasonal Constructor Average Position Before The Race",
                  "Seasonal Constructor Average Grid Position Before The Race",
                  "Career Races Before The Race",
                  "Career Races On The Track Before The Race",
                  "Career Wins Before The Race",
                  "Career Average Position Before The Race",
                  "Career Average Grid Position Before the Race"
                  ]
```

In [None]:
# Wpisz swój kod poniżej


# 4. Podziel dane na zbiór treningowy, walidacyjny i testowy w stosunku 80:10:10. Wykorzystaj `random_state = 42`

In [None]:
# Wpisz swój kod poniżej


# 5. Utwórz i wyświetl macierz korelacji dla zbioru treningowego (uwzględnij pozycję uzyskaną w wyścigu).

Wykorzystaj kolumny:
```Python
columns_for_correlation_matrix = ["Position",
                                  "Year",
                                  "Round",
                                  "Age",
                                  "Grid Position",
                                  "Seasonal Driver Standing Before The Race",
                                  "Seasonal Average Position Before The Race",
                                  "Seasonal Average Grid Position Before The Race",
                                  "Seasonal Wins Before The Race",
                                  "Seasonal Constructor Standing Before The Race",
                                  "Seasonal Constructor Average Position Before The Race",
                                  "Seasonal Constructor Average Grid Position Before The Race",
                                  "Career Races Before The Race",
                                  "Career Races On The Track Before The Race",
                                  "Career Wins Before The Race",
                                  "Career Average Position Before The Race",
                                  "Career Average Grid Position Before the Race"]
```

Do utworzenia macierzy korelacji możesz wykorzystać `dataframe_name.corr()`, a do wyświetlenia `heatmap` z biblioteki seaborn.

In [None]:
# Wpisz swój kod poniżej


Czy widzisz jakieś ciekawe/zaskakujące związki pomiędzy poszczególnymi kolumnami?

Które kolumny są najbardziej skorelowane z pozycją zajętą w wyścigu przez kierowcę? Pamiętaj, że wartość ujemna w macierzy korelacji nie oznacza braku korelacji, a po prostu zależność, w której wzrost jednej wartości powoduje spadek drugiej.

# 6. Oddziel kolumnę `"Position"` od każdego zbioru i zapisz ją do `y_train`, `y_val` i `y_test`. Pamiętaj, żeby po utworzeniu nowych zmiennych usunąć też tę kolumnę z wcześniejszych zmiennych.

In [None]:
# Wpisz swój kod poniżej


# 7. Przed implementacją Gradient Boostingu utwórzmy model drzewa decyzyjnego i losowego lasu, które potraktujemy jako punkt odniesienia. Oblicz wartość błędu MSE dla danych ze zbioru walidacyjnego i testowego. Przyjmijmy, że modele wykorzystają dane z 4 kolumn:

```Python
columns_for_model = ["Seasonal Average Position Before The Race",
                     "Seasonal Constructor Standing Before The Race",
                     "Seasonal Constructor Average Position Before The Race",
                     "Career Average Position Before The Race"]
```

**Ustaw `random_state = 42`**

In [None]:
# Wpisz swój kod poniżej


O ile pozycji się średnio myli model? Pamiętaj, że MSE wykorzystuje błąd kwadratowy.

# 8. Zaimplementuj model regresora korzystającego z Gradient Boostingu dostępnego w bibliotece `scikit-learn`. Wykonaj predykcję dla danych ze zbioru walidacyjnego i testowego. Dodaj również pomiar czasu jaki zajmuje nauczenie modelu (ile czasu zajmuje `fit`) - wykorzystaj bibliotekę time i metodę `time()`. Czy błąd MSE jest mniejszy?

**Wykorzystaj te same kolumny co dla drzewa decyzyjnego oraz ustaw `random_state = 42`.**

In [None]:
# Wpisz swój kod poniżej


# 9. Teraz zaimplementuj model Gradient boostingu przy pomocy XGBoost. Wykorzystaj te same kolumny, `random_state = 42`, wykonaj pomiar czasu i oblicz błąd MSE.

In [None]:
# Wpisz swój kod poniżej


Czy widzisz różnicę w czasie potrzebnym na trening modelu?

# 10. Teraz zaimplementuj model Gradient boostingu przy pomocy LightGBM. Wykorzystaj te same kolumny, `random_state = 42`, wykonaj pomiar czasu i oblicz błąd MSE.

In [None]:
# Wpisz swój kod poniżej


# 11. Jak widzisz wykorzystanie Gradient Boostingu poprawia wyniki, a wykorzystanie bibliotek LightGBM i XGBoost skraca czas obliczeń. Teraz spróbujemy poprawić wyniki poprzez zmianę hiperparametrów. Wykorzystaj przygotowaną siatkę hiperparametrów dla modelu XGBoost oraz `GridSearchCV`, aby znaleźć najlepsze hiperparametry modelu. Wypisz jakie hiperparametry zostały wskazane jako optymalne oraz sprawdź czy błąd MSE dla zbioru walidacyjnego i testowego jest mniejszy.

`GridSearchCV` służy do wyszukiwania najlepszego modelu na podstawie gotowej siatki (stąd nazwa) parametrów. Sprawdza kombinacje wartości poszczególnych parametrów, aby znaleźć te optymalne. Dokumentacja dostępna [tutaj](https://scikit-learn.org/dev/modules/generated/sklearn.model_selection.GridSearchCV.html). Jako metrykę ustaw parametr `scoring='neg_mean_squared_error'`.

**UWAGA** `GridSearchCV` sprawdza każdą możliwą kombinację i dlatego może zająć sporo czasu. W parametrach `GridSearchCV` ustaw `cv=3` (jest to liczba cross-walidacji - czyli podziałów danych treningowych na mniejsze części, aby sprawdzić jak model działa dla poszczególnych fragmentów zbioru).

```Python
xgboost_param_grid = {
    'n_estimators': [50, 100, 200, 300],
    'learning_rate': [0.01, 0.1, 0.5],
    'max_depth': [3, 5]
}
```

In [None]:
# Wpisz swój kod poniżej


# 12. Teraz poszukamy najlepszych parametrów dla modelu LightGBM, ale zamiast przeszukiwania po siatce parametrów skorzystamy z losowego próbkowania z przestrzeni parametrów przy pomocy `RandomizedSearchCV`.

`RandomizedSearchCV` zamiast przeszukiwać wszystkie możliwe kombinacje, wybiera losowy podzbiór kombinacji z określonej przestrzeni hiperparametrów. Dla każdego hiperparametru definiujemy zakres wartości, a `RandomizedSearchCV` losowo wybiera kombinacje określoną liczbę razy `n_iter`. Pełna dokumentacja dostępna [tutaj](https://scikit-learn.org/1.5/modules/generated/sklearn.model_selection.RandomizedSearchCV.html).

Ponownie wykorzystaj potrójną cross-walidacją `cv=3` oraz ustaw liczbę iteracji na `n_iter = 24`. Czy uzyskane w ten sposób hiperparametry są zbliżone do tych, które zwrócił `GridSearchCV` w poprzednim zadaniu?

```Python
from scipy.stats import randint

lgbm_param_grid = {
    'n_estimators': randint(50, 300),
    'learning_rate': [0.01, 0.1, 0.5],
    'max_depth': randint(3, 10)}
```

In [None]:
# Wpisz swój kod poniżej


# 13. Już wiesz jak można zaimplementować wzmocnienie gradientowe i jak możesz przeszukiwać przestrzeń hiperparametrów, aby zoptymalizować model. Z poprzednich tematów wiesz też, że wybór kolumn ma wpływ na jakość modelu, oraz że można samemu wyciągać dane, aby polepszyć model. Korzystając z tego spróbuj utworzyć model, który uzyska mniejszą wartość metryki MSE, a następnie prześlij jego implementację (rodzaj modelu, hiperparametry oraz wykorzystane kolumny danych).

W tym przypadku można np. sprawdzić czy fakt, że kierowca jeździ w swojej ojczyźnie ułatwia zdobywanie dobrego miejsca w wyścigu dzięki dopingowi kibiców lub czy usunięcie pierwszych wyścigów sezonu ze zbiorów danych poprawi wyniki (z tego względu, że tam znajdują się wyniki z poprzedniego sezonu).

In [None]:
# Wpisz swój kod poniżej
