# Modele bazowane na algorytmie drzewa decyzyjnego

W tej części analiz skupię się na zbudowaniu jak najmocniejszego modelu bazującego na drzewie decyzyjnym. W pierwszej kolejności spróbujemy zbudować klasyczne i interpretowalne drzewo wraz z wizualizacją. Następnie sprawdzimy działanie lasów losowych i algorytmu XGBoost.

In [1]:
# Manipulacja danymi
import pandas as pd
import numpy as np
from math import sqrt

# Modele itp
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
from sklearn.tree import DecisionTreeRegressor, export_graphviz
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import median_absolute_error, r2_score, mean_squared_error, mean_absolute_error
from xgboost import XGBRegressor

# Wizualizacja
import seaborn as sns
import matplotlib.pyplot as plt

# Ignoruj ostrzeżenia (spam przy wyborze modeli)
import warnings
warnings.filterwarnings('ignore')

In [2]:
df = pd.read_pickle('data/data_after_feature_selection.pkl')

Po raz kolejny postaram się pozbyć obserwacji odchylonych. Pozwoli to uniknąć zaburzeń w funkcjonowaniu drzew. 

In [3]:
df = df[df['total_past_sales']<1500]

Następnie zbuduję zbiór treningowy (152 obserwacje) na którym będziemy przeprowadzać optymalizację hiper parametrów i trenować model, oraz zbiór walidacyjny (40 obserwacji) za pomocą którego zweryfikujemy jakość zbudowanych przez nas modeli.

In [4]:
X = df.drop('Sztuk_sprzedanych_pierwsze_30_dni', axis=1)
y = df['Sztuk_sprzedanych_pierwsze_30_dni']

X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=123)

print('Rozmiar zbioru: \nTreningowego: {}\nWalidacyjnego {}'.format(len(X_train), len(X_val)))

Rozmiar zbioru: 
Treningowego: 148
Walidacyjnego 38


# Drzewo decyzyjne

Pierwszym podejściem jakie zastosuję jest klasyczne drzewo decyzyjne. Jest to prosty algorytm, który w teori powinien okazać się skuteczny w przypadku tak małego zbioru.

Najpierw przeprowadzimy selekcję hiper parametrów drzewa - wybierzemy głębokość, minimalną ilość obserwacji potrzebnych do podziału i minimalną ilość obserwacji która znajdzie się w liściu. 

Do znalezienia odpowiednich parametrów wykorzystam model optymalizacji siatkowej wraz z 5krotną walidacją krzyżową. Następnie przy użyciu uzyskanych parametrów przetrenuję model na całym zbiorze treningowym i zweryfikuje uzyskane przez niego wyniki na zbiorze walidacyjnym.

In [5]:
param_grid = { 'max_depth': range(2,10),
               'min_samples_split': range(2,10),
               'min_samples_leaf': range (2,10),}

reg = GridSearchCV(DecisionTreeRegressor(), param_grid, cv=5, verbose=1)
reg.fit(X_train, y_train)

print("Best parameters set found on development set:")
print()
print(reg.best_params_)

Fitting 5 folds for each of 512 candidates, totalling 2560 fits


[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.


Best parameters set found on development set:

{'max_depth': 2, 'min_samples_leaf': 2, 'min_samples_split': 2}


[Parallel(n_jobs=1)]: Done 2560 out of 2560 | elapsed:   18.3s finished


In [6]:
regressor = DecisionTreeRegressor(**reg.best_params_)
regressor.fit(X_train, y_train)
y_pred = regressor.predict(X_val)

print('Drzewo decyzyjne')
print('RMSE')
print(sqrt(mean_squared_error(y_val, y_pred)))
print('MeanAE:')
print(mean_absolute_error(y_val, y_pred))
print('MedianAE:')
print(median_absolute_error(y_val, y_pred))

Drzewo decyzyjne
RMSE
47.05509424359262
MeanAE:
33.06119506687512
MedianAE:
29.0


Niestety rezultaty uzyskane przy użyciu drzewa są rozczarowujące. Uzyskany wynik jest nieznacznien niższy od odchylenia standardowego y'ka.

In [7]:
np.std(y_val)

49.981464708474

Zwizualizuję drzewo, żeby sprawdzić jak dokładnie wygląda jego konstrukcja.

In [8]:
export_graphviz(regressor, out_file='tree',  
                filled=True, rounded=True,
                special_characters=True)

![Drzewodecyzyjne](img/tree.png)

Widzimy, że drzewo nie jest w stanie podzielić obserwacji na grupy o niskim MSE. Jedyny liść w którym mse jest niskie wynika z przydzielenia do niego obserwacji o bardzo niskiej historycznej sprzedaży(total_past_sales). Przejdziemy do kolejnych modeli.

# Las losowy

Kolejnym modelem jest las losowy. Zastosuję takie samo podejście jak w przypadku drzewa. 

Najpierw przeprowadzimy selekcję hiper parametrów lasu - wybierzemy głębokość, minimalną ilość obserwacji potrzebnych do podziału i minimalną ilość obserwacji która znajdzie się w liściu. Dodatkowo sprawdzimy optymalną ilość zmiennych w modelu oraz liczbę tworzonych drzew.

Do znalezienia odpowiednich parametrów po raz kolejny wykorzystam optymalizację siatkową wraz z 5krotną walidacją krzyżową. Następnie przy użyciu uzyskanych parametrów przetrenuję model na całym zbiorze treningowym i zweryfikuje uzyskane przez niego wyniki na zbiorze walidacyjnym.

In [9]:
param_grid = {'n_estimators': range(20,100,10),
               'max_features': range(1,5),
               'max_depth': range(2,10),
               'min_samples_split': [2, 5, 10, 15],
               'min_samples_leaf': [1,2,4, 8],}

reg = GridSearchCV(RandomForestRegressor(), param_grid, cv=5, verbose=1)
reg.fit(X_train, y_train)

print("Best parameters set found on development set:")
print()
print(reg.best_params_)

[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.


Fitting 5 folds for each of 4096 candidates, totalling 20480 fits
Best parameters set found on development set:

{'max_depth': 9, 'max_features': 1, 'min_samples_leaf': 2, 'min_samples_split': 15, 'n_estimators': 30}


[Parallel(n_jobs=1)]: Done 20480 out of 20480 | elapsed: 20.0min finished


In [10]:
regressor = RandomForestRegressor(**reg.best_params_)
regressor.fit(X_train, y_train)
y_pred = regressor.predict(X_val)

print('Las losowy')
print('RMSE')
print(sqrt(mean_squared_error(y_val, y_pred)))
print('MeanAE:')
print(mean_absolute_error(y_val, y_pred))
print('MedianAE:')
print(median_absolute_error(y_val, y_pred))

Las losowy
RMSE
40.48730005951214
MeanAE:
29.313474310606267
MedianAE:
22.19054933328152


Mimo tego, że rezultaty są lepsze niż w przypadku drzewa dalej są wysoce niezadawalające. RMSE wynosi 40, które w przypadku opisywanej przez nas zmiennej jest liczbą bardzo wysoką.

# XGBoost

Ostatnim sprawdzanym przeze mnie modelem jest bardzo popularny XGBoost. Procedura optymalizaji jego hiper parametrów przebiegać będzie w dokładnie taki sam sposób jak w przypadku pozostałych algorytmów. 

In [11]:
param_grid = {'n_estimators': range(20,100,10),
               'max_features': range(1,5),
               'max_depth': range(2,10),
               'min_samples_split': [2, 5, 10, 15],
               'min_samples_leaf': [1,2,4, 8],}

reg = GridSearchCV(XGBRegressor(), param_grid, cv=5, verbose=1)
reg.fit(X_train, y_train)

print("Best parameters set found on development set:")
print()
print(reg.best_params_)

[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.


Fitting 5 folds for each of 4096 candidates, totalling 20480 fits
Best parameters set found on development set:

{'max_depth': 2, 'max_features': 1, 'min_samples_leaf': 1, 'min_samples_split': 2, 'n_estimators': 20}


[Parallel(n_jobs=1)]: Done 20480 out of 20480 | elapsed:  6.5min finished


In [12]:
regressor = XGBRegressor(**reg.best_params_)
regressor.fit(X_train, y_train)
y_pred = regressor.predict(X_val)

print('XGBoost')
print('RMSE')
print(sqrt(mean_squared_error(y_val, y_pred)))
print('MeanAE:')
print(mean_absolute_error(y_val, y_pred))
print('MedianAE:')
print(median_absolute_error(y_val, y_pred))

XGBoost
RMSE
43.22057355918561
MeanAE:
30.363772015822562
MedianAE:
22.647388458251953


Po raz kolejny, mimo budowy skomplikowanego modelu uzyskujemy bardzo wysokie RMSE.

# Podsumowanie

Niestety **żaden z uzyskanych rezultatów nie jest satysfakcjonujący**. W przypadku **metod liniowych** najlepszy uzyskany wynik to **RMSE=44** w przypadku regresji grzbietowej bez transformacji zmiennej objaśnianej. W przypadku **lasu losowego** udało się uzyskać **RMSE=40**, co było najwyższym wynikiem spośród modeli bazowanych na drzewach. Uzyskane wyniki nie pozwalają na praktyczne używanie modeli do celów predykcyjnych - są tylko nieznacznie lepsze od **predykcji średnią** która uzyskuje **RMSE=50**.

Kolejnymi krokami, które moglibyśmy poczynić w celu poprawy ich jakości byłoby **zwiększenie wolumenu danych**. 202 obserwacje to bardzo mała próba w przypadku której budowanie zaawansowanych modelów mija się praktycznie z celem. 
Warto zwrócić uwagę, że pomineliśmy cenne informacje z kolumn **kategoria i marka**. Prawdopodobnie stosując OneHotEncoding albo inną transformację i wrzucając te zmienne do modelu usyskalibyśmy znacznie lepsze wyniki. Niestety wystąpiłoby wtedy bardzo duże ryzyko overfittu. W przypadku tak małego zbioru danych **nie bylibyśmy w stanie go zwerfyfikować**. Stąd jest duża szansa, że zwiększenie liczby obserwacji zaaowocowałoby dużo lepszymi rezultatami, lecz w przypadku zadanego zbioru ryzyko takiego podejścia jest zbyt duże.