## Drzewa Decyzyjne, Lasy Losowe

W tym ćwiczeniu zobaczymy w jaki sposób, możemy szybko zaaplikować nowe algorytmy, do kolejnych problemów. 

Dodatkowo poszerzymy teorię związana z tym, w jaki sposób powinniśmy sprawdzać, czy nasz model sobie dobrze radzi czy nie. Poznamy takie techniki jak **K-Fold Cross-Validation** czy **Learning Curves**.

### Importy

In [0]:
from google.colab import files
from StringIO import StringIO

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from sklearn.preprocessing import MinMaxScaler
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

from sklearn.model_selection import train_test_split
from sklearn.model_selection import KFold
from sklearn.model_selection import learning_curve
from sklearn.base import clone

%matplotlib inline

RANDOM_SEED = 3939

### Wczytanie danych

Do wczytania i prezentacji danych użyjemy biblioteki Pandas - bardzo popularnego narzędzia w Data Science. W następnym ćwiczeniu sami bedziecie musieli go użyć by przyglądnąć się danym.

Ściągnij plik z Google Drivea o nazwie `winequality-white.csv` i dokonaj uploadu danych.

In [0]:
data = files.upload()

In [0]:
def load_csv_string(csv_string):
  return pd.read_csv(StringIO(csv_string), sep=";")

df_data = load_csv_string(data["winequality-white.csv"])

### Szybkie zerknięcie na dane

Wczytane dane zostały zapisane w formacie DataFrame.

In [0]:
df_data.head()

Minimum informacji jakie potrzebujemy:

In [0]:
df_data.info()

Z tego możemy zaobserwować, że: 
- wszystkie dane są `non-null`, czyli w żadnej kolumnie nie brakuje wartości
- dane są typu int64, float64 więc są to tylko liczby
- mamy 11 cech na bazie, których chcemy przewidywać `quality`

### Przygotowanie danych

Oddzielmy daną docelową `quality` od reszty.

In [0]:
# Wyciągnięcie kolumny 'quality' i zrzutowanie do ndarray
y_data = df_data["quality"].as_matrix()

# Lista wszystkich kolumn z dataframe z odrzuconym 'quality'
features = list(df_data.columns)
features.remove("quality")

# Wyciągnięcie kolumn z cechami i zrzutowanie do ndarray
X_data = df_data[features].as_matrix()

Podzielmy dane na zbiory: treningowy oraz testowy.

In [0]:
X_train, X_test, y_train, y_test = train_test_split(
    X_data, y_data, test_size=0.2, random_state=RANDOM_SEED)

Normalizacja danych
W przypadku Drzew Decyzyjnych i Lasów Losowych normalizacja nie wpływa na wynik.


### Modele posiadające hiperparametry

Pora popracować nad metodologią trenowania modelu. 

Zbiór treningowy - symuluje dane, które w tej chwili posiadamy.

Zbiór testowy - symuluje dane, których model nie powinien widać **i którymi w ogóle nie powinniśmy się sugerować podczas jego tworzenia**. 

Drzewa Decyzyjne i Lasy Losowe to modele, które posiadają nastawialne parametry. Dlatego kiedy pracujecie nad ich nastawianiem patrzcie na wyniki dla zbioru treningowego a potem dopiero na testowym.

### Regresja Logistyczna

Spróbuj zobaczyć jak poradzi sobie z tym problem algorytm Regresji Logistycznej. Użyj **LogisticRegression**. 

http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html

Jak myślisz, czy algorytm Regresji Logistycznej poradzi sobie z klasyfikacją więcej niż 2 klas? 

In [0]:
# Stwórz Model
model = 

# Naucz model na danych treningowych: X_train, y_train

Sprawdź jak model radzi sobie na zbiorze treningowym. Użyj **accuracy_score**.

http://scikit-learn.org/stable/modules/generated/sklearn.metrics.accuracy_score.html


In [0]:
# Dokonaj predykcji na danych testowych: X_train
train_pred = 

# Wyświetl metrykę accuracy, dla y_train
train_acc =

print("Train Accuracy: {}".format(train_acc))

Akurat w Regresji Logistycznej nie ma dużo parametrów do modyfikacji więc po prostu teraz sprawdźmy jak wygląda sprawa ze zbiorem testowym.

In [0]:
# Dokonaj predykcji na danych testowych: X_test
test_pred = 

# Wyświetl metrykę accuracy, dla y_test
test_acc = 

print("Test Accuracy: {}".format(test_acc))

### Drzewa Losowe

http://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html

Uruchom komórkę i zobacz jak wygląda konstruktor obiektu **DecisionTreeClassifier**. 

In [0]:
DecisionTreeClassifier()

Stwórz model i nie modyfikuj narazie, żadnych parametrów. Wszystkie klasyfikatory z **sklearn** mają ten sam inferfejs. Oznacza to, ze każdy używa metody `.fit` oraz `predict`.

In [0]:
# Stwórz Model
model = 

# Naucz model na danych treningowych: X_train, y_train

Spróbuj nastawić model dla danych treninowych. Próbuj modyfikować parametry modelu by uzyskać jak najlepszy - według Ciebie - wynik.

In [0]:
# Dokonaj predykcji na danych testowych: X_train
train_pred = 

# Wyświetl metrykę accuracy, użyj pred oraz y_train
train_acc = 

print("Train Accuracy: {}".format(train_acc))

Jezeli uznasz, że uzyskałeś najlepszy możliwy wynik, to dokonaj predykcji na danych testowych.

In [0]:
# Dokonaj predykcji na danych testowych: X_test
test_pred =

# Wyświetl metrykę accuracy, użyj pred oraz y_test
test_acc =

print("Test Accuracy: {}".format(test_acc))

### Lasy Losowe

http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html

Uruchom komórkę i zobacz jakie parametry możesz modyfikować w **RandomForestClassifier**.

In [0]:
RandomForestClassifier()

In [0]:
# Stwórz Model
model = 

# Naucz model na danych treningowych: X_train, y_train

Powtórz ćwiczenie dla Lasów Losowych - spróbuj nastawić model na danych treningowych.

In [0]:
# Dokonaj predykcji na danych testowych: X_train
train_pred =

# Wyświetl metrykę accuracy, użyj pred oraz y_train
train_acc = 

print("Train Accuracy: {}".format(train_acc))

Jeżeli uważasz, że Twój model jest wystarczająco dobry to sprawdź na danych testowych.

In [0]:
# Dokonaj predykcji na danych testowych: X_test
test_pred =

# Wyświetl metrykę accuracy, użyj pred oraz y_test
test_acc = 

print("Test Accuracy: {}".format(test_acc))

## Analiza modeli

### K-Fold Cross validation

Jak pewne zauważyliście, do wyniki na zbiorze treningowym bardzo często są bardzo dobre, dla zbioru testowego wypada to już odrobinę gorzej. Skąd więc wiedzieć, który model wypuścić na produkcje, skoro wszystkie są idealne, a różnie zachowują na danych testowych?

**Problem wynika z tego, że testujemy na danych, które podajemy do uczenia a dla nich bardzo często wyniki będą świetne**. 

W takim razie, powinnismy dane, które posiadamy - treningowe, podzielić na dwa zbiory - treningowy i walidujący. Uczyć na zbiorze treningowym i testować na zbiorze walidującym aż uzyskamy najlepszy model. Potem w teorii taki model leci na produkcje i musi poradzić sobie ze zbiorem testowym - danymi produkcyjnymi.

Tu jest kolejny problem. Ponieważ, jeżeli podzielimy dane treningowe na dwa zbiory, to mamy mniej danych do uczenia a one są na wagę złota. Dlatego powstała technika K-Fold Cross Validation:

![k-fold](https://static.oschina.net/uploads/img/201609/26155106_OfXx.png =500x)

Tworzymy wiele modeli o takiej samej konfiguracji. **Walidujemy na za każdym razem innym fragmencie zbioru testowego**. Wybierając parametry modelu kierujemy się tym by uśredniony wynik wszystkich modeli był jak najlepszy.

http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.KFold.html

Spróbuj teraz nastawiać model i uzyskać jak najlepszy wynik dla zbioru walidującego. 

Zobacz co się stanie jak ustawisz max_depth na 80. Dlaczego tak się dzieje?

In [0]:
model = 

# Dane będziemy dzielić na 5 części, gdzie zawsze jedna będzie zbiorem walidacyjnym
kf = KFold(n_splits=5, random_state=RANDOM_SEED, shuffle=True)

# Pojemniki na modele i wyniki
models = dict()
train_scores = list()
validation_scores = list()

# kf.split zwraca indeksy danych, które powinny się znaleźć odpowiednio w zbiorze
# treningowym i walidującym
for i, (train_index, val_index) in enumerate(kf.split(X_data)):
  
  # Klon modelu
  model_clone = clone(model)
  
  # Eydzielenie nowych danych do treningu i testu
  X_train, X_val = X_data[train_index], X_data[val_index]
  y_train, y_val = y_data[train_index], y_data[val_index]
  
  # Uczenie modelu
  model_clone.fit(X_train, y_train)
  
  # Test na danych treningowych
  train_pred = model_clone.predict(X_train)
  train_accuracy = accuracy_score(train_pred, y_train)
  train_scores.append(train_accuracy)
  
  # Test na danych walidacyjnych
  val_pred = model_clone.predict(X_val)
  val_accuracy = accuracy_score(val_pred, y_val)
  validation_scores.append(val_accuracy)
  
  # Zapisanie wyników
  models[i] = (model_clone, train_accuracy, val_accuracy)
  
print("Train accuracy {}".format(np.array(train_scores).mean()))
print("Validation accuracy {}".format(np.array(validation_scores).mean()))

Dopiero po wybraniu najlepszego modelu sprawdź jak radzi sobie dla danych testowych.

In [0]:
# Wybranie najlepszego modelu
best_model = None
best_val_score = -1
for model_index, model_data in models.items():
  if model_data[2] > best_val_score:
    best_val_score = model_data[2]
    best_model = model_data[0]

# Test dla danych testowych
test_pred = best_model.predict(X_test)
test_accuracy = accuracy_score(test_pred, y_test)
print("Test accuracy {}".format(test_accuracy))

### Krzywe uczenia

Krzywe uczenia pozwalają nam analize tego jak zachowuje się nasz model. Dzięki nim można zaobserwować czy mamy duży overfitting. Dokonują K-Fold Cross Validation za nas i wyświetlają wyniki w formie wykresu.

Reset obiektu X_train ćwiczeniu z po K-Fold Cross Validation.

In [0]:
X_train, X_test, y_train, y_test = train_test_split(
    X_data, y_data, test_size=0.2, random_state=RANDOM_SEED)

Analiza modelu przy pomocy krzywych uczenia.

http://scikit-learn.org/stable/auto_examples/model_selection/plot_learning_curve.html

Funkcja rysująca krzywe uczenia.

In [0]:
def draw_learning_curves(model, X_train, y_train):
  train_sizes, train_scores, test_scores = learning_curve(
    model, X_train, y_train, cv=5, train_sizes=np.linspace(.1, 1.0, 10))

  train_scores_mean = np.mean(train_scores, axis=1)
  train_scores_std = np.std(train_scores, axis=1)
  test_scores_mean = np.mean(test_scores, axis=1)
  test_scores_std = np.std(test_scores, axis=1) 

  plt.fill_between(train_sizes, train_scores_mean - train_scores_std,
                 train_scores_mean + train_scores_std, alpha=0.1, color="r")
  plt.fill_between(train_sizes, test_scores_mean - test_scores_std,
                 test_scores_mean + test_scores_std, alpha=0.1, color="g")

  plt.plot(train_sizes, train_scores_mean, 'o-', color="r", label="Training set accuracy")
  plt.plot(train_sizes, test_scores_mean, 'o-', color="g", label="Cross-validation set accuracy")
  plt.title("Learning Curve")
  plt.xlabel("Training Examples")
  plt.ylabel("Accuracy")
  plt.legend()

  plt.show()

Model, który zdecydowanie overfittuje, gdyż proste są bardzo rozbierzne.

In [0]:
model = RandomForestClassifier(max_depth=16, n_estimators=80, random_state=RANDOM_SEED)

draw_learning_curves(model, X_train, y_train)

Lepiej

In [0]:
model = RandomForestClassifier(max_depth=8, n_estimators=30, min_samples_split=4, 
                               random_state=RANDOM_SEED)

draw_learning_curves(model, X_train, y_train)


Czasami ciężko pogodzić się z tym, że trzeba wybrać model, który dale gorsze wyniki dla danych testowych. Trzeba pamiętać, że wypuszczenie modelu, który overfittuje - daje totalnie inne wyniki niż w środowisku testowym, może miec często dużo gorsze skutki.

Jak długo proste się całkowicie nie schodzą, to oznacza, że jeżeli byśmy mieli więcej danych, lub dane lepszej jakości to moglibyśmy osiągnąć lepszy wynik.

### Bonus - interpretowalność cech

In [0]:
model = RandomForestClassifier(max_depth=8, n_estimators=30, min_samples_split=4, 
                               random_state=RANDOM_SEED)

model.fit(X_train, y_train)

In [0]:
plt.bar(features, model.feature_importances_)
plt.xticks(rotation=90);