# Machine learning sessie
In deze sessie gaan we kijken naar hoe we echte machine learning doen in Python. We maken hiervoor extensief gebruik van de scikit-learn en numpy packages.

## Het vergelijken van regressiealgoritmes
We gaan als eerste kijken naar het toepassen van lineaire regressie op de `baseball` dataset. We pakken `hr` (aantal homeruns) als afhankelijke variabele: dit is de variabele die we willen voorspellen op basis van de onafhankelijke features.

In [1]:
import pandas as pd                
import numpy as np 
from pydataset import data
from sklearn import linear_model
from sklearn import ensemble
from sklearn.metrics import mean_squared_error

%matplotlib inline

In [2]:
# We hebben de data al voor jullie gepreprocessed en opgeslagen als CSV. Deze lezen we hier in.
df_baseball = pd.read_csv('baseball_processed.csv', index_col=0)

# We verwijderen de tekstkolommen. Deze kunnen informatief zijn, maar zouden dan eerst omgezet moeten worden naar dummy variabelen. Dat doen we nu om er wat sneller doorheen te gaan even niet.
df_baseball.drop('team', 1, inplace=True)
df_baseball.drop('lg', 1, inplace=True)

In [3]:
# De dataset is al geschaald, dat hoeven we nu dus niet weer te doen.
# We verwijderen de afhankelijke variabele uit de set
df_baseball_X = df_baseball.drop('hr', 1)

In [4]:
# We splitten onze dataset in een training set en een test set, anders kunnen we niet goed evalueren hoe ons model het doet
random_indices = np.random.permutation(len(df_baseball))
training_indices = random_indices[:int(0.9*len(df_baseball))]
test_indices = random_indices[int(0.9*len(df_baseball)):]

df_baseball_train_X = df_baseball_X.iloc[training_indices]
df_baseball_train_y = df_baseball.iloc[training_indices]['hr']

df_baseball_test_X = df_baseball_X.iloc[test_indices]
df_baseball_test_y = df_baseball.iloc[test_indices]['hr']

In [6]:
regr = linear_model.LinearRegression()

# Geef de gestandaardiseerde features mee als X input, en de originele hr kolom als Y labels.
regr.fit(df_baseball_train_X, df_baseball_train_y)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)

In [7]:
# Het model is getraind, nu kunnen we predictions maken en een score bekijken
predictions = regr.predict(df_baseball_test_X)
error = np.sqrt(mean_squared_error(df_baseball_test_y, predictions))

print "RMSE: {} homeruns".format(error)

RMSE: 3.15459703437 homeruns


Als we random zouden voorspellen zouden we ongeveer de standaarddeviatie krijgen als score. We kijken wat de standaarddeviatie is van de homerun-kolom en vergelijken dit met de RMSE van ons model.

In [8]:
df_baseball['hr'].describe()

count    21634.000000
mean         5.248035
std          8.792642
min          0.000000
25%          0.000000
50%          1.000000
75%          7.000000
max         73.000000
Name: hr, dtype: float64

De mean is 5.24 en de standaarddeviatie is 8.79. De RMSE van ons model is ongeveer 2.9. Het lijkt er dus op dat ons model beter dan random kan voorspellen wat het aantal homeruns is. Het is interessant om de coefficienten te bekijken van ons model.

In [9]:
print df_baseball_train_X.columns.values
print regr.coef_
print regr.intercept_

['year' 'g' 'ab' 'r' 'h' 'X2b' 'X3b' 'rbi' 'sb' 'bb' 'so' 'hbp' 'sh']
[ 0.02398466 -0.00462389 -0.0164644   0.14833557 -0.02268024 -0.14975706
 -0.40005629  0.24245113 -0.116909    0.00548037  0.09825346 -0.04188937
 -0.14128875]
-47.6566875922


Hieruit kunnen we opmaken welke inputvariabele op welke manier effect heeft op de zuinigheid van auto's. Zo zien we bijv. dat de variabele 'r' een groot positief effect heeft gehad op het aantal homeruns.

## Geavanceerdere methodes
Lineaire regressie is een erg simpele manier om dit op te lossen. Als er een niet-lineair verband is tussen een feature en het aantal homeruns wordt dat door dit model niet opgepakt. Ook zijn er misschien features die helemaal niet belangrijk zijn voor het model. Dat laatste kunnen we oplossen door regularisatie te gebruiken. Dit kan gemakkelijk in scikit-learn door de Ridge module te gebruiken in plaats van LinearRegression. Doe dit, en vergelijk het resultaat. Wat gebeurt er met de coefficienten als je de alpha parameter verhoogt?

In [10]:
# Code hier

Zoals al eerder verteld is een lineair model erg simpel. Een algoritme dat vaak beter werkt is een random forest. Deze kun je in scikit-learn vinden in ensemble.RandomForestRegressor. Gebruik deze module en vergelijk je resultaat met dat van een lineair model. Kijk ook wat je aan hyperparameters van het algoritme kunt aanpassen om een beter resultaat te krijgen en kijk wat volgens het algoritme de 'belangrijkheid' is van de verschillende features. Wat valt op?

In [11]:
# Code hier

## Classificatie
Voor classificatie pakken we een andere dataset: .... We gaan eerst classificatie uitvoeren met een simpele logistische regressie, en kjiken vervolgens naar wat geavanceerdere technieken.

Laad de dataset in, bekijk welke kolommen je allemaal nodig hebt en welke je wilt voorspellen.

In [12]:
# Code hier

Maak vervolgens een logistic regression classifier die een classificatie kan uitvoeren op de afhankelijke variabele. Split je train en test sets door middel van 10-fold cross-validation (tip: gebruik de KFold module in scikit-learn). Evalueer je methode met accuracy, precision en recall (tip: gebruik een functie om de confusion matrix te berekenen, daar kun je makkelijk de benodigde statistieken uithalen). Maak ook een Precision/Recall-curve en bereken de oppervlakte daaronder.

In [13]:
# Code hier