A.S. Lundervold, v111022

# Setup

In [1]:
%matplotlib inline

import numpy as np, pandas as pd
import matplotlib.pyplot as plt 
from pathlib import Path
import seaborn as sns 
import sklearn
from sklearn import datasets

In [2]:
# This is a quick check of whether the notebook is currently running on Google Colaboratory
# or on Kaggle, as that makes some difference for the code below.
# We'll do this in every notebook of the course.
try:
    import colab
    colab=True
except:
    colab=False

import os
kaggle = os.environ.get('KAGGLE_KERNEL_RUN_TYPE', '')

# Data

La oss bruke diabetes-datasettet:

In [3]:
df = pd.read_csv('https://assets.datacamp.com/production/course_1939/datasets/diabetes.csv')

X, y  = df.drop('diabetes', axis=1), df.diabetes

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

In [4]:
df.head()

Unnamed: 0,pregnancies,glucose,diastolic,triceps,insulin,bmi,dpf,age,diabetes
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [5]:
from sklearn.metrics import accuracy_score

# Pipelines

Som vi har erfart er det en rekke ting en pleier å gjøre med et datasett før en trener modeller: imputering, skalering, feature engineering, feature selection, osv. Generelt, en rekke _transformasjoner_ av data. Disse bestemmes typisk fra et treningsdatasett, og anvendes så både på trening- og testsett (tenk: `.fit_transform` på trening, `.transform` på test). 

Når en skriver kode for å gjøre alt dette kan det ofte se veldig uryddig ut, noe som øker sjansen for å gjøre feil. Det kan også bli vanskelig å designe eksperiment der en tester ut ulike varianter av disse oppsettene, for eksempel via et grid search. 

Ved å bruke scikit-learn [Pipelines](https://scikit-learn.org/stable/modules/compose.html#pipeline) kan dette struktureres bedre. 

Vi husker for eksempel hvordan vi behandlet datasettet fra innlevering 1 i notebooken om ensembling: 

1. Imputering
2. Skalering
3. Prediksjon med et voting ensemble

I større maskinlæringsprosjekt er det gjerne mange slike steg. 

Her er en måte å bygge dette som en pipeline. 

Vi lager først vårt ensemble:

In [6]:
from sklearn.ensemble import VotingClassifier

from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.svm import SVC
from sklearn.naive_bayes import GaussianNB

rf = RandomForestClassifier(random_state=42, n_jobs=-1)
gb = GradientBoostingClassifier(random_state=42)
svc = SVC(random_state=42)
gnb = GaussianNB()

models = [('rf', rf), 
          ('gb', gb),
          ('svc', svc),
          ('gnb', gnb)]

ensemble = VotingClassifier(models)

In [7]:
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import MinMaxScaler

Her er vår pipeline:

In [8]:
from sklearn.pipeline import make_pipeline

In [9]:
pipeline = make_pipeline(SimpleImputer(), 
                         MinMaxScaler(), 
                         ensemble)

In [10]:
pipeline

Pipeline(steps=[('simpleimputer', SimpleImputer()),
                ('minmaxscaler', MinMaxScaler()),
                ('votingclassifier',
                 VotingClassifier(estimators=[('rf',
                                               RandomForestClassifier(n_jobs=-1,
                                                                      random_state=42)),
                                              ('gb',
                                               GradientBoostingClassifier(random_state=42)),
                                              ('svc', SVC(random_state=42)),
                                              ('gnb', GaussianNB())]))])

Denne kan så tilpasses treningsdata og brukes til å produsere prediksjoner på testdata:

In [11]:
pipeline.fit(X_train, y_train)

Pipeline(steps=[('simpleimputer', SimpleImputer()),
                ('minmaxscaler', MinMaxScaler()),
                ('votingclassifier',
                 VotingClassifier(estimators=[('rf',
                                               RandomForestClassifier(n_jobs=-1,
                                                                      random_state=42)),
                                              ('gb',
                                               GradientBoostingClassifier(random_state=42)),
                                              ('svc', SVC(random_state=42)),
                                              ('gnb', GaussianNB())]))])

In [12]:
from sklearn.model_selection import cross_val_score

In [13]:
cross_val_score(pipeline, X_train, y_train, cv=3, scoring='accuracy')

array([0.79166667, 0.76041667, 0.734375  ])

## Modifisere pipelines

Med pipelines er det enklere å kjøre eksperimenter med ulike oppsett:

In [14]:
from sklearn.preprocessing import StandardScaler

In [15]:
for scaler in [MinMaxScaler(), StandardScaler()]:
    pipeline = make_pipeline(SimpleImputer(), scaler, ensemble)
    
    scores = cross_val_score(pipeline, X_train, y_train, cv=3, scoring='accuracy')
    print(f"Cross val scores for {scaler}: {scores}")
    print(f"Mean: {np.mean(scores)}\n")

Cross val scores for MinMaxScaler(): [0.79166667 0.76041667 0.734375  ]
Mean: 0.7621527777777777

Cross val scores for StandardScaler(): [0.78645833 0.75520833 0.734375  ]
Mean: 0.7586805555555557



En kan også bruke GridSearchCV kombinert med pipelines (https://scikit-learn.org/stable/auto_examples/compose/plot_compare_reduction.html#sphx-glr-auto-examples-compose-plot-compare-reduction-py)