In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# Model Evaluation

* Aby ocenić nasze nadzorowane modele, do tej pory dzieliliśmy nasz zestaw danych na train/test za pomocą funkcji **train_test_split()**

* Budowaliśmy model na zestawie uczącym wywołując metodę **fit** i oceniliśmy ją na zestawie testowym za pomocą metody **score**, który liczy accuracy.

In [3]:
from sklearn.datasets import make_blobs
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

# create a synthetic dataset
X, y = make_blobs(random_state=0)


In [5]:
# split data and labels into a training and a test set
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
# instantiate a model and fit it to the training set
logreg = LogisticRegression().fit(X_train, y_train)
# evaluate the model on the test set
print("Test set score: {:.2f}".format(logreg.score(X_test, y_test)))

Test set score: 0.88


Cross-validation jest zaimplementowane w scikit-learn przy pomocy funkcji **cross_val_score** z modułu **model_selection**.

Parametry funkcji **cross_val_score** to model, który chcemy ocenić, dane treningowe i prawdziwe etykiety. 

In [8]:
from sklearn.model_selection import cross_val_score
from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression

iris = load_iris()
logreg = LogisticRegression()

In [9]:
scores = cross_val_score(logreg, iris.data, iris.target)
print("Cross-validation scores: {}".format(scores))

Cross-validation scores: [0.96078431 0.92156863 0.95833333]


* Domyślnie cross_val_score wykonuje trzykrotną cross-validation, zwracając trzy wartości dokładności. 

* Możemy zmienić liczbę fałd używanych przez zmianę parametru cv:

In [10]:
scores = cross_val_score(logreg, iris.data, iris.target, cv=5)
print("Cross-validation scores: {}".format(scores))

Cross-validation scores: [1.         0.96666667 0.93333333 0.9        1.        ]


Popularnym sposobem podsumowania cross-validation jest obliczenie średniej:

In [11]:
print("Average cross-validation score: {:.2f}".format(scores.mean()))

Average cross-validation score: 0.96


* Stosując średnią uśrednienie validacji krzyżowej możemy wywnioskować, że spodziewamy się, że model będzie średnio miał około 96% dokładny. 
* Patrząc na wszystkie pięć wyników uzyskanych przez pięciokrotną walidację krzyżową, możemy również stwierdzić, że istnieje stosunkowo duża różnica w dokładności między fałdami, począwszy od 100% dokładności do 90% dokładności. 
* Może to oznaczać, że model jest bardzo zależny od poszczególnych foldów używanych do uczenia, ale może to być również konsekwencja niewielkiego rozmiaru zbioru danych.