# Hiperparametros y validación de modelo
pg 359

### Validación de la manera correcta. Holdout sets

Un `holdout set` es separar una parte de los datos y guardarlos para realizar la inferancia. Si se entrea y validad con los mismos datos es un error. `test_train_split`

In [6]:
from sklearn.datasets import load_iris
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split

In [7]:
iris = load_iris()
X = iris.data
y = iris.target

In [3]:
model = KNeighborsClassifier(n_neighbors=1)

In [8]:
X1, X2, y1, y2 = train_test_split(X, y, random_state=0,
                                  train_size=0.5)

In [9]:
model.fit(X1, y1)

KNeighborsClassifier(n_neighbors=1)

In [10]:
y2_model = model.predict(X2)
accuracy_score(y2, y2_model)

0.9066666666666666

La desventaja es que hemos perdido parte de nuestros datos. Una manera de solucionar esto es `cross-validation`

### Validación del modelo via cross-validation

Crear una secuencia de entrenamientos con cada subset de diferentes datos. Con dos subsets seria:

In [11]:
y2_model = model.fit(X1, y1).predict(X2)
y1_model = model.fit(X2, y2).predict(X1)
accuracy_score(y1, y1_model), accuracy_score(y2, y2_model)

(0.96, 0.9066666666666666)

Podemos expandir esto a muchos mas subsets pero es tedioso hacer las particiones.

In [17]:
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import LeaveOneOut

In [15]:
# Crear 5 subsets de datos y entrenar con cada uno.
cross_val_score(model, X, y, cv=5)

array([0.96666667, 0.96666667, 0.93333333, 0.93333333, 1.        ])

Hay muchas estrategias de CV. Consultar documentación. Un ejemplo es entrenar con cada fila.

In [19]:
scores = cross_val_score(model, X, y, cv=LeaveOneOut())
scores

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 0., 1., 0., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 0., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 0., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       0., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 0., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

In [20]:
scores.mean()

0.96