# Métodos de Validación

La finalidad de un modelo es predecir la variable objetivo en observaciones futuras o en observaciones que el modelo no ha "visto" antes. El error mostrado por defecto tras entrenar un modelo suele ser el error de entrenamiento, el error que comete el modelo al predecir las observaciones que ya ha "visto".


Si bien estos errores son útiles para entender cómo está aprendiendo el modelo no es una estimación realista de cómo se comporta el modelo ante nuevas observaciones. Para conseguir una estimación más certera, se tiene que recurrir a un conjunto de test o emplear estrategias de validación basadas en resampling.


Los métodos de validación, también conocidos como resampling, son estrategias que permiten estimar la capacidad predictiva de los modelos cuando se aplican a nuevas observaciones, haciendo uso únicamente de los datos de entrenamiento.


La idea en la que se basan todos ellos es la siguiente: el modelo se ajusta empleando un subconjunto de observaciones del conjunto de entrenamiento y se evalúa (utilizando métricas) con las observaciones restantes.


Este proceso se repite múltiples veces y los resultados se agregan y promedian.


Gracias a las repeticiones, se compensan las posibles desviaciones que puedan surgir por el reparto aleatorio de las observaciones. La diferencia entre métodos suele ser la forma en la que se generan los subconjuntos de entrenamiento/validación.

![ml_17.png](attachment:ml_17.png)

In [1]:
import numpy as np
import pandas as pd

from sklearn import datasets

# Modelo
from sklearn import neighbors

# Metricas
from sklearn.metrics import accuracy_score

In [2]:
iris = datasets.load_iris()
X = iris.data
y = iris.target

## Hold-Out

El método de Hold-Out consiste en separar el dataset en un conjunto de entrenamiento y en uno de prueba, entrenar el modelo y cuantificar su desempeño, luego se repite el proceso n-cantidad de veces, cada vez con una partición diferente y aleatoria de ambos conjuntos y se calcula la media de las métricas para tener un resultado más "real".

1. **Dividir el dataset en los conjunto Train y Test de forma aleatoria.**
2. **Entrenar el clasificador con los conjuntos Train y Test obtenidos.**
3. **Calcular métricas.**
4. **Repetir el mayor número de veces posibles (valor recomendado: 100)**

In [3]:
from sklearn.model_selection import train_test_split

In [4]:
%%time

lista_acc = list()

for i in range(1_000):
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, stratify = y)
    
    model = neighbors.KNeighborsClassifier(13)
    model.fit(X_train, y_train)
    yhat = model.predict(X_test)
    
    #print("Accuracy:", accuracy_score(y_test, yhat))
    lista_acc.append(accuracy_score(y_test, yhat))
    
# stratify separa el y_train y y_test para que tengan la misma proporcion de clases

Wall time: 2.77 s


In [5]:
lista_acc

[1.0,
 1.0,
 0.9777777777777777,
 1.0,
 0.9555555555555556,
 0.9777777777777777,
 0.9333333333333333,
 0.9555555555555556,
 0.9555555555555556,
 1.0,
 0.9777777777777777,
 0.9777777777777777,
 0.9777777777777777,
 0.9555555555555556,
 1.0,
 0.9777777777777777,
 0.9777777777777777,
 0.9555555555555556,
 0.9333333333333333,
 0.9555555555555556,
 0.9555555555555556,
 1.0,
 0.9777777777777777,
 1.0,
 0.9777777777777777,
 0.9777777777777777,
 0.9555555555555556,
 1.0,
 0.9111111111111111,
 0.9555555555555556,
 1.0,
 1.0,
 0.9777777777777777,
 1.0,
 0.9777777777777777,
 0.9777777777777777,
 0.9555555555555556,
 0.9555555555555556,
 1.0,
 0.9777777777777777,
 0.9555555555555556,
 1.0,
 0.9777777777777777,
 1.0,
 0.9777777777777777,
 1.0,
 1.0,
 0.9555555555555556,
 0.9111111111111111,
 0.9333333333333333,
 1.0,
 0.9777777777777777,
 0.9555555555555556,
 0.9555555555555556,
 0.9777777777777777,
 0.9111111111111111,
 0.9555555555555556,
 0.9555555555555556,
 1.0,
 0.9555555555555556,
 0.9555555

In [6]:
print(f"Min de Accuracy: {np.array(lista_acc).min()}")
print(f"Media de Accuracy: {np.array(lista_acc).mean()}")
print(f"Max de Accuracy: {np.array(lista_acc).max()}")

Min de Accuracy: 0.8444444444444444
Media de Accuracy: 0.9684888888888888
Max de Accuracy: 1.0


## Leave One Out

Consiste en considerar como conjunto de test un único patron, tomando el resto como el conjunto de entrenamiento, lo que obliga a entrenar tantos modelos como número de patrones existan.

1. **Se selecciona el primer patron como conjunto de Test.**
2. **Se entrena el modelo con el resto de los patrones (n-1 elementos de Train).**
3. **Se calculan las métricas.**
4. **Se repite el proceso, esta vez tomando el segundo elemento como conjunto de Test.**
5. **Repetir hasta el último patron.**

Este método de validación es considerado por muchos como el mejor, ya que entrena con la mayor cantidad de elementos posibles y retorna una predicción "más acertada".

**Su principal desventaja es el tiempo de ejecución.**

In [7]:
from sklearn.model_selection import LeaveOneOut

In [8]:
loo = LeaveOneOut()

for train_index, test_index in loo.split(X):
    
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]

    print(f"Train: X_train: {X_train.shape}, y_train: {y_train.shape}")
    print(f"Train: X_test: {X_test.shape}, y_test: {y_test.shape}")
    
    print(f"Test Index: {test_index}")
    
    break

Train: X_train: (149, 4), y_train: (149,)
Train: X_test: (1, 4), y_test: (1,)
Test Index: [0]


In [9]:
%%time

loo = LeaveOneOut()
yhat = list()

# EL for va a realizar 150 iteraciones porque es un total de 150 patrones

for train_index, test_index in loo.split(X): 
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]
    
    # Modelo
    model = neighbors.KNeighborsClassifier(13)
    model.fit(X_train, y_train)
    
    # Prediccion
    yhat1 = model.predict(X_test)
    yhat.append(yhat1)

print("Accuracy:", accuracy_score(y, yhat)) 

# En este caso voy a ir llenando la lista de yhat con cada predicción, una a una
# Por lo que al final, tendré 150 predicciones.

# En este caso tengo que para obtener el accuracy tengo que comparar yhat con y, solo se tendría que hacer una vez.

Accuracy: 0.9666666666666667
Wall time: 173 ms


## k-Fold Cross Validation

![ml_18.png](attachment:ml_18.png)

El método de k-Fold separa el dataset en una parte de Train y una de Test al igual que Hold-Out, la diferencia consiste en que la separación de datos es sistemática y no aleatoria, dando como resultado diferentes conjuntos de Train y diferentes conjuntos de Test.

Por lo general el número **`k`** es 5 o 10.

En el ejemplo de arriba, **`k = 5`**. Por lo que separa el dataset en 5 partes, utilizando 4 para Train y 1 para Test.

En cada iteración se va alternando el conjunto de Train y Test, siendo estos siempre diferentes.

Si **`k = total_elementos`** estariamos usando indirectamente el método de **`Leave One Out`**.

In [10]:
from sklearn.model_selection import KFold

In [13]:
kfold = KFold(n_splits = 5)

for train_index, test_index in kfold.split(X):
    
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]

    print(f"Train: X_train: {X_train.shape}, y_train: {y_train.shape}")
    print(f"Train: X_test: {X_test.shape}, y_test: {y_test.shape}")
    
    print(f"Indices: {test_index}")
    
    break

Train: X_train: (120, 4), y_train: (120,)
Train: X_test: (30, 4), y_test: (30,)
Indices: [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29]


In [14]:
kfold = KFold(n_splits = 5)
yhat = list()

# EL for va a realizar 5 iteraciones porque estamos haciendo 5 cortes diferentes.

for train_index, test_index in kfold.split(X): 
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]
    
    # Modelo
    model = neighbors.KNeighborsClassifier(13)
    model.fit(X_train, y_train)
    
    # Prediccion
    yhat1 = model.predict(X_test)
    yhat.extend(yhat1)

print("Accuracy:", accuracy_score(y, yhat)) 


# En este caso usaré .extend() para llenar la lista. Ya que cada iteración me retorna una lista de predicciones

Accuracy: 0.9066666666666666


## Stratified k-Fold

Es el mismo algoritmo que k-Fold, la diferencia es que corta los conjuntos de Train y Test de forma que tengan el mismo porcentaje de clases para cada conjunto.

In [15]:
from sklearn.model_selection import StratifiedKFold

In [16]:
skfold = StratifiedKFold(n_splits = 5)
yhat = list()

for train_index, test_index in skfold.split(X, y):
    
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]

    print(f"Train: X_train: {X_train.shape}, y_train: {y_train.shape}")
    print(f"Test: X_test: {X_test.shape}, y_test: {y_test.shape}")
    
    print(f"Indices: {test_index}")
    
    break

Train: X_train: (120, 4), y_train: (120,)
Test: X_test: (30, 4), y_test: (30,)
Indices: [  0   1   2   3   4   5   6   7   8   9  50  51  52  53  54  55  56  57
  58  59 100 101 102 103 104 105 106 107 108 109]


In [17]:
skfold = StratifiedKFold(n_splits = 5)
y_test_real, yhat = list(), list()

# EL for va a realizar 5 iteraciones porque estamos haciendo 5 cortes diferentes.

for train_index, test_index in skfold.split(X, y): 
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]
    
    # Modelo
    model = neighbors.KNeighborsClassifier(13)
    model.fit(X_train, y_train)
    
    # Prediccion
    yhat1 = model.predict(X_test)
    yhat.extend(yhat1)
    
    # Valores reales
    y_test_real.extend(y_test)

print("Accuracy:", accuracy_score(y_test_real, yhat)) 


# En este caso usaré .extend() para llenar la lista. Ya que cada iteración me retorna una lista de predicciones

# También voy a tener una lista llamada y_test_real, que va a tener el mismo orden de los yhat.

Accuracy: 0.9733333333333334


In [None]:
################################################################################################################################

# Pruebas de validación

In [27]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn import datasets

# Normalizacion
from sklearn.preprocessing import MinMaxScaler

# Train, Test
from sklearn.model_selection import train_test_split

# Modelos de Clasificación
from sklearn.neighbors import KNeighborsClassifier
from sklearn.neighbors import RadiusNeighborsClassifier
from sklearn.neighbors import NearestCentroid
from sklearn.naive_bayes import GaussianNB

# Metricas
from sklearn.metrics import jaccard_score
from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score
from sklearn.metrics import f1_score
from sklearn.metrics import roc_auc_score

from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report

# Modelo original

In [28]:
df = pd.read_excel("BreastCancer.xlsx")
df.head() #Columna a predecir: Class

Unnamed: 0,Clump Thickness,Uniformity of Cell Size,niformity of Cell Shape,Marginal Adhesion,Single Epithelial Cell Size,Bare Nuclei,Bland Chromatin,Normal Nucleoli,Mitoses,Class
0,5,1,1,1,2,1,3,1,1,0
1,5,4,4,5,7,10,3,2,1,0
2,3,1,1,1,2,2,3,1,1,0
3,6,8,8,1,3,4,3,7,1,0
4,4,1,1,3,2,1,3,1,1,0


In [29]:
X = np.array(df.drop("Class", axis = 1))

y = np.array(df["Class"])

X.shape, y.shape

((699, 9), (699,))

In [30]:
x_scaler = MinMaxScaler()
X = x_scaler.fit_transform(X)

X

array([[0.44444444, 0.        , 0.        , ..., 0.22222222, 0.        ,
        0.        ],
       [0.44444444, 0.33333333, 0.33333333, ..., 0.22222222, 0.11111111,
        0.        ],
       [0.22222222, 0.        , 0.        , ..., 0.22222222, 0.        ,
        0.        ],
       ...,
       [0.44444444, 1.        , 1.        , ..., 0.77777778, 1.        ,
        0.11111111],
       [0.33333333, 0.77777778, 0.55555556, ..., 1.        , 0.55555556,
        0.        ],
       [0.33333333, 0.77777778, 0.77777778, ..., 1.        , 0.33333333,
        0.        ]])

In [31]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 42)

print(f"X_train: {X_train.shape}, y_train: {y_train.shape}")
print(f"X_test: {X_test.shape},  y_test: {y_test.shape}")

X_train: (489, 9), y_train: (489,)
X_test: (210, 9),  y_test: (210,)


In [32]:
model = KNeighborsClassifier(n_neighbors = 17)

model.fit(X_train, y_train)

KNeighborsClassifier(n_neighbors=17)

In [34]:
yhat = model.predict(X_test)

In [35]:
print("Jaccard Index:", jaccard_score(y_test, yhat, average = "macro"))
print("Accuracy:"     , accuracy_score(y_test, yhat))
print("Precisión:"    , precision_score(y_test, yhat, average = "macro"))
print("Sensibilidad:" , recall_score(y_test, yhat, average = "macro"))
print("F1-score:"     , f1_score(y_test, yhat, average = "macro"))
print("ROC AUC:", roc_auc_score(y_test, yhat))

Jaccard Index: 0.9568896051571314
Accuracy: 0.9809523809523809
Precisión: 0.9819628647214854
Sensibilidad: 0.974115436802004
F1-score: 0.9779040404040403
ROC AUC: 0.9741154368020041


# Primer método

In [36]:
%%time

lista_jac = list()
lista_acc = list()
lista_pre = list()
lista_sen = list()
lista_F1s = list()
lista_roc = list()

for i in range(1_000):
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, stratify = y)
    
    model = KNeighborsClassifier(17)
    model.fit(X_train, y_train)
    yhat = model.predict(X_test)
    
    #print("Accuracy:", accuracy_score(y_test, yhat))
    lista_jac.append(jaccard_score(y_test, yhat, average = "macro"))
    lista_acc.append(accuracy_score(y_test, yhat))
    lista_pre.append(precision_score(y_test, yhat, average = "macro"))
    lista_sen.append(recall_score(y_test, yhat, average = "macro"))
    lista_F1s.append(f1_score(y_test, yhat, average = "macro"))
    lista_roc.append(roc_auc_score(y_test, yhat))
    
# stratify separa el y_train y y_test para que tengan la misma proporcion de clases

Wall time: 13.4 s


In [40]:
print(f"Min de Jaccard Index: {np.array(lista_jac).min()}")
print(f"Media de Jaccard Index: {np.array(lista_jac).mean()}")
print(f"Max de Jaccard Index: {np.array(lista_jac).max()}")
print("*"*45)
print(f"Min de Accuracy: {np.array(lista_acc).min()}")
print(f"Media de Accuracy: {np.array(lista_acc).mean()}")
print(f"Max de Accuracy: {np.array(lista_acc).max()}")
print("*"*45)
print(f"Min de Precisión: {np.array(lista_pre).min()}")
print(f"Media de Precisión: {np.array(lista_pre).mean()}")
print(f"Max de Precisión: {np.array(lista_pre).max()}")
print("*"*45)
print(f"Min de Sensibilidad: {np.array(lista_sen).min()}")
print(f"Media de Sensibilidad: {np.array(lista_sen).mean()}")
print(f"Max de Sensibilidad: {np.array(lista_sen).max()}")
print("*"*45)
print(f"Min de F1 Score: {np.array(lista_F1s).min()}")
print(f"Media de F1 Score: {np.array(lista_F1s).mean()}")
print(f"Max de F1 Score: {np.array(lista_F1s).max()}")
print("*"*45)
print(f"Min de ROC_AUC: {np.array(lista_roc).min()}")
print(f"Media de ROC_AUC: {np.array(lista_roc).mean()}")
print(f"Max de ROC_AUC: {np.array(lista_roc).max()}")

Min de Jaccard Index: 0.851921726921727
Media de Jaccard Index: 0.9240293167461182
Max de Jaccard Index: 0.9894584332533973
*********************************************
Min de Accuracy: 0.9285714285714286
Media de Accuracy: 0.9642333333333334
Max de Accuracy: 0.9952380952380953
*********************************************
Min de Precisión: 0.9196580341965803
Media de Precisión: 0.9616401601171084
Max de Precisión: 0.9964028776978417
*********************************************
Min de Sensibilidad: 0.91243961352657
Media de Sensibilidad: 0.9591358695652173
Max de Sensibilidad: 0.9930555555555556
*********************************************
Min de F1 Score: 0.9193527740085512
Media de F1 Score: 0.9601829626447516
Max de F1 Score: 0.994698442351872
*********************************************
Min de ROC_AUC: 0.91243961352657
Media de ROC_AUC: 0.9591358695652173
Max de ROC_AUC: 0.9930555555555556


# Segundo método

In [41]:
from sklearn.model_selection import LeaveOneOut

In [42]:
%%time

loo = LeaveOneOut()
yhat = list()

# EL for va a realizar 150 iteraciones porque es un total de 150 patrones

for train_index, test_index in loo.split(X): 
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]
    
    # Modelo
    model = KNeighborsClassifier(17)
    model.fit(X_train, y_train)
    
    # Prediccion
    yhat1 = model.predict(X_test)
    yhat.append(yhat1)

print("Jaccard Index:", jaccard_score(y, yhat, average = "macro"))
print("Accuracy:"     , accuracy_score(y, yhat))
print("Precisión:"    , precision_score(y, yhat, average = "macro"))
print("Sensibilidad:" , recall_score(y, yhat, average = "macro"))
print("F1-score:"     , f1_score(y, yhat, average = "macro"))
print("ROC AUC:", roc_auc_score(y, yhat))

Jaccard Index: 0.930025198681915
Accuracy: 0.9670958512160229
Precisión: 0.9631716006293289
Sensibilidad: 0.9640779865552919
F1-score: 0.9636221701795473
ROC AUC: 0.964077986555292
Wall time: 1.56 s


# Tercer método

In [48]:
from sklearn.model_selection import KFold

In [50]:
kfold = KFold(n_splits = 10)
yhat = list()

for train_index, test_index in kfold.split(X): 
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]
    
    
    model = KNeighborsClassifier(17)
    model.fit(X_train, y_train)
    
   
    yhat1 = model.predict(X_test)
    yhat.extend(yhat1)

print("Jaccard Index:", jaccard_score(y, yhat, average = "macro"))
print("Accuracy:"     , accuracy_score(y, yhat))
print("Precisión:"    , precision_score(y, yhat, average = "macro"))
print("Sensibilidad:" , recall_score(y, yhat, average = "macro"))
print("F1-score:"     , f1_score(y, yhat, average = "macro"))
print("ROC AUC:", roc_auc_score(y, yhat))

Jaccard Index: 0.9210742279091579
Accuracy: 0.9628040057224606
Precisión: 0.959678006185192
Sensibilidad: 0.9578539201652503
F1-score: 0.9587554466230936
ROC AUC: 0.9578539201652504


# Cuarto método

In [51]:
from sklearn.model_selection import StratifiedKFold

In [52]:
skfold = StratifiedKFold(n_splits = 10)
y_test_real, yhat = list(), list()

for train_index, test_index in skfold.split(X, y): 
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]
    
 
    model = KNeighborsClassifier(17)
    model.fit(X_train, y_train)
    
    yhat1 = model.predict(X_test)
    yhat.extend(yhat1)
    
    y_test_real.extend(y_test)

print("Jaccard Index:", jaccard_score(y_test_real, yhat, average = "macro"))
print("Accuracy:"     , accuracy_score(y_test_real, yhat))
print("Precisión:"    , precision_score(y_test_real, yhat, average = "macro"))
print("Sensibilidad:" , recall_score(y_test_real, yhat, average = "macro"))
print("F1-score:"     , f1_score(y_test_real, yhat, average = "macro"))
print("ROC AUC:", roc_auc_score(y_test_real, yhat))

Jaccard Index: 0.9270372550668573
Accuracy: 0.9656652360515021
Precisión: 0.9620032977586113
Sensibilidad: 0.9620032977586113
F1-score: 0.9620032977586113
ROC AUC: 0.9620032977586113
