# Métodos de Validación
Ejemplos de diferentes métodos dde validación con la finalidad de mejorar el desempeño de los modelos (bajo ajuste y poca variabilidad)

## Conjunto de datos
El conjunto de datos es la caracterización de tumores benignos y malignos asociados al cáncer de mama. Cuenta con 30 atributos obtenidos de imágenes de tumores y dos clases posibles de tumores.

In [None]:
import pandas as pd

from sklearn.datasets import load_breast_cancer
cancer = load_breast_cancer()

atributos = pd.DataFrame(cancer.data)
atributos.columns = cancer.feature_names

etiquetas = cancer.target

print(atributos.shape)
atributos.head(5)

## Método de retención

In [None]:
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split

X_entrenamiento, X_prueba, y_entrenamiento, y_prueba = train_test_split(atributos, etiquetas, test_size=0.3, random_state=0)

modelo = SVC()
modelo.fit(X_entrenamiento,y_entrenamiento)

# Evaluación de residuos (evaluación de entrenamiento)
exactitud_entrenamiento = modelo.score(X_entrenamiento,y_entrenamiento)
print('Entrenamiento:', exactitud_entrenamiento)

# Evaluación de prueba
exactitud_prueba = modelo.score(X_prueba,y_prueba)
print('Prueba:', exactitud_prueba)

## Validación por cruce de k-pliegues

In [None]:
from sklearn.model_selection import KFold
import numpy as np

metricas = []
modelo = SVC()
mejor_modelo = modelo
mejor_evaluacion = float('inf')

kf = KFold(n_splits = 5)

for entrenamiento, prueba in kf.split(atributos):
    X_entrenamiento = atributos.iloc[entrenamiento]
    X_prueba        = atributos.iloc[prueba]
    y_entrenamiento = etiquetas[entrenamiento]
    y_prueba        = etiquetas[prueba]
    
    modelo.fit(X_entrenamiento,y_entrenamiento)
    metrica = modelo.score(X_prueba,y_prueba)
    
    if metrica < mejor_evaluacion:
        mejor_modelo     = modelo
        mejor_evaluacion = metrica
    
    metricas.append(metrica)

print('Evaluación promedio:', np.mean(metricas))

exactitud_prueba = mejor_modelo.score(X_prueba,y_prueba)
print('Prueba:', exactitud_prueba)

## Validación por cruce de k-pliegues estratificado

In [None]:
from sklearn.model_selection import StratifiedKFold
import numpy as np

metricas = []
modelo = SVC()
mejor_modelo = modelo
mejor_evaluacion = float('inf')

skf = StratifiedKFold(n_splits = 5)

for entrenamiento, prueba in skf.split(atributos,etiquetas):
    X_entrenamiento = atributos.iloc[entrenamiento]
    X_prueba        = atributos.iloc[prueba]
    y_entrenamiento = etiquetas[entrenamiento]
    y_prueba        = etiquetas[prueba]
    
    modelo.fit(X_entrenamiento,y_entrenamiento)
    metrica = modelo.score(X_prueba,y_prueba)
    
    if metrica < mejor_evaluacion:
        mejor_modelo     = modelo
        mejor_evaluacion = metrica
    
    metricas.append(metrica)

print('Evaluación promedio:', np.mean(metricas))

exactitud_prueba = mejor_modelo.score(X_prueba,y_prueba)
print('Prueba:', exactitud_prueba)