# Validación cruzada en Python


In [3]:
import pandas as pd
from sklearn.tree import DecisionTreeClassifier

data = pd.read_csv('datasets/heart.csv')
features = data.drop(['target'], axis=1)
target = data['target']

scores = []

# establece el tamaño del bloque si solo hay tres de ellos
sample_size = int(len(data)/3)

for i in range(0, len(data), sample_size):
    valid_indexes = list(range(i, i + sample_size))
    train_indexes = list(range(0, i)) + list(range(i + sample_size, len(data)))
    
		# Divide las características de las variables y el objetivo en muestras features_train, target_train, features_valid, target_valid
    features_train = features.iloc[train_indexes]
    features_valid = features.iloc[valid_indexes]
    
    target_train = target.iloc[train_indexes]
    target_valid = target.iloc[valid_indexes]

    model = DecisionTreeClassifier(random_state=0)
    model = model.fit(features_train, target_train)
    score = model.score(features_valid, target_valid)
    
    scores.append(score)
 
# < calcula la calidad media del modelo >  
final_score = sum(scores) / len(scores) 
print('Valor de calidad promedio del modelo:', final_score)

Valor de calidad promedio del modelo: 0.7689768976897691


# Validación cruzada en Sklearn

In [4]:
from sklearn.model_selection import cross_val_score

cross_val_score(model, features, target, cv=3) 

array([0.77227723, 0.72277228, 0.83168317])

La función toma varios argumentos, como:
- model: modelo para validación cruzada. 
    - Está entrenado en el proceso de validación cruzada, por lo que tenemos que pasarlo sin entrenar.
- features
- target
- cv — número de bloques para validación cruzada (son 3, por defecto) 

La función no requiere dividir los datos en bloques o muestras para la validación y el entrenamiento. Todos estos pasos se realizan de forma automática. 

La función devuelve una lista de valores de evaluación del modelo de cada validación. Cada valor es igual a model.score() para la muestra de validación. Por ejemplo, para una tarea de clasificación, esto es exactitud.


### EJERCICIO

Calcula el puntaje de evaluación promedio usando el método de validación cruzada y guárdalo en la variable final_score. Llama a la función cross_val_score.
Muestra en pantalla los valores final_score (en precódigo).

In [9]:
#Supongamos que necesitamos este modelo para un árbol de decisión:

import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score

data = pd.read_csv('datasets/heart.csv')
features = data.drop(['target'], axis=1)
target = data['target']

model = DecisionTreeClassifier(random_state=0) #modelo sin entrenar

scores= cross_val_score(model, features, target, cv=5) 
final_score= sum(scores) / len(scores)

print('Puntuación media de la evaluación del modelo:', final_score)

Puntuación media de la evaluación del modelo: 0.7856284153005464
