<a href="https://colab.research.google.com/github/andres-merino/AprendizajeAutomaticoInicial-05-N0105/blob/main/2-Notebooks/18_1-Validacion-Cruzada.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<table style="border: none; border-collapse: collapse;">
    <tr>
        <td style="width: 20%; vertical-align: middle; padding-right: 10px;">
            <img src="https://i.imgur.com/nt7hloA.png" width="100">
        </td>
        <td style="width: 2px; text-align: center;">
            <font color="#0030A1" size="7">|</font><br>
            <font color="#0030A1" size="7">|</font>
        </td>
        <td>
            <p style="font-variant: small-caps;"><font color="#0030A1" size="5">
                <b>Escuela de Ciencias Físicas y Matemática</b>
            </font> </p>
            <p style="font-variant: small-caps;"><font color="#0030A1" size="4">
                Aprendizaje Automático Inicial &bull; Validación Cruzada
            </font></p>
            <p style="font-style: oblique;"><font color="#0030A1" size="3">
                Andrés Merino &bull; 2024-02
            </font></p>
        </td>  
    </tr>
</table>

---
## <font color='264CC7'> Introducción </font>

Este notebook está diseñado como una guía introductoria para implementar la técnica de validación cruzada en la evaluación de modelos de aprendizaje automático.



Los paquetes necesarios son:

In [15]:
import pandas as pd  # Manejo de datos
import matplotlib.pyplot as plt  # Visualización

from sklearn.model_selection import train_test_split # División de datos
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report  # Métrica de evaluación

from sklearn.model_selection import cross_validate, KFold
from sklearn.ensemble import RandomForestClassifier


---
## <font color='264CC7'> Ejemplo práctico </font>


### <font color='264CC7'> Preprocesamiento de datos </font>

Primero leamos los datos y seleccionemos las columnas que utilizaremos:

In [8]:
# Leer los datos
data = pd.read_csv('https://raw.githubusercontent.com/andres-merino/AprendizajeAutomaticoInicial-05-N0105/refs/heads/main/2-Notebooks/datos/Pokemon.csv')
# Tomo las columnas de interés
numeric_cols = ['Attack', 'Defense', 'Speed', 'Sp. Atk', 'Sp. Def', 'HP']
class_col = ['Stage']
data = data[['Name', *numeric_cols, *class_col]]
# Muestro los primeros registros
display(data.head())

Unnamed: 0,Name,Attack,Defense,Speed,Sp. Atk,Sp. Def,HP,Stage
0,Bulbasaur,49,49,45,65,65,45,1
1,Ivysaur,62,63,60,80,80,60,2
2,Venusaur,82,83,80,100,100,80,3
3,Charmander,52,43,65,60,50,39,1
4,Charmeleon,64,58,80,80,65,58,2


Revisemos los datos:

In [9]:
data.describe()

Unnamed: 0,Attack,Defense,Speed,Sp. Atk,Sp. Def,HP,Stage
count,151.0,151.0,151.0,151.0,151.0,151.0,151.0
mean,72.549669,68.225166,68.933775,67.139073,66.019868,64.211921,1.582781
std,26.596162,26.916704,26.74688,28.534199,24.197926,28.590117,0.676832
min,5.0,5.0,15.0,15.0,20.0,10.0,1.0
25%,51.0,50.0,46.5,45.0,49.0,45.0,1.0
50%,70.0,65.0,70.0,65.0,65.0,60.0,1.0
75%,90.0,84.0,90.0,87.5,80.0,80.0,2.0
max,134.0,180.0,140.0,154.0,125.0,250.0,3.0


Dividimos los datos en los conjuntos de entrenamiento y prueba.

In [10]:
X = data[numeric_cols]

# Dividir los datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, data['Stage'], test_size=0.2, random_state=42, stratify=data['Stage'])

### <font color='264CC7'> Modelo </font>

Definimos el modelo:

In [12]:
# Crear y entrenar un arbol con ganancia de información
modelo = RandomForestClassifier()
modelo

Realizamos validación cruzada:

In [27]:
# Definir los k-folds
k_fold = KFold(n_splits=5, shuffle=True, random_state=42)
# Realizar la validación cruzada
resultados = cross_validate(modelo, X_train, y_train, cv=k_fold, scoring='accuracy', return_train_score=True)

# Mostrar los resultados
resultados

{'fit_time': array([0.08608508, 0.06986237, 0.07065749, 0.06594253, 0.05968928]),
 'score_time': array([0.        , 0.        , 0.00932884, 0.        , 0.01226449]),
 'test_score': array([0.75      , 0.66666667, 0.75      , 0.83333333, 0.58333333]),
 'train_score': array([1., 1., 1., 1., 1.])}

Mostramos los resultados:

In [28]:
print('Precisión en entrenamiento:', resultados['train_score'])
print('Precisión en prueba:', resultados['test_score'])
print(f'Precisión promedio en entrenamiento: {resultados['train_score'].mean():.3f} ± {resultados['train_score'].std():.3f}')
print(f'Precisión promedio en prueba: {resultados['test_score'].mean():.3f} ± {resultados['test_score'].std():.3f}')

Precisión en entrenamiento: [1. 1. 1. 1. 1.]
Precisión en prueba: [0.75       0.66666667 0.75       0.83333333 0.58333333]
Precisión promedio en entrenamiento: 1.000 ± 0.000
Precisión promedio en prueba: 0.717 ± 0.085


<div style="background-color: #edf1f8; border-color: #264CC7; border-left: 5px solid #264CC7; padding: 0.5em;">
<strong>Ejercicio:</strong><br>
Prueba otros valores de <code>cv</code> y <code>scoring</code> para ver cómo afectan los resultados.
</div>
</br>