# Evaluación de Modelos con Scikit-Learn

In [1]:
from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier

In [2]:
X, y = load_iris(return_X_y=True)

In [3]:
model: RandomForestClassifier = RandomForestClassifier(
    n_estimators=100,
    random_state=42
)

Realizar **validación cruzada**:

In [4]:
from sklearn.model_selection import cross_val_score

In [5]:
score = cross_val_score(
    model,
    X,
    y,
    cv=5
)

El parámetro `cv` determina cuántas particiones va a utilizar en la validación cruzada. En otras palabras. En este caso, los datos proporcionados para evaluar a `model` se van a dividir en `5` conjuntos diferentes, donde la función `cross_val_score()` va a realizar el mismo número de iteraciones, y en una de esas iteraciones, uno de esos conjuntos, uno se va a utilizar como conjunto de prueba y los otros cuatro como el conjunto de entrenamiento.

In [6]:
print(f'Exactitud de cada partición: {score}')
print(f'Media de cada partición: {score.mean()}')

Exactitud de cada partición: [0.96666667 0.96666667 0.93333333 0.96666667 1.        ]
Media de cada partición: 0.9666666666666668


La función `cross_val_score` ejecuta automáticamente el proceso de entrenamiento y de evaluación al mismo tiempo de este modelo que le hemos especificado, que en este caso es `RandomForestClassifier`.

Utilizando técnicas de validación cruzada, a cada una de estas cinco particiones de los datos que hemos realizado (a las que también le podemos llamar `folds`), el modelo primero se entrena con los datos de entrenamiento de los otros cuatro folds, no del primero, que tienen cada una de las iteraciones y luego el modelo se evalúa usando el fold restante que sería el **fold de prueba** y se calcula una **métrica de rendimiento** que por defecto es la **precisión** para los problemas de clasificación.

Una vez que ha hecho esto, `cross_val_score` devuelve un **array** que contiene la **métrica de rendimiento para cada uno de los cinco folds**.

Es decir, nos está proporcionando una estimación muy robusta del rendimiento del modelo, ya que **se evalúa en diferentes conjuntos de datos**, reduciendo el riesgo de que el rendimiento estimado del modelo dependa de la particularidad de un único conjunto de prueba.

En definitiva, nos permite conocer de antemano **qué tan asertivo** va a ser un modelo de machine learning antes de aplicarlo en nuestros datos.