# Visualización de resultados

Las visualización de los datos no solamente se realiza antes de entrenar un modelo durante el análisis exploratorio de datos, sino que también son es herramienta muy útil para entender el desempeño de nuestros modelos de una manera más intuitiva y fácil de interpretar. Afortunadamente, scikit-learn también nos ofrece varias funciones para visualizar los resultados de nuestros modelos.

Las visualizaciones de las que te voy a hablar aplican específicamente para modelos de clasificación.

Para crear estas visualizaciones necesitas tener un modelo ya entrenado, así que eso es lo que estoy haciendo en esta celda.

In [None]:
# Crea un dataset
from sklearn.datasets import make_moons
from sklearn.model_selection import train_test_split

X, y = make_moons(n_samples=1000, random_state=42, noise=0.40)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

print(f"Total number of samples: {len(X)}")
print(f"Samples on the test set {len(X_test)}")

In [None]:
# Visualización del dataset
import matplotlib.pyplot as plt

plt.scatter(X[:, 0], X[:, 1], c=y, edgecolor="k")

In [None]:
# Creamos un clasificador básico para esta lección
from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier()
model.fit(X_train, y_train)

## Matriz de confusión

Una matriz de confusión se utiliza para evaluar el desempeño de un modelo de clasificación. Es una matriz cuadrada que muestra la cantidad de verdaderos positivos (TP), falsos positivos (FP), verdaderos negativos (TN) y falsos negativos (FN) para cada clase en un conjunto de datos de prueba.

In [None]:
from sklearn.metrics import ConfusionMatrixDisplay

ConfusionMatrixDisplay.from_estimator(model, X_test, y_test)

TP | FP
-------
FN | TN

La matriz de confusión funciona comparando las predicciones del modelo con las etiquetas de clase reales en el conjunto de datos de prueba. La diagonal principal de la matriz de confusión muestra los verdaderos positivos y verdaderos negativos, que son las predicciones correctas del modelo. Las otras entradas de la matriz muestran los falsos positivos y falsos negativos, que son las predicciones incorrectas del modelo.

Es recomendable usarla para ver en qué tipo de predicciones está fallando tu modelo, si en los falsos positivos o en los falsos negativos. Estos errores pueden tener consecuencias importantes dependiendo del problema que se esté resolviendo, por lo que es importante utilizar la matriz de confusión para entender y evaluar el desempeño del modelo.

## Visualización de las fronteras de decisión

La función <code>DecisionBoundaryDisplay</code> de scikit-learn es una herramienta útil para visualizar las fronteras de decisión de un modelo de clasificación. Esta función nos permite visualizar las regiones del espacio de características donde el modelo predice cada clase, lo que nos ayuda a entender mejor cómo el modelo está haciendo las clasificaciones.

La visualización de las fronteras de decisión es particularmente útil en casos en los que las clases no se pueden separar perfectamente en el espacio de características. En estos casos, el modelo puede tener dificultades para hacer clasificaciones precisas, y las fronteras de decisión pueden ser irregulares o complejas.

In [None]:
from sklearn.inspection import DecisionBoundaryDisplay

DecisionBoundaryDisplay.from_estimator(
    estimator = model, 
    X = X,
    alpha=0.5,
)

plt.scatter(X[:, 0], X[:, 1], c=y, edgecolor="k")

## Curva de precisión-recall

La curva de precisión-recall es una herramienta útil para evaluar el desempeño de un modelo de clasificación en términos de precisión y recall para diferentes umbrales de clasificación. La curva se genera trazando la precisión en el eje <i>y</i> y el recall en el eje <i>x</i> para diferentes umbrales de clasificación.

In [None]:
from sklearn.metrics import PrecisionRecallDisplay

PrecisionRecallDisplay.from_estimator(model, X_test, y_test)

En otras palabras, muestra el <i>tradeoff</i> entre la precisión y el recall, un área grande debajo de la curva representa tanto un alto recall como una alta precisión, donde una alta precisión se relaciona con una baja tasa de falsos positivos, y un alto recall se relaciona con una baja tasa de falsos negativos.

Esta gráfica es particularmente útil cuando nuestro dataset está desbalanceado.

## ROC Curve

La curva ROC (Receiver Operating Characteristic) es una visualización útil para evaluar el desempeño de un modelo de clasificación en términos de su capacidad para distinguir entre clases. 

La curva se genera trazando la tasa de verdaderos positivos (TPR) en el eje <i>y</i> y la tasa de falsos positivos (FPR) en el eje <i>x</i> para diferentes umbrales de clasificación.

In [None]:
from sklearn.metrics import RocCurveDisplay

RocCurveDisplay.from_estimator(model, X_test, y_test)

Esta permite evaluar la capacidad de un modelo de clasificación para distinguir entre las clases, incluso cuando las distribuciones de clase son desiguales. Es útil porque representa el trade-off entre la tasa de verdaderos positivos y la tasa de falsos positivos. Un clasificador ideal se sitúa en la esquina superior izquierda del gráfico, lo que indica una alta tasa de verdaderos positivos y una baja tasa de falsos positivos. En este caso, el modelo puede distinguir perfectamente entre las dos clases.

## Conclusión

En resumen, las visualizaciones son una herramienta poderosa para entender y comunicar los resultados de nuestros modelos de una manera más efectiva. Scikit-learn nos ofrece varias funciones para visualizar los resultados de nuestros modelos de clasificación y regresión, y es importante considerar estas herramientas al evaluar y presentar los resultados de nuestros modelos.