# Interpretabilidad del modelo de detecci√≥n de comentarios t√≥xicos

Este an√°lisis tiene como objetivo explicar de forma clara y visual c√≥mo el modelo de clasificaci√≥n de comentarios t√≥xicos toma sus decisiones.

Utilizaremos la librer√≠a **SHAP** para interpretar los resultados del modelo. SHAP nos ayuda a entender qu√© palabras influyen m√°s en que un comentario sea clasificado como t√≥xico o no.

Este an√°lisis est√° pensado para ser comprendido tanto por perfiles t√©cnicos como no t√©cnicos (stakeholders).


In [None]:
import joblib
import shap
import numpy as np

# Cargamos modelo y vectorizador
model = joblib.load("../final_model/modelo_toxicidad_xgboost_final.pkl")
vectorizer = joblib.load("../final_model/vectorizer_toxicidad_final.pkl")

# Comentarios de ejemplo
comments = [
    "You're disgusting and stupid.",          # t√≥xico
    "Thank you for this amazing explanation.", # no t√≥xico
    "I don't think this was helpful at all."   # ambiguo
]

# Vectorizamos comentarios
X = vectorizer.transform(comments)

# Obtenemos los nombres reales de las features (tokens del vocabulario)
feature_names = vectorizer.get_feature_names_out(); # Usamos TreeExplainer porque el modelo es un XGBoost basado en √°rboles
# Convertimos la matriz TF-IDF a densa con .toarray(), que es lo que necesita SHAP
explainer = shap.TreeExplainer(model)
shap_values = explainer(X.toarray())  # X fue definido previamente como vectorizado de ejemplos; # Mostramos los tokens m√°s influyentes a nivel global (positivo y negativo)
shap.summary_plot(shap_values, X.toarray(), feature_names=feature_names)


In [None]:
# Creamos el explicador SHAP con nombres reales
explainer = shap.Explainer(model, feature_names=feature_names)

# Obtenemos valores SHAP para cada comentario vectorizado
shap_values = explainer(X)


## Explicabilidad global con SHAP

Vamos a utilizar SHAP para entender qu√© palabras del vocabulario aprendido por el modelo tienen un mayor impacto, en promedio, al predecir toxicidad.

El gr√°fico generado por `shap.summary_plot` muestra:

- En el eje **x**, el valor SHAP medio de cada palabra (cu√°nto contribuye, en general, a aumentar o disminuir la probabilidad de toxicidad).
- En el eje **y**, las palabras m√°s influyentes (ordenadas de mayor a menor impacto).
- **Cada punto** representa una aparici√≥n de esa palabra en alg√∫n comentario.
- **El color** indica el valor del token en el comentario (alto = frecuente, bajo = poco frecuente).

Este an√°lisis es √∫til para identificar qu√© t√©rminos el modelo considera m√°s t√≥xicos en general.


In [None]:
shap.plots.bar(shap_values)  # ‚úÖ Ahora muestra los tokens correctamente


## Explicabilidad global ‚Äì resumen por importancia media

Este gr√°fico de barras muestra las palabras que tienen **mayor impacto medio absoluto** sobre las predicciones del modelo. Es decir, aquellas que m√°s influyen en general, independientemente de si ese impacto es positivo o negativo.

- El valor num√©rico a la derecha de cada barra representa la **media del valor SHAP** absoluto de esa palabra.
- A diferencia del gr√°fico anterior, **no se muestra la dispersi√≥n ni el color por valor**: este gr√°fico es √∫til para tener una visi√≥n r√°pida y priorizada de las palabras que m√°s peso tienen en las decisiones del modelo.

Este an√°lisis ayuda a identificar qu√© tokens tienen mayor poder predictivo a lo largo de todo el conjunto de datos.


## ‚ö†Ô∏è Reflexi√≥n cr√≠tica: posibles sesgos y asociaciones espurias

Uno de los tokens destacados en los gr√°ficos SHAP es **"ferguson"**. Aunque no es una palabra ofensiva en s√≠ misma, aparece con una contribuci√≥n media notable en las predicciones de toxicidad.

Este caso es un ejemplo de lo que en aprendizaje autom√°tico se conoce como **asociaci√≥n espuria**: el modelo ha aprendido que la palabra "ferguson" suele aparecer en comentarios t√≥xicos, no porque sea una palabra t√≥xica, sino por el contexto social o medi√°tico en el que fue utilizada en el dataset original.

Esto revela un posible **sesgo en los datos de entrenamiento**. Si no se revisa, el modelo podr√≠a clasificar como t√≥xicos comentarios informativos o respetuosos que simplemente mencionen ciertos temas o lugares sensibles.

üîç Este hallazgo justifica el uso de t√©cnicas de interpretabilidad como **SHAP**, que nos permiten no solo entender c√≥mo decide el modelo, sino tambi√©n detectar y corregir errores, sesgos o asociaciones no deseadas.


In [None]:
import matplotlib.pyplot as plt

# Comentario 1: T√≥xico
plt.figure()
shap.plots.waterfall(shap_values[0], max_display=10, show=False)
plt.title("Comentario 1 ‚Äì T√≥xico", fontsize=14)
plt.tight_layout()
plt.show()

# Comentario 2: No t√≥xico
plt.figure()
shap.plots.waterfall(shap_values[1], max_display=10, show=False)
plt.title("Comentario 2 ‚Äì No t√≥xico", fontsize=14)
plt.tight_layout()
plt.show()



## Ejemplos concretos: ¬øC√≥mo decide el modelo en cada comentario?

Los siguientes gr√°ficos muestran c√≥mo el modelo llega a su decisi√≥n en **dos casos reales**. Utilizamos la visualizaci√≥n tipo `waterfall` de SHAP, que descompone la predicci√≥n en contribuciones individuales de cada token:

- üî¥ **Rojo**: palabras que empujan la predicci√≥n hacia **t√≥xico**
- üîµ **Azul**: palabras que empujan hacia **no t√≥xico**
- `1¬∑palabra` ‚Üí la palabra est√° presente en el comentario
- `0¬∑palabra` ‚Üí la palabra no aparece, pero SHAP estima su efecto si lo hiciera

---

### üî¥ Ejemplo 1 ‚Äì Comentario clasificado como **t√≥xico**

- La palabra **"stupid"** est√° presente y tiene un peso importante hacia la toxicidad.
- El modelo interpreta este t√©rmino como altamente ofensivo, y su presencia basta para elevar la predicci√≥n.
- Los dem√°s tokens tienen impacto bajo o nulo.

---

### üîµ Ejemplo 2 ‚Äì Comentario clasificado como **no t√≥xico**

- Aunque el texto podr√≠a parecer una cr√≠tica o estar en un contexto delicado, no contiene insultos ni lenguaje violento.
- El modelo mantiene la predicci√≥n baja y descarta la toxicidad.
- Esto sugiere que el modelo distingue correctamente entre **contenido cr√≠tico** y **contenido ofensivo**.

---

Gracias a esta explicaci√≥n local, podemos confirmar que:

- El modelo no act√∫a como una caja negra: sus decisiones son rastreables y comprensibles.
- Penaliza el uso expl√≠cito de lenguaje ofensivo, no los temas tratados.
- SHAP nos permite validar que no hay sesgos evidentes en estos ejemplos, y que el modelo responde bien ante diferentes contextos.

Estas visualizaciones refuerzan la confianza en el comportamiento del modelo y permiten detectar posibles errores antes de su despliegue.


## Conclusiones finales y reflexi√≥n cr√≠tica

Durante este an√°lisis, hemos evaluado no solo el rendimiento del modelo de clasificaci√≥n de toxicidad, sino tambi√©n su **capacidad de toma de decisiones y los posibles sesgos presentes** en su razonamiento interno, gracias a la interpretabilidad con SHAP.

A trav√©s de gr√°ficos individuales (`waterfall`) y globales (`bar`), hemos podido identificar qu√© tokens tienen m√°s peso en la toma de decisiones del modelo y c√≥mo interact√∫an en diferentes tipos de comentarios (t√≥xicos y neutros).

---

### ¬øTiene sesgos nuestro modelo?

**S√≠, muestra indicios de sesgos contextuales aprendidos durante el entrenamiento**, aunque no siempre se traducen en clasificaciones err√≥neas.

#### Justificaci√≥n:

- Palabras sensibles como `"ferguson"`, `"cnn"`, `"black"`, `"african american"`, `"muslim"`, etc. aparecen recurrentemente como tokens que **empujan hacia la predicci√≥n de toxicidad**, tanto en gr√°ficos individuales como globales.

- En algunos comentarios **objetivos y no ofensivos**, el modelo muestra una **probabilidad elevada de toxicidad**, lo que indica que asocia ciertas palabras a patrones aprendidos como "t√≥xicos", **sin tener en cuenta el tono real del comentario**.

- Sin embargo, el modelo **no clasifica autom√°ticamente como t√≥xicos** todos los comentarios que contienen esos t√©rminos. Esto sugiere que:

  üîµ El modelo **no tiene un sesgo absoluto ni determinista**  
  üî¥ Pero s√≠ ha aprendido **correlaciones espurias**  
  _(Ejemplo: "ferguson" aparece en muchos comentarios t√≥xicos del dataset ‚Üí el modelo lo aprende como indicador de toxicidad)_

---

### Conclusi√≥n cr√≠tica y valor a√±adido de SHAP

Este an√°lisis muestra que el modelo, aunque funcional, **refleja los sesgos latentes de los datos de entrenamiento**. Por ello:

- **SHAP es fundamental no solo para explicar predicciones, sino tambi√©n para auditar el modelo**
- Detectar tokens con impacto indebido permite reflexionar sobre la necesidad de:
  - Mejorar el dataset (m√°s ejemplos neutrales con palabras sensibles)
  - Aplicar t√©cnicas de balanceo o filtrado sem√°ntico
  - Incluir controles √©ticos antes de producci√≥n

üí° En definitiva, este an√°lisis no solo explica el "qu√©" del modelo, sino tambi√©n el "por qu√©", y **abre la puerta a una mejora consciente y responsable de la IA aplicada al lenguaje.**
