### **1. Feature Sensitivity Analysis**

#### Resumen
La sensibilidad de características  evalúa el impacto de cada característica en la predicción del modelo al modificarla. Si cambias el valor de una característica y el modelo produce una predicción diferente, eso indica que esa característica tiene un gran impacto en el resultado. Es como hacer una prueba de resistencia para ver qué características son más sensibles a cambios. Esta técnica funciona bien con modelos de caja negra porque no requiere entender cómo funciona el modelo internamente; solo necesitas analizar cómo cambia la predicción cuando modificas las características.

Para una muestra específica del conjunto de datos, modifica una característica y mide cómo cambia la predicción del modelo.
Si al modificar una característica, el modelo cambia significativamente su predicción, entonces esa característica tiene una alta sensibilidad y, por lo tanto, una gran influencia sobre el resultado.
Puedes usar esta técnica para identificar qué características son más importantes para el modelo en su conjunto y cuáles pueden no ser tan relevantes.

---


#### Principios del Análisis de Sensibilidad

El análisis se basa en alterar los valores de una característica específica mientras se mantienen las demás constantes. Posteriormente, se evalúa cómo varían las predicciones del modelo debido a estos cambios. Si el cambio en los valores de una característica produce una alteración significativa en las predicciones, se concluye que esa característica tiene un impacto considerable en el modelo.

El cálculo puede formalizarse como sigue:

1. Se obtiene el desempeño inicial del modelo en un conjunto de prueba (p. ej., error cuadrático medio, precisión, etc.).
2. Se transforma una característica específica aplicando alguna de las técnicas descritas más adelante.
3. Se evalúa el modelo con las características transformadas.
4. La sensibilidad se define como la diferencia en el desempeño del modelo antes y después de la transformación.

#### Métodos de Transformación

El impacto de cada característica puede medirse aplicando diferentes tipos de transformaciones. Los métodos más comunes son:

1. **Distribución uniforme**: Se reemplaza el valor de una característica por otro seleccionado de manera aleatoria dentro de su rango de valores posibles. Este método da igual peso a todos los valores posibles de la característica, pero puede sobreestimar la sensibilidad en caso de que los valores más comunes tengan un efecto menor en el modelo.

2. **Permutación**: Los valores de la característica se reorganizan aleatoriamente según su distribución en los datos. Este enfoque considera la distribución real de los valores en los datos, lo que lo hace robusto para características sesgadas.

3. **Simulación de valores faltantes**: Se intenta simular la ausencia de una característica. Por ejemplo:
   - Sustituir los valores numéricos por su media.
   - Reemplazar valores categóricos por una nueva clase.
   - Usar el valor más frecuente en lugar del original.

#### Consideraciones en Producción

El análisis de sensibilidad puede ser computacionalmente costoso, ya que requiere múltiples predicciones, especialmente en conjuntos de datos grandes o con muchas características. Para optimizar su uso en producción, se pueden implementar las siguientes estrategias:

- **Submuestreo**: Utilizar un subconjunto representativo de los datos para reducir la cantidad de predicciones necesarias.
- **Paralelización**: Ejecutar las predicciones de manera simultánea, aprovechando múltiples procesadores o núcleos.
- **Análisis por etapas**: Inicialmente calcular sensibilidades aproximadas con pocos datos, y luego refinar los resultados para las características más relevantes.

#### Aplicaciones Prácticas

El análisis de sensibilidad permite:
- Identificar características clave que explican el comportamiento del modelo.
- Detectar características con baja relevancia para eliminarlas y simplificar el modelo.
- Identificar fugas de datos (leakage) cuando una característica tiene un impacto inesperadamente alto.

### **2. Partial Dependence Plots (PDP)**

#### Resumen

Los PDP ermiten visualizar la relación entre una característica y la predicción de un modelo, manteniendo constantes las otras características. Esto es útil para entender cómo una sola característica afecta al modelo. Por ejemplo, en un modelo que predice el precio de una casa en función de varias características (tamaño, ubicación, número de habitaciones, etc.). Un PDP muestra cómo cambia la predicción del modelo a medida que varía el valor de una característica, mientras que las demás características se mantienen fijas. Este enfoque te permite ver cómo una sola variable influye en la salida, de una forma más sencilla de interpretar que el comportamiento general de un modelo complejo.

Para realizarlo primero se calcula la predicción promedio del modelo para diferentes valores de una característica específica, manteniendo fijas las demás características. Con estos datos se grafica esta relación, mostrando cómo la predicción del modelo varía a medida que cambia la característica.

Esto permite visualizar tendencias o patrones en la relación entre una característica y la predicción, ayudando a entender cómo el modelo responde a diferentes valores de esa variable.

---


#### Principios de Funcionamiento

El PDP calcula las predicciones promedio del modelo cuando una o varias características cambian, mientras que las demás se mantienen constantes. Formalmente, para una característica x_i, el gráfico se construye evaluando la expectativa. 
El resultado muestra cómo varían las predicciones promedio del modelo a medida que x_i toma diferentes valores, manteniendo las otras características en sus valores observados.

#### Ventajas de los PDP

- **Intuitivos**: Ofrecen una representación visual clara de las relaciones entre características y predicciones.
- **Flexibles**: Pueden aplicarse a cualquier tipo de modelo, incluyendo cajas negras.
- **Multivariables**: Permiten estudiar interacciones entre dos características mediante gráficos tridimensionales.

#### Limitaciones de los PDP

- **Dependencia de características**: Los PDP asumen independencia entre las características de entrada, lo que puede no ser realista en algunos conjuntos de datos. Si existe una fuerte correlación entre las características, el gráfico puede ser engañoso.
- **Costo computacional**: Requiere múltiples evaluaciones del modelo, especialmente en conjuntos de datos grandes.
- **Dificultad en datos categóricos**: Aunque es posible generar PDP para características categóricas, interpretar sus resultados puede ser más complicado.

#### Aplicaciones Prácticas

1. **Detección de relaciones no lineales**: Los PDP pueden revelar tendencias, como si un aumento en una característica genera un efecto positivo o negativo en la predicción.
   
2. **Identificación de puntos de saturación**: Permiten identificar valores de una característica a partir de los cuales su efecto en el modelo es insignificante.

3. **Análisis de interacciones**: Los gráficos bivariados muestran cómo las combinaciones de valores de dos características afectan las predicciones.

#### Casos de Uso Ejemplares

- **Modelos de riesgo crediticio**: Un PDP puede mostrar cómo la edad o el historial crediticio impactan en la probabilidad de otorgar un préstamo.
- **Modelos de predicción de salud**: Ayudan a entender cómo factores como la presión arterial o el índice de masa corporal influyen en la probabilidad de desarrollar una enfermedad.

### **3. LIME (Local Interpretable Model-agnostic Explanations)**

#### Resumen

LIME se enfoca en la "localidad" de las predicciones de los modelos de caja negra, es decir, busca entender cómo un modelo toma decisiones en casos específicos. Teniendo un modelo que hace predicciones muy complejas, como una red neuronal profunda, se puede usar para saber cómo se llegó a una conclusión para un ejemplo particular, por ejemplo, si una persona es aceptada o no para un crédito. LIME hace lo siguiente: crea un modelo simple y comprensible (como una regresión lineal) que imite el comportamiento del modelo complejo, pero solo alrededor de ese caso en particular. La idea es que aunque el modelo completo sea complicado, el comportamiento en una vecindad pequeña de un dato puede ser aproximado por un modelo simple y fácil de entender.

---


#### Principios de Funcionamiento

LIME construye un modelo explicativo simple y local alrededor de una predicción individual. La idea central es que mientras un modelo complejo puede ser difícil de interpretar en su totalidad, su comportamiento alrededor de una instancia específica puede aproximarse con un modelo más simple, como una regresión lineal.

El proceso se realiza en los siguientes pasos:

1. **Generación de datos locales**: 
   - Se perturban las entradas originales generando muestras artificiales cercanas a la instancia de interés.
   - Estas perturbaciones permiten estudiar cómo cambia la predicción del modelo con ligeros ajustes en las características.

2. **Predicción en datos perturbados**:
   - Se evalúa el modelo complejo en las muestras generadas para obtener las predicciones correspondientes.

3. **Ajuste del modelo explicativo**:
   - Se entrena un modelo interpretable (como una regresión lineal o un árbol de decisión pequeño) sobre las muestras perturbadas y sus predicciones.
   - Se asignan pesos mayores a las muestras más cercanas a la instancia original, asegurando que el modelo sea localmente representativo.

4. **Interpretación**:
   - Los coeficientes del modelo explicativo indican la importancia de cada característica en la predicción de la instancia específica.

#### Ventajas de LIME

- **Modelo-agnóstico**: Funciona con cualquier tipo de modelo de aprendizaje automático.
- **Explicaciones locales**: Se centra en la instancia específica, lo que permite entender por qué se tomó una decisión particular.
- **Flexible**: Soporta tanto datos tabulares como texto e imágenes.

#### Limitaciones de LIME

1. **Dependencia del muestreo**:
   - La calidad de las explicaciones depende del conjunto de datos perturbados generado.
   - Un muestreo pobre puede llevar a explicaciones poco precisas.

2. **Inestabilidad**:
   - Las explicaciones pueden variar significativamente para la misma instancia dependiendo de las perturbaciones y los pesos asignados.

3. **Costo computacional**:
   - Generar muestras perturbadas y realizar predicciones múltiples puede ser computacionalmente costoso, especialmente para modelos grandes.

4. **Explicaciones aproximadas**:
   - LIME asume linealidad en la vecindad de la instancia, lo que puede no ser válido si el modelo subyacente es altamente no lineal.

#### Aplicaciones Prácticas

- **Sistemas de recomendación**:
   - Para entender por qué un producto o contenido específico fue recomendado a un usuario.
- **Diagnósticos médicos**:
   - Explica por qué un modelo predice que un paciente podría estar en riesgo de una enfermedad específica.
- **Finanzas**:
   - Justifica por qué un cliente recibe una calificación crediticia determinada.

#### Casos de Uso Ejemplares

1. **Clasificación de texto**:
   - En problemas de análisis de sentimientos, LIME puede identificar palabras o frases específicas que influyen en la predicción.

2. **Visión por computadora**:
   - LIME puede resaltar regiones de una imagen que fueron más influyentes en la clasificación.

3. **Fraude financiero**:
   - Explica por qué una transacción en particular fue marcada como fraudulenta, ayudando a los analistas a validar o refutar la predicción.

### **4. SHAP (SHapley Additive exPlanations)**

#### Resumen

SHAP se basa en la teoría de juegos y la idea de "justicia" en la asignación de responsabilidades. Imagina que tienes varias personas trabajando en un proyecto y quieres saber cómo contribuye cada persona al resultado final. SHAP hace algo similar, pero en lugar de personas, estamos hablando de características del modelo y de cómo cada una contribuye a la predicción final. Para cada característica, SHAP calcula su "contribución marginal", es decir, cuánto cambia la predicción cuando esa característica se agrega al modelo, en combinación con las otras características. La ventaja es que SHAP no solo calcula el valor de una característica en particular, sino que tiene en cuenta todas las interacciones entre ellas, proporcionando una explicación más precisa y justa.

Para esto se descompone la predicción de un modelo en contribuciones individuales de cada característica. Se calcula la "contribución marginal" de cada característica, es decir, cómo cambia la predicción al agregar o quitar esa característica, considerando todas las combinaciones posibles con las demás. Se asigna un valor justo (Shapley value) a cada característica, que refleja su importancia para la predicción, basado en cómo cambia la salida del modelo cuando se incluyen o excluyen esas características en diferentes combinaciones.

---

#### Principios de Funcionamiento

El método SHAP se basa en los valores de Shapley, que son calculados considerando todas las combinaciones posibles de características y evaluando su contribución marginal. Aunque esta aproximación puede ser costosa en términos computacionales, SHAP introduce algoritmos eficientes para reducir esta carga en modelos comunes.

1. **Contribución marginal**:
   - Para una característica específica \(i\), su contribución marginal se calcula observando cómo cambia la predicción del modelo al incluir \(i\) en diferentes subconjuntos de características.

2. **Distribución justa**:
   - Los valores de Shapley aseguran que cada característica reciba una contribución proporcional a su impacto promedio en todas las combinaciones posibles.

3. **Descomposición aditiva**:
   - Las predicciones del modelo se descomponen en la suma de las contribuciones individuales de las características más un valor base, que representa la predicción promedio del modelo.
   

#### Ventajas de SHAP

1. **Consistencia**:
   - Si se incrementa la contribución marginal de una característica en un modelo, su valor SHAP nunca disminuye.

2. **Atribución justa**:
   - Los valores SHAP aseguran que todas las características sean tratadas equitativamente al considerar todas las combinaciones posibles.

3. **Modelo-agnóstico**:
   - Se puede aplicar a cualquier tipo de modelo, desde regresiones lineales hasta redes neuronales profundas.

4. **Interpretación global y local**:
   - Los valores SHAP pueden usarse para analizar la importancia de las características a nivel global (sobre un conjunto de datos) o local (para una predicción específica).


#### Limitaciones de SHAP

1. **Costo computacional**:
   - Calcular valores SHAP exactos es costoso, ya que requiere evaluar el modelo en todas las combinaciones posibles de características.

2. **Sensibilidad a correlaciones**:
   - Si las características están altamente correlacionadas, los valores SHAP pueden ser difíciles de interpretar, ya que las contribuciones se redistribuyen entre las características correlacionadas.

3. **Dependencia del modelo**:
   - Aunque SHAP es modelo-agnóstico, las simplificaciones necesarias para algunos modelos pueden introducir aproximaciones.


#### Aplicaciones Prácticas

1. **Detección de sesgos**:
   - Identificar si ciertas características están teniendo un impacto desproporcionado en las predicciones del modelo.

2. **Medicina personalizada**:
   - Explicar qué factores específicos llevaron a una predicción para un paciente individual.

3. **Auditoría y cumplimiento**:
   - Proporcionar explicaciones claras y justificables de las predicciones para cumplir con regulaciones como el GDPR.


#### Casos de Uso Ejemplares

1. **Sector financiero**:
   - Determinar qué características influyen más en la aprobación de un préstamo o en la predicción de la probabilidad de incumplimiento.

2. **Marketing**:
   - Analizar qué factores contribuyen más a la probabilidad de que un cliente haga clic en un anuncio.

3. **Cuidado de la salud**:
   - Evaluar por qué un modelo predijo un diagnóstico específico para un paciente, aumentando la confianza en su uso.



### **5. Permutation Importance**

#### **¿Por qué funciona?**
La clave de **Permutation Importance** es que evalúa la relevancia de una característica al observar el impacto de su desorden en el desempeño del modelo. La idea subyacente es simple: si una característica es crucial para el modelo, mezclar sus valores debería interrumpir su capacidad para realizar predicciones precisas. Esto se debe a que la permutación elimina la relación entre esa característica y el objetivo (o salida del modelo). Si, por otro lado, la característica no es importante, alterar sus valores no afectará significativamente el rendimiento.

#### **Procedimiento**
1. **Evaluar el rendimiento base**: Primero, mide el desempeño del modelo en el conjunto de datos original, por ejemplo, su precisión o error medio cuadrático.
2. **Permutar una característica**: Mezcla los valores de una característica en el conjunto de datos, rompiendo la relación entre esa característica y las demás.
3. **Medir el nuevo rendimiento**: Evalúa el modelo nuevamente con la característica permutada. 
4. **Calcular la importancia**: La diferencia entre el desempeño original y el desempeño con la característica permutada refleja la importancia de esa característica. Si el modelo se deteriora significativamente, la característica es importante; si apenas hay cambio, es menos relevante.

#### **Ejemplo**  
Supón que tienes un modelo para predecir el precio de las casas con características como tamaño, ubicación y número de baños. Si al mezclar los valores de "tamaño", el modelo deja de predecir bien los precios, es porque "tamaño" es una característica fundamental. Por otro lado, si mezclas los valores de "número de baños" y el rendimiento no cambia, puedes concluir que no influye tanto en el resultado.

#### **Ventajas y limitaciones**
- **Ventajas**: Fácil de implementar, agnóstico al modelo y útil para comparar importancia entre características.
- **Limitaciones**: Puede ser lento para conjuntos de datos grandes y, en datos muy correlacionados, puede subestimar la importancia de características relevantes.



### **6. Local Surrogate Models**

#### **Resumen**
La idea de los modelos surrogados locales es que un modelo complejo puede ser interpretado por un modelo más simple si te enfocas en una región pequeña del espacio de características. Aunque el modelo global (como una red neuronal) sea opaco, su comportamiento en vecindades pequeñas puede aproximarse con algo simple como una regresión lineal o un árbol de decisión. Esto funciona porque las relaciones no lineales a gran escala a menudo se "suavizan" cuando miras solo una pequeña sección de los datos.

#### **Procedimiento**
1. **Selecciona un punto de interés**: Escoge un dato del conjunto que quieras analizar.
2. **Crea una vecindad local**: Genera perturbaciones alrededor de ese punto, creando datos similares pero ligeramente diferentes.
3. **Obtén predicciones del modelo**: Usa el modelo complejo para predecir las salidas de estas nuevas muestras.
4. **Entrena un modelo simple**: Ajusta un modelo interpretable (como una regresión lineal) a las predicciones del modelo complejo dentro de esta vecindad.
5. **Extrae explicaciones**: Usa el modelo simple para analizar cómo las características locales influyen en la salida del modelo.

#### **Ejemplo**  
Imagina que tienes un modelo que predice si un cliente comprará un producto en función de varias características (edad, ingresos, historial de compras, etc.). Si un cliente de 35 años con ingresos de $50,000 toma una decisión, puedes usar un modelo surrogado local para entender cuáles de estas características influyeron más en esa predicción. El modelo surrogado te dirá, por ejemplo, que la edad tuvo más peso que el historial de compras en ese caso particular.

#### **Ventajas y limitaciones**
- **Ventajas**: Proporciona explicaciones específicas y claras para casos individuales; agnóstico al modelo original.
- **Limitaciones**: Las explicaciones son válidas solo localmente, y los resultados pueden variar dependiendo de cómo defines la vecindad.

### **7. Estudio de Ablación en Machine Learning**

En muchos casos en Machine Learning, los modelos están formados por múltiples componentes que influyen en el rendimiento total del sistema. Por ello, es muy importante contar con métodos para medir la contribución de cada una de estas partes al modelo en su conjunto. Aquí es donde entra el concepto de **estudio de ablación**.

---

#### ¿Qué es un Estudio de Ablación?

Un **estudio de ablación** consiste en eliminar partes específicas de un modelo para analizar su impacto en el comportamiento general del sistema. Esta técnica permite comprender qué componentes o módulos del modelo son críticos para su rendimiento y cuáles no tienen un impacto significativo.

En un estudio de ablación, se investigan las siguientes preguntas:

- **¿Qué tan importante es cada parte del modelo para el rendimiento general?**  
- **¿Qué componentes son redundantes y pueden ser eliminados sin afectar el comportamiento esperado del modelo?**  
- **¿Cómo influyen ciertos módulos individuales en la capacidad de aprendizaje o predicción del modelo?**

---

#### ¿Por qué es Importante?

En un sistema de Machine Learning, generalmente existen múltiples módulos de aprendizaje, como capas en una red neuronal, algoritmos de preprocesamiento, técnicas de regularización, entre otros. Comprender el efecto de cada uno de estos módulos es esencial para:

1. **Identificar la importancia relativa de cada componente.**  
2. **Optimizar el modelo eliminando elementos redundantes.**  
3. **Diagnosticar problemas en el comportamiento del modelo.**  

El estudio de ablación es una manera de realizar análisis causal de forma eficiente, con un coste computacional relativamente bajo.

---

#### Ejemplo: Ablación en Redes Neuronales

Por ejemplo, se puede realizar un estudio de ablación en una red neuronal eliminando una o varias capas para estudiar su influencia:

1. Se entrena la red con todas las capas y se mide el rendimiento de referencia.  
2. Se eliminan una o varias capas de la arquitectura de la red.  
3. Se vuelve a entrenar la red y se comparan los resultados con el rendimiento de referencia.

Al comparar ambos resultados, es posible determinar si la capa eliminada tiene un impacto significativo en la precisión o en el aprendizaje general.

---

#### Beneficios del Estudio de Ablación

- **Reducción de complejidad computacional.**  
- **Comprensión de los efectos causales de los componentes.**  
- **Facilita la mejora y optimización del diseño del modelo.**  
- **Identificación de componentes críticos y posibles redundancias.**

---

En conclusión, el **estudio de ablación** es una herramienta poderosa para realizar diagnósticos, optimizar y comprender mejor cómo funciona un modelo de Machine Learning. Se basa en una eliminación sistemática de componentes para analizar su influencia, lo que permite descubrir relaciones causales dentro del diseño de los modelos.
La siguiente imagen ilustra este procedimiento:

<img src="images/ablation_study.png" alt="image" width="auto" height="300">
