### Model Interpretability

> - Explian why machine learning interpretability is important
> - Differentiate between self-interpretable and non-self-interpratable types of models. 

### Importance of model interpretability

![image.png](attachment:image.png)

### Understanding machine learning models 

![image-2.png](attachment:image-2.png)

### Model interpretability 

![image-3.png](attachment:image-3.png)

---

### Examples of self-interpretable and non-self-interpretable models

> - List typical models with different interpretabilities
> - Describe the two main types of model interpretation methods.

### Self-interpretable: Linear models

![image-4.png](attachment:image-4.png)

### Self-interpretable: Tree models 

![image-5.png](attachment:image-5.png)

### Self-interpretable: K-nearest neighbor

![image-6.png](attachment:image-6.png)

---

### non-self-interpratable: ensamble models

![image-7.png](attachment:image-7.png)

### Model interpretation methods 

![image-8.png](attachment:image-8.png)

---
Los modelos autointerpretativos son aquellos que son fáciles de entender y explicar, como los modelos lineales, los modelos de árbol y el modelo de vecinos más cercanos. Estos modelos tienen una estructura simple y se basan en reglas lógicas que podemos entender fácilmente.

Por ejemplo, si queremos predecir el precio de una casa, podemos usar un modelo lineal que tenga en cuenta características como el número de habitaciones y la clasificación de la escuela asociada. Estas características tienen una relación directa con el precio de la casa, por lo que podemos entender cómo el modelo llega a su predicción.

Por otro lado, los modelos no autointerpretativos son más complejos y difíciles de entender. Estos modelos, como el bosque aleatorio, las máquinas de vectores de soporte no lineales y las redes neuronales profundas, están compuestos por múltiples componentes y su proceso de toma de decisiones es más opaco.

En resumen, los modelos autointerpretativos son más fáciles de entender porque se basan en reglas lógicas simples, mientras que los modelos no autointerpretativos son más complejos y requieren más esfuerzo para explicar y comprender.

---

### Model - Agnostic Explanations 

> - Describe what model-agnostic explanation methods are
> - Identify the main features of a model by applying permutation feature importance
> - Indentify how specific features outcomes using a partial dependency plot

### Model-agnostic explanations 

![image-9.png](attachment:image-9.png)

### Predicting if employees are looking for a new job

![image-10.png](attachment:image-10.png)

### Feature importance

- Measure the importance of features
    1. Simplify your model by only including important features
    2. Interpret how predictions were made
- Permutation feature importnace
- Impurity-based feature importance 
- Shapley additive explanations (shap) values

### Permutation feature importance 

- Measure the increases of prediction error by permuting / shuffling a feature

![image-11.png](attachment:image-11.png)

![image-12.png](attachment:image-12.png)

### Permutation feature importance example 

![image-13.png](attachment:image-13.png)

### Partial dependency plot PDP

- shows the relationship (marginal effects) of interested features on the preditiction outcome 

![image-14.png](attachment:image-14.png)

![image-15.png](attachment:image-15.png)

### PDP of feature 'experience'

![image-16.png](attachment:image-16.png)

### Recap
- You can use model-agnostic explanation methods to understand different models, regardless of their structures
- You can use Permutation Feature Importance to calculate and rank feature importance
- You can illustrate the relationship between an interested feature and model outcome using a partial dependency plot (PDP)
---
Estos métodos nos permiten entender diferentes modelos de aprendizaje automático, sin importar su estructura.

Imagina que hemos construido un modelo de clasificación complejo para predecir si un empleado está buscando un nuevo trabajo. Este modelo utiliza diferentes características de los perfiles de los empleados, como el índice de desarrollo de la ciudad, el tamaño y tipo de la empresa, la educación y la experiencia, entre otros.

Una forma común de explicar un modelo de aprendizaje automático es identificando las características más importantes. Esto nos ayuda a simplificar el modelo y a entender cómo toma decisiones. Para medir la importancia de una característica, podemos usar el método de importancia de características por permutación.

Este método consiste en mezclar los valores de una característica y observar cómo afecta a las predicciones del modelo. Si una característica es importante, al mezclar sus valores se generarán errores de predicción más grandes. Podemos calcular la importancia de cada característica y visualizarla en gráficos de barras o diagramas de caja.

Además, podemos usar el gráfico de dependencia parcial para entender la relación entre una característica y el resultado del modelo. Este gráfico muestra cómo cambia el resultado del modelo cuando modificamos una característica específica, manteniendo las demás características constantes.

En resumen, los métodos de explicación agnósticos al modelo nos permiten entender diferentes modelos de aprendizaje automático y sus características más importantes. Podemos usar la importancia de características por permutación para medir la importancia de cada característica y el gráfico de dependencia parcial para visualizar la relación entre una característica y el resultado del modelo.

---

### Surrogate Models 

> - Explain  the term global surrogate model
> - Explain the steps involved in building global surrogate models
> - Describe how LIMEs make predictions given specific variable instances 

### Surrogate models 

![image-17.png](attachment:image-17.png)

### Global surrogate models 

![image-18.png](attachment:image-18.png)

### Local Surrogate 
- Global surrogate models may not always work
    - Large inconsistency between surrogate models and black-blox models
    - Multiple data instance groups or clusters in the dataset

- Explain specific interested data instances locally
- A local surrogate model is built on one or a few instances. 

### Local Interpretable Model-Agnostic Explanations (LIME)

![image-19.png](attachment:image-19.png)

### A line Example 

![image-20.png](attachment:image-20.png)

### Recap

- A surrogate model is a way of explaining complex black-box models using simpler models
- The general steps to build global surrogate models are straighforward
- You can build local surrogate models using the LIME algorithm

---

Imagina que tienes un modelo de aprendizaje automático muy complejo que es difícil de entender. Este modelo se conoce como un modelo de caja negra, porque no sabemos cómo se relacionan las entradas con las salidas. Ahora, para poder entender este modelo, podemos construir un modelo más simple que se aproxime a él. A este modelo más simple se le llama modelo sustituto.

El proceso para construir un modelo sustituto global es el siguiente: primero seleccionamos un conjunto de datos de entrada y usamos el modelo de caja negra para hacer predicciones con esos datos. Luego, utilizamos esos datos y las predicciones para entrenar un modelo sustituto más simple, como un modelo lineal o un modelo de árbol. Este modelo sustituto nos dará sus propias predicciones. Si las predicciones del modelo sustituto son similares a las del modelo de caja negra, podemos interpretar el modelo sustituto en lugar del modelo original.

Por otro lado, también podemos construir un modelo sustituto local utilizando solo uno o unos pocos ejemplos de datos. Esto nos permite entender cómo el modelo de caja negra hace predicciones en casos específicos. Para construir este modelo sustituto local, generamos un conjunto de datos artificiales basado en el ejemplo seleccionado y luego lo utilizamos para entrenar un modelo sustituto. Al analizar este modelo sustituto local, podemos explicar cómo el modelo de caja negra hace predicciones en ese ejemplo en particular.

---

### Unbalanced Classes 

> - issues that arise when class outcomes are unbalanced
> - Approaches to dealing with unbalanced data
> - Upsample, Downsample, and Resample approaches to unbalanced class data

**Classifiers** are usually built to optimize accuracy and hence will often perform poorly on unbalanced classes.

![image-21.png](attachment:image-21.png)

For unbalanced datasets, we can balance the size of the classes by either downsampling the larger class or opsampling the small one. 

![image-22.png](attachment:image-22.png)

![image-23.png](attachment:image-23.png)

We can also do a mix of the two. In this example 6 < s > 19 for sampling. If we choose s = 10:

![image-24.png](attachment:image-24.png)

---
En este tema estamos hablando de cómo manejar conjuntos de datos desequilibrados al realizar clasificación. Un conjunto de datos desequilibrado significa que una clase tiene muchos más ejemplos que otra clase. Esto puede ser un problema porque los clasificadores están diseñados para optimizar la precisión, es decir, obtener la mayor cantidad de respuestas correctas sin importar la clase. Esto significa que a menudo funcionarán mal en clases que tienen pocos ejemplos.

Para solucionar este problema, podemos intentar equilibrar nuestro conjunto de datos antes de entrenar nuestro modelo. Hay tres enfoques principales que podemos utilizar: el muestreo hacia abajo (downsampling), el muestreo hacia arriba (upsampling) y el muestreo mixto (resampling).

El muestreo hacia abajo implica tomar solo tantos ejemplos de la clase mayoritaria como hay disponibles en la clase minoritaria. Por ejemplo, si tenemos 100 ejemplos de la clase mayoritaria y 10 ejemplos de la clase minoritaria, seleccionaríamos aleatoriamente solo 10 ejemplos de la clase mayoritaria para tener un conjunto de datos equilibrado.

El muestreo hacia arriba implica crear copias de los ejemplos de la clase minoritaria hasta que tengamos un número igual de ejemplos en ambas clases. Siguiendo el ejemplo anterior, duplicaríamos los 10 ejemplos de la clase minoritaria hasta tener 100 ejemplos en total.

El muestreo mixto implica una combinación de los dos enfoques anteriores. Por ejemplo, podríamos seleccionar aleatoriamente 10 ejemplos de la clase mayoritaria y duplicar los 10 ejemplos de la clase minoritaria hasta tener un conjunto de datos equilibrado.
Estos métodos nos ayudan a tener un conjunto de datos equilibrado para que nuestro modelo pueda aprender de manera más efectiva. En el próximo video, profundizaremos en los beneficios y las limitaciones de cada uno de estos enfoques.

---

### Unbalanced classes 

Steps for unbalanced datasets:
- Do a stratified test-train split
- Up or down sample the full dataset
- Build models 

with unbalanced classes, the data often isn't easily separable. We must choose to make sacrifices to one class or the other. 

Consider the following data about an email campaingn:

![image-25.png](attachment:image-25.png)

For every minor-class data-point indentified as such, we might wrongly label a few major-class points as minor-class. 

so as recall goes up, precision will likely go down. 

![image-26.png](attachment:image-26.png)

**Downsampling** adds tremendous importance to the minor class, typically shooting up recall and bringing down precision.

values like 0.8 recall and 0.15 precision isn0t uncommom

**Upsampling** mitigates some of the excessive weight on the minor class. Recall is still typically higher than precision, but the gap is lesser

Values like 0.7 recall and 0.4 precision isn't incommon. And are often considered good results for an unbalanced dataset. 

**cross-validation** works for any global model-making choice, including sampling. 

![image-27.png](attachment:image-27.png)

every classifier used produces a different model. 

Every dataset we use (produced by various sampling, say) produces a different model. 

We can choose the best model using any criteria including AUC (area under the curve).
Remember each model produces a different ROC curve.

Once a model is chosen. You can walk along the ROC curve and pick any point on it. Each Point has different precision/recall values. 

**Recap**
- Issue that arise when class outcomes are unbalanced
- Approaches to dealing with unbalanced data
- Upsample, Downsample, and Resample approaches to unbalanced class data. 

---

En este tema, estamos hablando de cómo lidiar con conjuntos de datos desequilibrados, es decir, conjuntos de datos en los que una clase tiene muchos más ejemplos que otra clase. Esto puede ser un desafío porque los modelos de aprendizaje automático tienden a estar sesgados hacia la clase mayoritaria y pueden tener dificultades para predecir correctamente la clase minoritaria.

Hay dos enfoques principales para abordar este problema: el submuestreo y el sobremuestreo. En el submuestreo, eliminamos ejemplos de la clase mayoritaria para equilibrar las clases. Esto puede mejorar la capacidad del modelo para predecir correctamente la clase minoritaria, pero también puede perder información valiosa de la clase mayoritaria.

En el sobremuestreo, duplicamos o generamos nuevos ejemplos de la clase minoritaria para equilibrar las clases. Esto puede ayudar al modelo a capturar mejor la clase minoritaria sin perder información de la clase mayoritaria. Sin embargo, también existe el riesgo de sobreajuste, es decir, el modelo puede ajustarse demasiado a los ejemplos duplicados de la clase minoritaria.

En resumen, el submuestreo reduce la importancia de la clase mayoritaria, lo que puede mejorar la capacidad del modelo para predecir la clase minoritaria, pero a costa de perder información valiosa. El sobremuestreo equilibra las clases al duplicar o generar nuevos ejemplos de la clase minoritaria, lo que puede mejorar la capacidad del modelo para predecir la clase minoritaria sin perder información de la clase mayoritaria, pero con el riesgo de sobreajuste.

---

### Unbalanced classes: Modeling Approaches 

> - Additional approaches to dealing with unbalanced outcomes
> - Random and synthetic over sampling
> - Techniques for under sampling
> - Using Balanced Bagging (blagging) to address unbalanced class data

### The problem 

![image-28.png](attachment:image-28.png)

### Lost of Approaches 

- General sklearn approaches 
- Oversampling 
- Undersampling
- combinantion
- Ensambles

### Weighting 

Manu models allow weighted observations 
- Adjust these so total weights are equal across classes
- Easy to do, when it's available
- No need to sacrifice data 

### Stratified sampling 

- Train-test split, "stratify" option
- ShuffleSplit -> StratifiedShuffleSplit
- KFold -> StratifiedKFold -> RepatedStratifiedKFold

---

 El problema que enfrentamos al trabajar con clases desequilibradas es que nuestros modelos de aprendizaje automático pueden verse afectados por el desequilibrio de los datos. Esto significa que el modelo puede favorecer en gran medida la clase mayoritaria y tener dificultades para clasificar correctamente los valores de la clase minoritaria.

Para abordar este problema, existen varias técnicas que podemos utilizar. Una opción es ajustar los pesos de las observaciones en nuestro modelo para equilibrar el error atribuido a las clases minoritarias y mayoritarias. Esto se puede hacer utilizando el hiperparámetro "class weight" en muchos modelos de sklearn.

Otra opción es realizar un muestreo excesivo (over-sampling) de la clase minoritaria o un muestreo insuficiente (under-sampling) de la clase mayoritaria. También podemos combinar el muestreo excesivo y el muestreo insuficiente para lograr un equilibrio entre las clases. Además, podemos utilizar métodos de conjunto (ensemble methods) que aprovechan estas técnicas de muestreo para garantizar el equilibrio entre las clases.

Es importante tener en cuenta que también debemos estratificar nuestras muestras al trabajar con conjuntos de datos desequilibrados. Esto significa que debemos asegurarnos de que el equilibrio de clases se mantenga tanto en nuestro conjunto de entrenamiento como en nuestro conjunto de prueba. Podemos hacer esto utilizando argumentos de estratificación en las funciones de división de entrenamiento y prueba, como "stratified" en la función "train_test_split".

En resumen, cuando trabajamos con clases desequilibradas, podemos ajustar los pesos de las observaciones, realizar muestreo excesivo o insuficiente, utilizar métodos de conjunto y estratificar nuestras muestras para lograr un mejor equilibrio entre las clases y mejorar el rendimiento de nuestros modelos de aprendizaje automático.

---

### Oversampling

![image-29.png](attachment:image-29.png)

- Simplest oversampling approach
- Resample with replacement from minority class
- No concerns about geometry of feature space
- Good for categorical data

### Synthetic Oversampling

- Start with a point in the monority class
- Choose one of K neares neighbors 
- Add a new point between them
- Two main approaches:
    - SMOTE
    - ADASYN
    ![image-30.png](attachment:image-30.png)

### SMOTE:  Synthetich Minority Oversampling Technique

- **Regular**: Connect minority class points to any neighbor (even other classes)
- **Borderline**: Classify points as outlier, safe, or in-danger

    * 1: Connect minority in-danger points only to minority points
    * 2: Connect minority in-danger points to whatever is nearby

- **SVM**: Use minority support vectors to generate new points 

### ADASYN: ADAptive SYNthetic sampling
- For each minority point:
    - Look at classes in neighborhood
    - Generate new samples proportional to competing classes.

- Motivated by KNN, but helps other classifiers as well

---
El sobremuestreo es una técnica que se utiliza para aumentar el tamaño de una clase minoritaria en un conjunto de datos, de manera que sea similar al tamaño de la clase mayoritaria.

Existen diferentes enfoques de sobremuestreo, pero en este video se mencionan dos de los más comunes: el sobremuestreo aleatorio y el sobremuestreo sintético. 

El sobremuestreo aleatorio consiste en tomar aleatoriamente filas de la clase minoritaria y duplicarlas en el conjunto de datos. Esto se utiliza principalmente en datos categóricos, donde la distancia entre las características de las muestras no tiene tanta importancia.

Por otro lado, el sobremuestreo sintético implica crear nuevas muestras de la clase minoritaria que no existen en el conjunto de datos original. Esto se hace tomando un punto de la clase minoritaria y eligiendo uno de sus vecinos más cercanos. Luego, se crea un nuevo punto en algún lugar entre estos dos puntos. Este proceso se repite para cada uno de los vecinos más cercanos.

---

### Undersampling

 ![image-31.png](attachment:image-31.png)

### NearMiss-1: Which Points to keep? Those Closset to Nearby Minority Points 

![image-32.png](attachment:image-32.png)

### NearMiss-2: Which Points To keep? Those closest to Distant Minority Points 

![image-33.png](attachment:image-33.png)

### NearMiss-3: Those Closset to Majority Nieghbors of Minority Points 

![image-34.png](attachment:image-34.png)

### Tomek Links: Mixed Mutual Nearest Neighbors 

![image-35.png](attachment:image-35.png)

### Edited nearest Neighbors 

![image-36.png](attachment:image-36.png)

---
En el aprendizaje automático, a veces nos encontramos con conjuntos de datos desequilibrados, lo que significa que una clase tiene muchos más ejemplos que otra. El undersampling es una técnica que se utiliza para equilibrar estas clases desiguales. El objetivo es reducir el tamaño de la clase mayoritaria para que sea similar en tamaño a la clase minoritaria.

Una forma de hacer esto es utilizando métodos llamados NearMiss. Estos métodos seleccionan muestras de la clase mayoritaria que están más cerca de las muestras de la clase minoritaria. El objetivo es mantener puntos que estén cerca de los límites de decisión. Sin embargo, debemos tener cuidado con los valores atípicos o el ruido, ya que pueden afectar los resultados.

Existen diferentes versiones de NearMiss, como NearMiss-2 y NearMiss-3, que tienen en cuenta diferentes aspectos al seleccionar las muestras. También hay otras técnicas, como los enlaces de Tomek y los vecinos más cercanos editados, que ayudan a crear clases más distintas.

En resumen, el undersampling es una técnica para equilibrar conjuntos de datos desequilibrados al reducir el tamaño de la clase mayoritaria. Se utilizan diferentes métodos para seleccionar las muestras adecuadas, teniendo en cuenta la cercanía a las muestras de la clase minoritaria. Sin embargo, debemos tener cuidado con los valores atípicos y el ruido que pueden afectar los resultados.

---

### Combination OVer/Under

- SMOTE + Tomek's link
- SMOTE + edited Nearest Neighbors

### Blaggin (Balanced Bagging)
![image-37.png](attachment:image-37.png)

### Unbalanced Classes: Summary

- All of this happens after the test set has been split
- Use Sensible metrics
    - AUC
    - F1
    - Cohen's Kappa
    - Not accuracy - too easy to fool in this case

### Learning Recap

- Addition approaches to dealing with unbalanced outcomes
- Random and Synthetic over sampling
- Techniques for Under sampling 
- Using Balanced Baggin (Blagging) to addres unbalanced class data

---
se habla sobre cómo lidiar con conjuntos de datos desequilibrados, es decir, cuando una clase tiene muchos más ejemplos que otra. Esto puede ser un desafío para los modelos de aprendizaje automático, ya que pueden tener dificultades para predecir correctamente la clase minoritaria.

Una forma de abordar este problema es utilizando técnicas de sobremuestreo y submuestreo. El sobremuestreo consiste en generar más ejemplos de la clase minoritaria para equilibrar el conjunto de datos. Esto se puede hacer utilizando algoritmos como SMOTE, que crea ejemplos sintéticos basados en los ejemplos existentes. El submuestreo, por otro lado, implica eliminar ejemplos de la clase mayoritaria para equilibrar el conjunto de datos.

También se menciona una técnica llamada "blagging" o "balanced bagging", que combina el sobremuestreo y el submuestreo. En esta técnica, se generan muestras de arranque (bootstrap samples) y luego se realiza un submuestreo en cada una de las clases mayoritarias. Estas muestras equilibradas se utilizan para entrenar árboles de decisión individuales.

Es importante tener en cuenta que no hay una técnica única que funcione en todos los casos. La elección entre sobremuestreo y submuestreo dependerá de los datos y del objetivo del problema. Además, se recomienda realizar una división de entrenamiento y prueba antes de aplicar estas técnicas para evitar el sobreajuste y la filtración de datos.

En resumen, el contenido nos muestra diferentes enfoques para tratar con conjuntos de datos desequilibrados, como el sobremuestreo, el submuestreo y la combinación de ambos. Estas técnicas nos ayudan a mejorar la precisión de los modelos de aprendizaje automático al equilibrar las clases minoritarias y mayoritarias.

---