<font color="Lime"><h1 align ='center'><b><u>Desequilibrios de datos</u></b></h1></font>

Cuando nuestras etiquetas de datos tienen más de una categoría que otra, se dice que tenemos un desequilibrio de datos. Por ejemplo, recuerde que, en nuestro escenario, estamos intentando identificar los objetos encontrados por los sensores de drones. Nuestros datos están desequilibrados, porque hay un número enormemente diferente de excursionistas, animales, árboles y rocas en nuestros datos de entrenamiento. Esto se puede ver mediante la tabulación de estos datos:

<div align = "center">

| Etiqueta	| Excursionista	| Animal	| Árbol	| Piedra |
|:-----:|:-----:|:-----:|:-----:|:-----:|
|Count	| 400	| 200	| 800	| 800 |

</div>

O bien, se puede representar de esta manera:

<div>
<p align="center">
<img src="https://raw.githubusercontent.com/JuanCamilo18/MM_Datos/main/imags/MCyDD/MC_02_01_dis.JPG">
</p>
</div>

Observe cómo la mayoría de los datos son árboles o rocas. Un conjunto de datos equilibrado no tiene este problema.

Por ejemplo, si intentáramos predecir si un objeto es un excursionista, un animal, un árbol o una roca, lo ideal sería tener un número igual de todas las categorías, de la siguiente manera:

<div align = "center">

| Etiqueta	| Excursionista	| Animal	| Árbol	| Piedra |
|:-----:|:-----:|:-----:|:-----:|:-----:|
|Count	| 550	| 550	| 550	| 550 |

</div>

Si simplemente intentáramos predecir si un objeto era un excursionista, lo ideal sería tener un número igual de objetos de excursionista y objetos de no excursionista:

<div align = "center">

| Etiqueta	| Excursionista	| No excursionista |
|:-----:|:-----:|:-----:|
|Count	| 1100	| 1100	|

</div>

## <font color='B8E139'><b>¿Por qué son importantes los desequilibrios de datos?</b></font>

Los desequilibrios de datos son importantes porque los modelos pueden aprender a imitar estos desequilibrios cuando no es deseable. Por ejemplo, imagine que entrenamos un modelo de regresión logística para identificar objetos como excursionista o no excursionista. Si en los datos de entrenamiento dominan en gran medida las etiquetas de "excursionista", el entrenamiento sesgará el modelo para devolver casi siempre estas etiquetas. Sin embargo, en el mundo real, es posible que descubramos que la mayoría de las cosas que encuentran los drones son árboles. Es probable que el modelo sesgado etiquete muchos de estos árboles como excursionistas.

Este fenómeno tiene lugar porque las funciones de costo, de forma predeterminada, determinan si se ha dado la respuesta correcta. Esto significa que, en un conjunto de datos sesgado, la manera más sencilla que tiene un modelo de alcanzar un rendimiento óptimo puede ser omitir prácticamente las características proporcionadas y siempre, o casi siempre, devolver la misma respuesta. Esta situación puede tener consecuencias negativas. Por ejemplo, imagine que nuestro modelo de excursionista/no excursionista se entrena con datos donde solo 1 de cada 1000 muestras contienen un excursionista. Un modelo que ha aprendido a devolver "no excursionista" cada vez tiene una precisión del 99,9 %. Esta estadística parece excelente, pero el modelo es inútil porque nunca nos dirá si alguien está en la montaña, y no sabremos rescatarlo si se produce una avalancha.

## <font color='B8E139'><b>Sesgo en una matriz de confusión</b></font>

Las matrices de confusión son la clave para identificar los desequilibrios de datos o el sesgo del modelo. En un escenario ideal, los datos de prueba tienen un número aproximadamente igual de etiquetas y las predicciones realizadas por el modelo también se reparten aproximadamente entre las etiquetas. En 1000 muestras, un modelo no sesgado, pero que a menudo obtiene respuestas incorrectas, podría tener un aspecto parecido al siguiente:

<div>
<p align="center">
<img src="https://raw.githubusercontent.com/JuanCamilo18/MM_Datos/main/imags/MCyDD/MC_02_02_MCopti.JPG">
</p>
</div>

Podemos indicar que los datos de entrada no están sesgados, porque las sumas de las filas son las mismas (500 cada una), lo que indica que la mitad de las etiquetas son "true" y la mitad son "false". Del mismo modo, podemos ver que el modelo está dando respuestas no sesgadas porque devuelve "true" la mitad del tiempo y "false" la otra mitad.

Por el contrario, los datos sesgados contienen principalmente un tipo de etiqueta, como:

<div>
<p align="center">
<img src="https://raw.githubusercontent.com/JuanCamilo18/MM_Datos/main/imags/MCyDD/MC_02_03_MCopti_sesg.JPG">
</p>
</div>

De forma similar, un modelo sesgado genera principalmente un tipo de etiqueta, como la siguiente:

<div>
<p align="center">
<img src="https://raw.githubusercontent.com/JuanCamilo18/MM_Datos/main/imags/MCyDD/MC_02_04_MCopti_sesg2.JPG">
</p>
</div>

## <font color='B8E139'><b>El sesgo del modelo no es la precisión</b></font>

Recuerde que el sesgo no es la precisión. Por ejemplo, algunos de los ejemplos anteriores están sesgados y otros no, pero todos muestran un modelo que obtiene la respuesta correcta el 50 % de las veces. Como ejemplo más extremo, la siguiente matriz muestra un modelo no sesgado que es inexacto:

<div>
<p align="center">
<img src="https://raw.githubusercontent.com/JuanCamilo18/MM_Datos/main/imags/MCyDD/MC_02_05_sesg.JPG">
</p>
</div>

Observe cómo el número de filas y columnas se agrega a 500, lo que indica que ambos datos están equilibrados y que el modelo no está sesgado. Sin embargo, este modelo está obteniendo casi todas las respuestas incorrectas.

Por supuesto, **nuestro objetivo es que los modelos sean precisos y no sesgados**, por ejemplo:

<div>
<p align="center">
<img src="https://raw.githubusercontent.com/JuanCamilo18/MM_Datos/main/imags/MCyDD/MC_02_06_preci.JPG">
</p>
</div>

... pero debemos asegurarnos de que nuestros modelos precisos no estén sesgados, simplemente porque los datos son:

<div>
<p align="center">
<img src="https://raw.githubusercontent.com/JuanCamilo18/MM_Datos/main/imags/MCyDD/MC_02_07_preci2.JPG">
</p>
</div>

En este ejemplo, observe cómo las etiquetas reales son principalmente "false" (columna izquierda, **que muestra un desequilibrio de datos**) y que el modelo también devuelve con frecuencia "false" (fila superior, **que muestra el sesgo del modelo**). Este modelo no es bueno para dar correctamente respuestas "true".

## <font color='B8E139'><b>Evitar las consecuencias de los datos desequilibrados</b></font>

Algunas de las formas más sencillas de evitar las consecuencias de los datos desequilibrados son:

- Realizar una mejor selección de datos.
- "Volver a muestrear" los datos para que contengan duplicados de la clase de etiqueta minoritaria.
- Realizar cambios en la función de costo para que dé prioridad a las etiquetas menos comunes. Por ejemplo, si se da la respuesta incorrecta a Árbol, la función de costo podría devolver 1, mientras que, si se da la respuesta incorrecta a Excursionista, podría devolver 10.

Exploraremos estos métodos en el ejercicio siguiente.



---



## <font color='B8E139'><b>Ejercicio: Resolución de sesgos en un modelo de clasificación</b></font>


## <font color='B8E139'><b>Ejercicio: sesgo del modelo de datos desequilibrados</b></font>

En este ejercicio, analizaremos más de cerca los conjuntos de datos desequilibrados , qué efectos tienen en las predicciones y cómo se pueden abordar.

También emplearemos matrices de confusión para evaluar las actualizaciones del modelo.

### <font color='B8E139'><b>Visualización de datos</b></font>

Al igual que en el ejercicio anterior, usamos un conjunto de datos que representa diferentes clases de objetos que se encuentran en la montaña:

In [4]:
import pandas
!wget https://raw.githubusercontent.com/MicrosoftDocs/mslearn-introduction-to-machine-learning/main/graphing.py
!wget https://raw.githubusercontent.com/MicrosoftDocs/mslearn-introduction-to-machine-learning/main/Data/snow_objects.csv
!wget https://raw.githubusercontent.com/MicrosoftDocs/mslearn-introduction-to-machine-learning/main/Data/snow_objects_balanced.csv

#Import the data from the .csv file
dataset = pandas.read_csv('snow_objects.csv', delimiter="\t")

# Let's have a look at the data
dataset

--2023-03-26 05:57:39--  https://raw.githubusercontent.com/MicrosoftDocs/mslearn-introduction-to-machine-learning/main/graphing.py
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 21511 (21K) [text/plain]
Saving to: ‘graphing.py’


2023-03-26 05:57:40 (1.20 MB/s) - ‘graphing.py’ saved [21511/21511]

--2023-03-26 05:57:40--  https://raw.githubusercontent.com/MicrosoftDocs/mslearn-introduction-to-machine-learning/main/Data/snow_objects.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.109.133, 185.199.108.133, 185.199.111.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.109.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 143797 (140K) [text/plain]
Saving to: ‘snow_obj

Unnamed: 0,size,roughness,color,motion,label
0,50.959361,1.318226,green,0.054290,tree
1,60.008521,0.554291,brown,0.000000,tree
2,20.530772,1.097752,white,1.380464,tree
3,28.092138,0.966482,grey,0.650528,tree
4,48.344211,0.799093,grey,0.000000,tree
...,...,...,...,...,...
2195,1.918175,1.182234,white,0.000000,animal
2196,1.000694,1.332152,black,4.041097,animal
2197,2.331485,0.734561,brown,0.961486,animal
2198,1.786560,0.707935,black,0.000000,animal


Recuerde que tenemos un conjunto de datos desequilibrado . Algunas clases son mucho más frecuentes que otras:

In [5]:
import graphing # custom graphing code. See our GitHub repo for details

# Plot a histogram with counts for each label
graphing.multiple_histogram(dataset, label_x="label", label_group="label", title="Label distribution")

### <font color='B8E139'><b>Usando la clasificación binaria</b></font>

Para este ejercicio construiremos un modelo de clasificación binaria . Queremos predecir si los objetos en la nieve son "excursionistas" o "no excursionistas".

Para hacer eso, primero debemos agregar otra columna a nuestro conjunto de datos y configurarla `True` donde está la etiqueta original `hiker` y `False` cualquier otra cosa:

In [6]:
# Add a new label with true/false values to our dataset
dataset["is_hiker"] = dataset.label == "hiker"

# Plot frequency for new label
graphing.multiple_histogram(dataset, label_x="is_hiker", label_group="is_hiker", title="Distribution for new binary label 'is_hiker'")

Ahora tenemos solo dos clases de etiquetas en nuestro conjunto de datos, pero lo hemos hecho aún más desequilibrado.

Entrenemos el modelo de bosque aleatorio usando `is_hiker` como variable de destino, luego midamos su precisión en los conjuntos de entrenamiento y prueba :

In [7]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
# import matplotlib.pyplot as plt
# from sklearn.metrics import plot_confusion_matrix
from sklearn.metrics import accuracy_score

# Custom function that measures accuracy on different models and datasets
# We will use this in different parts of the exercise
def assess_accuracy(model, dataset, label):
    """
    Asesses model accuracy on different sets
    """ 
    actual = dataset[label]        
    predictions = model.predict(dataset[features])
    acc = accuracy_score(actual, predictions)
    return acc

# Split the dataset in an 70/30 train/test ratio. 
train, test = train_test_split(dataset, test_size=0.3, random_state=1, shuffle=True)

# define a random forest model
model = RandomForestClassifier(n_estimators=1, random_state=1, verbose=False)

# Define which features are to be used (leave color out for now)
features = ["size", "roughness", "motion"]

# Train the model using the binary label
model.fit(train[features], train.is_hiker)

print("Train accuracy:", assess_accuracy(model,train, "is_hiker"))
print("Test accuracy:", assess_accuracy(model,test, "is_hiker"))

Train accuracy: 0.9532467532467532
Test accuracy: 0.906060606060606


La precisión se ve bien tanto para el entrenamiento como para los conjuntos de prueba , pero recuerde que esta métrica no es una medida absoluta del éxito.

Deberíamos trazar una matriz de confusión para ver cómo funciona realmente el modelo:

In [8]:
# sklearn has a very convenient utility to build confusion matrices
from sklearn.metrics import confusion_matrix
import plotly.figure_factory as ff

# Calculate the model's accuracy on the TEST set
actual = test.is_hiker
predictions = model.predict(test[features])

# Build and print our confusion matrix, using the actual values and predictions 
# from the test set, calculated in previous cells
cm = confusion_matrix(actual, predictions, normalize=None)

# Create the list of unique labels in the test set, to use in our plot
# I.e., ['True', 'False',]
unique_targets = sorted(list(test["is_hiker"].unique()))

# Convert values to lower case so the plot code can count the outcomes
x = y = [str(s).lower() for s in unique_targets]

# Plot the matrix above as a heatmap with annotations (values) in its cells
fig = ff.create_annotated_heatmap(cm, x, y)

# Set titles and ordering
fig.update_layout(  title_text="<b>Confusion matrix</b>", 
                    yaxis = dict(categoryorder = "category descending")
                    )

fig.add_annotation(dict(font=dict(color="black",size=14),
                        x=0.5,
                        y=-0.15,
                        showarrow=False,
                        text="Predicted label",
                        xref="paper",
                        yref="paper"))

fig.add_annotation(dict(font=dict(color="black",size=14),
                        x=-0.15,
                        y=0.5,
                        showarrow=False,
                        text="Actual label",
                        textangle=-90,
                        xref="paper",
                        yref="paper"))

# We need margins so the titles fit
fig.update_layout(margin=dict(t=80, r=20, l=120, b=50))
fig['data'][0]['showscale'] = True
fig.show()


La matriz de confusión nos muestra que, a pesar de las métricas reportadas, el modelo no es increíblemente preciso.

De las 660 muestras presentes en el conjunto de prueba (30% del total de muestras), predijo 29 falsos negativos y 33 falsos positivos .

Más importante aún, mire la fila inferior, que muestra lo que sucedió cuando al modelo se le mostró información sobre un excursionista: se equivocó en la respuesta casi el 30% de las veces. ¡Esto significa que no identificaría correctamente a casi el 30% de las personas en la montaña!

¿Qué sucede si usamos este modelo para hacer predicciones sobre conjuntos balanceados?

Carguemos un conjunto de datos con la misma cantidad de resultados para "excursionistas" y "no excursionistas", luego usemos esos datos para hacer predicciones:

In [9]:
# Load and print umbiased set
#Import the data from the .csv file
balanced_dataset = pandas.read_csv('snow_objects_balanced.csv', delimiter="\t")

#Let's have a look at the data
graphing.multiple_histogram(balanced_dataset, label_x="label", label_group="label", title="Label distribution")


Este nuevo conjunto de datos está equilibrado entre las clases, pero para nuestros propósitos queremos que esté equilibrado entre excursionistas y no excursionistas.

Para simplificar, tomemos a los excursionistas más una muestra aleatoria de los no excursionistas.

In [10]:
# Add a new label with true/false values to our dataset
balanced_dataset["is_hiker"] = balanced_dataset.label == "hiker"

hikers_dataset = balanced_dataset[balanced_dataset["is_hiker"] == 1] 
nonhikers_dataset = balanced_dataset[balanced_dataset["is_hiker"] == False] 
# take a random sampling of non-hikers the same size as the hikers subset
nonhikers_dataset = nonhikers_dataset.sample(n=len(hikers_dataset.index), random_state=1)
balanced_dataset = pandas.concat([hikers_dataset, nonhikers_dataset])

# Plot frequency for "is_hiker" labels
graphing.multiple_histogram(balanced_dataset, label_x="is_hiker", label_group="is_hiker", title="Label distribution in balanced dataset")

Como puede ver, la is_hiker etiqueta tiene el mismo número de True y False para ambas clases. Ahora estamos utilizando un conjunto de datos de clases equilibradas .

Ejecutemos predicciones en este conjunto usando el modelo previamente entrenado:

In [11]:
# Test the model using a balanced dataset
actual = balanced_dataset.is_hiker
predictions = model.predict(balanced_dataset[features])

# Build and print our confusion matrix, using the actual values and predictions 
# from the test set, calculated in previous cells
cm = confusion_matrix(actual, predictions, normalize=None)

# Print accuracy using this set
print("Balanced set accuracy:", assess_accuracy(model,balanced_dataset, "is_hiker"))

Balanced set accuracy: 0.754


Como era de esperar, vemos una caída notable en la precisión al usar un conjunto diferente.

Nuevamente, analicemos visualmente su desempeño:

In [12]:
# plot new confusion matrix
# Create the list of unique labels in the test set to use in our plot
unique_targets = sorted(list(balanced_dataset["is_hiker"].unique()))

# Convert values to lower case so the plot code can count the outcomes
x = y = [str(s).lower() for s in unique_targets]

# Plot the matrix above as a heatmap with annotations (values) in its cells
fig = ff.create_annotated_heatmap(cm, x, y)

# Set titles and ordering
fig.update_layout(  title_text="<b>Confusion matrix</b>", 
                    yaxis = dict(categoryorder = "category descending")
                    )

fig.add_annotation(dict(font=dict(color="black",size=14),
                        x=0.5,
                        y=-0.15,
                        showarrow=False,
                        text="Predicted label",
                        xref="paper",
                        yref="paper"))

fig.add_annotation(dict(font=dict(color="black",size=14),
                        x=-0.15,
                        y=0.5,
                        showarrow=False,
                        text="Actual label",
                        textangle=-90,
                        xref="paper",
                        yref="paper"))

# We need margins so the titles fit
fig.update_layout(margin=dict(t=80, r=20, l=120, b=50))
fig['data'][0]['showscale'] = True
fig.show()


La matriz de confusión confirma la poca precisión con este conjunto de datos, pero ¿por qué sucede esto cuando teníamos métricas tan excelentes en los conjuntos de pruebas y entrenamientos anteriores ?

Recuérdese que el primer modelo estaba muy desequilibrado. La clase "excursionista" representó aproximadamente el 22% de los resultados.

Cuando ocurre tal desequilibrio, los modelos de clasificación no tienen suficientes datos para aprender los patrones de la clase minoritaria y, como consecuencia, ¡se inclinan hacia la clase mayoritaria !

Los conjuntos desequilibrados se pueden abordar de varias maneras:

- Mejora de la selección de datos
- Remuestreo del conjunto de datos
- Uso de clases ponderadas

Para este ejercicio, nos centraremos en la última opción.

### <font color='B8E139'><b>Uso de ponderaciones de clase para equilibrar el conjunto de datos</b></font>

Podemos asignar diferentes pesos a las clases mayoritarias y minoritarias, según su distribución, y modificar nuestro algoritmo de entrenamiento para que tenga en cuenta esa información durante la fase de entrenamiento.

Luego, penalizará los errores cuando la clase minoritaria esté mal clasificada, en esencia, "forzando" al modelo a aprender mejor sus características y patrones.

Para usar clases ponderadas, tenemos que volver a entrenar nuestro modelo usando el conjunto de trenes original , pero esta vez diciéndole al algoritmo que use pesos al calcular los errores:

In [13]:
# Import function used in calculating weights
from sklearn.utils import class_weight

# Retrain model using class weights
# Using class_weight="balanced" tells the algorithm to automatically calculate weights for us
weighted_model = RandomForestClassifier(n_estimators=1, random_state=1, verbose=False, class_weight="balanced")
# Train the weighted_model using binary label
weighted_model.fit(train[features], train.is_hiker)

print("Train accuracy:", assess_accuracy(weighted_model,train, "is_hiker"))
print("Test accuracy:", assess_accuracy(weighted_model, test, "is_hiker"))

Train accuracy: 0.9525974025974026
Test accuracy: 0.9166666666666666



Después de usar las clases ponderadas, la precisión del tren se mantuvo casi igual, mientras que la precisión de la prueba mostró una pequeña mejora (aproximadamente el 1 %).

Veamos si los resultados mejoran usando el conjunto balanceado para predicciones nuevamente:

In [14]:
print("Balanced set accuracy:", assess_accuracy(weighted_model, balanced_dataset, "is_hiker"))

# Test the weighted_model using a balanced dataset
actual = balanced_dataset.is_hiker
predictions = weighted_model.predict(balanced_dataset[features])

# Build and print our confusion matrix, using the actual values and predictions 
# from the test set, calculated in previous cells
cm = confusion_matrix(actual, predictions, normalize=None)


Balanced set accuracy: 0.796



La precisión del conjunto equilibrado aumentó aproximadamente un 4 %, pero aun así deberíamos tratar de visualizar y comprender los nuevos resultados.

## <font color='B8E139'><b>Matriz de confusión final</b></font>

Ahora podemos trazar una matriz de confusión final, que representa predicciones para un conjunto de datos equilibrado , utilizando un modelo entrenado en un conjunto de datos de clase ponderada :

In [15]:
# Plot the matrix above as a heatmap with annotations (values) in its cells
fig = ff.create_annotated_heatmap(cm, x, y)

# Set titles and ordering
fig.update_layout(  title_text="<b>Confusion matrix</b>", 
                    yaxis = dict(categoryorder = "category descending")
                    )

fig.add_annotation(dict(font=dict(color="black",size=14),
                        x=0.5,
                        y=-0.15,
                        showarrow=False,
                        text="Predicted label",
                        xref="paper",
                        yref="paper"))

fig.add_annotation(dict(font=dict(color="black",size=14),
                        x=-0.15,
                        y=0.5,
                        showarrow=False,
                        text="Actual label",
                        textangle=-90,
                        xref="paper",
                        yref="paper"))

# We need margins so the titles fit
fig.update_layout(margin=dict(t=80, r=20, l=120, b=50))
fig['data'][0]['showscale'] = True
fig.show()


Si bien los resultados pueden parecer un poco decepcionantes, ahora tenemos un 21 % de predicciones incorrectas (FN + FP), frente al 25 % del experimento anterior.

Las predicciones correctas (TPs + TNs) pasaron del 74,7% al 78,7%.

¿Es significativa o no una mejora general del 4%?

Recuerde que teníamos relativamente pocos datos para entrenar el modelo, y las funciones que tenemos disponibles aún pueden ser tan similares para diferentes muestras (por ejemplo, los excursionistas y los animales tienden a ser pequeños, no bruscos y se mueven mucho), que a pesar de nuestra esfuerzos, el modelo todavía tiene algunas dificultades para hacer predicciones correctas.

Solo tuvimos que cambiar una sola línea de código para obtener mejores resultados, ¡así que parece que vale la pena el esfuerzo!

**Resumen**

Este fue un ejercicio largo, donde cubrimos los siguientes temas:

- Creando nuevos campos de etiqueta para que podamos realizar una clasificación binaria usando un conjunto de datos con múltiples clases.
- Cómo el entrenamiento en conjuntos desequilibrados puede tener un efecto negativo en el rendimiento, especialmente cuando se utilizan datos ocultos de conjuntos de datos equilibrados .
- Evaluación de resultados de modelos de clasificación binaria utilizando una matriz de confusión.
- Uso de clases ponderadas para abordar los desequilibrios de clase al entrenar un modelo y evaluar los resultados.