# CODIFICAR DATOS CATEGORICOS NOMINALES

URL del canal: https://www.youtube.com/CodigoMaquina

URL del video: https://youtu.be/cp7Uo5MSFSE?si=XTXwa37Bburh6Hfe

### Se crean datos sinteticos que simulan los estados de cuenta bancarios de personas

In [1]:
import pandas as pd

datos = {"nombre" : ["Mariana", "Ana", "Elsa", "Gustavo",
                     "Pedro", "Raúl", "Carlos", "José", "Luis"],
         
         "saldo" : [10000.00, 8000.00, 9000.00, 2000.00,
                    2100.00, 12000.00, 5000.00, 10000.00, 200.00],
         
         "pais" : ["Argentina", "Bolivia", "Chile", "Colombia",
                   "Costa Rica", "Ecuador", "México", "Perú", "Perú"]}

datos = pd.DataFrame(datos)
datos

Unnamed: 0,nombre,saldo,pais
0,Mariana,10000.0,Argentina
1,Ana,8000.0,Bolivia
2,Elsa,9000.0,Chile
3,Gustavo,2000.0,Colombia
4,Pedro,2100.0,Costa Rica
5,Raúl,12000.0,Ecuador
6,Carlos,5000.0,México
7,José,10000.0,Perú
8,Luis,200.0,Perú


In [2]:
datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9 entries, 0 to 8
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   nombre  9 non-null      object 
 1   saldo   9 non-null      float64
 2   pais    9 non-null      object 
dtypes: float64(1), object(2)
memory usage: 348.0+ bytes


Observando la informacion de la columnas `pais` podemos apreciar que estos datos estan catalogados como datos de tipo `object`. Esto, no es adecuado cuando estamos trabajando con datos categoricos. Se podrian dejar asi pero, no seria tan eficiente al momento de procesar este tipo de datos.

Para solucionar esto, se realiza algo muy comun que es convertir estos datos en datos de tipo `categoricos`.

Se realiza de la siguiente manera:

In [3]:
datos["pais"] = datos["pais"].astype("category")
datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9 entries, 0 to 8
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype   
---  ------  --------------  -----   
 0   nombre  9 non-null      object  
 1   saldo   9 non-null      float64 
 2   pais    9 non-null      category
dtypes: category(1), float64(1), object(1)
memory usage: 649.0+ bytes


In [4]:
datos

Unnamed: 0,nombre,saldo,pais
0,Mariana,10000.0,Argentina
1,Ana,8000.0,Bolivia
2,Elsa,9000.0,Chile
3,Gustavo,2000.0,Colombia
4,Pedro,2100.0,Costa Rica
5,Raúl,12000.0,Ecuador
6,Carlos,5000.0,México
7,José,10000.0,Perú
8,Luis,200.0,Perú


--------------------------------------

# Que *NO* debo hacer!!

In [5]:
datos_sesgados = datos.copy()

reemplazos = {"Argentina" : 1,
             "Bolivia" : 2, 
             "Chile" : 3, 
             "Colombia" : 4,                        
             "Costa Rica" : 5,
             "Ecuador" : 6, 
             "México" : 7, 
             "Perú" : 8}

datos_sesgados["pais"].replace(reemplazos, inplace=True)
datos_sesgados

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  datos_sesgados["pais"].replace(reemplazos, inplace=True)
  datos_sesgados["pais"].replace(reemplazos, inplace=True)
  datos_sesgados["pais"].replace(reemplazos, inplace=True)


Unnamed: 0,nombre,saldo,pais
0,Mariana,10000.0,1
1,Ana,8000.0,2
2,Elsa,9000.0,3
3,Gustavo,2000.0,4
4,Pedro,2100.0,5
5,Raúl,12000.0,6
6,Carlos,5000.0,7
7,José,10000.0,8
8,Luis,200.0,8


### Problema de Sesgo por Codificación Numérica de Datos Categóricos

Si bien reemplazar datos categóricos por números puede parecer una solución sencilla e intuitiva, introduce un sesgo significativo en los datos. Esta nueva información que se está introduciendo es, de hecho, **errónea**.

El principal problema radica en que el modelo de Machine Learning puede malinterpretar la relación entre los números como una jerarquía o proximidad. Por ejemplo:

- **Argentina** (1) y **Bolivia** (2) están codificados con valores cercanos, lo que podría llevar al modelo a asumir que estos países son similares o están próximos en alguna escala, lo cual no es necesariamente cierto.
- **Chile** (3), al estar más lejos que Bolivia, podría ser interpretado por el modelo como más distante, lo que no refleja ninguna relación real.
- **Costa Rica** (5) y **Ecuador** (6) podrían ser vistos como países cercanos en algún tipo de "escala", lo que introduce un sesgo no justificado en los datos.
- Y, **Peru** estaria mas cerca de **Mexico** que de **Argentina**

### Conclusión

Asignar números a datos categóricos nominales introduce relaciones numéricas artificiales que no existen en la realidad. Esto puede llevar a una mala interpretación de los datos y a predicciones inexactas por parte del modelo. En lugar de representar estos datos categóricos con números, es preferible utilizar técnicas como **One-Hot Encoding** o **Embeddings**, que permiten manejar datos categóricos sin introducir un sesgo numérico.

--------------------------------------

# Que *SI* debo hacer!!

### Codificación One-Hot

La codificación **One-Hot** es una técnica utilizada para transformar variables categóricas en una representación numérica adecuada para modelos de Machine Learning. En lugar de asignar números enteros a cada categoría (lo que podría introducir un sesgo no deseado), **One-Hot Encoding** crea una nueva columna para cada categoría posible, donde la presencia de una categoría específica se indica con un 1, y las otras categorías con un 0.

#### ¿Cómo Funciona?
Supongamos que tenemos una variable categórica `País` con tres posibles valores: `Argentina`, `Bolivia` y `Chile`. Al aplicar One-Hot Encoding, esta variable se convierte en tres columnas, una para cada país:

| País       | Argentina | Bolivia | Chile |
|------------|-----------|---------|-------|
| Argentina  | 1         | 0       | 0     |
| Bolivia    | 0         | 1       | 0     |
| Chile      | 0         | 0       | 1     |

Cada fila del nuevo conjunto de datos tendrá un valor de 1 en la columna que representa el país correspondiente, y un 0 en las otras.

#### Ventajas de One-Hot Encoding
1. **Evita la Introducción de Relaciones Numéricas Falsas**: A diferencia de asignar números enteros a categorías, One-Hot Encoding no sugiere ninguna relación de orden o proximidad entre las categorías.
2. **Compatibilidad con Algoritmos de ML**: Muchos modelos de Machine Learning, como regresión logística, SVM o redes neuronales, funcionan mejor con datos numéricos y sin supuestos de orden, por lo que One-Hot Encoding es una forma segura de preparar variables categóricas para estos modelos.

#### Desventajas de One-Hot Encoding
1. **Aumento del Número de Variables**: Si la variable categórica tiene muchas categorías, One-Hot Encoding puede generar un gran número de nuevas columnas, lo que aumenta la dimensionalidad del conjunto de datos.
2. **Escalabilidad**: En escenarios con muchas categorías, el uso de One-Hot Encoding puede volverse ineficiente, ya que añade muchas columnas, lo que puede ralentizar el entrenamiento del modelo.

### Conclusión
One-Hot Encoding es una técnica esencial para convertir variables categóricas en una representación adecuada para modelos de Machine Learning sin introducir sesgos numéricos falsos. Aunque puede aumentar la dimensionalidad, es una herramienta útil para asegurar que los modelos interpreten correctamente los datos categóricos.


In [6]:
from sklearn.preprocessing import OneHotEncoder

# Creamos el objeto OneHotEncoder
codificador = OneHotEncoder()

# Aplicamos el codificador a la columna 'pais' del DataFrame 'datos'
# El resultado es una matriz dispersa que contiene los valores codificados
codificacion = codificador.fit_transform(datos[["pais"]])

# Creamos un nuevo DataFrame con las columnas resultantes de la codificación One-Hot
nuevas_cols = pd.DataFrame(codificacion.toarray(), 
                           columns=codificador.categories_[0])  # Extraemos los nombres de las categorías
print(nuevas_cols)  # Imprimimos el nuevo DataFrame con las columnas codificadas

# Concatenamos las nuevas columnas al DataFrame original 'datos'
datos = pd.concat([datos, nuevas_cols], axis="columns")

# Eliminamos la columna original 'pais'
datos.drop(columns=["pais"], inplace=True)

# Mostramos el DataFrame 'datos' final con las nuevas columnas codificadas
datos


   Argentina  Bolivia  Chile  Colombia  Costa Rica  Ecuador  México  Perú
0        1.0      0.0    0.0       0.0         0.0      0.0     0.0   0.0
1        0.0      1.0    0.0       0.0         0.0      0.0     0.0   0.0
2        0.0      0.0    1.0       0.0         0.0      0.0     0.0   0.0
3        0.0      0.0    0.0       1.0         0.0      0.0     0.0   0.0
4        0.0      0.0    0.0       0.0         1.0      0.0     0.0   0.0
5        0.0      0.0    0.0       0.0         0.0      1.0     0.0   0.0
6        0.0      0.0    0.0       0.0         0.0      0.0     1.0   0.0
7        0.0      0.0    0.0       0.0         0.0      0.0     0.0   1.0
8        0.0      0.0    0.0       0.0         0.0      0.0     0.0   1.0


Unnamed: 0,nombre,saldo,Argentina,Bolivia,Chile,Colombia,Costa Rica,Ecuador,México,Perú
0,Mariana,10000.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,Ana,8000.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0
2,Elsa,9000.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0
3,Gustavo,2000.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0
4,Pedro,2100.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0
5,Raúl,12000.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0
6,Carlos,5000.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0
7,José,10000.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
8,Luis,200.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
