<a href="https://colab.research.google.com/github/UXDynamicSolution/datamining_public/blob/main/ejemplo_encoders.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Tipos de Encoders

## Autor: Carlos Muñoz Salgado.

# ¿Qué es un encoder?

## Un encoder es una técnica que se utiliza para transformar variables categóricas (como texto o etiqueta) a una representación numérica para mejorar el procesamiento en algoritmos de machine learning y mineria de datos. La elección siempre "circunstancial" a los datos y modelos a aplicar por eso le he dado mucho énfasis en clases a realizar análisis exploratorio para conocer los datos, identificarlos y poder procesarlos. Existen varios tipos de encoder, les presentaré 3 en esta instancia y por supuesto tienen las puertas abiertas para aplicar otros en sus proyectos según sea la necesidad

# One Hot Encoding
## Permite codificar una variable categórica, creando una columna nueva por cada variable contenida dentro de una columna en un dataframe. Ej si en Chile tenemos 15 regiones en total, creará una columna nueva por cada variable representada con 0 o 1 significando si esta activo o no

In [None]:
import pandas as pd
import category_encoders as ce

data = {
    'Nombre': ['Carlos Soto', 'Ana Martínez', 'Pedro Pérez', 'Juan García', 'Lucía Gómez',
               'Ricardo Fernández', 'Valentina Ruiz', 'Antonio Jiménez', 'Laura Mendoza',
               'Gabriel López', 'Esteban Vargas', 'Joaquín Morales', 'Rocío Fernández',
               'Daniela Díaz', 'María Ríos'],

    'Región': ['Arica y Parinacota', 'Tarapacá', 'Antofagasta', 'Atacama', 'Coquimbo',
               'Valparaíso', 'Metropolitana', 'O’Higgins', 'Maule', 'Ñuble',
               'Biobío', 'La Araucanía', 'Los Ríos', 'Los Lagos', 'Aysén'],

    'Fecha de Nacimiento': ['1990-03-15', '1985-07-22', '2000-11-09', '1995-01-05', '1988-06-30',
                            '1993-10-14', '1998-04-17', '1992-12-01', '1987-09-12', '1996-08-25',
                            '1991-11-05', '1994-02-20', '1997-08-09', '1999-06-14', '1986-11-22']
}

df = pd.DataFrame(data)

In [None]:
df

Unnamed: 0,Nombre,Región,Fecha de Nacimiento
0,Carlos Soto,Arica y Parinacota,1990-03-15
1,Ana Martínez,Tarapacá,1985-07-22
2,Pedro Pérez,Antofagasta,2000-11-09
3,Juan García,Atacama,1995-01-05
4,Lucía Gómez,Coquimbo,1988-06-30
5,Ricardo Fernández,Valparaíso,1993-10-14
6,Valentina Ruiz,Metropolitana,1998-04-17
7,Antonio Jiménez,O’Higgins,1992-12-01
8,Laura Mendoza,Maule,1987-09-12
9,Gabriel López,Ñuble,1996-08-25


# Aplicamos One Hot Encoding

In [None]:
encoder_onehot = ce.OneHotEncoder(cols=['Región'], use_cat_names=True)
df_encoded_onehot = encoder_onehot.fit_transform(df)

df_encoded_onehot

Unnamed: 0,Nombre,Región_Arica y Parinacota,Región_Tarapacá,Región_Antofagasta,Región_Atacama,Región_Coquimbo,Región_Valparaíso,Región_Metropolitana,Región_O’Higgins,Región_Maule,Región_Ñuble,Región_Biobío,Región_La Araucanía,Región_Los Ríos,Región_Los Lagos,Región_Aysén,Fecha de Nacimiento
0,Carlos Soto,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1990-03-15
1,Ana Martínez,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,1985-07-22
2,Pedro Pérez,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,2000-11-09
3,Juan García,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,1995-01-05
4,Lucía Gómez,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,1988-06-30
5,Ricardo Fernández,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,1993-10-14
6,Valentina Ruiz,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,1998-04-17
7,Antonio Jiménez,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,1992-12-01
8,Laura Mendoza,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,1987-09-12
9,Gabriel López,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,1996-08-25


# ----------------- Caso Hipotético 1 -----------------
## Suponiendo que en un nuestro análisis exploratorio sobre la data de un cliente quien nos solicitó un estudio, tenemos una columna categórica binaria, por ejemplo: día/noche, hombre/mujer, sí/no) a cada una de estas columnas simplemente podríamos imputarle un 0 y 1 o (true o false) con expresiones regulares. Esto es posible porque una variable binaria ya puede representarse eficientemente con un solo bit, y no requiere descomponerse en múltiples columnas como ocurre con variables categóricas con más de dos clases.



# RESPUESTA CH_1: Como siempre digo en clases, la decisión siempre será circunstancial en base a los datos que dispondremos.
No existe una única forma correcta de representar las variables, ya que todo dependerá del tipo de modelo que estemos utilizando, la naturaleza de la variable en cuestión (si es nominal, ordinal, binaria o temporal), y los patrones que queramos capturar.

**Variables categóricas ordinales vs nominales**

En el caso de una columna como región, si la representamos con valores numéricos del 1 al 15, podría parecer que no necesitamos aplicar One Hot Encoding. Sin embargo, es importante distinguir entre:


# - **Variables ordinales:** Tienen un orden lógico (como bajo, medio, alto o nota 1 a 7). Aquí, representarlas con números tiene sentido.

#- **Variables nominales:** No tienen orden (como región, color, marca). En estos casos, asignarles números (1 a 15, por ejemplo) puede inducir al modelo a pensar que existe una relación de magnitud u orden entre ellas, lo cual no es cierto.


Entonces, si estamos usando modelos basados en distancia o relaciones lineales (como regresión lineal, SVM, redes neuronales), sí es recomendable aplicar One Hot Encoding, incluso si los valores ya están representados numéricamente, para evitar interpretaciones erróneas del modelo.

Por otro lado, algunos algoritmos como árboles de decisión, Random Forest o XGBoost, pueden manejar directamente variables categóricas codificadas con números, sin necesidad de One Hot Encoding, siempre y cuando el modelo esté preparado para tratar esos números como categorías y no como valores continuos.

# ----------------- Caso Hipotético 2 -----------------

## Si tenemos en nuestro dataframe una columna con una fecha ej yyyy-mm-dd ¿podemos con pandas tratarla y extraer el año, mes y día?

Ejemplo extraer fecha con pandas
```
df['fecha'] = pd.to_datetime(df['fecha'])
df['año'] = df['fecha'].dt.year
df['mes'] = df['fecha'].dt.month
df['día'] = df['fecha'].dt.day

```

## Dicho esto, será necesario codificarla con algun encoder si podemos representarla del 1 al 15?
## RESPUESTA: Depente

# - **Cuando NO sería necesario codificarla** : Si queremos analizar tendencias temporales a lo largo del tiempo (Ejemplo mostrado en clases de la Bolsa e Inflación en Chile), podemos usar directamente el año como un número.

# - **Cuando SI sería necesario codificarla** : Si el modelo asume relaciones lineales (como regresión lineal o redes neuronales), puede interpretar que hay una relación de magnitud entre, por ejemplo, enero (1) y diciembre (12), lo cual no es real si hablamos de estacionalidad.





#Binary Encoding
## Genera una codificación de una columna categórica creando un N° de columnas nuevas en base a un numero de bits de cada columna **( 2^4 = 16 posibles combinaciones )**

¿Qué es?

Binary Encoding es una técnica que convierte categorías en valores binarios. Luego, cada dígito binario se coloca en una columna distinta.
¿Cuántas columnas genera?

Depende del número de categorías. Se necesitan log₂(N) columnas, donde N es la cantidad de categorías únicas.
Ejemplo:
Si tenemos 15 categorías distintas →
⌈log₂(15)⌉ = 4 columnas → porque 2⁴ = 16 combinaciones posibles.






In [None]:
pip install category_encoders #instalacion codificador



In [None]:
import pandas as pd
import category_encoders as ce

data = {
    'Nombre': ['Carlos Soto', 'Ana Martínez', 'Pedro Pérez', 'Juan García', 'Lucía Gómez',
               'Ricardo Fernández', 'Valentina Ruiz', 'Antonio Jiménez', 'Laura Mendoza',
               'Gabriel López', 'Esteban Vargas', 'Joaquín Morales', 'Rocío Fernández',
               'Daniela Díaz', 'María Ríos'],

    'Región': ['Arica y Parinacota', 'Tarapacá', 'Antofagasta', 'Atacama', 'Coquimbo',
               'Valparaíso', 'Metropolitana', 'O’Higgins', 'Maule', 'Ñuble',
               'Biobío', 'La Araucanía', 'Los Ríos', 'Los Lagos', 'Aysén'],

    'Fecha de Nacimiento': ['1990-03-15', '1985-07-22', '2000-11-09', '1995-01-05', '1988-06-30',
                            '1993-10-14', '1998-04-17', '1992-12-01', '1987-09-12', '1996-08-25',
                            '1991-11-05', '1994-02-20', '1997-08-09', '1999-06-14', '1986-11-22']
}
df = pd.DataFrame(data)

In [None]:
df

Unnamed: 0,Nombre,Región,Fecha de Nacimiento
0,Carlos Soto,Arica y Parinacota,1990-03-15
1,Ana Martínez,Tarapacá,1985-07-22
2,Pedro Pérez,Antofagasta,2000-11-09
3,Juan García,Atacama,1995-01-05
4,Lucía Gómez,Coquimbo,1988-06-30
5,Ricardo Fernández,Valparaíso,1993-10-14
6,Valentina Ruiz,Metropolitana,1998-04-17
7,Antonio Jiménez,O’Higgins,1992-12-01
8,Laura Mendoza,Maule,1987-09-12
9,Gabriel López,Ñuble,1996-08-25


# Aplicamos Binary encoding declarando una variable **encoder_binary** y creamos un nuevo dataframe con la variable categórica representada en binary

In [None]:
encoder_binary = ce.BinaryEncoder(cols=['Región'])
df_encoded = encoder_binary.fit_transform(df)

# visualizamos el dataframe original

In [None]:
df

Unnamed: 0,Nombre,Región,Fecha de Nacimiento
0,Carlos Soto,Arica y Parinacota,1990-03-15
1,Ana Martínez,Tarapacá,1985-07-22
2,Pedro Pérez,Antofagasta,2000-11-09
3,Juan García,Atacama,1995-01-05
4,Lucía Gómez,Coquimbo,1988-06-30
5,Ricardo Fernández,Valparaíso,1993-10-14
6,Valentina Ruiz,Metropolitana,1998-04-17
7,Antonio Jiménez,O’Higgins,1992-12-01
8,Laura Mendoza,Maule,1987-09-12
9,Gabriel López,Ñuble,1996-08-25


Visualizamos el dataframe con binary encoding aplicado sobre región y observamos que ha creado 4 columnas. Fijense que toma el nombre de la columna con un acento en la ó de región, siempre es aconsejable por buena práctica normalizar eliminando caracteres extraños con expresiones regulares, eliminar o reemplazar los espacios en blanco con guiones bajos y todo en minuscula para evitar errores por palabras reservadas o caracteres que rompen cadenas de codigo.

Debe realizarse al comienzo cuando cargamos el dataset (conjunto de datos en csv, excel, etc) y creamos un dataframe en Pandas. Puede realizarse manualmente y directamente sobre el archivo con algun editor de texto pero deben saber hacerlo directamente en el codigo suponiendo que el archivo sea demasiado grande ya que herramientas como Excel podríam NO sean capaces de abrir estos archivos y corromperlos eventualmente.

In [None]:
df_encoded

Unnamed: 0,Nombre,Región_0,Región_1,Región_2,Región_3,Fecha de Nacimiento
0,Carlos Soto,0,0,0,1,1990-03-15
1,Ana Martínez,0,0,1,0,1985-07-22
2,Pedro Pérez,0,0,1,1,2000-11-09
3,Juan García,0,1,0,0,1995-01-05
4,Lucía Gómez,0,1,0,1,1988-06-30
5,Ricardo Fernández,0,1,1,0,1993-10-14
6,Valentina Ruiz,0,1,1,1,1998-04-17
7,Antonio Jiménez,1,0,0,0,1992-12-01
8,Laura Mendoza,1,0,0,1,1987-09-12
9,Gabriel López,1,0,1,0,1996-08-25


# ¿Por qué creó 4 columnas si son 15 regiones?

Para representar 15 categorías se necesitas al menos 4 bits, ya que con 4 bits puedes representar valores entre 0 y 15 (es decir, 2^4 = 16 posibles combinaciones). Esto significa que el Binary Encoding generará 4 columnas, no 3, ya que hay 4 bits necesarios para representar los 15 valores.

# Observen en la salida anterior la representación binaria en cada fila se puede apreciar.

# Formula para determinar cuantas columnas creará binary encoding en base al n de categorias.

In [None]:
import math

n_categories = 15
n_columns = math.ceil(math.log2(n_categories))

print(f"Se crearan {n_columns} columnas para represebtar n = {n_categories} con  Binary Encoding.")

Se crearan 4 columnas para represebtar n = 15 con  Binary Encoding.


#Label Encoding
#Permite asignar un numero entero para cada variable categórica. Ideal para variables ordinales (que tienen un orden lógico, como bajo, medio, alto), en el caso de variables nominales (sin orden lógico), puede inducir al modelo a asumir jerarquías que no existen, afectando su desempeño.


In [None]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder

data = {
    'Nombre': ['María Pérez', 'Luis Soto', 'Camila Ríos', 'José Martínez', 'Antonia Díaz',
               'Felipe Contreras', 'Valeria Lagos', 'Ricardo Fuentes', 'Sofía Herrera', 'Tomás Aguilera'],
    'Edad': [25, 32, 28, 40, 22, 35, 30, 45, 27, 29],
    'Nivel_Educativo': ['Media', 'Superior', 'Básica', 'Media', 'Media',
                        'Superior', 'Básica', 'Postgrado', 'Superior', 'Postgrado']
}
df = pd.DataFrame(data)

In [None]:
df

Unnamed: 0,Nombre,Edad,Nivel_Educativo
0,María Pérez,25,Media
1,Luis Soto,32,Superior
2,Camila Ríos,28,Básica
3,José Martínez,40,Media
4,Antonia Díaz,22,Media
5,Felipe Contreras,35,Superior
6,Valeria Lagos,30,Básica
7,Ricardo Fuentes,45,Postgrado
8,Sofía Herrera,27,Superior
9,Tomás Aguilera,29,Postgrado


In [None]:
le = LabelEncoder()
df['Nivel_Codificado'] = le.fit_transform(df['Nivel_Educativo'])

In [None]:
df

Unnamed: 0,Nombre,Edad,Nivel_Educativo,Nivel_Codificado
0,María Pérez,25,Media,1
1,Luis Soto,32,Superior,3
2,Camila Ríos,28,Básica,0
3,José Martínez,40,Media,1
4,Antonia Díaz,22,Media,1
5,Felipe Contreras,35,Superior,3
6,Valeria Lagos,30,Básica,0
7,Ricardo Fuentes,45,Postgrado,2
8,Sofía Herrera,27,Superior,3
9,Tomás Aguilera,29,Postgrado,2
