# Encoding features

Codificar (o encode) las características es una etapa crucial en el preprocesamiento de datos para machine learning y análisis de datos. Las razones para codificar las características incluyen:

- Compatibilidad con Algoritmos de Machine Learning
- Reducción de Dimensionalidad
- Captura de Información Relevante 
- Evitar Sesgos
- Facilitación del Análisis Exploratorio de Datos y Visualización
- Facilita realizar Estadísticas Descriptivas
- Mejor manejo de datos categoricos y ordinales



### Métodos Comunes de Codificación de Características

#### 1. **One-Hot Encoding**

Convierte cada categoría en una columna binaria. Útil para datos categóricos sin orden inherente y con pocas categorías. Evita la interpretación errónea de un orden.

In [2]:
import pandas as pd
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder

# Datos de ejemplo: Se crea un DataFrame con una columna 'Color' que contiene categorías como 'Rojo', 'Verde' y 'Azul'.
data = pd.DataFrame({
    'Color': ['Rojo', 'Verde', 'Azul', 'Rojo', 'Azul']
})

# One-hot encoding
# Aquí se utiliza el transformador de columnas (ColumnTransformer) para aplicar el OneHotEncoder a la columna 'Color'.
# El parámetro 'transformers' recibe una lista de tuplas, donde cada tupla define un transformador.
# En este caso, la tupla tiene tres elementos:
# 1. Un nombre descriptivo para el transformador ('encoder').
# 2. El transformador que se aplicará (OneHotEncoder()).
# 3. Las columnas a las que se aplicará el transformador ([0]), en este caso, la primera columna (índice 0) del DataFrame.
# El parámetro 'remainder' se establece en 'passthrough', lo que significa que cualquier columna no transformada se dejará tal cual.

ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(), [0])], remainder='passthrough')

# Se aplica el transformador definido al DataFrame 'data' para convertir la columna 'Color' en variables dummy (one-hot encoding).
# El método 'fit_transform' ajusta el transformador a los datos y luego transforma los datos en una matriz.
data_encoded = ct.fit_transform(data)

# Se imprime el resultado del one-hot encoding. El resultado es una matriz donde cada columna representa una categoría
# en la columna original 'Color'. Cada fila tiene un valor de 1 en la columna que corresponde al color original.
print("Datos con One-Hot Encoding:\n", data_encoded)


Datos con One-Hot Encoding:
 [[0. 1. 0.]
 [0. 0. 1.]
 [1. 0. 0.]
 [0. 1. 0.]
 [1. 0. 0.]]


#### 2. **Label Encoding**

Asigna un número entero único a cada categoría. Adecuado para datos ordinales o cuando las categorías tienen un orden natural. También útil cuando hay muchas categorías y one-hot encoding no es práctico.

In [4]:
from sklearn.preprocessing import LabelEncoder
import pandas as pd

# Datos de ejemplo: Se crea un DataFrame con una columna 'Color' que contiene categorías como 'Rojo', 'Verde' y 'Azul'.
data = pd.DataFrame({
    'Color': ['Rojo', 'Verde', 'Azul', 'Rojo', 'Azul']
})

# Label encoding
# Se crea una instancia de LabelEncoder, que se utilizará para convertir las categorías de texto en valores numéricos.
label_encoder = LabelEncoder()

# Se aplica el encoder a la columna 'Color'.
# El método 'fit_transform' realiza dos operaciones:
# 1. 'fit': Aprende las etiquetas únicas en la columna 'Color' y las asigna a un valor numérico.
# 2. 'transform': Convierte las etiquetas en sus valores numéricos correspondientes.
# El resultado se almacena en una nueva columna 'Color_encoded' del DataFrame original.
data['Color_encoded'] = label_encoder.fit_transform(data['Color'])

# Se imprime el DataFrame original con la nueva columna 'Color_encoded', que contiene los valores numéricos para cada color.
print("Datos con Label Encoding:\n", data)


Datos con Label Encoding:
    Color  Color_encoded
0   Rojo              1
1  Verde              2
2   Azul              0
3   Rojo              1
4   Azul              0


#### 3. **Ordinal Encoding**

Específicamente para datos ordinales donde el orden es importante.


In [5]:
from sklearn.preprocessing import OrdinalEncoder
import pandas as pd

# Datos de ejemplo: Se crea un DataFrame con una columna 'Size' que contiene categorías ordenadas como 'Pequeño', 'Medio' y 'Grande'.
data = pd.DataFrame({
    'Size': ['Pequeño', 'Medio', 'Grande', 'Medio', 'Pequeño']
})

# Ordinal encoding
# Se crea una instancia de OrdinalEncoder para convertir las categorías en valores numéricos basados en un orden específico.
# El parámetro 'categories' define explícitamente el orden de las categorías. En este caso:
# 'Pequeño' -> 0
# 'Medio'   -> 1
# 'Grande'  -> 2
# El orden de las categorías es importante ya que influye en la interpretación de los valores numéricos asignados.

ordinal_encoder = OrdinalEncoder(categories=[['Pequeño', 'Medio', 'Grande']])

# Se aplica el encoder a la columna 'Size'.
# El método 'fit_transform' realiza dos operaciones:
# 1. 'fit': Aprende las categorías y su orden en la columna 'Size'.
# 2. 'transform': Convierte las categorías en valores numéricos de acuerdo al orden especificado.
# El resultado se almacena en una nueva columna 'Size_encoded' del DataFrame original.
data['Size_encoded'] = ordinal_encoder.fit_transform(data[['Size']])

# Se imprime el DataFrame original con la nueva columna 'Size_encoded', que contiene los valores numéricos correspondientes.
print("Datos con Ordinal Encoding:\n", data)


Datos con Ordinal Encoding:
       Size  Size_encoded
0  Pequeño           0.0
1    Medio           1.0
2   Grande           2.0
3    Medio           1.0
4  Pequeño           0.0



#### 4. **Target Encoding (Mean Encoding)**

Reemplaza cada categoría con la media de la variable objetivo. Útil en problemas supervisados cuando existe una relación fuerte entre la categoría y la variable objetivo.

In [7]:
import pandas as pd

# Datos de ejemplo: Se crea un DataFrame con dos columnas, 'Category' y 'Target'.
# 'Category' contiene categorías ('A', 'B', 'C') que serán codificadas.
# 'Target' contiene valores numéricos que se utilizarán para calcular la codificación.

data = pd.DataFrame({
    'Category': ['A', 'B', 'A', 'C', 'B', 'A'],
    'Target': [1, 2, 1, 3, 2, 2]
})

# Target encoding
# El target encoding consiste en reemplazar cada categoría en 'Category' con la media de los valores de la columna 'Target' asociados a esa categoría.
# Primero, agrupamos los datos por la columna 'Category' y calculamos la media de 'Target' para cada categoría.
mean_target = data.groupby('Category')['Target'].mean()

# Luego, usamos el método 'map' para reemplazar cada valor en la columna 'Category' por su media correspondiente.
# Esto genera una nueva columna 'Category_encoded' en el DataFrame con los valores codificados.
data['Category_encoded'] = data['Category'].map(mean_target)

# Se imprime el DataFrame original con la nueva columna 'Category_encoded', que contiene los valores codificados.
print("Datos con Target Encoding:\n", data)


Datos con Target Encoding:
   Category  Target  Category_encoded
0        A       1          1.333333
1        B       2          2.000000
2        A       1          1.333333
3        C       3          3.000000
4        B       2          2.000000
5        A       2          1.333333


#### 5. **Frequency Encoding**

Reemplaza cada categoría con su frecuencia de aparición en los datos. Adecuado cuando la frecuencia de las categorías es una característica relevante para el modelo.


In [1]:
import pandas as pd 

# Datos de ejemplo: Se crea un DataFrame con dos columnas, 'Category' y 'Target'.
# 'Category' contiene categorías ('A', 'B', 'C') que serán codificadas.
# 'Target' contiene valores numéricos que se usarán para alguna tarea posterior.

data = pd.DataFrame({
    'Category': ['A', 'B', 'A', 'C', 'B', 'A'],
    'Target': [1, 2, 1, 3, 2, 2]
})

# Frequency encoding
# El frequency encoding consiste en reemplazar cada categoría en 'Category' con la frecuencia relativa de esa categoría en el conjunto de datos.
# Primero, calculamos la frecuencia relativa de cada categoría dividiendo el número de ocurrencias de cada categoría entre el número total de filas.

# 'value_counts()' cuenta cuántas veces aparece cada categoría en la columna 'Category'.
# Luego, dividimos por la longitud total del DataFrame (número total de filas) para obtener la frecuencia relativa.
frequency_encoding = data['Category'].value_counts() / len(data)

# Usamos el método 'map' para reemplazar cada valor en la columna 'Category' por su frecuencia relativa.
# Esto genera una nueva columna 'Category_encoded' en el DataFrame con los valores codificados.
data['Category_encoded'] = data['Category'].map(frequency_encoding)

# Se imprime el DataFrame original con la nueva columna 'Category_encoded', que contiene las frecuencias relativas de las categorías.
print("Datos con Frequency Encoding:\n", data)


Datos con Frequency Encoding:
   Category  Target  Category_encoded
0        A       1          0.500000
1        B       2          0.333333
2        A       1          0.500000
3        C       3          0.166667
4        B       2          0.333333
5        A       1          0.500000
