<center>

# **Codificación de Variables Categóricas**

</center>

![](https://miro.medium.com/v2/resize:fit:1400/format:webp/1*J2Mo6TmrSrFw6fAwrAuzvQ.png)

La mayoría de los algoritmos de aprendizaje automático no pueden manejar variables categóricas a menos que las conviertamos en valores numéricos. El rendimiento de muchos algoritmos varía en función de cómo se codifican las variables categóricas.

Las variables categóricas se pueden dividir en dos categorías: nominales (sin orden particular) y ordinales (algunas ordenadas).

![](https://miro.medium.com/v2/resize:fit:720/format:webp/1*wYbTRM0dgnRzutwZq63xCg.png)

- Algunos ejemplos como a continuación para la variable Nominal:

  - rojo, amarillo, rosa, azul
  - Singapur, Japón, Estados Unidos, India, Corea
  - Vaca, Perro, Gato, Serpiente

- Ejemplo de variables ordinales:

  - Alto medio bajo
  - "Totalmente de acuerdo", de acuerdo, neutral, en desacuerdo y "totalmente en desacuerdo".
  - Excelente, Bien, Malo

Hay muchas maneras en que podemos codificar estas variables categóricas como números y usarlas en un algoritmo.

1. Codificación One Hot
2. Codificación de Label
3. Codificación ordinal
4. Codificación Helmert
5. Codificación binaria
6. Codificación de frecuencia
7. Codificación media
8. Codificación de peso de evidencia
9. Codificación de relación de probabilidad
10. Codificación de diferencia hacia atrás
11. Codificación del estimador M

In [1]:
import pandas as pd
import numpy as np
data ={ 'Temperatura': ['Caliente', 'Frío', 'Muy Caliente', 'Tibio', 'Caliente', 'Tibio', 'Tibio', 'Caliente', 'Caliente', 'Frío'],
'Color': ['Rojo', 'Amarillo', 'Azul', 'Azul', 'Rojo', 'Amarillo', 'Rojo', 'Amarillo', 'Amarillo', 'Amarillo'],
'Target': [1,1,1,0,1,0,1,0,1,1]}
df= pd.DataFrame (data, columns = ['Temperatura', 'Color', 'Target'])

In [3]:
df

Unnamed: 0,Temperatura,Color,Target
0,Caliente,Rojo,1
1,Frío,Amarillo,1
2,Muy Caliente,Azul,1
3,Tibio,Azul,0
4,Caliente,Rojo,1
5,Tibio,Amarillo,0
6,Tibio,Rojo,1
7,Caliente,Amarillo,0
8,Caliente,Amarillo,1
9,Frío,Amarillo,1


- **One Hot Encoding**

En este método, asignamos cada categoría a un vector que contiene 1 y 0, lo que denota la presencia o ausencia de la característica. El número de vectores depende del número de categorías de características.

Este método produce muchas columnas que ralentizan significativamente el aprendizaje si el número de la categoría es muy alto para la función.

Pandas tiene la función get_dummies , que es bastante fácil de usar.

In [4]:
df1=pd.get_dummies(df,  columns=["Temperatura", "Color"])
df1

Unnamed: 0,Target,Temperatura_Caliente,Temperatura_Frío,Temperatura_Muy Caliente,Temperatura_Tibio,Color_Amarillo,Color_Azul,Color_Rojo
0,1,True,False,False,False,False,False,True
1,1,False,True,False,False,True,False,False
2,1,False,False,True,False,False,True,False
3,0,False,False,False,True,False,True,False
4,1,True,False,False,False,False,False,True
5,0,False,False,False,True,True,False,False
6,1,False,False,False,True,False,False,True
7,0,True,False,False,False,True,False,False
8,1,True,False,False,False,True,False,False
9,1,False,True,False,False,True,False,False


**One Hot Encoding** es muy popular. Podemos representar todas las categorías por $N-1$ (N= No de Categoría) como suficiente para codificar la que no está incluida. Por lo general, para la regresión, usamos $N-1$ (eliminar la primera o la última columna de la nueva función One Hot Coded).

Aún así, para la clasificación, la recomendación es usar todas las $N$ columnas, ya que la mayoría de los algoritmos basados ​​en árboles construyen un árbol basado en todas las variables disponibles. Se debe usar una codificación One Hot Encoding con $N-1$ variables binarias en la regresión lineal para garantizar el número correcto de grados de libertad (N-1).

La regresión lineal tiene acceso a todas las funciones a medida que se entrena y, por lo tanto, examina todo el conjunto de variables ficticias. Esto significa que $N-1$ variables binarias brindan información completa sobre (representan completamente) la variable categórica original de la regresión lineal.TODAS las características simultáneamente durante el entrenamiento, por ejemplo, admite máquinas de vectores y redes neuronales, así como algoritmos de agrupamiento.

Nunca consideraremos esa etiqueta adicional en los métodos basados ​​en árboles si la descartamos. Por lo tanto, si usamos las variables categóricas en un algoritmo de aprendizaje basado en árboles, es una buena práctica codificarlas en N variables binarias y no descartarlas.

## Label Encoding

En esta codificación, a cada categoría se le asigna un valor de 1 a $N$ (donde $N$ es el número de categorías para la función. Un problema importante con este enfoque es que no hay relación ni orden entre estas clases, pero el algoritmo podría considerarlas como algún orden o alguna relación

In [6]:
from sklearn.preprocessing import LabelEncoder

df_le=df.copy()

le=LabelEncoder()
df_le["Temperatura_le"]=le.fit_transform(df_le["Temperatura"])
df_le


Unnamed: 0,Temperatura,Color,Target,Temperatura_le
0,Caliente,Rojo,1,0
1,Frío,Amarillo,1,1
2,Muy Caliente,Azul,1,2
3,Tibio,Azul,0,3
4,Caliente,Rojo,1,0
5,Tibio,Amarillo,0,3
6,Tibio,Rojo,1,3
7,Caliente,Amarillo,0,0
8,Caliente,Amarillo,1,0
9,Frío,Amarillo,1,1


¿Cuándo se usa Label Encoding?

Label Encoding es particularmente útil en los siguientes escenarios:

- Algoritmos que Requieren Codificación Numérica y Pueden Interpretar la Ordenación:


- Restricciones de Memoria:


- Alto Cardinalidad en las Categorías:


- Características Ordinales:
Cuando las categorías tienen un orden inherente (como "bajo", "medio", "alto"), Label Encoding puede ser preferible ya que el orden de los números puede representar el orden de las categorías.

**Precauciones al usar Label Encoding:**

No Ordinales:
Si las categorías de la variable no tienen un orden natural, el uso de Label Encoding puede introducir una nueva relación de orden que no existe, lo que podría llevar a resultados incorrectos en los modelos que son sensibles a la ordenación numérica.

Modelos Lineales:
Los modelos lineales y los algoritmos que asumen una relación lineal pueden interpretar los valores numéricos codificados como teniendo algún tipo de orden o magnitud, lo cual puede ser engañoso si la variable categórica es nominal.

## Ordinal Encoding

Realizamos la codificación ordinal para garantizar que la codificación de las variables conserve la naturaleza ordinal de la variable. Esto es razonable solo para variables ordinales. Esta codificación se ve casi similar a la codificación de etiquetas, pero ligeramente diferente, ya que la codificación de etiquetas no consideraría si la variable es ordinal o no, y asignará una secuencia de números enteros.
.

Si consideramos la escala de temperatura como el orden, entonces el valor ordinal debería ir de frío a “Muy caliente”. “ La codificación ordinal asignará valores como ( Frio(1) , Tibio(2), Caliente(3), Muy Caliente(4)). Por lo general, la codificación ordinal se realiza a partir de 1.



In [7]:
df_ordinal=df.copy()

Temp_Dict={"Frío": 1 ,
           "Tibio": 2,
           "Caliente" :3,
           "Muy Caliente": 4}
df_ordinal["Tem_Ordinal"]=df_ordinal.Temperatura.map(Temp_Dict)

In [8]:
df_ordinal

Unnamed: 0,Temperatura,Color,Target,Tem_Ordinal
0,Caliente,Rojo,1,3
1,Frío,Amarillo,1,1
2,Muy Caliente,Azul,1,4
3,Tibio,Azul,0,2
4,Caliente,Rojo,1,3
5,Tibio,Amarillo,0,2
6,Tibio,Rojo,1,2
7,Caliente,Amarillo,0,3
8,Caliente,Amarillo,1,3
9,Frío,Amarillo,1,1


**Codificación ordinal con Scikit-learn**


In [9]:
# Codificación ordinal con Scikit-learn
from sklearn.preprocessing import OrdinalEncoder

encoder = OrdinalEncoder(categories=[["Frío" ,"Tibio",  "Caliente" , "Muy Caliente"]])
df_ordinal['Temperatura_Ordinal_Sklearn'] = encoder.fit_transform(df_ordinal[['Temperatura']])

df_ordinal

Unnamed: 0,Temperatura,Color,Target,Tem_Ordinal,Temperatura_Ordinal_Sklearn
0,Caliente,Rojo,1,3,2.0
1,Frío,Amarillo,1,1,0.0
2,Muy Caliente,Azul,1,4,3.0
3,Tibio,Azul,0,2,1.0
4,Caliente,Rojo,1,3,2.0
5,Tibio,Amarillo,0,2,1.0
6,Tibio,Rojo,1,2,1.0
7,Caliente,Amarillo,0,3,2.0
8,Caliente,Amarillo,1,3,2.0
9,Frío,Amarillo,1,1,0.0


## Codificacion Helmert

En esta codificación, la media de la variable dependiente de un nivel se compara con la media de la variable dependiente de todos los niveles anteriores.

La versión en `category_encoders` a veces se denomina Codificación Helmert inversa. La media de la variable dependiente de un nivel se compara con la media de la variable dependiente de todos los niveles anteriores . Por lo tanto, el nombre ' inverso' se usa para diferenciar de la codificación directa de Helmert.

In [28]:
#%pip install category_encoders

In [10]:
import category_encoders as ce

df_helmert=df.copy()

encoder=ce.HelmertEncoder(cols=["Temperatura"], drop_invariant=True)
dfh=encoder.fit_transform(df_helmert["Temperatura"])
df_helmert=pd.concat([df_helmert, dfh], axis=1)
df_helmert



Unnamed: 0,Temperatura,Color,Target,Temperatura_0,Temperatura_1,Temperatura_2
0,Caliente,Rojo,1,-1.0,-1.0,-1.0
1,Frío,Amarillo,1,1.0,-1.0,-1.0
2,Muy Caliente,Azul,1,0.0,2.0,-1.0
3,Tibio,Azul,0,0.0,0.0,3.0
4,Caliente,Rojo,1,-1.0,-1.0,-1.0
5,Tibio,Amarillo,0,0.0,0.0,3.0
6,Tibio,Rojo,1,0.0,0.0,3.0
7,Caliente,Amarillo,0,-1.0,-1.0,-1.0
8,Caliente,Amarillo,1,-1.0,-1.0,-1.0
9,Frío,Amarillo,1,1.0,-1.0,-1.0


Consideraciones:

- Es una técnica avanzada que puede ser más difícil de interpretar que otras codificaciones como la One-Hot o la Ordinal.
- Al igual que con cualquier codificación de contraste, no es adecuada para modelos que asumen una relación lineal entre la característica y la variable objetivo, a menos que esa relación sea efectivamente de esa naturaleza.
- Debe usarse cuando se pretende analizar los efectos de las categorías en comparación con la media de las categorías subsiguientes.

## Binary Encoding

La codificación binaria convierte una categoría en dígitos binarios. Cada dígito binario crea una columna de características. Si hay $n$ categorías únicas, la codificación binaria da como resultado las únicas funciones de registro (base 2)ⁿ. En este ejemplo, tenemos cuatro características; por lo tanto, las características codificadas en binario serán tres características. En comparación con One Hot Encoding, esto requerirá menos columnas de funciones (para 100 categorías, One Hot Encoding tendrá 100 funciones, mientras que para la codificación binaria, necesitaremos solo siete funciones).

Para la codificación binaria, se deben seguir los siguientes pasos:

- Las categorías se convierten primero en orden numérico a partir de 1 (el orden se crea a medida que las categorías aparecen en un conjunto de datos y no significan ninguna naturaleza ordinal)

- Luego, esos números enteros se convierten en código binario, por ejemplo, 3 se convierte en 011, 4 se convierte en 100

- Luego, los dígitos del número binario forman columnas separadas.


![](https://miro.medium.com/v2/resize:fit:720/format:webp/1*VuNZWUX6b7GUGB0zRu2zrA.png)


In [12]:
df2=df.copy()
import category_encoders as ce
encoder=ce.BinaryEncoder(cols=["Temperatura"])
dfbin=encoder.fit_transform(df["Temperatura"])
df2=pd.concat([df2,dfbin], axis=1)
df2

Unnamed: 0,Temperatura,Color,Target,Temperatura_0,Temperatura_1,Temperatura_2
0,Caliente,Rojo,1,0,0,1
1,Frío,Amarillo,1,0,1,0
2,Muy Caliente,Azul,1,0,1,1
3,Tibio,Azul,0,1,0,0
4,Caliente,Rojo,1,0,0,1
5,Tibio,Amarillo,0,1,0,0
6,Tibio,Rojo,1,1,0,0
7,Caliente,Amarillo,0,0,0,1
8,Caliente,Amarillo,1,0,0,1
9,Frío,Amarillo,1,0,1,0


## Frequency Encoding

Es una forma de utilizar la frecuencia de las categorías como etiquetas. En los casos en que la frecuencia está relacionada de alguna manera con la variable objetivo, ayuda al modelo a comprender y asignar el peso en proporción directa e inversa, según la naturaleza de los datos. Tres pasos para esto:

- Seleccione una variable categórica que le gustaría transformar
- Agrupe por la variable categórica y obtenga recuentos de cada categoría
- Vuelva a unirlo con el conjunto de datos de entrenamiento


In [31]:
df3=df.copy()
fe=df.groupby("Temperatura").size()/len(df3)
df3.loc[:,"Temp_Freq_cod"]=df3["Temperatura"].map(fe)
df3

Unnamed: 0,Temperatura,Color,Target,Temp_Freq_cod
0,Caliente,Rojo,1,0.4
1,Frío,Amarillo,1,0.2
2,Muy Caliente,Azul,1,0.1
3,Tibio,Azul,0,0.3
4,Caliente,Rojo,1,0.4
5,Tibio,Amarillo,0,0.3
6,Tibio,Rojo,1,0.3
7,Caliente,Amarillo,0,0.4
8,Caliente,Amarillo,1,0.4
9,Frío,Amarillo,1,0.2


## Mean Encoding

La codificación media o la codificación de destino es un enfoque de codificación viral seguido por Kagglers. Hay muchas variaciones de esto. Aquí  la versión básica y la versión suavizada. La codificación media es similar a la codificación de etiquetas, excepto que aquí las etiquetas se correlacionan directamente con el objetivo. Por ejemplo, en la codificación del objetivo medio para cada categoría en la etiqueta de característica se decide con el valor medio de la variable objetivo en los datos de entrenamiento. Este método de codificación resalta la relación entre categorías similares, pero las conexiones están limitadas dentro de las categorías y el objetivo mismo . Las ventajas de la codificación de destino medio son que no afecta el volumen de los datos.y ayuda a un aprendizaje más rápido. Por lo general, la codificación de la media es notoria por el sobreajuste; por lo tanto, una regularización con validación cruzada o algún otro enfoque es imprescindible en la mayoría de las ocasiones. El enfoque de codificación media es el siguiente:

1. Seleccione una variable categórica que le gustaría transformar.
2. Agrupe por la variable categórica y obtenga la suma agregada sobre la variable “Objetivo”. (número total de 1 para cada categoría en 'Temperatura')

3. Agrupe por la variable categórica y obtenga un recuento agregado sobre la variable "Objetivo"

4. Divida los resultados del paso 2/paso 3 y vuelva a unirlos con el tren.

![](https://miro.medium.com/v2/resize:fit:720/format:webp/1*iiM9g-qCa-Vff_HAFk-ppQ.png)

In [17]:
mean_encode =df.groupby('Temperatura')['Target'].mean()
print(mean_encode)
df.loc[:, 'Temperatura_mean_enc'] =df['Temperatura'].map(mean_encode)
df

Temperatura
Caliente        0.750000
Frío            1.000000
Muy Caliente    1.000000
Tibio           0.333333
Name: Target, dtype: float64


Unnamed: 0,Temperatura,Color,Target,Temperatura_mean_enc
0,Caliente,Rojo,1,0.75
1,Frío,Amarillo,1,1.0
2,Muy Caliente,Azul,1,1.0
3,Tibio,Azul,0,0.333333
4,Caliente,Rojo,1,0.75
5,Tibio,Amarillo,0,0.333333
6,Tibio,Rojo,1,0.333333
7,Caliente,Amarillo,0,0.75
8,Caliente,Amarillo,1,0.75
9,Frío,Amarillo,1,1.0


La codificación media puede incluir el objetivo en la etiqueta, mientras que la codificación de la etiqueta no se correlaciona con el objetivo. En el caso de muchas características, la codificación media podría resultar una alternativa mucho más simple. La codificación media tiende a agrupar las clases, mientras que la agrupación es aleatoria en la codificación de etiquetas.

Hay muchas variaciones de esta codificación de destino en la práctica, como el suavizado. El suavizado se puede implementar de la siguiente manera:

## Weight of Evidence Encoding


El peso de la evidencia (WoE) mide la " fuerza" de una técnica de agrupación para separar lo bueno y lo malo. Este método fue desarrollado principalmente para construir un modelo predictivo para evaluar el riesgo de impago de préstamos en la industria crediticia y financiera. El peso de la evidencia (WOE) mide cuánto la evidencia apoya o socava una hipótesis .

Se calcula como sigue:

$$WoE=\Bigg[ln\bigg(\frac{Distr Goods}{Distr Bads}\bigg)\Bigg]*100$$

WoE será 0 si P(Buenos) / P(Malos) = 1. Es decir, si el resultado es aleatorio para ese grupo. Si P(malos) > P(buenos), la razón de probabilidades será < 1 y el WoE será < 0; si, por el contrario, P(Buenos) > P(Malos) en un grupo, entonces WoE > 0.

WoE es muy adecuado para la regresión logística porque la transformación logit es simplemente el logaritmo de las probabilidades, es decir, ln(P(buenas)/P(malas)). Por lo tanto, al usar predictores codificados por WoE en Regresión logística, los predictores se preparan y codifican en la misma escala. Los parámetros en la ecuación de regresión logística lineal se pueden comparar directamente.

La transformación WoE tiene (al menos) tres ventajas:
1. Puede transformar una variable independiente para establecer una relación monótona con la variable dependiente. Hace más que esto: para asegurar una relación monotónica, sería suficiente "recodificarla" en cualquier medida ordenada (por ejemplo, 1,2,3,4...), pero la transformación WoE ordena las categorías en una escala "logística". lo cual es natural para la regresión logística
2. Para las variables con demasiados valores discretos (escasamente poblados), estos se pueden agrupar en categorías (poblados densamente), y el WoE se puede usar para expresar información para toda la categoría
3. El efecto (univariable) de cada categoría en la variable dependiente se puede comparar entre categorías y variables porque WoE es un valor estandarizado (por ejemplo, puede comparar WoE de personas casadas con WoE de trabajadores manuales)

También tiene (al menos) tres inconvenientes:
1. Pérdida de información (variación) debido al agrupamiento de unas pocas categorías
2. Es una medida “univariada”, por lo que no tiene en cuenta la correlación entre variables independientes
3. No es fácil de manipular (sobreajustar) el efecto de las variables según cómo se crean las categorías

In [20]:
woe_df=df.groupby('Temperatura') ['Target'].mean()

In [22]:
woe_df = pd.DataFrame (woe_df)
woe_df

Unnamed: 0_level_0,Target
Temperatura,Unnamed: 1_level_1
Caliente,0.75
Frío,1.0
Muy Caliente,1.0
Tibio,0.333333


In [24]:
woe_df = woe_df.rename(columns ={ 'Target' :'Good' })
woe_df

Unnamed: 0_level_0,Good
Temperatura,Unnamed: 1_level_1
Caliente,0.75
Frío,1.0
Muy Caliente,1.0
Tibio,0.333333


In [26]:
# Calcular Bad probabilidad
woe_df ['Bad'] =1-woe_df.Good
woe_df

Unnamed: 0_level_0,Good,Bad
Temperatura,Unnamed: 1_level_1,Unnamed: 2_level_1
Caliente,0.75,0.25
Frío,1.0,0.0
Muy Caliente,1.0,0.0
Tibio,0.333333,0.666667


In [27]:
woe_df["Bad"]=np.where(woe_df['Bad']==0, 0.000001 , woe_df ['Bad'])

In [28]:
woe_df

Unnamed: 0_level_0,Good,Bad
Temperatura,Unnamed: 1_level_1,Unnamed: 2_level_1
Caliente,0.75,0.25
Frío,1.0,1e-06
Muy Caliente,1.0,1e-06
Tibio,0.333333,0.666667


In [29]:
woe_df['WoE'] =np.log( woe_df.Good/woe_df.Bad)
woe_df

Unnamed: 0_level_0,Good,Bad,WoE
Temperatura,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Caliente,0.75,0.25,1.098612
Frío,1.0,1e-06,13.815511
Muy Caliente,1.0,1e-06,13.815511
Tibio,0.333333,0.666667,-0.693147


In [33]:
# calcular probabilidad of target $=1$ i.e. Good $=1$
woe_df =df.groupby('Temperatura') ['Target'].mean()
woe_df = pd.DataFrame (woe_df)
woe_df = woe_df.rename(columns ={ 'Target' :'Good' })
# Calcular Bad probabilidad
woe_df ['Bad'] =1-woe_df.Good
# no dicidir por cero
woe_df["Bad"]=np.where(woe_df['Bad']==0, 0.000001 , woe_df ['Bad'])
# calcular el WoE
woe_df['WoE'] =np.log( woe_df.Good/woe_df.Bad)
woe_df

Unnamed: 0_level_0,Good,Bad,WoE
Temperatura,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Caliente,0.75,0.25,1.098612
Frío,1.0,1e-06,13.815511
Muy Caliente,1.0,1e-06,13.815511
Tibio,0.333333,0.666667,-0.693147


In [30]:
df.loc[:,"Woe_Encode"]=df["Temperatura"].map(woe_df["WoE"])
df

Unnamed: 0,Temperatura,Color,Target,Temperatura_mean_enc,Woe_Encode
0,Caliente,Rojo,1,0.75,1.098612
1,Frío,Amarillo,1,1.0,13.815511
2,Muy Caliente,Azul,1,1.0,13.815511
3,Tibio,Azul,0,0.333333,-0.693147
4,Caliente,Rojo,1,0.75,1.098612
5,Tibio,Amarillo,0,0.333333,-0.693147
6,Tibio,Rojo,1,0.333333,-0.693147
7,Caliente,Amarillo,0,0.75,1.098612
8,Caliente,Amarillo,1,0.75,1.098612
9,Frío,Amarillo,1,1.0,13.815511


## Probability Ratio Encoding

La codificación de la razón de probabilidad es similar al peso de la evidencia (WoE), con la única diferencia que se utiliza la única proporción de probabilidad buena y mala. Para cada etiqueta, calculamos la media de target=1, es decir, la probabilidad de ser 1 (P(1)), y también la probabilidad de target=0 (P(0)). Y luego, calculamos la relación P(1)/P(0) y reemplazamos las etiquetas con esa relación. Necesitamos agregar un valor mínimo con P(0) para evitar escenarios de división por cero donde para cualquier categoría en particular, no hay un objetivo = 0.

In [31]:
# We calcular probabilidad de target $=1$ . Good $=1$  para cada categoria0
pr_df=df.groupby ('Temperatura') ['Target'].mean()
pr_df = pd.DataFrame (pr_df)
pr_df= pr_df.rename(columns ={ 'Target': 'Good' } )
# Calcular Bad probabilidad  1 - Good probability
pr_df['Bad'] = 1-pr_df.Good
# We need to add a small value to avoid divide by zero in denominator
pr_df["Bad"]=np.where(pr_df['Bad']==0, 0.000001 , pr_df ['Bad'])
# compute the Probability Ratio
pr_df['PR']=pr_df.Good/pr_df.Bad
pr_df

Unnamed: 0_level_0,Good,Bad,PR
Temperatura,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Caliente,0.75,0.25,3.0
Frío,1.0,1e-06,1000000.0
Muy Caliente,1.0,1e-06,1000000.0
Tibio,0.333333,0.666667,0.5


In [32]:
df.loc[:,"PR_Encode"]=df["Temperatura"].map(pr_df["PR"])
df

Unnamed: 0,Temperatura,Color,Target,Temperatura_mean_enc,Woe_Encode,PR_Encode
0,Caliente,Rojo,1,0.75,1.098612,3.0
1,Frío,Amarillo,1,1.0,13.815511,1000000.0
2,Muy Caliente,Azul,1,1.0,13.815511,1000000.0
3,Tibio,Azul,0,0.333333,-0.693147,0.5
4,Caliente,Rojo,1,0.75,1.098612,3.0
5,Tibio,Amarillo,0,0.333333,-0.693147,0.5
6,Tibio,Rojo,1,0.333333,-0.693147,0.5
7,Caliente,Amarillo,0,0.75,1.098612,3.0
8,Caliente,Amarillo,1,0.75,1.098612,3.0
9,Frío,Amarillo,1,1.0,13.815511,1000000.0


In [37]:
df

Unnamed: 0,Temperatura,Color,Target,Temperatura_mean_enc,Woe_Encode,PR_Encode
0,Caliente,Rojo,1,0.75,1.098612,3.0
1,Frío,Amarillo,1,1.0,13.815511,1000000.0
2,Muy Caliente,Azul,1,1.0,13.815511,1000000.0
3,Tibio,Azul,0,0.333333,-0.693147,0.5
4,Caliente,Rojo,1,0.75,1.098612,3.0
5,Tibio,Amarillo,0,0.333333,-0.693147,0.5
6,Tibio,Rojo,1,0.333333,-0.693147,0.5
7,Caliente,Amarillo,0,0.75,1.098612,3.0
8,Caliente,Amarillo,1,0.75,1.098612,3.0
9,Frío,Amarillo,1,1.0,13.815511,1000000.0


## Codificación del estimador M

La codificación del estimador M se puede usar en la codificación categórica como una forma de manejar valores atípicos o categorías raras en un conjunto de datos. En este contexto, puede usarse como una forma de manejar un desequilibrio de clase en una variable categórica. La idea es asignar un peso a cada categoría en función de su desviación de la frecuencia general de la clase. Este peso se utiliza luego para ajustar la codificación de la variable categórica, dando más importancia a las categorías subrepresentadas.

Por ejemplo, suponga que tiene una variable categórica con 3 categorías A, B y C, y desea codificarla mediante la codificación one-hot. La codificación one-hot estándar asignará el mismo peso a cada categoría. Sin embargo, si la categoría A está significativamente subrepresentada en comparación con B y C, debe darle más peso en la codificación. En este caso, puede utilizar la codificación del estimador M, que asigna ponderaciones a cada categoría en función de una función de ponderación elegida para abordar el desequilibrio de clases.

Vale la pena señalar que la codificación del estimador M es solo uno de los muchos métodos que se pueden usar para manejar un desequilibrio de clase en variables categóricas, y puede que no sea el mejor método en cada situación. Usarlo o no, y cómo usarlo, depende del problema específico y del conjunto de datos con el que esté trabajando

In [33]:
import pandas as pd
import numpy as np

# datos de muestra
data = { 'Temperatura' : [ 'Caliente' , 'Frío' , 'Muy caliente' , 'Tibio' , 'Caliente' , 'Tibio' , 'Tibio' , 'Caliente'  , 'Caliente' , 'Frío' ],
        'Color' : [ 'Rojo' , 'Amarillo' , 'Azul' , 'Azul' , 'Rojo' , 'Amarillo' , 'Rojo' , 'Amarillo', 'Amarillo' , 'Amarillo' ],
        'Objetivo' : [ 1 , 1 , 1 , 0 , 1 , 0 , 1 , 0 , 1 , 1 ]}
df = pd.DataFrame(data,columns = [ 'Temperatura' , 'Color' , 'Objetivo' ])

# contar la frecuencia de cada categoría
category_counts = df[ 'Temperatura' ].value_counts()

# calcular el peso de cada categoría en función de la desviación de la frecuencia media
pesos = (category_counts - category_counts.mean()). abs ()
pesos = pesos / pesos.sum ()

# crea un diccionario para asignar cada categoría a su peso
mapping = dict ( zip (pesos.index, pesos.values))

# asigna las categorías a sus pesos
df[ 'pesos' ] = df[ 'Temperatura' ]. map (mapping)

# calcula la codificación ponderada para cada categoría
codificado = df.groupby( 'Temperatura' )[ 'pesos' ]. sum()
codificado = codificado / codificado.sum()

# mapear la codificación ponderada a las categorías
df['encoded_temperatura'] = df['Temperatura'].map(codificado)

In [34]:
df

Unnamed: 0,Temperatura,Color,Objetivo,pesos,encoded_temperatura
0,Caliente,Rojo,1,0.375,0.6
1,Frío,Amarillo,1,0.125,0.1
2,Muy caliente,Azul,1,0.375,0.15
3,Tibio,Azul,0,0.125,0.15
4,Caliente,Rojo,1,0.375,0.6
5,Tibio,Amarillo,0,0.125,0.15
6,Tibio,Rojo,1,0.125,0.15
7,Caliente,Amarillo,0,0.375,0.6
8,Caliente,Amarillo,1,0.375,0.6
9,Frío,Amarillo,1,0.125,0.1


 la variable de peso es el peso asignado a cada categoría en función de la desviación de la frecuencia media. La variable `encoded_temperature` es la codificación ponderada de la categoría Temperatura , calculada como la suma de los pesos de cada categoría y normalizada a la suma 1.

## ¿Qué método usar?

**Respuesta:** No existe un único método que funcione para todos los problemas o conjuntos de datos. Puede que tenga que probar algunos para ver, lo que da un mejor resultado. La pauta general es consultar la hoja de trucos que se muestra al final del artículo.

 ¿Cómo creo una codificación categórica para una situación como una codificación objetivo ya que, en los datos de prueba, no habrá ningún valor objetivo?

Respuesta: Necesitamos usar los valores de mapeo creados en el momento del entrenamiento. Este proceso es el mismo que el escalado o la normalización, donde usamos los datos del tren para escalar o normalizar los datos de prueba. Luego mapee y use el mismo valor en el preprocesamiento del tiempo de prueba. Incluso podemos crear un diccionario para cada categoría y mapear el valor y luego usar el diccionario en el momento de la prueba. Aquí estoy usando la codificación media para explicar esto.

![](https://miro.medium.com/v2/resize:fit:1400/format:webp/0*NBVi7M3sGyiUSyd5.png)