# Codificación categórica mediante Label-Encoding y One-Hot-Encoder 

En muchas actividades de aprendizaje automático o ciencia de datos, el conjunto de datos puede contener texto o valores categóricos (básicamente valores no numéricos). Por ejemplo, una característica de color con valores como rojo, naranja, azul, blanco, etc. El plan de comidas tiene valores como el desayuno, el almuerzo, la merienda, la cena, el té, etc. Algunos algoritmos, como CATBOAST o los árboles de decisión, pueden manejar muy bien los valores categóricos, pero la mayoría de los algoritmos esperan que los valores numéricos sean los más avanzados. 

A lo largo de tu curva de aprendizaje en IA y aprendizaje automático, te darás cuenta de que la mayoría de los algoritmos funcionan mejor con entradas numéricas. Por lo tanto, el principal reto al que se enfrenta un analista es convertir los datos de texto/categóricos en datos numéricos y seguir haciendo un algoritmo/modelo para que tenga sentido. Las redes neuronales, que son la base del aprendizaje profundo, esperan que los valores de entrada sean numéricos. 

Hay muchas maneras de convertir los valores categóricos en valores numéricos. Cada enfoque tiene sus propias compensaciones e impacto en el conjunto de características. En este caso, me centraré en dos métodos principales: La codificación en caliente y el codificador de etiquetas. Ambos codificadores forman parte de la biblioteca SciKit-learn (una de las bibliotecas de Python más utilizadas) y se utilizan para convertir datos textuales o categóricos en datos numéricos con los que el modelo espera y se comporta mejor. 

Los fragmentos de código en este artículo serían de Python ya que me siento más cómodo con Python. Si necesitas R (otro lenguaje de aprendizaje automático ampliamente utilizado) entonces dilo en los comentarios. 

## Codificación de etiquetas 

Este enfoque es muy sencillo y consiste en convertir cada valor de una columna en un número. Considere un conjunto de datos de puentes que tiene una columna de nombres de tipos de puentes con los siguientes valores. Aunque habrá muchas más columnas en el conjunto de datos, para entender la codificación de etiquetas, nos centraremos en una sola columna categórica. 

**BRIDGE-TYPE**

`Arch`

`Beam`

`Truss`

`Cantilever`

`Tied Arch`

`Suspension`

`Cable`

Optamos por codificar los valores de texto poniendo una secuencia de funcionamiento para cada uno de los valores de texto como se indica a continuación: 

![img](https://miro.medium.com/max/578/1*VinegxkUYMzik9GpucWCFA.png)

Con esto, completamos la codificación de etiquetas de la variable tipo puente. Eso es todo lo que la codificación de etiquetas es. Pero dependiendo de los valores de los datos y del tipo de datos, la codificación de etiquetas induce un nuevo problema ya que utiliza la secuenciación de números. El problema de usar el número es que introducen relación/comparación entre ellos. Aparentemente, no hay ninguna relación entre los distintos tipos de puentes, pero al mirar el número, uno podría pensar que el tipo de puente "Cable" tiene mayor precedencia que el tipo de puente "Arco". El algoritmo podría malinterpretar que los datos tienen algún tipo de jerarquía/orden 0 < 1 < 2 ... < 6 y podría dar 6 veces más peso al "Cable" en el cálculo que al tipo de puente "Arco". 

![](https://miro.medium.com/max/588/1*KdCvKnI9ATVPiozmuRindA.png)

Consideremos otra columna llamada "Nivel de seguridad". Al realizar la codificación de etiquetas de esta columna también se induce el orden/precedencia en el número, pero de la manera correcta. Aquí el orden numérico no se ve fuera de la caja y tiene sentido si el algoritmo interpreta el orden de seguridad 0 < 1 < 2 < 3 < 4 es decir, ninguno < bajo < medio < alto < muy alto. 

## Codificación de etiquetas en Python 

### Utilizando el enfoque de los códigos de categoría: 

Este enfoque requiere que la columna de categoría sea de tipo de datos 'category'. Por defecto, una columna no numérica es de tipo 'objeto'. Por lo tanto, es posible que tenga que cambiar el tipo a "categoría" antes de utilizar este enfoque. 

In [2]:
# import required libraries
import pandas as pd
import numpy as np

# creating initial dataframe
bridge_types = ('Arch','Beam','Truss','Cantilever','Tied Arch','Suspension','Cable')
bridge_df = pd.DataFrame(bridge_types, columns=['Bridge_Types'])

# converting type of columns to 'category'
bridge_df['Bridge_Types'] = bridge_df['Bridge_Types'].astype('category')

# Assigning numerical values and storing in another column
bridge_df['Bridge_Types_Cat'] = bridge_df['Bridge_Types'].cat.codes
bridge_df

Unnamed: 0,Bridge_Types,Bridge_Types_Cat
0,Arch,0
1,Beam,1
2,Truss,6
3,Cantilever,3
4,Tied Arch,5
5,Suspension,4
6,Cable,2


### Utilizando el enfoque de la biblioteca SciKit Learn:

Otro enfoque común con el que muchos analistas de datos realizan la codificación de etiquetas es el uso de la biblioteca SciKit learn.

In [3]:
from sklearn.preprocessing import LabelEncoder

# creating initial dataframe
bridge_types = ('Arch','Beam','Truss','Cantilever','Tied Arch','Suspension','Cable')
bridge_df = pd.DataFrame(bridge_types, columns=['Bridge_Types'])

# creating instance of labelencoder
labelencoder = LabelEncoder()

# Assigning numerical values and storing in another column
bridge_df['Bridge_Types_Cat'] = labelencoder.fit_transform(bridge_df['Bridge_Types'])
bridge_df

Unnamed: 0,Bridge_Types,Bridge_Types_Cat
0,Arch,0
1,Beam,1
2,Truss,6
3,Cantilever,3
4,Tied Arch,5
5,Suspension,4
6,Cable,2


## Codificador de una sola vez (*One-Hot Encoder*)

Aunque la codificación de etiquetas es directa, tiene la desventaja de que los valores numéricos pueden ser malinterpretados por los algoritmos como si tuvieran algún tipo de jerarquía/orden en ellos. Este problema de ordenación se aborda en otro enfoque alternativo común llamado "codificación de un solo punto". En esta estrategia, cada valor de categoría se convierte en una nueva columna y se le asigna un valor de 1 o 0 (notación para verdadero/falso). Consideremos el ejemplo anterior de tipo de puente y niveles de seguridad con codificación one-hot.

<img src="https://miro.medium.com/max/1400/1*CK0gfoqvSPBziJcY1TQC6w.png" style="width: 700px;"/>

Arriba están los valores codificados de la columna categórica "Tipo de puente". Del mismo modo, comprobemos la columna "Nivel de seguridad".

<img src="https://miro.medium.com/max/1400/1*Jxt_bH504KSYJ3UnVRKY3A.png" style="width: 700px;"/>

Las filas que tienen el valor de la primera columna (Arch/None) tendrán '1' (indicando verdadero) y las columnas de otros valores tendrán '0' (indicando falso). Del mismo modo, para otras filas que coincidan con el valor de la columna.

Aunque este enfoque elimina los problemas de jerarquía/orden, tiene el inconveniente de añadir más columnas al conjunto de datos. Puede hacer que el número de columnas se amplíe mucho si tiene muchos valores únicos en una columna de categoría. En el ejemplo anterior, era manejable, pero se convertirá en un verdadero reto para gestionar cuando la codificación da muchas columnas.

### One-Hot Encoding en Python.

Utilizando el enfoque de la biblioteca sci-kit learn:

OneHotEncoder de la biblioteca SciKit sólo toma valores categóricos numéricos, por lo que cualquier valor de tipo cadena debe ser codificado con etiquetas antes de ser codificado en caliente. Así que tomando el marco de datos del ejemplo anterior, aplicaremos OneHotEncoder en la columna Bridge_Types_Cat.

In [5]:
from sklearn.preprocessing import OneHotEncoder

# creating instance of one-hot-encoder
enc = OneHotEncoder(handle_unknown='ignore')

# passing bridge-types-cat column (label encoded values of bridge_types)
enc_df = pd.DataFrame(enc.fit_transform(bridge_df[['Bridge_Types_Cat']]).toarray())

# merge with main df bridge_df on key values
bridge_df = bridge_df.join(enc_df)
bridge_df

Unnamed: 0,Bridge_Types,Bridge_Types_Cat,0,1,2,3,4,5,6
0,Arch,0,1.0,0.0,0.0,0.0,0.0,0.0,0.0
1,Beam,1,0.0,1.0,0.0,0.0,0.0,0.0,0.0
2,Truss,6,0.0,0.0,0.0,0.0,0.0,0.0,1.0
3,Cantilever,3,0.0,0.0,0.0,1.0,0.0,0.0,0.0
4,Tied Arch,5,0.0,0.0,0.0,0.0,0.0,1.0,0.0
5,Suspension,4,0.0,0.0,0.0,0.0,1.0,0.0,0.0
6,Cable,2,0.0,0.0,1.0,0.0,0.0,0.0,0.0


### Utilizando el enfoque de los valores ficticios (*dummies*):

Este enfoque es más flexible porque permite codificar tantas columnas de categorías como se desee y elegir cómo etiquetar las columnas utilizando un prefijo. Una denominación adecuada facilitará el resto del análisis.

In [6]:
# creating initial dataframe
bridge_types = ('Arch','Beam','Truss','Cantilever','Tied Arch','Suspension','Cable')
bridge_df = pd.DataFrame(bridge_types, columns=['Bridge_Types'])

# generate binary values using get_dummies
dum_df = pd.get_dummies(bridge_df, columns=["Bridge_Types"], prefix=["Type_is"] )

# merge with main df bridge_df on key values
bridge_df = bridge_df.join(dum_df)
bridge_df

Unnamed: 0,Bridge_Types,Type_is_Arch,Type_is_Beam,Type_is_Cable,Type_is_Cantilever,Type_is_Suspension,Type_is_Tied Arch,Type_is_Truss
0,Arch,1,0,0,0,0,0,0
1,Beam,0,1,0,0,0,0,0
2,Truss,0,0,0,0,0,0,1
3,Cantilever,0,0,0,1,0,0,0
4,Tied Arch,0,0,0,0,0,1,0
5,Suspension,0,0,0,0,1,0,0
6,Cable,0,0,1,0,0,0,0


## Conclusión

Es importante entender las distintas opciones de codificación de las variables categóricas porque cada enfoque tiene sus propios pros y contras. En la ciencia de los datos, es un paso importante, así que te animo a que tengas estas ideas en mente cuando trates con variables categóricas. Para cualquier sugerencia o para más detalles sobre el código utilizado en este artículo, no dudes en comentar.