<img src='https://upload.wikimedia.org/wikipedia/commons/thumb/a/aa/Logo_DuocUC.svg/2560px-Logo_DuocUC.svg.png' width=50%, height=20%>

## Codificación de variables categóricas

Para poder usar columnas categóricas en un modelo, es necesario transformar las etiquetas de las categorias en alguna representación numérica. Existen varias formas de hacer este proceso, algunas básicas son:

Sea una variable categórica con $K$ clases distintas:

1. **Binary Encoding:** Genera $K-1$ columnas binarias.
2. **One-Hot encoding:** Genera $K$ columnas binarias. Cada columna representa la presencia o ausencia de una de las clases.
3. **Label Encoding:** Genera $1$ sola columna y asiga un numero entero natural a cada clase.

En primer lugar utilizaremos **One-Hot Encoding**, crearemos $5$ columnas, una para cada continente, cuando la columna que representa al continente "Oceania" por ejemplo, tome el valor $1$, quiere decir que el correspondiente registro tiene la etiqueta 'Oceania' en su columna de region.

In [1]:
# Importación de librerías
import pandas as pd
import numpy as np

import category_encoders as ce
naciones = pd.read_csv('nations.csv', sep=',', encoding='utf-8')

In [2]:
df.head()

NameError: name 'df' is not defined

In [3]:
naciones.shape

(194, 14)

In [19]:
naciones.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 194 entries, 0 to 193
Data columns (total 14 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   ID        194 non-null    int64  
 1   country   194 non-null    object 
 2   region    194 non-null    object 
 3   gdp       179 non-null    float64
 4   school    188 non-null    float64
 5   adfert    194 non-null    float64
 6   chldmort  193 non-null    float64
 7   life      194 non-null    float64
 8   pop       194 non-null    int64  
 9   urban     194 non-null    float64
 10  femlab    177 non-null    float64
 11  literacy  135 non-null    float64
 12  co2       185 non-null    float64
 13  gini      81 non-null     float64
dtypes: float64(10), int64(2), object(2)
memory usage: 21.3+ KB


In [20]:
naciones.region.value_counts()

region
Africa      52
Asia        49
Europe      43
Americas    35
Oceania     15
Name: count, dtype: int64

In [5]:
naciones_ce = naciones.copy()
naciones_he = naciones.copy()
naciones_le = naciones.copy()

### **Binary Encoding**

Esta técnica no es tan intuitiva como las anteriores. Ya que, primero se codifican las categorías como ordinales, luego esos enteros se convierten en código binario, y después los dígitos de esa cadena binaria se dividen en columnas separadas. Así se codifican los datos en menos dimensiones que con un solo punto.

Puedes hacer la codificación binaria de varias maneras, pero la más sencilla es usar la biblioteca category_encoders. Puede instalar category_encoders mediante ***pip install category_encoders*** en cmd o simplemente descargar y extraer el archivo .tar.gz del sitio.

Primero tienes que importar la biblioteca category_encoders después de instalarla. Invoca la función BinaryEncoder especificando las columnas que quieres codificar y luego llama al método .fit_transform() con el DataFrame como argumento.

In [6]:
encoder = ce.BinaryEncoder(cols=['region'])
naciones_binary = encoder.fit_transform(naciones_ce)
naciones_binary.head()

Unnamed: 0,ID,country,region_0,region_1,region_2,gdp,school,adfert,chldmort,life,pop,urban,femlab,literacy,co2,gini
0,1,Algeria,0,0,1,7300.399902,6.716667,7.3,34.75,72.316666,34172236,64.933334,0.4522,72.599998,15.0,
1,2,Benin,0,0,1,1338.800049,3.1,111.699997,122.75,54.733334,8237634,41.0,0.8482,41.700001,1.2,
2,3,Botswana,0,0,1,12307.400391,8.6,52.099998,60.25,52.25,1941233,59.25,0.887,84.099998,9.2,
3,4,Burkina Faso,0,0,1,1063.400024,1.3,124.800003,170.5,53.783333,15308383,23.583334,0.8584,23.6,0.2,
4,5,Burundi,0,0,1,349.200012,2.483333,18.6,168.5,48.866665,7821783,10.25,1.0344,66.599998,0.1,33.299999


### **One-Hot encoding**
La estrategia básica consiste en convertir cada valor de la categoría en una nueva columna y asignarle un valor de 1 o 0 (Verdadero/Falso). Esto tiene la ventaja de no ponderar un valor indebidamente.

Hay muchas bibliotecas que soportan la codificación de un solo valor, pero la más sencilla es utilizar el método .get_dummies() de pandas.

Esta función se llama así porque crea variables ficticias/indicadoras (1 o 0). Hay principalmente tres argumentos importantes aquí, el primero es el DataFrame sobre el que se quiere codificar, el segundo es el argumento columnas que permite especificar las columnas sobre las que se quiere hacer la codificación, y el tercero, el argumento prefijo que permite especificar el prefijo para las nuevas columnas que se crearán después de la codificación.

In [7]:
# Rellenando los valores de la columna
naciones_he['Africa'] = naciones_he['region'].replace(['Africa', 'Asia', 'Europe', 'Americas', 'Oceania'],[1,0,0,0,0])
naciones_he['Asia'] = naciones_he['region'].replace(['Africa', 'Asia', 'Europe', 'Americas', 'Oceania'],[0,1,0,0,0])
naciones_he['Europe'] = naciones_he['region'].replace(['Africa', 'Asia', 'Europe', 'Americas', 'Oceania'],[0,0,1,0,0])
naciones_he['Americas'] = naciones_he['region'].replace(['Africa', 'Asia', 'Europe', 'Americas', 'Oceania'],[0,0,0,1,0])
naciones_he['Oceania'] = naciones_he['region'].replace(['Africa', 'Asia', 'Europe', 'Americas', 'Oceania'],[0,0,0,0,1])

In [8]:
naciones_he.sample(5)

Unnamed: 0,ID,country,region,gdp,school,adfert,chldmort,life,pop,urban,femlab,literacy,co2,gini,Africa,Asia,Europe,Americas,Oceania
0,1,Algeria,Africa,7300.399902,6.716667,7.3,34.75,72.316666,34172236,64.933334,0.4522,72.599998,15.0,,1,0,0,0,0
82,83,Suriname,Americas,6441.25,7.2,39.5,28.25,69.550003,512317,68.283333,0.567,94.599998,19.450001,,0,0,0,1,0
182,183,Kiribati,Oceania,2294.199951,7.8,22.200001,49.25,67.133331,95750,43.700001,,,1.05,,0,0,0,0,1
69,70,Guatemala,Americas,4245.600098,3.85,107.199997,41.5,70.316666,13537367,48.316666,0.537,74.5,3.35,53.700001,0,0,0,1,0
86,87,Venezuela,Americas,10999.0,7.05,89.900002,18.75,73.699997,27823916,92.666664,0.6298,,22.0,43.5,0,0,0,1,0


In [9]:
# Podemos hacer lo anterior de forma muchisimo mas rapida con un loop
for reg in naciones_he['region'].unique():
    naciones_he[reg] = np.where(naciones_he['region'] == reg, 1, 0)

naciones_he.sample(10)

Unnamed: 0,ID,country,region,gdp,school,adfert,chldmort,life,pop,urban,femlab,literacy,co2,gini,Africa,Asia,Europe,Americas,Oceania
191,192,Tonga,Oceania,4072.199951,10.133333,22.299999,19.25,71.833336,102550,23.266666,0.715,99.0,4.85,,0,0,0,0,1
97,98,Georgia,Asia,4157.200195,12.1,44.700001,30.25,73.133331,4409267,52.599998,0.7528,99.699997,4.25,41.299999,0,1,0,0,0
114,115,Myanmar,Asia,,3.75,16.299999,73.75,63.716667,47109500,32.0,0.7476,92.0,0.8,,0,1,0,0,0
96,97,Cyprus,Asia,25403.199219,9.366667,6.6,4.25,78.98333,1069167,69.866669,0.7602,97.900002,33.349998,,0,1,0,0,0
144,145,Czech Republic,Europe,22044.599609,12.7,11.1,4.0,76.949997,10350500,73.5,0.7296,,41.299999,,0,0,1,0,0
84,85,United States,Americas,42895.0,12.433333,41.200001,8.0,77.98333,303621504,81.550003,0.8096,,70.550003,,0,0,0,1,0
57,58,Bolivia,Americas,3873.0,8.75,78.199997,57.0,65.533333,9539767,65.383331,0.7526,90.699997,4.15,57.299999,0,0,0,1,0
72,73,Honduras,Americas,3472.399902,6.2,93.099998,31.75,72.099998,7234817,50.099998,0.4918,,4.0,57.700001,0,0,0,1,0
82,83,Suriname,Americas,6441.25,7.2,39.5,28.25,69.550003,512317,68.283333,0.567,94.599998,19.450001,,0,0,0,1,0
122,123,Saudi Arabia,Asia,21381.400391,7.516666,11.6,21.25,73.133331,25794750,81.533333,0.2562,86.099998,57.450001,,0,1,0,0,0


### **Label encoding**
Otro enfoque es codificar los valores categóricos con una técnica llamada "codificación de etiquetas", que permite convertir cada valor de una columna en un número. Las etiquetas numéricas están siempre entre 0 y n_categorías-1.

Puede realizar la codificación de etiquetas mediante los atributos .cat.codes en la columna de su DataFrame.

In [10]:
# Import label encoder
from sklearn import preprocessing
# label_encoder object knows how to understand word labels.
label_encoder = preprocessing.LabelEncoder()
  
# Encode labels in column 'species'.
naciones_le['region']= label_encoder.fit_transform(naciones_le['region']) 
naciones_le['region'].unique()

array([0, 1, 2, 3, 4])

In [5]:
naciones_le.head()

Unnamed: 0,ID,country,region,gdp,school,adfert,chldmort,life,pop,urban,femlab,literacy,co2,gini
0,1,Algeria,0,7300.399902,6.716667,7.3,34.75,72.316666,34172236,64.933334,0.4522,72.599998,15.0,
1,2,Benin,0,1338.800049,3.1,111.699997,122.75,54.733334,8237634,41.0,0.8482,41.700001,1.2,
2,3,Botswana,0,12307.400391,8.6,52.099998,60.25,52.25,1941233,59.25,0.887,84.099998,9.2,
3,4,Burkina Faso,0,1063.400024,1.3,124.800003,170.5,53.783333,15308383,23.583334,0.8584,23.6,0.2,
4,5,Burundi,0,349.200012,2.483333,18.6,168.5,48.866665,7821783,10.25,1.0344,66.599998,0.1,33.299999


In [11]:
naciones_le.region.unique()

array([0, 1, 2, 3, 4])