In [2]:
!pip install category_encoders

Collecting category_encoders
  Downloading category_encoders-2.6.3-py2.py3-none-any.whl.metadata (8.0 kB)
Downloading category_encoders-2.6.3-py2.py3-none-any.whl (81 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m81.9/81.9 kB[0m [31m801.3 kB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: category_encoders
Successfully installed category_encoders-2.6.3


<img src='https://upload.wikimedia.org/wikipedia/commons/thumb/a/aa/Logo_DuocUC.svg/2560px-Logo_DuocUC.svg.png' width=50%, height=20%>

## Codificación de variables categóricas

Para poder usar columnas categóricas en un modelo, es necesario transformar las etiquetas de las categorias en alguna representación numérica. Existen varias formas de hacer este proceso, algunas básicas son:

Sea una variable categórica con $K$ clases distintas:

1. **Binary Encoding:** Genera $K-1$ columnas binarias.
2. **One-Hot encoding:** Genera $K$ columnas binarias. Cada columna representa la presencia o ausencia de una de las clases.
3. **Label Encoding:** Genera $1$ sola columna y asiga un numero entero natural a cada clase.

En primer lugar utilizaremos **One-Hot Encoding**, crearemos $5$ columnas, una para cada continente, cuando la columna que representa al continente "Oceania" por ejemplo, tome el valor $1$, quiere decir que el correspondiente registro tiene la etiqueta 'Oceania' en su columna de region.

In [3]:
# Importación de librerías
import pandas as pd
import numpy as np

import category_encoders as ce

# Import label encoder
from sklearn import preprocessing

In [4]:
!wget https://raw.githubusercontent.com/JaznaLaProfe/Fundamentos-de-Machine-Learning/main/data/nations.csv

--2024-08-31 22:31:41--  https://raw.githubusercontent.com/JaznaLaProfe/Fundamentos-de-Machine-Learning/main/data/nations.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.109.133, 185.199.110.133, 185.199.111.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.109.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 30581 (30K) [text/plain]
Saving to: ‘nations.csv’


2024-08-31 22:31:41 (2.70 MB/s) - ‘nations.csv’ saved [30581/30581]



In [6]:
naciones = pd.read_csv("nations.csv", sep=",", encoding = "latin1")

In [7]:
naciones.head()

Unnamed: 0,ID,country,region,gdp,school,adfert,chldmort,life,pop,urban,femlab,literacy,co2,gini
0,1,Algeria,Africa,7300.399902,6.716667,7.3,34.75,72.316666,34172236,64.933334,0.4522,72.599998,15.0,
1,2,Benin,Africa,1338.800049,3.1,111.699997,122.75,54.733334,8237634,41.0,0.8482,41.700001,1.2,
2,3,Botswana,Africa,12307.400391,8.6,52.099998,60.25,52.25,1941233,59.25,0.887,84.099998,9.2,
3,4,Burkina Faso,Africa,1063.400024,1.3,124.800003,170.5,53.783333,15308383,23.583334,0.8584,23.6,0.2,
4,5,Burundi,Africa,349.200012,2.483333,18.6,168.5,48.866665,7821783,10.25,1.0344,66.599998,0.1,33.299999


In [8]:
naciones.shape

(194, 14)

In [9]:
naciones.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 194 entries, 0 to 193
Data columns (total 14 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   ID        194 non-null    int64  
 1   country   194 non-null    object 
 2   region    194 non-null    object 
 3   gdp       179 non-null    float64
 4   school    188 non-null    float64
 5   adfert    194 non-null    float64
 6   chldmort  193 non-null    float64
 7   life      194 non-null    float64
 8   pop       194 non-null    int64  
 9   urban     194 non-null    float64
 10  femlab    177 non-null    float64
 11  literacy  135 non-null    float64
 12  co2       185 non-null    float64
 13  gini      81 non-null     float64
dtypes: float64(10), int64(2), object(2)
memory usage: 21.3+ KB


In [10]:
naciones.region.value_counts()

Unnamed: 0_level_0,count
region,Unnamed: 1_level_1
Africa,52
Asia,49
Europe,43
Americas,35
Oceania,15


In [11]:
naciones_ce = naciones.copy()
naciones_he = naciones.copy()
naciones_le = naciones.copy()

### **Binary Encoding**

Esta técnica no es tan intuitiva como las anteriores. Ya que, primero se codifican las categorías como ordinales, luego esos enteros se convierten en código binario, y después los dígitos de esa cadena binaria se dividen en columnas separadas. Así se codifican los datos en menos dimensiones que con un solo punto.

Puedes hacer la codificación binaria de varias maneras, pero la más sencilla es usar la biblioteca category_encoders. Puede instalar category_encoders mediante ***pip install category_encoders*** en cmd o simplemente descargar y extraer el archivo .tar.gz del sitio.

Primero tienes que importar la biblioteca category_encoders después de instalarla. Invoca la función BinaryEncoder especificando las columnas que quieres codificar y luego llama al método .fit_transform() con el DataFrame como argumento.

In [12]:
encoder = ce.BinaryEncoder(cols=['region'])
naciones_binary = encoder.fit_transform(naciones_ce)
naciones_binary.head()

Unnamed: 0,ID,country,region_0,region_1,region_2,gdp,school,adfert,chldmort,life,pop,urban,femlab,literacy,co2,gini
0,1,Algeria,0,0,1,7300.399902,6.716667,7.3,34.75,72.316666,34172236,64.933334,0.4522,72.599998,15.0,
1,2,Benin,0,0,1,1338.800049,3.1,111.699997,122.75,54.733334,8237634,41.0,0.8482,41.700001,1.2,
2,3,Botswana,0,0,1,12307.400391,8.6,52.099998,60.25,52.25,1941233,59.25,0.887,84.099998,9.2,
3,4,Burkina Faso,0,0,1,1063.400024,1.3,124.800003,170.5,53.783333,15308383,23.583334,0.8584,23.6,0.2,
4,5,Burundi,0,0,1,349.200012,2.483333,18.6,168.5,48.866665,7821783,10.25,1.0344,66.599998,0.1,33.299999


### **One-Hot encoding**
La estrategia básica consiste en convertir cada valor de la categoría en una nueva columna y asignarle un valor de 1 o 0 (Verdadero/Falso). Esto tiene la ventaja de no ponderar un valor indebidamente.

Hay muchas bibliotecas que soportan la codificación de un solo valor, pero la más sencilla es utilizar el método .get_dummies() de pandas.

Esta función se llama así porque crea variables ficticias/indicadoras (1 o 0). Hay principalmente tres argumentos importantes aquí, el primero es el DataFrame sobre el que se quiere codificar, el segundo es el argumento columnas que permite especificar las columnas sobre las que se quiere hacer la codificación, y el tercero, el argumento prefijo que permite especificar el prefijo para las nuevas columnas que se crearán después de la codificación.

In [13]:
# Rellenando los valores de la columna
naciones_he['Africa'] = naciones_he['region'].replace(['Africa', 'Asia', 'Europe', 'Americas', 'Oceania'],[1,0,0,0,0])
naciones_he['Asia'] = naciones_he['region'].replace(['Africa', 'Asia', 'Europe', 'Americas', 'Oceania'],[0,1,0,0,0])
naciones_he['Europe'] = naciones_he['region'].replace(['Africa', 'Asia', 'Europe', 'Americas', 'Oceania'],[0,0,1,0,0])
naciones_he['Americas'] = naciones_he['region'].replace(['Africa', 'Asia', 'Europe', 'Americas', 'Oceania'],[0,0,0,1,0])
naciones_he['Oceania'] = naciones_he['region'].replace(['Africa', 'Asia', 'Europe', 'Americas', 'Oceania'],[0,0,0,0,1])

In [14]:
naciones_he.sample(5)

Unnamed: 0,ID,country,region,gdp,school,adfert,chldmort,life,pop,urban,femlab,literacy,co2,gini,Africa,Asia,Europe,Americas,Oceania
146,147,Estonia,Europe,17932.0,11.95,22.700001,6.25,73.73333,1342933,69.433334,0.8028,99.800003,48.849998,,0,0,1,0,0
2,3,Botswana,Africa,12307.400391,8.6,52.099998,60.25,52.25,1941233,59.25,0.887,84.099998,9.2,,1,0,0,0,0
25,26,Liberia,Africa,345.0,3.65,142.600006,125.5,54.233334,3576984,46.916668,0.8746,59.099998,0.8,52.599998,1,0,0,0,0
172,173,Slovakia,Europe,18552.199219,11.6,20.200001,7.5,74.75,5437334,55.283333,0.7452,,25.6,,0,0,1,0,0
124,125,South Korea,Asia,24539.599609,11.35,2.3,5.25,79.783333,47615448,82.166664,0.6892,,36.299999,,0,1,0,0,0


In [15]:
# Podemos hacer lo anterior de forma muchisimo más rápida con un loop
for reg in naciones_he['region'].unique():
    naciones_he[reg] = np.where(naciones_he['region'] == reg, 1, 0)

naciones_he.sample(10)

Unnamed: 0,ID,country,region,gdp,school,adfert,chldmort,life,pop,urban,femlab,literacy,co2,gini,Africa,Asia,Europe,Americas,Oceania
151,152,Hungary,Europe,17476.199219,10.883333,16.5,7.0,73.699997,10033583,67.183334,0.7304,99.400002,21.200001,31.200001,0,0,1,0,0
42,43,Somalia,Africa,,,70.099998,180.0,50.366669,8835650,36.299999,0.6706,,0.1,,1,0,0,0,0
155,156,Latvia,Europe,14491.200195,10.933333,18.0,9.25,72.366669,2277500,67.866669,0.7768,99.800003,11.65,35.700001,0,0,1,0,0
143,144,Croatia,Europe,16403.599609,9.633333,13.5,6.0,75.966667,4422400,57.066666,0.7596,98.800003,19.049999,33.700001,0,0,1,0,0
40,41,Seychelles,Africa,18625.800781,9.4,51.299999,12.75,72.98333,85167,54.066666,,91.800003,30.799999,19.0,1,0,0,0,0
34,35,Namibia,Africa,5740.200195,7.2,74.400002,53.25,60.583332,2180583,36.516666,0.8184,88.5,5.0,,1,0,0,0,0
38,39,Sao Tome/Principe,Africa,1544.400024,4.2,66.099998,79.25,63.833332,158800,60.166668,0.5782,88.800003,2.45,,1,0,0,0,0
74,75,Mexico,Americas,12979.400391,8.166667,70.599998,18.5,76.166664,109937248,77.050003,0.522,92.400002,15.15,51.700001,0,0,0,1,0
15,16,Equatorial Guinea,Africa,27645.800781,5.4,122.900002,149.5,50.066666,653533,39.266666,0.414,93.300003,32.550003,,1,0,0,0,0
158,159,Luxembourg,Europe,71141.0,9.983334,10.1,3.25,79.333336,481717,84.550003,0.735,,90.449997,,0,0,1,0,0


### **Label encoding**
Otro enfoque es codificar los valores categóricos con una técnica llamada "codificación de etiquetas", que permite convertir cada valor de una columna en un número. Las etiquetas numéricas están siempre entre 0 y n_categorías-1.

Puede realizar la codificación de etiquetas mediante los atributos .cat.codes en la columna de su DataFrame.

In [16]:
# label_encoder object knows how to understand word labels.
label_encoder = preprocessing.LabelEncoder()

# Encode labels in column 'species'.
naciones_le['region']= label_encoder.fit_transform(naciones_le['region'])
naciones_le['region'].unique()

array([0, 1, 2, 3, 4])

In [17]:
naciones_le.head()

Unnamed: 0,ID,country,region,gdp,school,adfert,chldmort,life,pop,urban,femlab,literacy,co2,gini
0,1,Algeria,0,7300.399902,6.716667,7.3,34.75,72.316666,34172236,64.933334,0.4522,72.599998,15.0,
1,2,Benin,0,1338.800049,3.1,111.699997,122.75,54.733334,8237634,41.0,0.8482,41.700001,1.2,
2,3,Botswana,0,12307.400391,8.6,52.099998,60.25,52.25,1941233,59.25,0.887,84.099998,9.2,
3,4,Burkina Faso,0,1063.400024,1.3,124.800003,170.5,53.783333,15308383,23.583334,0.8584,23.6,0.2,
4,5,Burundi,0,349.200012,2.483333,18.6,168.5,48.866665,7821783,10.25,1.0344,66.599998,0.1,33.299999


In [18]:
naciones_le.region.unique()

array([0, 1, 2, 3, 4])