In [2]:
!pip install category_encoders

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting category_encoders
  Downloading category_encoders-2.5.1.post0-py2.py3-none-any.whl (72 kB)
[K     |████████████████████████████████| 72 kB 842 kB/s 
Installing collected packages: category-encoders
Successfully installed category-encoders-2.5.1.post0


<img src='https://upload.wikimedia.org/wikipedia/commons/thumb/a/aa/Logo_DuocUC.svg/2560px-Logo_DuocUC.svg.png' width=50%, height=20%>

## Codificación de variables categóricas

Para poder usar columnas categóricas en un modelo, es necesario transformar las etiquetas de las categorias en alguna representación numérica. Existen varias formas de hacer este proceso, algunas básicas son:

Sea una variable categórica con $K$ clases distintas:

1. **Binary Encoding:** Genera $K-1$ columnas binarias.
2. **One-Hot encoding:** Genera $K$ columnas binarias. Cada columna representa la presencia o ausencia de una de las clases.
3. **Label Encoding:** Genera $1$ sola columna y asiga un numero entero natural a cada clase.

En primer lugar utilizaremos **One-Hot Encoding**, crearemos $5$ columnas, una para cada continente, cuando la columna que representa al continente "Oceania" por ejemplo, tome el valor $1$, quiere decir que el correspondiente registro tiene la etiqueta 'Oceania' en su columna de region.

In [3]:
# Importación de librerías
import pandas as pd
import numpy as np

import category_encoders as ce

In [4]:
from pandas.core.indexes.extension import Index
from google.colab import files
uploaded = files.upload()
for fn in uploaded.keys():
    name=fn
naciones = pd.read_csv(name, sep=",", encoding = "latin1")

Saving nations.csv to nations.csv


In [None]:
naciones.head()

In [None]:
naciones.shape

In [None]:
naciones.info()

In [None]:
naciones.region.value_counts()

In [9]:
naciones_ce = naciones.copy()
naciones_he = naciones.copy()
naciones_le = naciones.copy()

### **Binary Encoding**

Esta técnica no es tan intuitiva como las anteriores. Ya que, primero se codifican las categorías como ordinales, luego esos enteros se convierten en código binario, y después los dígitos de esa cadena binaria se dividen en columnas separadas. Así se codifican los datos en menos dimensiones que con un solo punto.

Puedes hacer la codificación binaria de varias maneras, pero la más sencilla es usar la biblioteca category_encoders. Puede instalar category_encoders mediante ***pip install category_encoders*** en cmd o simplemente descargar y extraer el archivo .tar.gz del sitio.

Primero tienes que importar la biblioteca category_encoders después de instalarla. Invoca la función BinaryEncoder especificando las columnas que quieres codificar y luego llama al método .fit_transform() con el DataFrame como argumento.

In [None]:
encoder = ce.BinaryEncoder(cols=['region'])
naciones_binary = encoder.fit_transform(naciones_ce)
naciones_binary.head()

### **One-Hot encoding**
La estrategia básica consiste en convertir cada valor de la categoría en una nueva columna y asignarle un valor de 1 o 0 (Verdadero/Falso). Esto tiene la ventaja de no ponderar un valor indebidamente.

Hay muchas bibliotecas que soportan la codificación de un solo valor, pero la más sencilla es utilizar el método .get_dummies() de pandas.

Esta función se llama así porque crea variables ficticias/indicadoras (1 o 0). Hay principalmente tres argumentos importantes aquí, el primero es el DataFrame sobre el que se quiere codificar, el segundo es el argumento columnas que permite especificar las columnas sobre las que se quiere hacer la codificación, y el tercero, el argumento prefijo que permite especificar el prefijo para las nuevas columnas que se crearán después de la codificación.

In [11]:
# Rellenando los valores de la columna
naciones_he['Africa'] = naciones_he['region'].replace(['Africa', 'Asia', 'Europe', 'Americas', 'Oceania'],[1,0,0,0,0])
naciones_he['Asia'] = naciones_he['region'].replace(['Africa', 'Asia', 'Europe', 'Americas', 'Oceania'],[0,1,0,0,0])
naciones_he['Europe'] = naciones_he['region'].replace(['Africa', 'Asia', 'Europe', 'Americas', 'Oceania'],[0,0,1,0,0])
naciones_he['Americas'] = naciones_he['region'].replace(['Africa', 'Asia', 'Europe', 'Americas', 'Oceania'],[0,0,0,1,0])
naciones_he['Oceania'] = naciones_he['region'].replace(['Africa', 'Asia', 'Europe', 'Americas', 'Oceania'],[0,0,0,0,1])

In [None]:
naciones_he.sample(5)

In [None]:
# Podemos hacer lo anterior de forma muchisimo mas rapida con un loop
for reg in naciones_he['region'].unique():
    naciones_he[reg] = np.where(naciones_he['region'] == reg, 1, 0)

naciones_he.sample(10)

### **Label encoding**
Otro enfoque es codificar los valores categóricos con una técnica llamada "codificación de etiquetas", que permite convertir cada valor de una columna en un número. Las etiquetas numéricas están siempre entre 0 y n_categorías-1.

Puede realizar la codificación de etiquetas mediante los atributos .cat.codes en la columna de su DataFrame.

In [14]:
# Import label encoder
from sklearn import preprocessing
# label_encoder object knows how to understand word labels.
label_encoder = preprocessing.LabelEncoder()
  
# Encode labels in column 'species'.
naciones_le['region']= label_encoder.fit_transform(naciones_le['region']) 
naciones_le['region'].unique()

array([0, 1, 2, 3, 4])

In [None]:
naciones_le.head()

In [None]:
naciones_le.region.unique()