# Codificaci√≥n de categor√≠as

Las caracter√≠sticas de nuestros datos a veces se encuentran en forma de etiquetas o categor√≠as. Por ejemplo, la demarcaci√≥n estatal en donde viven, el nivel educativo o el estado civil. Y recuerda que, a riesgo de sonar repetitivo, los algoritmos de machine learning funcionan con valores num√©ricos.

In [None]:
import pandas as pd
import numpy as np

dataset = pd.DataFrame([
 ("Mexico", "Married", "High school"),
 ("Colombia", "Single", "Undergraduate"),
 ("Guinea Equatorial", "Divorced", "College"),
 ("Mexico", "Single", "Primary"),
 ("Colombia", "Single", "Primary"),
], columns=["Country", "Marital status", "Education" ])

dataset

En esta sesi√≥n te hablar√© de diversas formas en las que podemos codificar valores categ√≥ricos para que sean utilizables por algoritmos de machine learning.

## One-hot encoding

Un primer intento de representar las variables categ√≥ricas como valores num√©ricos es usando la codificaci√≥n <i>One-hot</i> <i>encoding.</i>

En t√©rminos simples, el one hot encoding convierte una variable categ√≥rica en una matriz de ceros y unos. Cada columna en la matriz representa una un valor √∫nico que puede tomar dentro de la categor√≠as de la variable y cada fila representa una observaci√≥n o muestra. Si una muestra pertenece a una categor√≠a espec√≠fica, la entrada correspondiente en la matriz ser√° un 1, mientras que todas las dem√°s entradas ser√°n ceros. 

Por ejemplo, tomando nuestro dataset de muestra, vamos a codificar el pa√≠s utilizando el <i>One-hot encoder</i> de scikit-learn:

Importamos de <code>sklearn.preprocessing</code> y creamos una instancia:

In [None]:
from sklearn.preprocessing import OneHotEncoder
encoder = OneHotEncoder()

Y entrenamos nuestro codificador utilizando <code>fit</code> pas√°ndole la columna que queremos codificar:

In [None]:
encoder.fit(dataset[['Country']])

Y despu√©s podemos transformar con <code>transform</code>, por defecto, <code>OneHotEncoder</code> regresa una matriz dispersa, porque en One-hot encoding la matriz resultante est√° repleta de ceros, as√≠ que la convertimos en una matriz densa con <code>todense</code>:

In [None]:
country_transformed = encoder.transform(dataset[['Country']])
country_transformed.todense()

Puedes ver el orden de las columnas inspeccionando la propiedad <code>categories_</code>:

In [None]:
encoder.categories_

Y si te das cuenta, estos coinciden con el orden en el que los valores aparecen en la matriz.

### Transformaci√≥n inversa

Al igual que muchos otros transformadores, <code>OneHotEncoder</code> tambi√©n tiene el m√©todo <code>inverse_transform</code>:

In [None]:
encoder.inverse_transform(
    np.asarray(country_transformed.todense())
)

### Argumentos extra

La clase <code>OneHotEncoder</code> tiene varios argumentos extra, pero solo considero que hay un par que son importantes para mencionar.

Es comun que entrenes tu codificador con un conjunto de datos, en nuestro caso solamente ten√≠amos tres pa√≠ses en el dataset de entrenamiento, pero ¬øqu√© es lo que va a pasar cuando en el futuro tu modelo reciba otro pa√≠s? eso es justamente lo que nosotros podemos controlar con el argumento <code>handle_unknown</code>.

Vamos a crear dos codificadores, estableciendo un comportamiento diferente para cada uno. Y de paso vamos a especificar que queremos que nuestro codificador nos entregue por defecto una matriz densa con <code>sparse_output</code>:

In [None]:
error_encoder = OneHotEncoder(handle_unknown='error', sparse_output=False)
ignore_encoder = OneHotEncoder(handle_unknown='ignore', sparse_output=False)

Despu√©s los entrenamos con nuestros datos existentes

In [None]:
error_encoder.fit(dataset[['Country']])
ignore_encoder.fit(dataset[['Country']])

Y veamos qu√© es lo que sucede cuando intentamos probarlos con datos nuevos:

In [None]:
new_data = pd.DataFrame(['Costa Rica'], columns=['Country'])

Primero hay que intentar el del error. Y de hecho lo voy a poner en un bloque <i>try-except</i> para agarrar el error ‚Äì es importante destacar que este es el comportamiento por defecto.

In [None]:
try:
	error_encoder.transform(new_data)
except ValueError as ve:
	print(ve)

Si intentamos con el que le hemos dicho que lo ignore, nos regresar√° puros ceros puesto que lo ignora:

In [None]:
ignore_encoder.transform(new_data)

### ¬øCu√°ndo utilizar <code>OneHotEncoder</code>?

Es bueno utilizar esta herramienta cuando nuestras categor√≠as no tienen un orden predefinido, como el caso de los pa√≠ses, no podemos definir cu√°l es mayor que el otro, ni por m√°s patri√≥ticos que nos pongamos.

## Ordinal encoding

Hay otro tipo de variables que si nos permiten codificar cierta noci√≥n de orden y jerarqu√≠a, como es el caso de las variables categ√≥ricas ordinales. Piensa en el grado de estudio dentro de nuestro dataset.

Dependiendo del problema que estemos enfrentando, podemos definir que el haber cursado la primaria es menos que haber cursado la educaci√≥n superior.

Para reflejar este tipo de relaciones podemos utilizar el <code>OrdinalEncoder</code>:

In [None]:
from sklearn.preprocessing import OrdinalEncoder

Y creamos un objeto de la clase, pas√°ndole como argumento las categor√≠as que puede tomar nuestra variable en el orden que queramos que sean tomadas en cuenta ‚Äì si no se establecen, los n√∫meros ser√°n asigandos al azar:

In [None]:
ordinal_encoder = OrdinalEncoder(categories=[[
 "Primary", "Secondary", "High school", "Undergraduate", "College"
]])

Y ahora entonces podemos entrenar el codificador:

In [None]:
ordinal_encoder.fit(dataset[['Education']])

Y al transformar el dataset obtenemos lo esperado:

In [None]:
ordinal_encoder.transform(dataset[['Education']])

### Argumentos extra

Al igual que el codificador <i>one-hot</i>, <code>OrdinalEncoder</code> tiene varios argumentos extra, pero quiz√° el m√°s importante es el que especifica c√≥mo comportarse ante informaci√≥n no vista antes.

Vamos a experimentar con los dos valores posibles, <code>error</code> y <code>use_encoded_value</code>:

In [None]:
error_encoder = OrdinalEncoder(categories=[[
 "Primary", "Secondary", "High school", "Undergraduate", "College"
]], handle_unknown='error')

error_encoder.fit(dataset[['Education']])

De nuevo, para manejar el error hay que ponerlo en un bloque <i>try-except</i>:

In [None]:
try:
	error_encoder.transform([["Kindergarten"]])
except ValueError as ve:
	print(ve)

Por otro lado, si creamos uno que utilize el valor por defecto, podemos utilizar <code>handle_unknown</code> a <code>use_encoded_value</code>, para el caso, tambi√©n es necesario establecer el argumento <code>unknown_value</code>:

In [None]:
default_encoder = OrdinalEncoder(categories=[[
 "Primary", "Secondary", "High school", "Undergraduate", "College"
]],
 handle_unknown='use_encoded_value',
unknown_value=np.nan)

default_encoder.fit(dataset[['Education']])

Y si intentamos transformar un valor que no exist√≠a previamente:

In [None]:
default_encoder.transform([["Kindergarten"]])

En donde recibir√° el valor de <code>np.nan</code> por defecto en lugar de fallar.

### ¬øCu√°ndo es mejor utilizar <code>OrdinalEncoder</code>?

Utiliza ordinal encoder cuando tus variables tengan un sentido de orden entre ellas, as√≠ podr√°s preservarlo para cuando conviertas de cadenas a n√∫meros.

 > üìö Tanto <code>OrdinalEncoder</code> como <code>OneHotEncoder</code> permiten ser entrenados en m√°s de una columna a la vez, ¬øqu√© te parece si codificas el estado civil de los datos al mismo tiempo que cualquiera de los otros dos? mejor a√∫n, ¬øqu√© codificador hace m√°s sentido usar para ese atributo de nuestros datos?