# Manejo de datos categóricos

Los datods categóricos deben ser transformados a datos numéricos para poder tratarse por un algoritmo de aprendizaje automático como las redes neuronales. Según el tipo de datos se pueden tener diferentes formas de pasarlos a datos numéricos.

In [8]:
import torch
import torch.nn as nn

### Uso de diccionarios

Se pueden usar diccionarios para transformar datos asignándole a cada categoría o nombre un valor numérico. Por ejemplo, en el caso de datos de sí y no, se pueden transformar a valores binarios por medio de un diccionario que asocie el sí al 1 y el no al 0.

Un diccionario tambiém es útil cuando se tienen datos jerárquicos, pues permite asignarle valores según el conocimiento de quien está programando.

In [9]:
bin_idx = {'sí':1, 'no':0}

or_data = ['no', 'sí','sí', 'no']

bin_data = torch.Tensor([bin_idx[element] for element in or_data])

print(bin_data)

tensor([0., 1., 1., 0.])


Cuando se tienen valores de constantes lógicas True y False, se puede transformar a valores binarios 1 y 0 multiplicando el tensor por un 1:

```python
  1*true_false_tensor
```

In [11]:
log_data = torch.tensor([True, False, True, True])

print(log_data)

print(1*log_data)

tensor([ True, False,  True,  True])
tensor([1, 0, 1, 1])


### Categorías arbitrarias

Cuando las categorías son arbitrarias, generalmente se representan como vectores one-hot. Para esto, se geenera un índice arbitrario de las categorías; es decir, se asigna un entero a cada categorías.

In [12]:
def cat2int(cat_data):
    labels = {}
    num_data = []
    for element in cat_data:
        if len(labels) == 0:
            labels[element] = 0
        else:
            if element not in labels.keys():
                labels[element] = len(labels)
        num_data.append(labels[element])
                
    return torch.tensor(num_data), labels

In [13]:
CategData = ['azul', 'verde', 'verde', 'rojo']

data, idx = cat2int(CategData)
print(idx)
print(data)

{'azul': 0, 'verde': 1, 'rojo': 2}
tensor([0, 1, 1, 2])


Una vez que se obtiene este índice, se puede usar la función <tt>one_hot</tt> de Pytorch. Lo que hace es regresar la matriz en donde cada renglón tiene un 1 en el índice indicado.

In [15]:
t = nn.functional.one_hot(data, num_classes=3)
print(t)

tensor([[1, 0, 0],
        [0, 1, 0],
        [0, 1, 0],
        [0, 0, 1]])


## Agrupamiento de datos

Para agrupar los datos (binning) se puede utilizar la función <tt>cut</tt> de pandas. Esta función generará intervalos a partir de decirle cuántos grupos (bins) queremos. De esta forma, indicará en cada caso en que intervalo cae el valor original.

In [18]:
import pandas as pd

x = [0,2,3,4,6,8,2,4,7,2,5,8,2,5,9,3]

x_out = pd.cut(x, bins=3, labels=['bajo','medio','alto'])

x_out

['bajo', 'bajo', 'bajo', 'medio', 'medio', ..., 'alto', 'bajo', 'medio', 'alto', 'bajo']
Length: 16
Categories (3, object): ['bajo' < 'medio' < 'alto']