# Preprocesamiento de datos discretos

Entendemos por datos discretos a aquellos tipos de datos que sólo pueden tomar un valor prefijado entre un conjunto finito o infinito de valores. Algunos ejemplos de datos discretos son:

- En el *método de pago de una compra online* hay que elegir entre pago contra-reembolso, pago con tarjeta, pago por trasferencia o pago con PayPal.
- La *edad de una persona* puede tomar valores 0, 1, 2, 3... hasta infinito. Aunque el conjunto de valores no esté acotado superiormente, estos datos son discreto, ya que la edad de una persona no se mide en número decimales.
- La *valoración de un usuario a un video de youtube* se mide en me gusta o no me gusta.

Este tipo de datos, especialmente cuando no son numéricos, suelen ser problemáticos para la gran mayoría de algoritmos de *machine learning*. Casi todos los algoritmos se fundamentan en expresiones matemáticas que requieren operar con las características de las muestras. Por lo tanto, cuando se quiere realizar el producto de un datos que representa a un "*hombre*"* con uno que representa a una "*mujer*" sencillamente es imposible, ya que existen operaciones matemáticas definidas para esos valores.

In [None]:
## *One-hot-encoding*

Para solventar este problema se utiliza una técnica denominada como *OneHotEncoding* que consisten en dividir una característica en tantas características como posibles valores pueda tomar la característica original y asignar el valor 0 ó 1 a cada una de estas nuevas características en función del valor de la original.

Veamos esto con un ejemplo. Supongamos que tenemos las siguientes muestras:

| Nombre | Sexo |
| :---: | :---: |
| Alice | mujer |
| Bob | hombre |
| Carl | hombre |
| Denna | mujer |

La características *Sexo* se divide en las características *Hombre*  y *Mujer* que tomarán los siguientes valores:

| Nombre | Hombre | Mujer |
| :---: | :---: | :---: |
| Alice | 0 | 1 |
| Bob | 1 | 0 |
| Carl | 1 | 0 |
| Denna | 0 | 1 |

Como vemos, las nuevas características toman el valor 1 en la columna que coincide con el valor de la característica original.

Esta codificación puede llevarse a cabo empleando el objeto [preprocessing.OneHotEncoder](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html#sklearn.preprocessing.OneHotEncoder).

Cargamos la característica anterior en un array de *NumPy*:

In [0]:
X = np.array([['mujer' ],
              ['hombre'],
              ['hombre'],
              ['mujer' ]])

Y aplicamos la transformación:

In [0]:
one_hot_encoder = sklearn.preprocessing.OneHotEncoder()
one_hot_encoder.fit(X)
X_transform = one_hot_encoder.transform(X).toarray()
print(X_transform)

[[0. 1.]
 [1. 0.]
 [1. 0.]
 [0. 1.]]
