# Descretización

Por más extraño que esto te suene, hay ocasiones en las que querrás pasar de una variable con un valor continuo numérico a una variable categórica.

Entre las razones por las que querrías hacer algo así están:

 - Para intentar mejorar las capacidades de generalización del modelo

 - Reducir la complejidad de los datos

 - Reducir el impacto de valores extremos (outliers)

 - Por privacidad, anonimizar un poco más nuestros datos (aunque no es una técnica eficaz por si sola)

## Bining

Una forma de hacerlo es a través de una técnica conocida como <i>binning</i> que nos ayuda a dividir una variable numérica continua en un número fijo de intervalos (o cubetas, que de ahí viene el nombre <i>binning</i>) de tamaño más o menos igual.

Vamos a ver este proceso con una variable que represente las edades de algunas personas:

In [None]:
import pandas as pd

dataset = pd.DataFrame({
    'age': [20, 25, 30, 35, 40, 45, 50, 55, 60, 65],
    'savings': [1100, 3000, 5000, 20, 5312, 0, 502, 20, 0, 22000]
})

dataset

En scikit-learn podemos llevar a cabo este proceso a través de la clase <code>KBinsDiscretizer</code>.

Comenzamos por importarla de <code>sklearn.preprocessing</code>:

In [None]:
from sklearn.preprocessing import KBinsDiscretizer

Entre los parámetros más importantes, <code>KBinsDiscretizer</code> nos permite establecer el número de cubetas que queremos crear, por default el valor es 5. En este caso vamos a crear tres a través del argumento <code>n_bins</code>.

También otra cosa muy importante, como vimos en una sección pasada del curso, es que los valores categóricos, como nuestras cubetas, deben ser convertidos a valores numéricos para ser procesados por un algoritmo. Para especificar qué tipo de codificación queremos, podemos utilizar el argumento <code>encode</code>, en este caso vamos a elegir <code>ordinal</code>, pero también puedes utilizar <code>onehot</code> y <code>onehot-dense</code>:

In [None]:
discretizer = KBinsDiscretizer(n_bins=3, encode='ordinal')
discretizer.fit(dataset[['age']])

In [None]:
discretizer.transform(dataset[['age']])

### Otros argumentos a la función

La clase <code>KBinsDiscretizer</code> también nos permite especificar la estrategia que debe seguir para definir la anchura del intervalo cubierto por cada una de nuestras cubetas.

Podemos utilizar el argumento <code>strategy</code> igual a <code>uniform</code> si queremos que los intervalos sean del mismo tamaño. Podemos establecer este valor igual a <code>quantile</code> si queremos que cada cubeta contenga la misma cantidad de elementos y por último podemos utilizar <code>kmeans</code> si queremos que los elementos se acomoden por si solos de acuerdo a un algoritmo similar a <i>k-means</i>.

### Otros casos para la discretización

La discretización se puede aplicar en edades, datos sobre el consumo de energía, niveles de satisfación, precios de hogares... etcétera.

## <b>Binarización</b>

Otra forma de convertir de valores continuos a valores discretos es a través de un proceso llamado binarización. Como el nombre lo indica, esta técnica consiste en convertir un valor continuo en uno de dos valores a partir de cierto umbral o <i>threshold</i>.

Scikit-learn nos ofrece la clase <code>Binarizer</code>:

In [None]:
from sklearn.preprocessing import Binarizer

Esta clase toma únicamente un solo argumento, el umbral que queremos que tome en cuenta para la binarización, supon que queremos binarizar la columna <code>savings</code> en nuestro dataset, y establecer el umbral en <code>1000</code>:

In [None]:
binarizer = Binarizer(threshold=1000)

Llamamos al método <code>fit_transform</code> aunque en este caso no tiene mucho sentido llamar a <code>fit</code> porque en realidad no hay nada que aprender:

In [None]:
savings_binarized = binarizer.fit_transform(dataset[['savings']])
savings_binarized

<b>Otros casos para la binarización</b>

La binarización nos ayuda a cuando solamente nos interesa saber si algo pasó o no, y no necesariamente cuantas veces sucedió. Por ejemplo: en lugar de contar cuantas veces un usuario visitó una página, solamente queremos saber si la visitó o no. También nos puede resultar util para diferenciar entre valores extremos y aquellos que no lo son, por ejemplo en edades, podríamos decir que alguien que tenga más de 100 años es un caso extremo y marcarlo con un binarizer.

Y pues ahí lo tienes. Ya cuentas con algunas herramientas para pasar de un espacio continuo de valores a uno discreto.