# Discretizar Datos Numéricos

El proceso de *discretización* es aquel en el que datos numéricos (ya sean continuos o discretos) se los rtansforma en datos de tipo categóricos. Por ejemplo, supongamos que tenemos una serie de datos de temperaturas, expresadas en valores continuos, y que tenemos distintos rangos para representar una temperatura fría, agradable o cálida. Según el valor de cada dato, lo podremos considerar dentro de una de esas tres categorías de temperatura.

Las razones por las cuales se recurra a la discretización pueden ser variadas. Tal vez solo por el hecho de preresentar nuestros datos en tipos diferentes. O bien para convertir modelos de regresión en modelos de clasificación. O bien para que datos de tipo outliers no interfieran erroneamente en los resultados de nuestros modelos.

El primer paso para discretizar es categorizar o crear las categorías (también conocidas como contenedores). Librerías como `pandas` o `scikit-learn` ya cuentan con funciones que facilitan esta tarea, y lo hacen en función de la cantidad de categorías que deseamos definir y del rango de valores que poseemos, tomando como referencia el valor mínimo y el máximo.

In [1]:
import pandas as pd
import numpy as np

## Contenedores del mismo tamaño de rangos

In [8]:
edades = np.array([1, 7, 8, 15, 16, 28, 35, 50, 55, 70, 75, 100])

resultado = pd.cut(edades, 
                  bins=3, # cant de categorias
                  labels=["baja", "media", "alta"], # etiquetas de las categorias
                  include_lowest=True, # que incluya en el calculo el valor minimo de nuestros datos
                  retbins=True) # que retorne los rangos de las categorias

print("Rangos:", resultado[1], "\n") # rangos de nuestras categorias, en este caso: [0.901, 34] (34, 67] (67, 100]
print(resultado[0].codes, "\n") # numeros indicativos de a que categoria corresponde cada valor
print(resultado[0].categories, "\n") # etiquetas de las categorias
print(np.array(resultado[0]), "\n") # nuestros datos etiquetados

Rangos: [  0.901  34.     67.    100.   ] 

[0 0 0 0 0 0 1 1 1 2 2 2] 

Index(['baja', 'media', 'alta'], dtype='object') 

['baja' 'baja' 'baja' 'baja' 'baja' 'baja' 'media' 'media' 'media' 'alta'
 'alta' 'alta'] 



## Contenedores de diferente tamaño de rangos

In [9]:
edades = np.array([1, 7, 8, 15, 16, 28, 35, 50, 55, 70, 75, 100])

resultado = pd.cut(edades, 
                  bins=[0, 11, 17, 59, np.inf], # establecemos nuestros rangos personalizados ( [0, 11] (11, 17] (17, 59] (59, +inf) )
                  labels=["infante", "joven", "adulto", "mayor"], # etiquetas de las categorias
                  include_lowest=True, # que incluya en el calculo el valor minimo de nuestros datos
                  retbins=True) # que retorne los rangos de las categorias

print("Rangos:", resultado[1], "\n") # rangos de nuestras categorias
print(resultado[0].codes, "\n") # numeros indicativos de a que categoria corresponde cada valor
print(resultado[0].categories, "\n") # etiquetas de las categorias
print(np.array(resultado[0]), "\n") # nuestros datos etiquetados

Rangos: [ 0. 11. 17. 59. inf] 

[0 0 0 1 1 2 2 2 2 3 3 3] 

Index(['infante', 'joven', 'adulto', 'mayor'], dtype='object') 

['infante' 'infante' 'infante' 'joven' 'joven' 'adulto' 'adulto' 'adulto'
 'adulto' 'mayor' 'mayor' 'mayor'] 

