| **Inicio** | **atrás 26** | **Siguiente 28** |
|----------- |-------------- |---------------|
| [🏠](../../README.md) | [⏪](./26.Matriz_Covarianza.ipynb)| [⏩](./28.K-Vecinos(KNN).ipynb)|

# **27. 3 Razones para Discretizar Datos Numéricos y Cómo Discretizar con Pandas de Python**

La discretización de datos numéricos se refiere a la transformación de datos continuos en datos discretos, es decir, la creación de categorías o intervalos en los datos. Hay varias razones por las cuales se puede querer discretizar datos numéricos:

**1. Reducción de ruido:** La discretización puede ayudar a reducir el ruido en los datos, especialmente cuando se tienen datos continuos que varían ligeramente.

**2. Mejora del rendimiento del modelo:** Algunos algoritmos de aprendizaje automático, como los árboles de decisión, funcionan mejor con datos discretos que con datos continuos.

**3. Simplificación de los datos:** La discretización puede ayudar a simplificar los datos, lo que puede facilitar su análisis e interpretación.

A continuación se muestra un ejemplo de cómo discretizar datos numéricos utilizando la librería Pandas de Python.

Supongamos que tenemos los siguientes datos numéricos:

In [1]:
import pandas as pd
import numpy as np

# Datos de ejemplo
datos = np.array([10, 15, 20, 25, 30, 35, 40])

In [2]:
# Discretizar datos
categorias = pd.cut(datos, bins=[0, 15, 30, 45], labels=['bajo', 'medio', 'alto'])

print(categorias)

['bajo', 'bajo', 'medio', 'medio', 'medio', 'alto', 'alto']
Categories (3, object): ['bajo' < 'medio' < 'alto']


In [3]:
# Contar frecuencia de categorías
frecuencia = categorias.value_counts()

print(frecuencia)

bajo     2
medio    3
alto     2
dtype: int64


## **Qué es la discretización**

La discretización es el proceso de convertir variables continuas en variables discretas mediante la definición de intervalos. Esto puede ser útil para reducir la complejidad de los datos o para hacer que los datos sean más fáciles de manejar en algunos algoritmos de aprendizaje automático.

A continuación se muestra un ejemplo de cómo discretizar una variable continua utilizando la biblioteca scikit-learn de Python:

In [6]:
from sklearn.preprocessing import KBinsDiscretizer
import numpy as np

# Datos de ejemplo
datos = np.array([[0], [1], [2], [3], [4], [5]])

# Discretizar en 3 categorías
discretizador = KBinsDiscretizer(n_bins=3, encode='ordinal', strategy='uniform')
datos_discretos = discretizador.fit_transform(datos)

print(datos_discretos)

[[0.]
 [0.]
 [1.]
 [1.]
 [2.]
 [2.]]


En este ejemplo, utilizamos la clase ```KBinsDiscretizer``` de scikit-learn para discretizar los datos en 3 categorías. La opción ```n_bins=3``` especifica el número de categorías en las que se dividirán los datos, y la opción encode='ordinal' especifica que los valores discretos se codificarán como enteros consecutivos comenzando por 0. La opción ```strategy='uniform'``` especifica que los intervalos se dividirán de manera uniforme.

## **Discretización con contenedores iguales**

La discretización con contenedores iguales, también conocida como discretización uniforme, es una técnica de discretización que divide el rango de los datos en un número fijo de intervalos de igual ancho. Esta técnica es útil para crear una versión simplificada de una variable continua, y puede ser utilizada en el preprocesamiento de datos para aplicar ciertos algoritmos de aprendizaje automático.

A continuación se muestra un ejemplo de cómo discretizar una variable continua utilizando la técnica de contenedores iguales con la biblioteca pandas de Python:

In [7]:
import pandas as pd

# Datos de ejemplo
datos = pd.Series([2, 3, 5, 7, 10, 15, 20, 25, 30, 40])

# Discretizar en 3 categorías con contenedores iguales
datos_discretos = pd.cut(datos, bins=3, labels=['Bajo', 'Medio', 'Alto'])

print(datos_discretos)

0     Bajo
1     Bajo
2     Bajo
3     Bajo
4     Bajo
5    Medio
6    Medio
7    Medio
8     Alto
9     Alto
dtype: category
Categories (3, object): ['Bajo' < 'Medio' < 'Alto']


En este ejemplo, utilizamos la función cut de pandas para discretizar los datos en 3 categorías. La opción bins=3 especifica el número de categorías en las que se dividirán los datos, y la opción ```labels=['Bajo', 'Medio', 'Alto']``` especifica los nombres que se asignarán a cada categoría.

## **Discretización con contenedores desiguales**

La discretización con contenedores desiguales, también conocida como discretización no uniforme, es una técnica de discretización que divide el rango de los datos en intervalos de diferentes tamaños. Esta técnica es útil para manejar variables continuas que tienen una distribución desigual o sesgada.

A continuación se muestra un ejemplo de cómo discretizar una variable continua utilizando la técnica de contenedores desiguales con la biblioteca pandas de Python:

In [8]:
import pandas as pd

# Datos de ejemplo
datos = pd.Series([2, 3, 5, 7, 10, 15, 20, 25, 30, 40])

# Discretizar en 3 categorías con contenedores desiguales
datos_discretos = pd.cut(datos, bins=[0, 10, 20, 40], labels=['Bajo', 'Medio', 'Alto'])

print(datos_discretos)

0     Bajo
1     Bajo
2     Bajo
3     Bajo
4     Bajo
5    Medio
6    Medio
7     Alto
8     Alto
9     Alto
dtype: category
Categories (3, object): ['Bajo' < 'Medio' < 'Alto']


En este ejemplo, utilizamos la función cut de pandas para discretizar los datos en 3 categorías. La opción ```bins=[0, 10, 20, 40]``` especifica los límites de los intervalos de discretización, y la opción ```labels=['Bajo', 'Medio', 'Alto']``` especifica los nombres que se asignarán a cada categoría.

| **Inicio** | **atrás 26** | **Siguiente 28** |
|----------- |-------------- |---------------|
| [🏠](../../README.md) | [⏪](./26.Matriz_Covarianza.ipynb)| [⏩](./28.K-Vecinos(KNN).ipynb)|