<a href="https://colab.research.google.com/github/RubenMcCarty/Machine-Learning-con-Python-001/blob/master/Lecci%C3%B3n_06_Transformar_N%C3%BAmeros_en_Categor%C3%ADas_con_KBins.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Lección 06: Transformar Números en Categorías con KBins**
# MSc. Rubén Quispe


En esta lección, descubrirá cómo transformar variables numéricas en variables categóricas.

Algunos algoritmos de Machine Learning pueden preferir o requerir variables de entrada categóricas u ordinales, como algunos árboles de decisión y algoritmos basados ​​en reglas.

Esto podría deberse a valores atípicos en los datos, distribuciones multimodales, distribuciones altamente exponenciales y más.

Muchos algoritmos de Machine Learning prefieren o funcionan mejor cuando las variables de entrada numéricas con distribuciones no estándar se transforman para tener una nueva distribución o un tipo de datos completamente nuevo.

Un enfoque es usar la transformada de la variable numérica para tener una distribución de probabilidad discreta donde a cada valor numérico se le asigna una etiqueta y las etiquetas tienen una relación ordenada (ordinal).

Esto se denomina transformación de discretización y puede mejorar el rendimiento de algunos modelos de aprendizaje automático para conjuntos de datos al hacer que la distribución de probabilidad de las variables de entrada numéricas sea discreta.

La transformación de discretización está disponible en la librería de Machine Learning de Python de scikit-learn a través de la clase KBinsDiscretizer .

Le permite especificar el número de bins discretos para crear ( n_bins ), si el resultado de la transformación será una codificación ordinal o one-hot (codificación) y la distribución utilizada para dividir los valores de la variable (estrategia) , como ' uniforme '.

El siguiente ejemplo crea una variable de entrada sintética con 10 variables de entrada numéricas, luego codifica cada una en 10 bins discretos con una codificación ordinal.

In [1]:
# discretize numeric input variables
from sklearn.datasets import make_classification
from sklearn.preprocessing import KBinsDiscretizer

In [2]:
# define dataset
X, y = make_classification(n_samples=1000, n_features=5, n_informative=5, n_redundant=0, random_state=1)

In [4]:
X

array([[ 2.39324489, -5.77732048, -0.59062319, -2.08095322,  1.04707034],
       [-0.45820294,  1.94683482, -2.46471441,  2.36590955, -0.73666725],
       [ 2.35162422, -1.00061698, -0.5946091 ,  1.12531096, -0.65267587],
       ...,
       [ 2.75687956,  1.67376262,  0.39299534,  1.98033054,  1.05085815],
       [-0.3257538 ,  0.86766186, -0.53730065,  0.70964207,  1.25200457],
       [-1.73912165,  0.17810134, -3.28309556, -0.42392359, -3.73900435]])

In [5]:
y

array([1, 1, 1, 0, 1, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 0,
       0, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 1, 0, 0, 1, 1, 1, 1, 0, 0, 0, 1,
       0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0,
       1, 1, 0, 0, 1, 1, 1, 0, 1, 1, 1, 0, 1, 0, 1, 1, 0, 0, 1, 0, 0, 0,
       1, 1, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0,
       0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 1, 0, 1, 0, 0, 1, 0, 0,
       1, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 1, 0, 1, 1, 1, 0, 1, 1, 1, 1, 1,
       1, 1, 1, 0, 1, 0, 0, 1, 0, 0, 1, 1, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1,
       1, 1, 1, 0, 0, 1, 1, 1, 1, 1, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1,
       0, 0, 0, 1, 1, 0, 0, 0, 1, 1, 1, 0, 1, 0, 1, 0, 1, 1, 1, 1, 0, 0,
       1, 1, 1, 0, 1, 0, 0, 0, 0, 1, 0, 1, 1, 1, 1, 0, 0, 0, 1, 1, 0, 0,
       1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 0, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1, 0,
       1, 1, 1, 1, 0, 0, 1, 0, 1, 0, 1, 0, 1, 1, 1, 0, 1, 1, 0, 0, 1, 1,
       1, 1, 1, 1, 0, 0, 0, 1, 1, 0, 0, 1, 0, 1, 0,

In [3]:
# summarize data before the transform
print(X[:3, :])

[[ 2.39324489 -5.77732048 -0.59062319 -2.08095322  1.04707034]
 [-0.45820294  1.94683482 -2.46471441  2.36590955 -0.73666725]
 [ 2.35162422 -1.00061698 -0.5946091   1.12531096 -0.65267587]]


In [9]:
# define the transform
trans = KBinsDiscretizer(n_bins=10, encode='ordinal', strategy='uniform')
trans

KBinsDiscretizer(encode='ordinal', n_bins=10, strategy='uniform')

In [10]:
# transform the data
X_discrete = trans.fit_transform(X)
X_discrete

array([[7., 0., 4., 1., 5.],
       [4., 7., 2., 6., 4.],
       [7., 5., 4., 5., 4.],
       ...,
       [8., 7., 5., 5., 5.],
       [4., 6., 4., 4., 6.],
       [2., 6., 1., 3., 1.]])

In [8]:
# summarize data after the transform
print(X_discrete[:3, :])

[[7. 0. 4. 1. 5.]
 [4. 7. 2. 6. 4.]
 [7. 5. 4. 5. 4.]]


# Tu tarea
Para esta lección, debe ejecutar el ejemplo e informar sobre los datos sin procesar antes de la transformación, y luego el efecto que tuvo la transformación en los datos.

Para obtener puntos de bonificación, explore configuraciones alternativas de la transformación, como diferentes estrategias y cantidad de contenedores.

Publique su respuesta en la plataforma a continuación. Me encantaría ver qué se te ocurre.

En la siguiente lección, descubrirá cómo reducir la dimensionalidad de los datos de entrada.