# Trabajando con variables numéricas

Tenemos que preparar nuestros datos para futuros modelos de Machine Learning. Cuando trabajamos con variables numéricas hay ciertos métodos que deberemos aplicar, como transformaciones, escalado y binning.

## 1. Transformaciones
Este paso consiste en transformar una variable continua a una distribución normal. La razón por la que hacemos esto es porque la mayoría de los algoritmos de Machine Learning trabajan mejor con variables con distribuciones normales. Este es un paso que no siempre se realiza, pero que podemos probar para mejorar nuestros modelos.

No hay que confundir estas transformaciones con la **normalización** que veremos en la sección de Feature Scaling, aunque muchas veces ambos términos se confunden.

¿Cómo sabemos si una distribución es normal? Muchas veces, podemos comprobarlo observando directamente el histograma de la variable. Además, existen tests estadísticos que nos indican cómo de normal es una variable


Inspeccionando el histograma anterior, observamos que no tiene forma de campana y por tanto no tiene una distribución normal. Existen dos técnicas estadísticas para comprobar la normalidad de una variable: el test **Shapiro-Wilk** y el test **Kolmogorov-Smirnov**. Estos tests plantean las siguientes hipótesis nula y alternativa:

$H_0$ (Accepted): La variable sigue una distribución normal (p-valor>0.05)  
$H_a$ (Rejected): La variable no sigue una distribución normal

In [None]:
# Shapiro-Wilk


In [None]:
# Kolmogorov-Smirnov


Probemos ahora con una variable que sí sigue una distribución normal

In [None]:
# Shapiro-Wilk


In [None]:
# Kolmogorov-Smirnov


Podemos utilizar transformaciones logarítmicas o exponenciales para transformar las variables y que tengan una distribución normal

**Transformación logarítmica**: Transformamos $x$ a $\log(x)$
**Transformación exponencial**: Transformamos $x$ a $x^{1/2}$, $x^{1/3}$ ó $x^{1/4}$ 
![image.png](attachment:image.png)  
![image-2.png](attachment:image-2.png)

In [None]:
# Transformación logarítmica


In [None]:
# Transformación exponencial


Otra forma de comprobar si una distribución es normal, es a través del gráfico Q-Q (o Q-Q plot), que comprueba si dos muestras provienen de la misma distribución (generalmente la distribución normal). La idea es representar los cuantiles de tu muestra frente a los cuantiles de una variable aleatoria normal. En la medida en que coincidan unos y otros, tendremos pocas razones para dudar de la normalidad de los datos.

Si los puntos se distribuyen a lo largo de la diagonal, podemos asumir que los datos siguen una distribución normal

## 2. Feature Scaling
El escalado de una variable consiste en modificar la escala de la variable. Suele ser el último paso antes de entrenar un modelo de Machine Learning, donde en determinados algoritmos es conveniente que todas las variables estén en la misma escala. 

¿Recuerdas el algoritmo de *Gradient Descent*? Se utiliza para llegar al mínimo de una función (generalmente, la función de error de un algoritmo de Machine Learning), y funciona mejor si las variables están en la misma escala.

![image.png](attachment:image.png)


Cuando trabajemos con algoritmos de agrupación (*clustering*), será fundamental el escalado de las variables

Las técnicas de escalado, a diferencia de las transformaciones, mantienen la forma (distribución) de la variable, cambiando solamente la escala de los valores.

![image.png](attachment:image.png)

### 2.1 Estandarización
Se utiliza la técnica estadística conocida como z-score, la cual convierte la variable a otra con media igual a cero y varianza unitaria
![image.png](attachment:image.png)

Esta técnica es más recomendable si la distribución de la variable es normal

Podemos observar que la forma del histograma es la misma, pero la escala ha cambiado. Si calculamos la media y la desviación, deberían ser aproximadamente de 0 y 1, respectivamente

### 2.2 Min-Max Scaler
Esta técnica utiliza los valores máximo y mínimo de la variable para escalar, modificando la escala al intervalo [0,1]. Esta técnica no es recomendada cuando tenemos outliers

![image.png](attachment:image.png)


En ocasiones, a esta técnica también se le llama **normalización**, aunque este término suele referirse más cuando la operación se aplica a las filas en lugar de las columnas. Cuando trabajemos con variables (columnas), es preferible usar siempre las palabras "estandarizar" y "escalar".

## 3. Binning
El agrupamiento de datos o *binning*, consiste en agrupar valores en grupos. En ocasiones este agrupamiento puede mejorar la precisión de los modelos predictivos y, a su vez, puede mejorar la comprensión de la distribución de los datos.

Podemos elegir dividir en partes iguales, o por percentiles

In [None]:
import pandas as pd

#create DataFrame
df = pd.DataFrame({'points': [4, 4, 7, 8, 12, 13, 15, 18, 22, 23, 23, 25],
                   'assists': [2, 5, 4, 7, 7, 8, 5, 4, 5, 11, 13, 8],
                   'rebounds': [7, 7, 4, 6, 3, 8, 9, 9, 12, 11, 8, 9]})
df

In [None]:
#perform data binning on points variable
