# Pre-procesamiento de datos continuos

Entendemos por datos continuos a aquellos datos numéricos que pueden tomar cualquier valor (real) en un rango preestablecido. Algunos ejemplos de datos continuos son:

- La *altura de una persona* puede ser cualquier valor decimal comprendido entre 0 e $\infty$.
- La *distancia entre dos ciudades* puede ser cualquier valor decimal comprendido entre 0 e $\infty$.
- La *temperatura de una ciudad* puede ser cualquier valor decimal comprendido entre $-\infty$ y $\infty$.

Los datos continuos son los más habituales dentro del ecosistema del *machine learning* por lo que el correcto tratamiento de estos es fundamental para alcanzar los resultados esperados. El principal problema de este tipo de datos es que no disponen de una escala homogénea, por lo que, cada dato, se mueve en un rango diferente al del resto, lo que dificulta enormemente el aprendizaje a partir de los mismos.

Generalmente, a los datos continuos se les realiza un proceso de estandarización o normalización con el fin de acotarlos a un rango de valores que permita compararlos entre si independientemente de su naturaleza.

## Estandarización

La **estandarización** es el proceso a partir del cual un conjunto de datos que siguen una distribución normal, hecho que sucede con la mayoría de los datos empleados en *machine learning*, son transformados a una distribución normal con media 0 y desviación típica 1. Para ello, se realiza la siguiente operación:

$x^\prime_i = \frac{x_i - \mu}{\sigma}$

Donde $x_i$ es el dato que queremos estandarizar, $\mu$ es el valor medio de todos los datos y $\sigma$ es la desviación típica de todos los datos.

Ilustremos esto con un ejemplo. Asumamos que tenemos la siguiente matriz de datos en la que las filas son las muestras y las columnas las características:

In [None]:
import numpy as np

X = np.array([[ 1., -1.,  2.],
              [ 2.,  0.,  0.],
              [ 0.,  1., -1.]])

Podemos emplear la función [preprocessing.scale](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.scale.html#sklearn.preprocessing.scale) de `sklearn`para estandarizar las características (i.e. las columnas):

In [None]:
import sklearn
from sklearn import preprocessing

In [None]:
X_scaled = sklearn.preprocessing.scale(X)
print(X_scaled)

[[ 0.         -1.22474487  1.33630621]
 [ 1.22474487  0.         -0.26726124]
 [-1.22474487  1.22474487 -1.06904497]]


Como vemos, los datos han sido transformados a unos nuevos estandarizados. Si analizamos la media y desviación típica de estos datos observamos lo siguiente:

In [None]:
X_scaled.mean(axis=0)

array([0., 0., 0.])

In [None]:
X_scaled.std(axis=0)

array([1., 1., 1.])

La media de cada característica ha sido centrada en el 0 y la desviación típica puesta en 1. Si comparamos esto con los datos sin estandarizar vemos la diferencia:

In [None]:
X.mean(axis=0)

array([1.        , 0.        , 0.33333333])

In [None]:
X.std(axis=0)

array([0.81649658, 0.81649658, 1.24721913])

Podemos observar cómo se han modificado los datos para que todos ellos sigan una distribución normal de media 0 y desviación típica 1.

Aunque, como hemos mencionado, la mayoría de los datos usados en *machine learning* siguen una distribución normal y, por tanto, pueden ser estandarizados, antes de aplicar este proceso debemos validar la normalidad de un conjunto de datos. Para ello debemos aplicar el test de Kolmogorov-Smirnov disponible en `scipy`:

In [None]:
from scipy import stats

x = np.linspace(-15, 15, 9)
stats.kstest(x, 'norm')

KstestResult(statistic=0.4443560271592436, pvalue=0.03885014270517116)

In [None]:
stats.kstest(stats.norm.rvs(size=1000), 'norm')

KstestResult(statistic=0.042559039297019485, pvalue=0.05190003788979243)

Observamos que, cuando la distribución de los datos es normal, el valor del atributo `statistic` devuelto por la función es cercano a 0.

No obstante, aunque sólo debe aplicarse estandarización con datos normales, en la mayoría de casos, no se comprueba la normalidad, se asume, y se estandariza el conjunto de datos.

## Escalado

Existe otra alternativa para la estandarización de las características que consiste en ajustarlas en un rango predefinido, generalmente en el rango $[0, 1]$. Usualmente se utiliza cuando se tienen datos con una desviación típica muy pequeña.

Para la realización de este escalado usaremos la función [preprocessing.MinMaxScaler](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MinMaxScaler.html#sklearn.preprocessing.MinMaxScaler). Si queremos normalizar en la escala $[0, 1]$ usaremos:



In [None]:
min_max_scaler = sklearn.preprocessing.MinMaxScaler()
X_scaled = min_max_scaler.fit_transform(X)
print(X_scaled)

[[0.5        0.         1.        ]
 [1.         0.5        0.33333333]
 [0.         1.         0.        ]]


Si queremos emplear otro rango simplemente debemos indicar, mediante una dupla, la escala deseada en el constructor del objeto:

In [None]:
min_max_scaler = sklearn.preprocessing.MinMaxScaler((1,5)) # escala [1, 5]
X_scaled = min_max_scaler.fit_transform(X)
print(X_scaled)

[[3.         1.         5.        ]
 [5.         3.         2.33333333]
 [1.         5.         1.        ]]


## Normalización

Otra transformación habitual para este tipo de datos es la conocida como **normalización**. La normalización es el proceso de escalar cada muestra individual para que tengan la norma unitaria. Dicho de otro modo, si asumimos cada muestra como un vector *n*-dimensional (*n* es el número de características), mediante la normalización logramos que estos vectores tengan dimensión 1.

Para ello, existen tres normas:

- *L1*, se normaliza mediante la suma de los valores absolutos de sus componentes.
- *L2*, se normaliza mediante la raíz cuadrada de la suma de sus componentes al cuadrado.
- *max*, se normaliza mediante elemento mayor de sus componentes.

Por ejemplo, si tenemos el vector $X = [-3, 4]$ obtendríamos:

- *L1*: la norma se calcula como $|-3| + |4| = 7$ y el vector quedaría $X^\prime = [-0.43, 0.57]$.
- *L2*: la norma se calcula como $\sqrt{(-3)^2 + 4^2} = \sqrt{9+16} = \sqrt{25} = 5$ y el vector quedaría $X^\prime = [-0.12, 0.16]$.
- *max*: la norma sería $4$ y el vector quedaría $X^\prime = [-0.75, 1]$.

La más utilizada es la norma L2 y suele aplicarse cuando el algoritmo seleccionado utiliza una forma cuadrática como, por ejemplo, el producto escalar, para calcular la similaridad entre cada par de muestras.

Para la normalización utilizaremos [preprocessing.normalize](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.normalize.html#sklearn.preprocessing.normalize):



In [None]:
X_normalized_l1 = sklearn.preprocessing.normalize(X, norm='l1')
print(X_normalized_l1)


[[ 0.25 -0.25  0.5 ]
 [ 1.    0.    0.  ]
 [ 0.    0.5  -0.5 ]]


In [None]:
X_normalized_l2 = sklearn.preprocessing.normalize(X, norm='l2')
print(X_normalized_l2)

[[ 0.40824829 -0.40824829  0.81649658]
 [ 1.          0.          0.        ]
 [ 0.          0.70710678 -0.70710678]]


In [None]:
X_normalized_max = sklearn.preprocessing.normalize(X, norm='max')
print(X_normalized_max)

[[ 0.5 -0.5  1. ]
 [ 1.   0.   0. ]
 [ 0.   1.  -1. ]]


<hr>

Creado por **Fernando Ortega** (fernando.ortega@upm.es)

<img src="https://licensebuttons.net/l/by-nc-sa/3.0/88x31.png">