# Escalamiento de características

Este es otro paso clave en el preprocesamiento de datos; muchos algoritmos de aprendizaje y
optimización tienen mejor comportamiento si las características discriminantes se encuentran en
la misma escala.


In [38]:
import numpy as np

X_train = np.array([0,1,2,3,4,5])

# Cambiamos de dimension a 2-D array, simulando que vino de un dataframe
X_train = X_train.reshape(len(X_train), 1) 

Existen dos enfoques comunes para escalar características:

- Normalización
- Estandarización


1.- **Normalización** , se refiere al reescalamiento de cada característica en el intervalo$[0, 1]$. Para esto, se aplica el escalamiento min-max en cada columna:


$x_\text{norm}^{(i)} = \frac{x^{(i)} \hspace{.3cm} - \hspace{.3cm} x_\text{min}}{x_\text{max} \hspace{.4cm} - \hspace{.3cm}x_\text{min}}$


Donde $x^{(i)}$ es una muestra particular, $x_\text{min}$ es el valor mínimo de la columna y $x_\text{max}$ el
máximo.


In [35]:
X_train_norm = (X_train - X_train.min()) / (X_train.max() - X_train.min())
print('Normalizado: \n', X_train_norm)

Normalizado: 
 [[0. ]
 [0.2]
 [0.4]
 [0.6]
 [0.8]
 [1. ]]


### Usando sklearn

In [30]:
from sklearn.preprocessing import MinMaxScaler

mms = MinMaxScaler()
X_train_norm = mms.fit_transform(X_train) # datos de entrenamiento
#X_test_norm = mms . transform ( X_test ) # datos de prueba


print(X_train_norm)

[[0. ]
 [0.2]
 [0.4]
 [0.6]
 [0.8]
 [1. ]]


2.- **Estandarización**, este prepocesamiento puede resultar más práctico para algoritmos de optimización (p.e. _gradient descent_), esto se debe a que muchos modelos inicializan sus pesos a valores cercano a $0$. 

Utilizando estandarización, se centran las columnas de características a _media_ $0$ con _desvicion estándar_ $1$. Además, la estandarización mantiene información útil
sobre secciones aisladas y hace que los algoritmos sean menos sensibles a ellas en contraste
al escalamiento _min-max_.
El procedimiento de estandarización se realiza con:



$x_\text{std}^{(i)} = \frac{x^{(i)} \hspace{.3cm} - \hspace{.3cm} \mu_x}{ \sigma_x}$



Donde $\mu_x$ es la media muestral de una columna particular y $\sigma_x$ es su correspondiente des-
viación estándar.



In [37]:
X_train_std = (X_train - X_train.mean()) / X_train.std()
print('Estandarizado :\n ', X_train_std)

Estandarizado :
  [[-1.46385011]
 [-0.87831007]
 [-0.29277002]
 [ 0.29277002]
 [ 0.87831007]
 [ 1.46385011]]


### Usanso sklearn


In [20]:
from sklearn.preprocessing import StandardScaler

stds = StandardScaler()
X_train_std = stds.fit_transform(X_train) # datos de entrenamiento
#X_test_std = stds . transform ( X_test ) # datos de prueba

print(X_train_std)

[[-1.46385011]
 [-0.87831007]
 [-0.29277002]
 [ 0.29277002]
 [ 0.87831007]
 [ 1.46385011]]
