## Escalamiento de variables (o características)

Tipicamente las variables se asignan a un espacio n-dimensional. Suponga que hay dos variables (x, y) que se asignarán en el sistema de coordenadas 2D. Si una variable, digamos y, es muy grande y otra, x, es muy pequeña, entonces la distancia euclidiana estará dominada por la más grande y la más pequeña se ignorará. En este caso, estamos perdiendo información valiosa, por lo tanto, la escala de características se utiliza para resolver este problema; es decir que ambas variables influyan de forma similar.

Otras razones para la transformación:

1. Para aproximar más de cerca una distribución teórica que tenga buenas propiedades estadísticas (una normal?).
2. Hacer que los datos sean más constantes en la varianza (homoscedasticidad).
3. Hacer la distribución de datos más simétrica.

#### Las 4 formas más usadas de escalar características son:
1. __Min Max scaling__:
Escala la entrada para tener un mínimo de 0 y un máximo de 1. Es decir, escala los datos en el rango de [0, 1] Esto es útil cuando los parámetros tienen que estar en la misma escala positiva. Pero en este caso, los valores atípicos se pierden.

$$X_{norm} = \frac{X - X_{min}}{X_{max} - X_{min}}$$

2. __z-score scaling__:
Se normaliza la entrada para tener media de 0 y varianza de 1.

$$X_{stand} = \frac{X - \mu}{\sigma}$$

3. __Norm-1 scaling__:
Ajustará la escala a la entrada para que la norma de la misma sea 1. Por ejemplo, para datos 3D, las 3 variables independientes se ubicarán en una esfera de radio 1.

4. __Log Transformation__:
Aplicando el logaritmo de los datos después de cualquiera de las transformaciones anteriores. 

El escalamiento de entradas a normas 1 es una operación común para la clasificación de texto o clustering. Por ejemplo, el producto punto de dos vectores TF-IDF normalizados en l2 es la similitud de coseno de los vectores y es la métrica de similitud básica para el modelo de espacio vectorial comúnmente utilizado por la comunidad de information retrieval.

Para la mayoría de las aplicaciones, se recomienda la estandarización z-score. Min Max scaling se recomienda para redes neuronales. 

In [None]:
import pandas as pd
import numpy as np

from sklearn.preprocessing import StandardScaler, Normalizer, MinMaxScaler



In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
df = pd.read_csv('/content/drive/My Drive/Cursos/DataScience/Preprocesamiento/data.csv')
df.head()

Unnamed: 0,Pais,Edad,Salario,Compra
0,Chile,44.0,72000.0,No
1,Espana,27.0,48000.0,Si
2,Brasil,30.0,54000.0,No
3,Espana,38.0,61000.0,No
4,Uruguay,40.0,,Si


In [None]:
print(df)
df = df.dropna()
print("XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX")
print(df)
X = df[["Edad", "Salario"]].values.astype(np.float64)

      Pais  Edad  Salario Compra
0    Chile  44.0  72000.0     No
1   Espana  27.0  48000.0     Si
2   Brasil  30.0  54000.0     No
3   Espana  38.0  61000.0     No
4  Uruguay  40.0      NaN     Si
5    Chile  35.0  58000.0     Si
6   Espana   NaN  52000.0     No
7    Chile  48.0  79000.0     Si
8   Brasil  50.0  83000.0     No
9    Chile  37.0  67000.0     Si
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
     Pais  Edad  Salario Compra
0   Chile  44.0  72000.0     No
1  Espana  27.0  48000.0     Si
2  Brasil  30.0  54000.0     No
3  Espana  38.0  61000.0     No
5   Chile  35.0  58000.0     Si
7   Chile  48.0  79000.0     Si
8  Brasil  50.0  83000.0     No
9   Chile  37.0  67000.0     Si


In [None]:
standard_scaler = StandardScaler()
normalizer = Normalizer()
min_max_scaler = MinMaxScaler()

print(X)
print("Standardization")
print(standard_scaler.fit_transform(X))

print("Normalizing")
print(normalizer.fit_transform(X))

print("MinMax Scaling")
print(min_max_scaler.fit_transform(X))

[[4.4e+01 7.2e+04]
 [2.7e+01 4.8e+04]
 [3.0e+01 5.4e+04]
 [3.8e+01 6.1e+04]
 [3.5e+01 5.8e+04]
 [4.8e+01 7.9e+04]
 [5.0e+01 8.3e+04]
 [3.7e+01 6.7e+04]]
Standardization
[[ 0.69985807  0.58989097]
 [-1.51364653 -1.50749915]
 [-1.12302807 -0.98315162]
 [-0.08137885 -0.37141284]
 [-0.47199731 -0.6335866 ]
 [ 1.22068269  1.20162976]
 [ 1.48109499  1.55119478]
 [-0.211585    0.1529347 ]]
Normalizing
[[6.11110997e-04 9.99999813e-01]
 [5.62499911e-04 9.99999842e-01]
 [5.55555470e-04 9.99999846e-01]
 [6.22950699e-04 9.99999806e-01]
 [6.03448166e-04 9.99999818e-01]
 [6.07594825e-04 9.99999815e-01]
 [6.02409529e-04 9.99999819e-01]
 [5.52238722e-04 9.99999848e-01]]
MinMax Scaling
[[0.73913043 0.68571429]
 [0.         0.        ]
 [0.13043478 0.17142857]
 [0.47826087 0.37142857]
 [0.34782609 0.28571429]
 [0.91304348 0.88571429]
 [1.         1.        ]
 [0.43478261 0.54285714]]


## Tarea

Normalice datos de  __adult.data__ .