# Feature scaling

***¿Por qué es bueno escalar?*** Existen modelos sensibles a las escalas como la regresión logística, máquinas de soporte vectorial (SVM), redes neuronales y algoritmos basados en la distancia (como KNN).

Si las características tienen diferentes rangos, los modelos pueden dar más importancia a las características con valores más grandes.

In [6]:
from sklearn.preprocessing import StandardScaler, MinMaxScaler, RobustScaler
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

In [7]:
# Cargar el dataset iris
iris = load_iris()
X = pd.DataFrame(iris.data, columns=iris.feature_names)
y = iris.target

# Dividir el dataset en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)


## StandardScaler

### $\frac{x_i - \mu}{\sigma}$ $\mu$: valor medio, $\sigma$: desviación estándar

Cada valor de la característica X se le resta la media μ y el resultante se divide por la desviación estándar σ. 

Es útil cuando los datos tienen una distribución que se asemeja a una distribución normal.


In [8]:
# Estandarización (media 0, desviación estándar 1)
scaler_standard = StandardScaler()
X_train_standard = scaler_standard.fit_transform(X_train)
X_test_standard = scaler_standard.transform(X_test)

print("Primeras filas de X_train estandarizado:")
pd.DataFrame(X_train_standard, columns=X.columns).head()


Primeras filas de X_train estandarizado:


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,-0.413416,-1.462003,-0.099511,-0.323398
1,0.551222,-0.502563,0.717703,0.353032
2,0.671802,0.217016,0.951192,0.75889
3,0.912961,-0.022844,0.309096,0.217746
4,1.63644,1.416315,1.301427,1.705891


## MinMaxScaler $\frac{x_i - min(x)}{max(x) - min(x)}$

Con el escalador min-max, podemos transformar y escalar nuestros valores de características de tal manera que cada valor está dentro del rango de [0, 1]. 

Sin embargo, la clase MinMaxScaler en scikit-learn también le permite especificar su propio límite superior e inferior en el rango de valores escalados utilizando la variable feature_range. 


In [9]:
# Escalado Min-Max (reescala características al rango [0, 1])
scaler_minmax = MinMaxScaler()
X_train_minmax = scaler_minmax.fit_transform(X_train)
X_test_minmax = scaler_minmax.transform(X_test)

print("\nPrimeras filas de X_train escalado con Min-Max:")
pd.DataFrame(X_train_minmax, columns=X.columns).head()



Primeras filas de X_train escalado con Min-Max:


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,0.352941,0.181818,0.464286,0.375
1,0.588235,0.363636,0.714286,0.583333
2,0.617647,0.5,0.785714,0.708333
3,0.676471,0.454545,0.589286,0.541667
4,0.852941,0.727273,0.892857,1.0


## RobustScaler $\frac{x_i - mediana(x)}{IQR_{(1,3)}(x)}$

Utiliza la mediana y el rango intercuartílico (IQR) para escalar las características, lo que lo hace más resistente a los outliers.

In [10]:
# Escalado robusto 
scaler_robust = RobustScaler()
X_train_robust = scaler_robust.fit_transform(X_train)
X_test_robust = scaler_robust.transform(X_test)

print("\nPrimeras filas de X_train escalado con RobustScaler:")
pd.DataFrame(X_train_robust, columns=X.columns).head()



Primeras filas de X_train escalado con RobustScaler:


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,-0.230769,-1.2,-0.176471,-0.214286
1,0.384615,-0.4,0.235294,0.142857
2,0.461538,0.2,0.352941,0.357143
3,0.615385,0.0,0.029412,0.071429
4,1.076923,1.2,0.529412,0.857143
