### Feature Scaling

Feature scaling, o escalado de características, es una técnica utilizada en machine learning para estandarizar el rango de las características (features) de los datos. Es crucial cuando se trabaja con algoritmos que son sensibles a las magnitudes de las características, como el gradiente descendente, SVM (Máquinas de Vectores de Soporte) y KNN (K-Nearest Neighbors), entre otros.

Normalmente, es suficiente aplicar uno de los métodos de feature scaling a todo el dataset.Sin embargo, si se tiene una razón clara, se puede escalar diferentes subconjuntos de características con distintos métodos, pero siempre asegurando de que esto tenga sentido para el modelo y los datos.

Es importante que este proceso se realice despues de hacer la separacion de la base de datos en el conjunto de entrenamiento y el de validacion. Si no se hace asi, estariamos tomadno informacion del conjunto de validacion en el entrenamiento del modelo, haciendo que la validacion no refleje el desempeño del modelo ante nuevos datos.

Otro punto importante es que una vez que se haga el escalado, se guarden los parametros para realizar la misma regla en nuevos datos, es decir que, si por ejemplo usamos estandarizacion, la media y varianza que calculemos con el conjunto de entrenamiento son las mismas con las que vamos a escalar los datos de validacion y nuevos datos, no se calculan de nuevo. Esto permite tener consistencia entre los datos.

### 1. Normalización (Min-Max Scaling)

La normalización ajusta los valores de las características para que caigan dentro de un rango específico, generalmente [0, 1]. La fórmula es:

$ X_{\text{norm}} = \frac{X - X_{\text{min}}}{X_{\text{max}} - X_{\text{min}}} $

Cuándo usarla:

- Datos con límites conocidos: Si sabes que tus datos siempre estarán dentro de un rango específico, la normalización es apropiada.
- Algoritmos basados en distancia: Como K-Nearest Neighbors (KNN), K-Means y algoritmos de clustering, que se ven afectados por las magnitudes de las características.
- Redes neuronales: Cuando utilizas redes neuronales, la normalización puede ayudar a que la red aprenda más rápido y de manera más estable.

In [1]:
from sklearn.preprocessing import MinMaxScaler

# Datos de ejemplo
data = [[-1, 2], [-0.5, 6], [0, 10], [1, 18]]

# Normalización
scaler = MinMaxScaler()
data_normalized = scaler.fit_transform(data)
print("Datos Normalizados:\n", data_normalized)


Datos Normalizados:
 [[0.   0.  ]
 [0.25 0.25]
 [0.5  0.5 ]
 [1.   1.  ]]


### 2. Estandarización (Z-score Scaling)

La estandarización ajusta los valores de las características para que tengan una media de 0 y una desviación estándar de 1. La fórmula es:

$ X_{\text{std}} = \frac{X - \mu}{\sigma} $

donde $\mu$ es la media y $\sigma$ es la desviación estándar de la característica.

Cuándo usarla:

- Algoritmos basados en estadísticas: Como regresión lineal, regresión logística y análisis discriminante lineal (LDA), que asumen que los datos están distribuidos normalmente.
- PCA y otros métodos de reducción de dimensionalidad: Estos métodos son sensibles a la escala de las características.
- Datos con diferentes unidades: Si tus datos tienen diferentes unidades de medida, la estandarización puede hacer que las características sean comparables.



In [2]:
from sklearn.preprocessing import StandardScaler

# Datos de ejemplo
data = [[-1, 2], [-0.5, 6], [0, 10], [1, 18]]

# Estandarización
scaler = StandardScaler()
data_standardized = scaler.fit_transform(data)
print("Datos Estandarizados:\n", data_standardized)


Datos Estandarizados:
 [[-1.18321596 -1.18321596]
 [-0.50709255 -0.50709255]
 [ 0.16903085  0.16903085]
 [ 1.52127766  1.52127766]]


### 3. Robust Scaling

El escalado robusto utiliza la mediana y los cuartiles en lugar de la media y la desviación estándar, lo que lo hace menos sensible a los outliers.

$X_{\text{robust}} = \frac{X - \text{mediana}}{\text{IQR}}$


In [3]:
from sklearn.preprocessing import RobustScaler

# Datos de ejemplo
data = [[-1, 2], [-0.5, 6], [0, 10], [1, 18]]

# Escalado robusto
scaler = RobustScaler()
data_robust = scaler.fit_transform(data)
print("Datos con escalado robusto:\n", data_robust)


Datos con escalado robusto:
 [[-0.85714286 -0.85714286]
 [-0.28571429 -0.28571429]
 [ 0.28571429  0.28571429]
 [ 1.42857143  1.42857143]]


### 4. MaxAbs Scaling

El escalado MaxAbs ajusta los valores de las características dividiendo por el valor absoluto máximo, manteniendo los datos dentro del rango [-1, 1]. Es útil para datos que ya están centrados alrededor de 0 y se desea mantener la dispersión.

$X_{\text{maxabs}} = \frac{X}{\left| X_{\text{max}} \right|}$



In [4]:
from sklearn.preprocessing import MaxAbsScaler

# Datos de ejemplo
data = [[-1, 2], [-0.5, 6], [0, 10], [1, 18]]

# Escalado MaxAbs
scaler = MaxAbsScaler()
data_maxabs = scaler.fit_transform(data)
print("Datos con escalado MaxAbs:\n", data_maxabs)


Datos con escalado MaxAbs:
 [[-1.          0.11111111]
 [-0.5         0.33333333]
 [ 0.          0.55555556]
 [ 1.          1.        ]]


### 5. Escalado logarítmico (Log Scaling)
El escalado logarítmico se utiliza para transformar características que tienen una distribución altamente sesgada. Se aplica la función logarítmica para reducir la asimetría.

$X_{log} = \log{(X+1)}$


In [5]:
import numpy as np

# Datos de ejemplo
data = np.array([[1, 10], [2, 100], [3, 1000], [4, 10000]])

# Escalado logarítmico
data_log = np.log1p(data)
print("Datos con escalado logarítmico:\n", data_log)


Datos con escalado logarítmico:
 [[0.69314718 2.39789527]
 [1.09861229 4.61512052]
 [1.38629436 6.90875478]
 [1.60943791 9.21044037]]


### 6. Escalado de raíz cuadrada (Square Root Scaling)
El escalado de raíz cuadrada es útil para transformar características que tienen una distribución sesgada, similar al escalado logarítmico, pero menos severo.

$X_{sqrt} = \sqrt{X}$



In [None]:
# Datos de ejemplo
data = np.array([[1, 10], [4, 100], [9, 1000], [16, 10000]])

# Escalado de raíz cuadrada
data_sqrt = np.sqrt(data)
print("Datos con escalado de raíz cuadrada:\n", data_sqrt)


### 7. Escalado por cuantiles (Quantile Transformation)
La transformación por cuantiles convierte las características para seguir una distribución deseada Este método es útil cuando quieres que las características se ajusten a una distribución específica, lo que puede ser beneficioso para algunos algoritmos de machine learning que son sensibles a la forma de la distribución de los datos.

Método:

1. Ordena los datos: Los datos se ordenan en función de sus valores.
2. Asignar cuantiles: Cada dato se mapea a su cuantil correspondiente.
3. Transformar: Se transforman los datos en función de la distribución deseada.


In [None]:
from sklearn.preprocessing import QuantileTransformer

# Datos de ejemplo
data = [[1, 2], [2, 3], [3, 4], [4, 5]]

# Transformación por cuantiles
scaler = QuantileTransformer(output_distribution='normal')
data_quantile = scaler.fit_transform(data)
print("Datos con transformación por cuantiles:\n", data_quantile)



### 8. Normalización L2 (L2 Normalization)
La normalización L2, también conocida como normalización de vectores, ajusta las características para que la norma L2 de cada vector sea igual a 1. La norma L2 de un vector es la raíz cuadrada de la suma de los cuadrados de sus componentes.

Formula:

Para un vector $[x_1,x_2,...,x_n]$, la normalización L2 se calcula como:

$\text{Norma L2} = \sqrt{x_1^2 + x_2^2 + \cdots + x_n^2}$

La normalización L2 ajusta cada componente del vector a:

$x' = \frac{x}{\text{Norma L2}}$

In [None]:
from sklearn.preprocessing import Normalizer

# Datos de ejemplo
data = [[4, 1], [2, 2], [1, 3]]

# Normalización L2
scaler = Normalizer(norm='l2')
data_l2 = scaler.fit_transform(data)
print("Datos con normalización L2:\n", data_l2)
