<img style="float: left;;" src='Figures/iteso.jpg' width="100" height="200"/></a>

# <center> <font color= #000047>Escalamiento de Variables Numéricas </font> </center>

El **escalamiento de variables numéricas** es una etapa fundamental en el preprocesamiento de datos para machine learning y análisis estadístico. Consiste en transformar los valores de las variables numéricas para que tengan una escala comparable, lo que mejora el desempeño de muchos algoritmos.

A continuación se explican las principales técnicas de escalamiento, cada una con ejemplos prácticos en Python.

## 1. Estandarización (Standardization)

La estandarización transforma los datos para que tengan media cero y desviación estándar uno. Es útil cuando los datos tienen una distribución aproximadamente normal.

La fórmula es:

$$ X_{est} = \frac{X - \mu}{\sigma} $$

donde $\mu$ es la media y $\sigma$ la desviación estándar.

In [None]:
# Ejemplo de estandarización con sklearn
import numpy as np
import pandas as pd
from sklearn.preprocessing import StandardScaler

data = {'A': [10, 20, 30, 40, 50], 'B': [100, 150, 200, 250, 300]}
df = pd.DataFrame(data)
scaler = StandardScaler()
df_std = pd.DataFrame(scaler.fit_transform(df), columns=df.columns)
df

In [None]:
df.hist();

In [None]:
df_std.hist();

In [None]:
# Estandarización manual
df_manual = (df - df.mean()) / df.std()
print(df_manual)

In [None]:
#Otro ejemplo
from sklearn.datasets import fetch_california_housing
california = fetch_california_housing()
df_california = pd.DataFrame(california.data, columns=california.feature_names)
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
df_california_std = pd.DataFrame(scaler.fit_transform(df_california), columns=df_california.columns)
df_california_std.head()

In [None]:
df_california.hist();

In [None]:
df_california_std.hist();

In [None]:
#Media


In [None]:
#Desviación estándar

**Ventajas:**
- Útil para algoritmos que asumen datos centrados y con varianza unitaria (regresión lineal, SVM, PCA, redes neuronales).
- No está acotada a un rango específico, por lo que no distorsiona outliers.

**Desventajas:**
- No garantiza un rango fijo.
- Puede verse afectada por outliers.

se recomienda utilizar esta metodología cuando:
- Los datos tienen distribución aproximadamente normal.
- Cuando se usan algoritmos sensibles a la escala pero no al rango.


## 2. Normalización basada en la media (Mean Normalization)

Esta técnica centra los datos en torno a cero, escalando según el rango:

$$ X_{norm} = \frac{X - \mu}{X_{max} - X_{min}} $$

Es útil cuando se quiere que los datos estén entre -1 y 1 (aproximadamente).

In [None]:
# Normalización basada en la media (manual)
df_mean_norm = (df - df.mean()) / (df.max() - df.min())
print(df_mean_norm)

In [None]:
from sklearn.datasets import fetch_california_housing
california = fetch_california_housing()
df_cal = pd.DataFrame(california.data, columns=california.feature_names)
df_cal_mean_norm = (df_cal - df_cal.mean()) / (df_cal.max() - df_cal.min())
df_cal_mean_norm.head()

In [None]:
df_cal_mean_norm['MedInc'].hist()

**Ventajas:**
- Centra los datos en cero y los escala en función del rango.
- Útil para algoritmos que requieren datos centrados y acotados.

**Desventajas:**
- Sensible a outliers.
- Menos común en librerías estándar.

esta técnica se utliza cuand se requiere centrado y escala acotada, pero no necesariamente [0,1].


## 3. Escalamiento de valores máximo y mínimo (Min-Max Scaling)

Transforma los datos para que estén en un rango específico, típicamente [0, 1]:

$$ X_{minmax} = \frac{X - X_{min}}{X_{max} - X_{min}} $$

Es muy útil cuando se requiere que los datos estén en un rango fijo.

In [None]:
# Escalamiento Min-Max con sklearn
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
df_minmax = pd.DataFrame(scaler.fit_transform(df), columns=df.columns)
df_minmax

In [None]:
# Escalamiento Min-Max manual
df_minmax_manual = (df - df.min()) / (df.max() - df.min())
df_minmax_manual

In [None]:
#Otro ejemplo
from sklearn.datasets import load_diabetes
diabetes = load_diabetes()
df_diabetes = pd.DataFrame(diabetes.data, columns=diabetes.feature_names)
scaler = MinMaxScaler()
df_diabetes_minmax = pd.DataFrame(scaler.fit_transform(df_diabetes), columns=df_diabetes.columns)
df_diabetes_minmax.head()

In [None]:
df_diabetes_minmax.min()

In [None]:
df_diabetes_minmax.max()

**Ventajas:**
- Escala los datos a un rango definido, normalmente [0,1].
- Útil para algoritmos basados en distancias (KNN, redes neuronales, clustering).

**Desventajas:**
- Muy sensible a outliers: un solo valor extremo puede distorsionar la escala.

es recomendable usar esta técnica cuando:
- Se requiere un rango fijo.
- Cuando los datos no tienen outliers significativos.


## 4. Escalamiento de máximo absoluto (MaxAbs Scaling)

Escala los datos dividiendo por el valor absoluto máximo de cada variable, útil para datos centrados en cero o con valores positivos y negativos:

$$ X_{maxabs} = \frac{X}{|X_{max}|} $$

In [None]:
# Ejemplo con valores negativos
df2 = pd.DataFrame({'A': [-1, 0, 1, 2], 'B': [-10, 0, 10, 20]})
from sklearn.preprocessing import MaxAbsScaler

scaler = MaxAbsScaler()
df_maxabs = pd.DataFrame(scaler.fit_transform(df2), columns=df2.columns)
df2

In [None]:
df_maxabs

In [None]:
# Escalamiento MaxAbs manual
df_maxabs_manual = df2 / df2.abs().max()
df_maxabs_manual

**Ventajas:**
- Preserva la dispersión de los datos centrados en cero.
- No desplaza los datos (no centra en cero).
- Útil para datos dispersos (sparse data).

**Desventajas:**
- Sensible a valores extremos.
- No centra los datos.

Se utiliza cuando:
- Los datos ya están centrados en cero o contienen valores negativos y positivos.
- Se trabaja con datos dispersos (por ejemplo, texto vectorizado).


## 5. Escalamiento por cuantiles (Quantile Transformer)

Esta técnica transforma la distribución de los datos para que siga una distribución uniforme o normal, usando los cuantiles de los datos.

Es útil para variables con outliers o distribuciones no normales.

$$z = \frac{X - \bar{X}}{Q_3 - Q_1}$$

donde $\bar{X}$ es la mediana de $X$ y $Q_1$, $Q_3$ corresponden a los cuartiles uno y tres.

In [None]:
# Escalamiento por cuantiles a distribución uniforme
from sklearn.preprocessing import QuantileTransformer

qt = QuantileTransformer(output_distribution='uniform', random_state=0)
df_quantile = pd.DataFrame(qt.fit_transform(df), columns=df.columns)
df_quantile

In [None]:
# Escalamiento por cuantiles a distribución normal
qt_norm = QuantileTransformer(output_distribution='normal', random_state=0)
df_quantile_norm = pd.DataFrame(qt_norm.fit_transform(df), columns=df.columns)
df_quantile_norm

In [None]:
from sklearn.datasets import fetch_california_housing
california = fetch_california_housing()
df_cal = pd.DataFrame(california.data, columns=california.feature_names)
qt = QuantileTransformer(output_distribution='normal', random_state=0)
df_cal_quantile = pd.DataFrame(qt.fit_transform(df_cal), columns=df_cal.columns)
print(df_cal_quantile.head())

In [None]:
df_cal.hist();

In [None]:
df_cal_quantile.hist();

**Ventajas:**
- Reduce el efecto de outliers.
- Puede transformar la distribución a uniforme o normal.
- Útil para algoritmos que asumen normalidad o para robustecer frente a valores extremos.

**Desventajas:**
- Puede distorsionar relaciones lineales entre variables.
- Más costoso computacionalmente.

Es recomendable usar escalamiento por cuantiles cuando:
- Los datos tienen outliers o distribuciones no normales.
- Cuando se requiere una distribución específica (normal o uniforme).


## Resumen

- **Estandarización:** Media 0, desviación estándar 1.
- **Normalización basada en la media:** Centrado en 0, escala [-1, 1].
- **Min-Max:** Rango [0, 1] (o personalizado).
- **MaxAbs:** Rango [-1, 1] según el valor absoluto máximo.
- **Cuantiles:** Distribución uniforme o normal.


| Técnica                | Ventajas principales                          | Desventajas principales         | Usos recomendados                           |
|------------------------|-----------------------------------------------|---------------------------------|---------------------------------------------|
| Estandarización        | Media 0, varianza 1, útil para normalidad     | No acota rango, sensible a outliers | Regresión, SVM, PCA, redes neuronales      |
| Normalización media    | Centra y acota, fácil de interpretar          | Sensible a outliers             | Datos centrados y acotados                  |
| Min-Max                | Rango fijo, fácil de interpretar              | Muy sensible a outliers         | KNN, clustering, redes neuronales           |
| MaxAbs                 | Preserva dispersión, útil para datos dispersos| No centra, sensible a outliers  | Datos dispersos, texto vectorizado          |
| Cuantiles              | Robusto a outliers, ajusta distribución       | Distorsiona relaciones lineales | Datos con outliers, requiere normalidad     |

La elección depende del algoritmo y la naturaleza de los datos. Siempre analiza la distribución y presencia de outliers antes de elegir el método de escalamiento.