<a href="https://colab.research.google.com/github/GustavoBD-Dev/AnalyticalModelsWithPythonCourse/blob/Session-4/12_Scaling%26Normalization.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#**Escalado y normalización de datos**

El escalado y la normalización son pasos críticos en el preprocesamiento de datos para modelos analíticos, especialmente cuando se utilizan algoritmos de aprendizaje automático que son sensibles a la magnitud o distribución de los datos, como el Análisis de Componentes Principales (PCA) o los modelos de regresión lineal.

#### **1. Escalado de Datos**

El escalado de datos implica transformar las características para que todas tengan una escala similar. Esto es esencial cuando las características tienen diferentes unidades o rangos, ya que muchos algoritmos de aprendizaje automático utilizan distancias para determinar relaciones y patrones.

##### **Ejemplo:**
Consideremos un conjunto de datos con dos características: `salario` (en miles de dólares) y `años de experiencia`. Supongamos que los valores para el `salario` oscilan entre 30 y 150, mientras que los `años de experiencia` varían entre 1 y 20. Dado que estas características tienen rangos muy diferentes, los algoritmos que dependen de distancias podrían verse sesgados hacia la característica con mayor magnitud.

#### **Técnicas de Escalado:**
- **Min-Max Scaling:** Esta técnica reescala los valores de las características al rango [0, 1]. La fórmula es:
  `(valor - min) / (max - min)`, donde `min` y `max` son los valores mínimo y máximo de la característica.

- **Standard Scaling (Estandarización):** Esta técnica transforma los datos para que tengan una media de 0 y una desviación estándar de 1. La fórmula es:
  `(valor - media) / desviacion_estandar`.

##### **Código Ejemplo en Python:**
```python
from sklearn.preprocessing import MinMaxScaler, StandardScaler

# Datos de ejemplo
import numpy as np
data = np.array([[40, 5], [90, 10], [60, 7]])

# Min-Max Scaling
min_max_scaler = MinMaxScaler()
data_min_max_scaled = min_max_scaler.fit_transform(data)

# Standard Scaling
standard_scaler = StandardScaler()
data_standard_scaled = standard_scaler.fit_transform(data)
```

#### **2. Normalización de Datos**

La normalización ajusta los datos para que sigan una distribución específica, comúnmente una distribución normal. Esto es útil cuando los algoritmos asumen que los datos están distribuidos de manera normal o cuando se quiere evitar que características con rangos amplios dominen el modelo.

##### **Ejemplo:**
Si una característica sigue una distribución muy sesgada, la normalización puede transformar estos datos para que tengan una distribución más simétrica y centrada.

#### **Técnicas de Normalización:**
- **Normalización Z-Score:** Esta técnica es la más común y transforma los datos para que tengan una media de 0 y una desviación estándar de 1, como en la estandarización.
  
- **Normalización Min-Max:** Similar a la usada en el escalado, ajusta los datos para que estén dentro de un rango específico, usualmente [0, 1].

- **Normalización Logarítmica:** Se aplica una función logarítmica para transformar características que tienen distribuciones sesgadas positivamente. Esto reduce el efecto de valores atípicos grandes.

##### **Código Ejemplo en Python:**
```python
import numpy as np

# Datos de ejemplo
data = np.array([1, 2, 3, 100])

# Normalización Logarítmica
data_log_normalized = np.log(data + 1)
```

### **Mejores Prácticas y Consideraciones:**

- **Consistencia:** Aplicar el mismo tipo de escalado o normalización a todas las características relevantes y mantenerlo consistente durante el entrenamiento y la evaluación del modelo.
  
- **Comprensión del Contexto:** El tipo de escalado o normalización elegido debe depender del contexto del problema y del modelo. Por ejemplo, el escalado Min-Max es preferible si los datos están acotados en un rango específico.

- **No Escalar Variables Dummies:** Las variables categóricas codificadas como dummies (0 y 1) no deben ser escaladas ni normalizadas, ya que su interpretación perdería sentido.

- **Escalado después de la división de datos:** Si se dividen los datos en conjuntos de entrenamiento y prueba, el escalado o normalización debe aplicarse solo en el conjunto de entrenamiento y luego en el conjunto de prueba usando los parámetros del entrenamiento para evitar el data leakage.

##**Ejercicios**

In [None]:
from google.colab import drive
drive.mount('/content/drive')

file_id = '1GxFpnjaEPauGQ0PRe-YTzjhDaCwd-wTN'
raw_url = f'https://drive.google.com/uc?id={file_id}&export=download'

import pandas as pd
data = pd.read_csv(raw_url)

print(data.head())

Mounted at /content/drive
   User_ID Product_ID Gender   Age  Occupation City_Category  \
0  1000001  P00069042      F  0-17          10             A   
1  1000001  P00248942      F  0-17          10             A   
2  1000001  P00087842      F  0-17          10             A   
3  1000001  P00085442      F  0-17          10             A   
4  1000002  P00285442      M   55+          16             C   

  Stay_In_Current_City_Years  Marital_Status  Product_Category_1  \
0                          2               0                   3   
1                          2               0                   1   
2                          2               0                  12   
3                          2               0                  12   
4                         4+               0                   8   

   Product_Category_2  Product_Category_3  Purchase  
0                 NaN                 NaN      8370  
1                 6.0                14.0     15200  
2                 

####**Ejercicio 1: Escalado de los valores de "Purchase"**
**Objetivo:** Aplicar Min-Max Scaling para escalar los valores de la columna "Purchase" en un rango de 0 a 1.

####**Ejercicio 2: Estandarización de "Occupation"**
**Objetivo:** Estandarizar la columna "Occupation" para que tenga una media de 0 y una desviación estándar de 1.

####**Ejercicio 3: Normalización L2 de "Product_Category_1", "Product_Category_2" y "Product_Category_3"**
**Objetivo:** Aplicar la normalización L2 a las columnas "Product_Category_1", "Product_Category_2" y "Product_Category_3".

####**Ejercicio 4: Estandarización condicional**
**Objetivo:** Estandarizar la columna "Purchase" solo para aquellos usuarios que tienen una "Age" mayor a 35 años.

####**Ejercicio 5: Escalado de múltiplos productos**
**Objetivo:** Aplicar Min-Max Scaling a las columnas "Product_Category_1" y "Product_Category_2" de forma conjunta.

####**Ejercicio 6: Estandarización y Escalado Combinado**
**Objetivo:** Estandarizar la columna "Occupation" y luego escalar los resultados entre 0 y 1.

####**Ejercicio 7: Escalado basado en grupos**
**Objetivo:** Aplicar Min-Max Scaling a la columna "Purchase", pero de manera independiente para cada categoría de "City_Category".

####**Ejercicio 8: Normalización de múltiples columnas**
**Objetivo:** Aplicar normalización L1 a las columnas "Product_Category_1", "Product_Category_2" y "Product_Category_3".

####**Ejercicio 9: Escalado de datos con outliers**
**Objetivo:** Comparar el impacto del Min-Max Scaling y la Estandarización en la columna "Purchase" considerando la presencia de posibles outliers.