<a href="https://colab.research.google.com/github/amorelo01/simulacion/blob/main/M3_S2_Estandarizacion_Normalizacion.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<p><img alt="banner" height="252px" width="1080px" src="https://docs.google.com/uc?export=download&id=18D9zTLyHjMFbwtI2Eenr0l5oGeH9a1Wq"  align="center" hspace="10px" vspace="0px" ></p>

# <font color='056938'> **Introducción** </font>

El escalado de características (*feature scaling*) es una técnica de preprocesamiento que transforma los valores de las características a una escala similar, asegurando que todas las características contribuyan de manera equitativa al modelo. Es esencial para conjuntos de datos con características de rangos, unidades o magnitudes variables.

El escalado de características ofrece varios beneficios, especialmente al trabajar con modelos de aprendizaje automático:

* **Mejora el rendimiento del modelo**: Muchos modelos, especialmente los que se basan en cálculos de distancia, dependen de la escala de las características. El escalado asegura que cada característica contribuya de manera equitativa, evitando que las características con valores más grandes dominen.

* **Convergencia más rápida**: Algoritmos como el *gradient descent*  funcionan mejor y convergen más rápido cuando las características están en la misma escala

* **Previene el sesgo**: Sin escalado de características, las características con magnitudes más grandes podrían influir desproporcionadamente en el modelo, lo que llevaría a resultados sesgados.

* **Mejor interpretabilidad**: Escalar las características facilita la interpretación de la importancia de cada una, especialmente en modelos que usan coeficientes (como la regresión lineal o logística), ya que los coeficientes no estarán dominados por la escala de las características.

* **Consistencia entre características**: Para modelos que combinan diferentes tipos de características (por ejemplo, numéricas y categóricas), el escalado asegura que el modelo no favorezca características solo porque tienen diferentes unidades o rangos.




## <font color='8EC044'> **¿Qué impacto tiene el escalar los datos?** </font>

Considere el siguiente ejemplo, en el que en un programa de riesgo cardiovascular deseamos agrupar un conjunto de personas de acuerdo a su similaridad en peso y estatura.

Hemos usado el  algoritmo de agrupación `k-means` (el cual discutiremos en el siguiente curso de la linea) para llevar a cabo esta tarea. En el hemos usado los datos sin escalar y despues de escalar: **¿Qué diferencia observa?**

In [None]:
import pandas as pd
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
import numpy as np
import plotly.graph_objects as go
from plotly.subplots import make_subplots

data = {
    'Estatura (m)': [1.69, 1.98, 1.87, 1.80, 1.58, 1.58, 1.53, 1.93, 1.80, 1.85,
           1.51, 1.99, 1.92, 1.61, 1.59, 1.59, 1.65, 1.76, 1.72, 1.65],
    'Peso (kg)': [80.59, 76.97, 68.61, 68.32, 72.80, 89.26, 59.98, 85.71, 79.62, 62.32,
                    80.38, 98.53, 83.25, 77.44, 98.28, 60.42, 65.23, 64.88, 84.21, 72.01]
}
df = pd.DataFrame(data)
df_scaled = df.copy()

# Fit the model to the unscaled data
kmeans = KMeans(n_clusters=3, n_init= 10,random_state=42)
kmeans.fit(df)
labels = kmeans.labels_
df['Cluster'] = labels

# Fit the model  with scaled data
scaler = StandardScaler()
scaled_data = scaler.fit_transform(df_scaled[['Estatura (m)', 'Peso (kg)']])
kmeans = KMeans(n_clusters=3, n_init= 10, random_state=42)
kmeans.fit(scaled_data)
labels = kmeans.labels_
df_scaled['Cluster'] = labels


# Create subplots
fig = make_subplots(rows=1, cols=2, subplot_titles=['Sin escalar', 'Escalados'])

# Add traces to subplots
fig.add_trace(go.Scatter(x=df['Estatura (m)'], y=df['Peso (kg)'],
                         mode='markers', marker_color=df['Cluster'], marker_size=10, showlegend=False), row=1, col=1)
fig.add_trace(go.Scatter(x=df_scaled['Estatura (m)'], y=df_scaled['Peso (kg)'],
                         mode='markers', marker_color=df_scaled['Cluster'], marker_size=10, showlegend=False), row=1, col=2)

# Update layout
fig.update_layout(title='Estatura (m) vs Peso (kg)', xaxis1_title='Estatura (m)', xaxis2_title='Estatura (m)',
                  yaxis1_title='Peso (kg)', yaxis2_title='Peso (kg)')

fig.show()

## <font color='8EC044'> **Rescalar, normalizar, estandarizar** </font>

El término escalamiento, normalización y estandarización se usan frecuentemente en ciencia de datos. Algunas veces se usan de forma  intercambiable. sin embargo, en aras de estructurar la discusión vamos a definir brevemente cada uno de ellos:

* <font color='46B8A9'> **Reescalar** </font> un vector significa sumar o restar una constante y luego multiplicar o dividir por una constante, como lo harías para cambiar las unidades de medida de los datos, por ejemplo, para convertir una temperatura de Celsius a Fahrenheit.

* <font color='46B8A9'> **Normalizar** </font>  un vector, con mayor frecuencia, significa dividir por una norma del vector, por ejemplo,reescalar por el mínimo y el rango del vector, para hacer que todos los elementos queden entre 0 y 1.

* <font color='46B8A9'> **Estandarizar** </font>  un vector, con mayor frecuencia, significa restar una medida de localización y dividir por una medida de escala. Por ejemplo, si el vector contiene valores aleatorios con una distribución gaussiana, podrías restar la media y dividir por la desviación estándar, obteniendo así una variable aleatoria "normal estándar" con media 0 y desviación estándar 1.

Algunas de las técnicas más comunes se resumen en la siguiente tabla.



<img src="https://docs.google.com/uc?export=download&id=1k7c1Xz4lcKqQeCWYIaKH_CD3e2MW210R" alt="picture" width="100%">

# <font color='056938'> **Normalización** </font>

Esto es una técnica utilizada en el preprocesamiento de datos para modificar y ajustar los valores de las variables y escalarlas en el conjunto de datos común. En la normalización los valores se desplazan y reescalan para que terminen en un rango dado. Por ejemplo entre $[0, 1]$ o  $[-1, 1]$.

La normalización es útil cuando no hay valores atípicos ya que no puede manejarlos.  Es posible usar distintos tipos de norma al escalar los datos y eso permite diferenciar entre diferentes operadores




### <font color='157699'> **Min-Max scaling** </font>


Es una técnica de escalado de datos en la que los puntos de datos se desplazan y reescalan para que terminen en un rango de 0 a 1. También se conoce como *min-max scaling*.

La fórmula para calcular la puntuación normalizada:

> $x_{norm} = \frac{x - x_{min}}{x_{max} - x_{min}}$

Donde:

* $x_{norm}$: es el valor normalizado.
* $x$: es el valor original.
* $x_{min}$: es el valor mínimo de la característica.
* $x_{max}$: es el valor máximo de la característica.


In [None]:
import pandas as pd
from sklearn.preprocessing import MinMaxScaler

# generate 1000 data points randomly drawn from an exponential distribution
original_data = np.random.exponential(size=1000)
# # get some negative values
# for i in range(len(original_data)):
#   if np.random.uniform() < 0.1:
#     original_data[i]=-original_data[i]

df = pd.DataFrame({'original_data': original_data})
# Create a MinMaxScaler object
scaler = MinMaxScaler()
df['scaled_data'] = scaler.fit_transform(df[['original_data']])
df.head()

Creamos esta función para que pueda usarse despues

In [None]:
# creamos esta función para que pueda usarse despues
def compare_plot(df):
  # Create subplots
  fig = make_subplots(rows=1, cols=2, subplot_titles=['Sin escalar', 'Escalados'])

  # Add traces to subplots
  fig.add_trace(go.Histogram(x=df['original_data'], showlegend=False),row=1, col=1)
  fig.add_trace(go.Histogram(x=df['scaled_data'], showlegend=False), row=1, col=2)

  return fig

In [None]:
fig = compare_plot(df)
fig.show()


### <font color='157699'> **MaxAbs scaling** </font>

Este estimador escala de manera que el valor absoluto máximo de cada característica en el conjunto de entrenamiento será 1.0. Es similar a `Min-Max`, excepto que los valores se asignan a varios rangos dependiendo de si están presentes valores negativos o positivos. Si solo están presentes valores positivos, el rango es `[0, 1]`. Si solo están presentes valores negativos, el rango es `[-1, 0]`. Si están presentes valores positivos y negativos, el rango es `[-1, 1]`. En datos solo positivos, tanto `Min-Max` como `Max-Abs` se comportan de manera similar.

> $x_{\text{scaled}} = \frac{x}{\max(|X|)}$

donde:
- $x$ es el valor original de la característica.
- $\max(|X|)$ es el valor absoluto máximo en la característica.
- $x_{\text{scaled}}$ es el valor escalado.

Este método de escalado transforma los datos para que estén en el rango de $[-1, 1]$, manteniendo la proporción original entre los valores. Es útil cuando los datos tienen valores dispersos y se desea mantener la distribución original de los datos.

In [None]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import MaxAbsScaler

# generate 1000 data points randomly drawn from an exponential distribution
original_data = np.random.exponential(size=1000)
# get some negative values
for i in range(len(original_data)):
  if np.random.uniform() < 0.1:
    original_data[i]=-original_data[i]
df = pd.DataFrame({'original_data': original_data})

# Create a MinMaxScaler object
scaler = MaxAbsScaler()
df['scaled_data'] = scaler.fit_transform(df[['original_data']])
df

In [None]:
fig = compare_plot(df)
fig.show()


# <font color='056938'> **Estandarización** </font>


La estandarización se basa principalmente en las tendencias centrales y la varianza de los datos, transfora los datos para centrarlos eliminando el valor de una medida de tendencia central de cada característica y escala con base en una medida de dispersión.

### <font color='157699'> **Standar scaling** </font>

Corresponde la estandarización de los datos de los datos alrededor de la media 0 y con una desviación estándar de 1. Es apropiada en aquellos casos en que la distribución de los datos es normal, aunque usualmente también se aplica cuando dicha distribucipon es desconocida.

Claro, la fórmula de la estandarización de un dato \( x \) para una característica en particular se expresa en LaTeX de la siguiente manera:

> $z = \frac{x - \mu}{\sigma}$

donde:
- $x$ es el valor original de la característica.
- $\mu$ es la media de la característica.
- $\sigma$ es la desviación estándar de la característica.
- $z$ es el valor estandarizado.

Esto transforma el valor $x$ en un valor $z$ que tiene una media de $0$ y una desviación estándar de $1$.

In [None]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler

# generate 1000 data points randomly drawn from an exponential distribution
original_data = np.random.exponential(size=1000)
# # get some negative values
# for i in range(len(original_data)):
#   if np.random.uniform() < 0.1:
#     original_data[i]=-original_data[i]
df = pd.DataFrame({'original_data': original_data})

# Create a MinMaxScaler object
scaler = StandardScaler()
df['scaled_data'] = scaler.fit_transform(df[['original_data']])
df

In [None]:
fig = compare_plot(df)
fig.show()

In [None]:
import numpy as np
np.random.seed(42)
# generate 1000 data points randomly drawn from an exponential distribution
original_data = np.random.normal(loc=6, scale=3, size=1000)
# get some outliers
for i in range(len(original_data)):
  if np.random.uniform() < 0.02:
    original_data[i]=10*original_data[i]

df = pd.DataFrame({'original_data': original_data})

# Create a MinMaxScaler object
scaler = StandardScaler()
df['scaled_data'] = scaler.fit_transform(df[['original_data']])
fig = compare_plot(df)
fig.show()

### <font color='157699'> **Robust scaling** </font>

En la presencia de valores atípicos, es probable que el escalado utilizando la media y la varianza de los datos no funcione muy bien. En estos casos, pueden usarse estimaciones más robustas para el centro y el rango de tus datos, como la mediana y el rango intercuartílico (IQR), que son menos sensibles a la influencia de los outliers.



$x_{\text{scaled}} = \frac{x - \text{median}(X)}{\text{IQR}(X)}$

donde:
- $\text{median}(X)$ es la mediana de la característica $X$.
- $\text{IQR}(X)$ es el rango intercuartílico de la característica $X $
- $x$ es el valor original de la característica.
- $x_{\text{scaled}}$ es el valor escalado.

El Robust Scaler es útil cuando se desea reducir el efecto de valores atípicos en el preprocesamiento de datos.

In [None]:
import numpy as np
np.random.seed(42)
import pandas as pd
import numpy as np
from sklearn.preprocessing import RobustScaler

# generate 1000 data points randomly drawn from an exponential distribution
original_data = np.random.normal(loc=6, scale=3, size=1000)
# get some outliers
for i in range(len(original_data)):
  if np.random.uniform() < 0.02:
    original_data[i]=10*original_data[i]
df = pd.DataFrame({'original_data': original_data})

# Create a MinMaxScaler object
scaler = RobustScaler()
df['scaled_data'] = scaler.fit_transform(df[['original_data']])
fig = compare_plot(df)
fig.show()

# <font color='056938'> **Reversar escalamiento** </font>

En algunos casos puede ser necesario reversar el proceso de escalamiento aplicado a una variable, para ello puede ser de utilidad la función `scaler.inverse_transform`

In [None]:
import pandas as pd
from sklearn.preprocessing import MinMaxScaler

# generate 1000 data points randomly drawn from an exponential distribution
original_data = np.random.exponential(size=1000)
df = pd.DataFrame({'original_data': original_data})

# Create a MinMaxScaler object
scaler = MinMaxScaler()
df['scaled_data'] = scaler.fit_transform(df[['original_data']])

# reversa la operación
df['reversed']= scaler.inverse_transform(df[['scaled_data']])
df.head()

# <font color='056938'> **Librerias para preprocesamiento** </font>
Hemos usado las funciones para preprocesamiento de libreria `sklearn`, en particular los distintos tipos de `scalers` que ella ofrece. Sin embargo, es importante notar que existen diversas librerias que permiten funcionalidades similares tales como:

* `Scikit-learn`
* `Statsmodels`
* `Scipy`
* `Feature-engine`
* `Pandas`



Si bien, es recomendable y práctico usar las librerias y sus funciones, es importante notar que haciendo uso de los concpetos vistos hasta ahora de pandas, podriamos lograr estos mismos resultador. Por ejemplo, hacer la normalización `min-max` de una variable sin usar ninguna libreria adicional:


In [None]:
import pandas as pd

df['min_max'] = (df['original_data']-df['original_data'].min())/(df['original_data'].max()-df['original_data'].min())
df.head()

# <font color='056938'> **Pandas `pipeline`** </font>

Los **pipelines** desempeñan un papel útil en la transformación y manipulación de grandes cantidades de datos. Un **pipeline** es una secuencia de mecanismos de procesamiento de datos. Estos nos permite encadenar varias funciones definidas por el usuario en Python para construir una secuencia de procesamiento de datos.



Así por ejemplo. Dado un conjunto de datos, podriamos estar interesados en automatizar la aplicación de las siguientes operaciones:
> ```
  Eliminar duplicados
  Eliminar registro con datos null en ciertas columnas
  Estandarizar ciertas columnas
  ```




Para ellos sería de utilidad crear un pipeline. Veamos como funcionaria en el siguiente ejemplo:



#### <font color='46B8A9'> **Ejemplo** </font>

Considere el siguiente dataframe con los datos de registro de algunos usuarios, el tiempo activo en la plataforma, su genero, la experiencia en codificación y el ingreso mensual

In [None]:
import pandas as pd
!gdown 16V6SHcpOeRMUewwlRZPIUtkaa3n4200d
df = pd.read_csv('registros_v3.csv')
df

Definimos las siguientes funciones:

* `remove_duplicates()`: Elimina registros duplicados
* `remove_nulls_columns()`: Elimina los registros que tengan valores nulos en las columnas `tiempo activo` e `ingreso`
* `scale_columns()`: Normaliza o estandariza la columnas `ingresos` y `tiempo activo`. Note que esta función recibe como uno de sus argumentos el tipo la función del tipo de escalamiento que deseamos aplicar a las variables


In [None]:
def remove_duplicates(df):
    return df.drop_duplicates()

def remove_nulls_columns(df):
    return df.dropna(subset=['tiempo_activo', 'ingreso'])

def scale_columns(df, scaler):
    scaler = scaler
    df[['tiempo_activo', 'ingreso']] = scaler.fit_transform(df[['tiempo_activo', 'ingreso']])
    return df


Ahora enlazamos la funciones a través de un `pipe`

In [None]:
from sklearn.preprocessing import StandardScaler


df_process = (
    df.pipe(remove_duplicates)
    .pipe(remove_nulls_columns)
    .pipe(scale_columns, scaler=StandardScaler())
)
df_process

#### <font color='46B8A9'> **Ejercicio** </font>

Considere el ejemplo anterior, genere un pipeline que dado el df original, realice las tareas necesarias para obtener un gráfico de dispersión (scatter) de los ingreso contra el tiempo de actividad en la plataforma

In [None]:
# Escriba aquí su respuesta


# <font color='056938'> **Reto de aplicación** </font>

Para este ejercicio, utilizaremos el conjunto de datos *Mall Customers* disponible en [Kaggle](https://www.kaggle.com/datasets/shwetabh123/mall-customers). Es un conjunto de datos  basado en un escenario hipotético. Contiene información básica sobre $200$ clientes ficticios de un centro comercial. El conjunto de datos consta de 5 columnas:

- `CustomerID`: Un identificador único para cada cliente.
- `Gender`: El género del cliente.
- `Age`: La edad del cliente.
- `Annual Income`: El ingreso anual del cliente (en miles de dólares).
- `Spending Score`: Una puntuación asignada al cliente en función de sus hábitos de gasto. La puntuación varía de 1 a 100, donde una puntuación más alta indica un cliente que gasta más.
- `Genre_Binary`: la columna `Gender` convertida a binario

Nuestro interes es segmentar los clientes en `k `grupos de clientes similares de modo que podemos hacer campañas de mercadeo específicas para cada grupo

In [None]:
import pandas as pd

# load data
!gdown 1LELVYMHNjY7H97asN_QUtybd4UWfcG-U

# create dataframe
df = pd.read_csv('mall_customers.csv')
df = df.rename(columns={
    'Annual Income (k$)': 'Annual Income',
    'Spending Score (1-100)': 'Spending Score'
})
# Mapping Gender to binary values: M -> 1, F -> 0
df['Genre_Binary'] = df['Genre'].map({'Female': 1, 'Male': 0})
df.head()

La siguiente función agrupa los clientes en `k` grupos, usando el algoritmo `k-means`, con base en las columnas `['Age', 'Annual Income',	'Spending Score',	'Genre_Binary']`

In [None]:
import pandas as pd
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
import numpy as np
import plotly.graph_objects as go
from plotly.subplots import make_subplots

def k_means(df, k, columns):
  # Fit the model to the unscaled data
  df_kmeans = df[columns]
  kmeans = KMeans(n_clusters=k, n_init= 10,random_state=42)
  kmeans.fit(df_kmeans)
  labels = kmeans.labels_
  df['Cluster'] = labels

  return df

# aplicamos la función de agrupación
k = 5
columns =  ['Age', 'Annual Income',	'Spending Score',	'Genre_Binary']
df_clustered = k_means(df, k, columns)
df_clustered.head()

Por su parte la siguiente función permite graficar las agrupaciones obtenidas con respecto a distintos pares de variables:

In [None]:
# Create subplots
def plot_clusters(df_clustered):
  fig = make_subplots(rows=1, cols=3, subplot_titles=['Age vs Annual Income', 'Age vs Spending Score', 'Annual Income vs Spending Score'])

  # Add traces to subplots
  fig.add_trace(go.Scatter(x=df_clustered['Age'], y=df['Annual Income'],
                          mode='markers', marker_color=df['Cluster'], marker_size=10, showlegend=False), row=1, col=1)
  fig.add_trace(go.Scatter(x=df_clustered['Age'], y=df['Spending Score'],
                          mode='markers', marker_color=df['Cluster'], marker_size=10, showlegend=False), row=1, col=2)
  fig.add_trace(go.Scatter(x=df_clustered['Annual Income'], y=df['Spending Score'],
                          mode='markers', marker_color=df['Cluster'], marker_size=10, showlegend=False), row=1, col=3)

  return fig

fig = plot_clusters(df_clustered)
fig.show()

Realice las operaciones necesarias que considere, escalando las vaiables, y compare los resultados que obtiene en las agrpaciones. Use las funciones definidas (`k_means()` y `plot_clusters())` para agrupar y graficar

In [None]:
# escriba aquí su respuesta