# Escalamiento de números

Cuando trabajamos con datos, es común encontrarnos con variables que tienen diferentes escalas o magnitudes. Por ejemplo, imagina un dataset de datos médicos en donde podemos encontrar información relacionada con el peso y altura de las personas. En este dataset el peso varía entre 50 y 150 kilogramos, mientras que la altura varía entre 1.50 y 1.90 metros.



In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

def make_dataset(n):
    min_w, max_w = 50, 150
    noise_w = np.random.normal(0, 10, n)
    weights = np.random.uniform(min_w, max_w, n)
    
    min_h, max_h = 1.50, 1.90
    noise_h = np.random.normal(0, 10, n)
    heights = np.random.uniform(min_h, max_h, n)
    return np.vstack([weights, heights]).T
    
def plot(ax, dataset, title):
    weights, heights = dataset[:,0], dataset[:,1]
    noise = np.random.uniform(-0.2, 0.2, len(weights))
    ax.scatter(
        weights,
        np.full(len(weights), 1) + noise,
    )
    ax.scatter(
        heights,
        np.full(len(heights), 2) + noise,
    )
    ax.set_ylim(0.5, 2.5)
    ax.set_yticks([1, 2], ['Weight','Height'])
    ax.set_title(title)
    return ax

def show_dataframe(dataset):
    return pd.DataFrame(dataset, columns=['Weight', 'Height'])

def plot_dataset(*objects):
    objects = [(objects[i], objects[i+1]) for i in range(0, len(objects) -1, 2)]
    plots = len(objects)
    fig, axs = plt.subplots(1, plots, figsize=(5 * plots, 5))
    if len(objects) == 1:
        axs = [axs]
    for (dataset, title), ax in zip(objects, axs):
        plot(ax, dataset, title)
    fig.tight_layout()

In [None]:
original_dataset = make_dataset(100)
show_dataframe(original_dataset)

In [None]:
fig = plt.figure()
ax = fig.gca()
plot(ax, original_dataset, "Original data")

Nuestro modelo de machine learning no tiene noción de que unas cosas están medidas en kilogramos y otras en metros y si los datos no están escalados, algunos atributos pueden tener más peso que otros debido a sus escalas, lo que puede llevar a decisiones incorrectas del modelo.

Volviendo a nuestro ejemplo, puede que el algoritmo “se fije” más en el peso puesto que es la que tiene un rango de varianza mayor, 100, mientras que el peso de solo 0.4. Es aquí en donde entra la importancia de escalar nuestras variables.

## ¿Por qué es importante?

En concreto, podemos pensar en tres razones por las cuales vale la pena escalar los valores:

 1. Facilita el entrenamiento: Al tener todas las características en la misma escala, los algoritmos de Machine Learning convergen más rápido hacia un mínimo en la función de pérdida.

 1. Mejora el rendimiento: Algunos algoritmos, como SVM o KNN, que se basan en distancias, son muy sensibles a la escala de los datos y pueden dar resultados incorrectos si las características no están estandarizadas.

 1. Permite una interpretación más fácil: Al estandarizar, podemos comparar la importancia relativa de las características en nuestro modelo.

## ¿Cómo realizarlo?

Existen diversas técnicas para lograr el escalado de variables, y podemos usar las más comunes con scikit-learn.

### Estandarización

La estandarziación es tal vez la más común de las transformaciones de escalamiento, consiste en centrar todos los datos de un atributo dado del conjunto en 0 y hacer que su varianza sea 1.



In [None]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
standard_scaled = scaler.fit_transform(original_dataset)

plot_dataset(
    original_dataset, "Original data",
    standard_scaled, "Standardized data")

Este escalador se es utilizado comúnmente cuando tienes datos que están distribuidos normalmente y quieres que todos tus datos tengan escalas similares. También ten en cuenta que el rango de las características es variable. Es también usado cuando estás preparando datos para una regresión o redes neuronales.

### Escalamiento min-max

Esta técnica de escalamiento nos ayuda a transformar los valores de nuestro dataset de tal forma que queden dentro de un rango conocido.



In [None]:
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
minmax_dataset = scaler.fit_transform(original_dataset)

plot_dataset(
    original_dataset, "Original data",
    minmax_dataset, "Min-max scaled data")

Utiliza este escalador cuando quieras que los datos queden entre un rango determinado, en este caso, entre 0 y 1 por default - especialmente útil para modelos basados en distancia, como el modelo de k-Nearest neighbours o SVM. En este caso, no importa mucho que tus características estén distribuidas normalmente.

### Escalamiento máximo absoluto

Este escalador transforma los datos dividiéndolos por el valor máximo absoluto de cada variable. Esto es útil cuando se trabaja con datos que tienen valores muy grandes o muy pequeños.



In [None]:
from sklearn.preprocessing import MaxAbsScaler
scaler = MaxAbsScaler()
maxabs_scaled = scaler.fit_transform(original_dataset)

plot_dataset(
    original_dataset, "Original data",
    maxabs_scaled, "Max-abs scaled data")

<code>MaxAbsScaler</code> es una buena opción cuando las características son dispersas o en su mayoría cero y tienen escalas variables. También es útil cuando se utilizan redes neuronales o modelos lineales dispersos como Logistic Regression o SVM.

### Otras formas de escalar valores

Scikit-learn cuenta además con otros escaladores que no podremos cubrir aquí, pero que son más especializados para trabajar con datos con otras distribuciones que ayudan a transformar datos a valores escalados y con distribuciones normales para ser procesados.

from sklearn.preprocessing import QuantileTransformer
from sklearn.preprocessing import RobustScaler
from sklearn.preprocessing import PowerTransform

Y pues ahí lo tienes, espero que hayas entendido el valor de escalar tus datos y que de ahora en adelante hagas uso de esta técnica en tus proyectos. 