# Preprocesamiento de Datos en Scikit-Learn

## Caso de ejemplo: Uso de transformadores

1. **`MinMaxScaler`:** Transforma la escala de los valores del dataset a un array, cuyo rango es personalizable, aunque normalmente se le deja entre `0` y `1`.

In [30]:
import numpy as np

from sklearn.datasets import load_iris
from sklearn.preprocessing import MinMaxScaler, StandardScaler, OneHotEncoder

In [12]:
data: np.ndarray = np.array([[1, -1, 2], [2, 0, 0], [0, 1, -1]])
data

array([[ 1, -1,  2],
       [ 2,  0,  0],
       [ 0,  1, -1]])

In [13]:
scaler: MinMaxScaler = MinMaxScaler(feature_range=(0, 1))

In [14]:
scaled_data: np.ndarray = scaler.fit_transform(data)
scaled_data

array([[0.5       , 0.        , 1.        ],
       [1.        , 0.5       , 0.33333333],
       [0.        , 1.        , 0.        ]])

Usando datos más realistas...

In [21]:
iris: tuple = load_iris()
iris

{'data': array([[5.1, 3.5, 1.4, 0.2],
        [4.9, 3. , 1.4, 0.2],
        [4.7, 3.2, 1.3, 0.2],
        [4.6, 3.1, 1.5, 0.2],
        [5. , 3.6, 1.4, 0.2],
        [5.4, 3.9, 1.7, 0.4],
        [4.6, 3.4, 1.4, 0.3],
        [5. , 3.4, 1.5, 0.2],
        [4.4, 2.9, 1.4, 0.2],
        [4.9, 3.1, 1.5, 0.1],
        [5.4, 3.7, 1.5, 0.2],
        [4.8, 3.4, 1.6, 0.2],
        [4.8, 3. , 1.4, 0.1],
        [4.3, 3. , 1.1, 0.1],
        [5.8, 4. , 1.2, 0.2],
        [5.7, 4.4, 1.5, 0.4],
        [5.4, 3.9, 1.3, 0.4],
        [5.1, 3.5, 1.4, 0.3],
        [5.7, 3.8, 1.7, 0.3],
        [5.1, 3.8, 1.5, 0.3],
        [5.4, 3.4, 1.7, 0.2],
        [5.1, 3.7, 1.5, 0.4],
        [4.6, 3.6, 1. , 0.2],
        [5.1, 3.3, 1.7, 0.5],
        [4.8, 3.4, 1.9, 0.2],
        [5. , 3. , 1.6, 0.2],
        [5. , 3.4, 1.6, 0.4],
        [5.2, 3.5, 1.5, 0.2],
        [5.2, 3.4, 1.4, 0.2],
        [4.7, 3.2, 1.6, 0.2],
        [4.8, 3.1, 1.6, 0.2],
        [5.4, 3.4, 1.5, 0.4],
        [5.2, 4.1, 1.5, 0.1],
  

In [22]:
X: np.ndarray = iris['data']
y: np.ndarray = iris['target']

In [23]:
scaler: MinMaxScaler = MinMaxScaler(feature_range=(0, 1))

In [24]:
scaled_X: np.ndarray = scaler.fit_transform(X)
scaled_X

array([[0.22222222, 0.625     , 0.06779661, 0.04166667],
       [0.16666667, 0.41666667, 0.06779661, 0.04166667],
       [0.11111111, 0.5       , 0.05084746, 0.04166667],
       [0.08333333, 0.45833333, 0.08474576, 0.04166667],
       [0.19444444, 0.66666667, 0.06779661, 0.04166667],
       [0.30555556, 0.79166667, 0.11864407, 0.125     ],
       [0.08333333, 0.58333333, 0.06779661, 0.08333333],
       [0.19444444, 0.58333333, 0.08474576, 0.04166667],
       [0.02777778, 0.375     , 0.06779661, 0.04166667],
       [0.16666667, 0.45833333, 0.08474576, 0.        ],
       [0.30555556, 0.70833333, 0.08474576, 0.04166667],
       [0.13888889, 0.58333333, 0.10169492, 0.04166667],
       [0.13888889, 0.41666667, 0.06779661, 0.        ],
       [0.        , 0.41666667, 0.01694915, 0.        ],
       [0.41666667, 0.83333333, 0.03389831, 0.04166667],
       [0.38888889, 1.        , 0.08474576, 0.125     ],
       [0.30555556, 0.79166667, 0.05084746, 0.125     ],
       [0.22222222, 0.625     ,

2. **`StandardScaler`:** Transforma la escala de los valores del dataset a un array, cuyo rango que tenga una _media_ de `0` y una _desviación estándar_ de `1`. Es particularmente útil para algoritmos que asumen que todas las características del dataset tienen una _distribución normal_.

In [26]:
std_scaler: StandardScaler = StandardScaler()

In [27]:
data_std: np.ndarray = std_scaler.fit_transform(data)
data_std

array([[ 0.        , -1.22474487,  1.33630621],
       [ 1.22474487,  0.        , -0.26726124],
       [-1.22474487,  1.22474487, -1.06904497]])

In [29]:
# Verificar la desviación estandar de la transformación
np.std(data_std)

1.0

3. **`OneHotEncoder`:** A diferencia de los anteriores, se utiliza para convertir variables categóricas (e.g. cadenas de caracteres) a variables numéricas, una forma que pueda ser proporcionada a los algoritmos de aprendizaje automático. En concreto, devuelve una columna binaria por cada categoría y va a marcar un `1` cuando se esté presentando esa categoría.

In [31]:
categories: np.ndarray = np.array([
    ['red'], ['green'], ['blue'],
    ['green'], ['green'], ['blue']
])
categories

array([['red'],
       ['green'],
       ['blue'],
       ['green'],
       ['green'],
       ['blue']], dtype='<U5')

In [32]:
encoder: OneHotEncoder = OneHotEncoder(sparse_output=False)

El parámetro `sparse_output=False` evita que `OneHotEncoder` devuelva una _matriz dispersa_, las cuales son mucho más eficientes computacionalmente y tiene mucho menos peso, pero no son tan prácticas para visualizar estos datos simples.

In [33]:
encoded_categories: np.ndarray = encoder.fit_transform(categories)
encoded_categories

array([[0., 0., 1.],
       [0., 1., 0.],
       [1., 0., 0.],
       [0., 1., 0.],
       [0., 1., 0.],
       [1., 0., 0.]])