# Preprocesamiento de Datos

En esta lección vamos a centrarnos en un aspecto fundamental de cualquier proyecto de **Machine Learning**, que es una parte muy importante de la *transformación de los datos*, y que se denomina **preprocesamiento de datos**. Más específicamente vamos a ver qué recursos nos brinda **Scikit-Learn** para hacer este procedimiento.

Preparar correctamente nuestros datos es crucial para el rendimiento de los modelos que desarrollaremos más adelante. Datos mal preparados, o pobremente preparados, van a devolver malos resultados, así que a prestar atención a esto.

**Scikit-Learn** es muy útil para *transformar* y para *normalizar* datos de manera efectiva, ya que nos brinda herramientas como `MinMaxScaler`, `StandardScaler` y `OneHotEncoder`, que, para relacionarlo con lo que vimos en la lección anterior, son **transformadores**. Ya hemos conocido algunos de ellos, y a otros los vamos a conocer ahora.

Comencemos importando las librerías que vamos a necesitar para los ejemplos de esta lección, entre las que se encuentran estos 3 elementos. Todos ellos están almacenados en `sklearn.preprocessing`.

In [1]:
import numpy as np
from sklearn.datasets import load_iris

# Llamamos a `preprocessing` solo una vez, para importar los 3 recursos de preprocesamiento
from sklearn.preprocessing import MinMaxScaler, StandardScaler, OneHotEncoder

### ¿Por Qué es Importante el Preprocesamiento?

Como vimos en la lección anterior, al trabajar con datos en Machine Learning, primero tenemos que hacer *estimaciones*, luego *transformaciones*, y finalmente *predicciones*. Durante el momento de las transformaciones es esencial hacer el **proprocesamiento de los datos** ¿por qué?
+ **Mejora del Rendimiento del Modelo**: Datos bien preparados pueden mejorar significativamente la precisión y la eficiencia de nuestros modelos.
+ **Consistencia de los Datos**: Normalizar los datos asegura que todas las características de los datos contribuyan equitativamente para el aprendizaje del modelo, y así evitamos que ciertas características dominen por su escala.
+ **Manejo de Datos Faltantes y Categóricos**: A menudo, los conjuntos de datos contienen valores faltantes o algunos campos que tienen etiquetas categóricas (y no numéricas) que necesitan ser tratadas antes del análisis.

Ahora sí, veamos las herramientas que disponemos para el preprocesamiento.


### MinMaxScaler

`MinMaxScaler` es una herramienta que ya hemos usado, pero ahora la vamos a ver un poco más en detalle con algunos ejemplos, antes de pasar a las siguientes. Lo que hace `MinMaxScaler` es transformar las características, **cambiando la escala de sus valores** a un rango dado, que normalmente es entre `0` y `1`. 

Veamos un ejemplo concreto:

In [2]:
data = np.array([[1, -1, 2],
                [2, 0, 0],
                [0, 1, -1]])
data

array([[ 1, -1,  2],
       [ 2,  0,  0],
       [ 0,  1, -1]])

Y ahora vamos a usar a `MinMaxScaler` para pasar los datos originales a una escala entre `0` y `1`.

In [3]:
scaler = MinMaxScaler(feature_range=(0, 1))
data_escalada = scaler.fit_transform(data)
data_escalada

array([[0.5       , 0.        , 1.        ],
       [1.        , 0.5       , 0.33333333],
       [0.        , 1.        , 0.        ]])

Antes de pasar a la siguiente herramienta, te quiero mostrar a `MinMaxScaler` con datos un poco más reales. Lo apliquemos al dataset `iris`.

In [4]:
iris = load_iris()
X = iris.data

Creamos una instancia de `MinMaxScaler` (aunque en este cuaderno no es necesario, porque ya lo hice antes con el ejemplo anterior, pero lo repito solamente para que veas el proceso completo)

In [5]:
scaler = MinMaxScaler(feature_range=(0, 1))

Ajustamos el `scaler` al dataset `iris`, y transformamos los datos.

In [6]:
X_escalado = scaler.fit_transform(X)

Y ahora mostramos algunos de los datos escalados para verificar la diferencia.

In [7]:
print("Datos Originales")
print(X[:5])
print("\nDatos Escalados")
print(X_escalado[:5])

Datos Originales
[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]]

Datos Escalados
[[0.22222222 0.625      0.06779661 0.04166667]
 [0.16666667 0.41666667 0.06779661 0.04166667]
 [0.11111111 0.5        0.05084746 0.04166667]
 [0.08333333 0.45833333 0.08474576 0.04166667]
 [0.19444444 0.66666667 0.06779661 0.04166667]]


### StandardScaler

La siguente herramienta (o el siguiente transformador) que podemos usar para el preprocesamiento de nuestros datos, se llama **StandardScaler**, y se utiliza para escalar los datos de manera que los datos resultantes tengan una **media de `0`** y una **desviación estándar de `1`**. Esto es ideal para algoritmos que asumen que todas las características tienen una distribución normal.

In [8]:
scaler2 = StandardScaler()
data_escalada2 = scaler2.fit_transform(data)
data_escalada2

array([[ 0.        , -1.22474487,  1.33630621],
       [ 1.22474487,  0.        , -0.26726124],
       [-1.22474487,  1.22474487, -1.06904497]])

Como puedes ver, al compararlo con los resultados de `MinMaxScaler` son evidentes las diferencias en lo que hace cada uno de ellos.

`MinMaxScaler` hace su escala de acuerdo a los **valores mínimos y máximos** que le hayas pasado, mientras que `StandardScaler` se preocupa en escalar los datos cuidando **que la media sea `0` y que la desviación estándar sea `1`**, y eso nos devuelve resultados diferentes, pero escalados al fin y al cabo.

Podemos comprobar la **desviación estándar** de estos datos escalados.

In [9]:
np.std(data_escalada2)

1.0

### OneHotEncoder

Y finalmente le toca el turno al tercer transformador que nos brinda Scikit-Learn para hacer preprocesamiento de datos, y se trata de **OneHotEncoder**.

El **OneHotEncoder** solamente se usa para **variables categóricas** (no numéricas), y su objetivo es convertir a esas variables categóricas en una forma que pueda ser proporcionada a los algoritmos de Machine Learning.

**OneHotEncoder** nos va a devolver una **columna binaria por cada categoría**, marcando con un `1` la presencia de una categoría.

Supongamos que tenemos una característica categórica con tres categorías posibles: `rojo`, `verde`, y `azul`.

In [10]:
categorias = np.array([["rojo"], ["verde"], ["azul"], ["verde"], ["verde"], ["azul"]])
categorias

array([['rojo'],
       ['verde'],
       ['azul'],
       ['verde'],
       ['verde'],
       ['azul']], dtype='<U5')

In [11]:
encoder = OneHotEncoder(sparse_output=False)
data_codificada = encoder.fit_transform(categorias)
data_codificada

array([[0., 1., 0.],
       [0., 0., 1.],
       [1., 0., 0.],
       [0., 0., 1.],
       [0., 0., 1.],
       [1., 0., 0.]])

*******

Entonces en esta lección hemos profundizado en un aspecto de la transformación de datos, que se llama **preprocesamiento**, y que es fundamental para poder pasar nuestros datos a los algoritmos de machine learning, si es que queremos obtener resultados confiables.

Hemos visto que **Scikit-Learn** nos brinda herramientas muy poderosas para transformar y normalizar esos datos, y con ejemplos prácticos, hemos visto cómo aplicar `MinMaxScaler`, `StandardScaler`, y `OneHotEncoder` para mejorar la calidad y la consistencia de nuestros datos.

Espero que hayas encontrado útiles estos métodos y te sientas preparado para aplicarlos en tus proyectos de Data Science.