<figure> 
<img src="../Imagenes/logo-final-ap.png"  width="80" height="80" align="left"/> 
</figure>

# <span style="color:blue"><left>Aprendizaje Profundo</left></span>

# <span style="color:red"><center>Pre-procesamiento de datos</center></span>

##   <span style="color:blue">Profesores</span>

1. Alvaro Mauricio Montenegro Díaz, ammontenegrod@unal.edu.co
2. Daniel Mauricio Montenegro Reyes, dextronomo@gmail.com 
3. Campo Elías Pardo Turriago, cepardot@unal.edu.co 
4. Camilo José Torres Jiménez, MSc, cjtorresj@unal.edu.co

##   <span style="color:blue">Estudiantes auxiliares</span>

##   <span style="color:blue">Asesora Medios y Marketing digital</span>
 

1. Maria del Pilar Montenegro, pmontenegro88@gmail.com 

##   <span style="color:blue">Introducción al preprocesamiento de datos con scikit-learn</span>

El preprocesamiento de datos es un paso fundamental en el análisis de datos y el aprendizaje automático. Para abordar este importante proceso, scikit-learn, una de las bibliotecas de aprendizaje automático más utilizadas, ofrece un conjunto poderoso de herramientas y transformadores en su módulo `sklearn.preprocessing`. Este paquete está diseñado para ayudar a los científicos de datos y a los ingenieros de aprendizaje automático a preparar sus datos de manera efectiva para aplicar algoritmos de aprendizaje y modelado.

En el mundo real, los conjuntos de datos suelen ser desordenados, ruidosos y contener una variedad de características. El paquete `sklearn.preprocessing` aborda estos desafíos al proporcionar una serie de métodos y transformadores que permiten:

1. **Limpieza de Datos:** Identificar y tratar valores faltantes, valores atípicos y datos inconsistentes que pueden afectar negativamente el rendimiento de los modelos.

2. **Normalización y Escalado:** Asegurar que las características tengan la misma escala, lo que es crucial para algoritmos sensibles a la magnitud de las características, como las máquinas de soporte vectorial (SVM) y la regresión logística.

3. **Codificación de Variables Categóricas:** Convertir variables categóricas en representaciones numéricas adecuadas para el aprendizaje automático.

4. **Reducción de Dimensionalidad:** Reducir la complejidad de los datos al conservar solo las características más informativas, lo que puede mejorar la eficiencia del modelo y evitar problemas de sobreajuste.

5. **Generación de Características:** Crear nuevas características a partir de las existentes para capturar información adicional y mejorar la capacidad predictiva de los modelos.

El material del cuaderno está basado en la documentación oficial de [scikit-learn](https://scikit-learn.org/stable/modules/preprocessing.html#preprocessing) para preprocesamiento.

El paquete `sklearn.preprocessing` proporciona varias funciones de utilidad comunes y clases de transformadores para convertir vectores de características en bruto en una representación más adecuada para los estimadores posteriores.

En general, los algoritmos de aprendizaje se benefician de la estandarización del conjunto de datos. Si hay valores atípicos presentes en el conjunto, es más apropiado utilizar escaladores o transformadores robustos. Los comportamientos de los diferentes escaladores, transformadores y normalizadores en un conjunto de datos que contiene valores atípicos marginales se destacan en "Comparar el efecto de diferentes escaladores en datos con valores atípicos".

##   <span style="color:blue">Estandarización, o eliminación de la media y escalado de la varianza.</span>

La estandarización de conjuntos de datos es un requisito común para muchos estimadores de aprendizaje automático implementados en scikit-learn; pueden comportarse de manera deficiente si las características individuales no se parecen más o menos a datos distribuidos normalmente estándar: Gaussianos con media cero y varianza unitaria.

En la práctica, a menudo ignoramos la forma de la distribución y simplemente transformamos los datos para centrarlos, eliminando el valor medio de cada característica, y luego los escalamos dividiendo las características no constantes por su desviación estándar.

Por ejemplo, muchos elementos utilizados en la función objetivo de un algoritmo de aprendizaje (como el kernel RBF de las Máquinas de Soporte Vectorial o los regularizadores l1 y l2 de modelos lineales) pueden asumir que todas las características están centradas alrededor de cero o tienen varianza en el mismo orden de magnitud. Si una característica tiene una varianza que es órdenes de magnitud mayor que otras, puede dominar la función objetivo y hacer que el estimador no pueda aprender correctamente de otras características como se esperaba.

El módulo de preprocesamiento proporciona la clase de utilidad StandardScaler, que es una forma rápida y sencilla de realizar la siguiente operación en un conjunto de datos similar a una matriz:

In [1]:
# Importa las bibliotecas necesarias
from sklearn import preprocessing
import numpy as np

# Crea una matriz de ejemplo
X_train = np.array([[1., -1., 2.],
                    [2., 0., 0.],
                    [0., 1., -1.]])

# Inicializa el objeto StandardScaler y ajusta (fit) los datos
scaler = preprocessing.StandardScaler().fit(X_train)

# Verifica el objeto scaler
scaler

In [2]:
# Media de las características
scaler.mean_

array([1.        , 0.        , 0.33333333])

In [3]:
# Escala de las características
scaler.scale_

array([0.81649658, 0.81649658, 1.24721913])

In [4]:
# Transforma los datos utilizando el scaler
X_scaled = scaler.transform(X_train)
X_scaled

array([[ 0.        , -1.22474487,  1.33630621],
       [ 1.22474487,  0.        , -0.26726124],
       [-1.22474487,  1.22474487, -1.06904497]])

Los datos escalados tienen una media cero y una varianza unitaria.

In [5]:
# Calcular la media de las características escaladas a lo largo del eje 0 (columnas)
mean_scaled = X_scaled.mean(axis=0)
mean_scaled

array([0., 0., 0.])

In [6]:
# Calcular la desviación estándar de las características escaladas a lo largo del eje 0 (columnas)
std_scaled = X_scaled.std(axis=0)
std_scaled

array([1., 1., 1.])

Esta clase implementa la API de transformadores para calcular la media y la desviación estándar en un conjunto de entrenamiento, de modo que sea posible volver a aplicar la misma transformación más tarde en el conjunto de pruebas. Por lo tanto, esta clase es adecuada para su uso en las primeras etapas de un Pipeline:

In [7]:
# Importa las bibliotecas necesarias
from sklearn.datasets import make_classification
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler

# Genera datos de clasificación sintéticos
X, y = make_classification(random_state=42)

# Divide los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

# Crea un pipeline que incluye la estandarización y un modelo de regresión logística
pipe = make_pipeline(StandardScaler(), LogisticRegression())

# Ajusta el pipeline al conjunto de entrenamiento (aplicando la estandarización)
pipe.fit(X_train, y_train)

# Muestra el pipeline
pipe

In [8]:
# Evalúa el modelo en el conjunto de prueba (aplicando la estandarización)
score = pipe.score(X_test, y_test)
score

0.96

Es posible desactivar la centralización o el escalado pasando with_mean=False o with_std=False al constructor de StandardScaler.

##   <span style="color:blue">Escalar características a un rango</span>

Una alternativa de estandarización es escalar las características para que se encuentren dentro de un valor mínimo y máximo dado, a menudo entre cero y uno, o de manera que el valor absoluto máximo de cada característica se escale a tamaño unitario. Esto se puede lograr utilizando MinMaxScaler o MaxAbsScaler, respectivamente.

La motivación para utilizar este tipo de escalado incluye la robustez frente a desviaciones estándar muy pequeñas de las características y la preservación de entradas en cero en datos dispersos (sparse data).

Aquí tienes un ejemplo para escalar una matriz de datos de juguete al rango [0, 1]:

In [10]:
# Importa las bibliotecas necesarias
from sklearn import preprocessing
import numpy as np

# Crea una matriz de ejemplo
X_train = np.array([[1., -1., 2.],
                    [2., 0., 0.],
                    [0., 1., -1.]])

# Inicializa el objeto MinMaxScaler
min_max_scaler = preprocessing.MinMaxScaler()

# Aplica la transformación Min-Max a los datos de entrenamiento
X_train_minmax = min_max_scaler.fit_transform(X_train)

# Muestra la matriz de datos después de la transformación Min-Max
X_train_minmax

array([[0.5       , 0.        , 1.        ],
       [1.        , 0.5       , 0.33333333],
       [0.        , 1.        , 0.        ]])

La misma instancia del transformador luego se puede aplicar a algunos nuevos datos de prueba que no se vieron durante la llamada al método "fit": las mismas operaciones de escalado y desplazamiento se aplicarán para que sean coherentes con la transformación realizada en los datos de entrenamiento:

In [11]:
# Importa las bibliotecas necesarias
import numpy as np
from sklearn.preprocessing import MinMaxScaler

# Crea un conjunto de prueba con características
X_test = np.array([[-3., -1.,  4.]])

# Utiliza el transformador MinMaxScaler previamente creado
X_test_minmax = min_max_scaler.transform(X_test)

# Muestra el conjunto de prueba escalado utilizando MinMaxScaler
X_test_minmax

array([[-1.5       ,  0.        ,  1.66666667]])

Es posible inspeccionar los atributos del escalador para obtener información sobre la naturaleza exacta de la transformación aprendida en los datos de entrenamiento:

In [12]:
# Mostrar la escala y el mínimo después de aplicar Min-Max Scaling
min_max_scaler.scale_

array([0.5       , 0.5       , 0.33333333])

In [13]:
# Mostrar el mínimo después de aplicar Min-Max Scaling
min_max_scaler.min_

array([0.        , 0.5       , 0.33333333])

Si se proporciona un rango de características explícito (feature_range=(min, max)) a MinMaxScaler, la fórmula completa es la siguiente:

In [None]:
X_std = (X - X.min(axis=0)) / (X.max(axis=0) - X.min(axis=0))

X_scaled = X_std * (max - min) + min

MaxAbsScaler funciona de manera muy similar, pero escala de tal manera que los datos de entrenamiento se encuentran dentro del rango [-1, 1] dividiendo por el valor máximo más grande en cada característica. Está diseñado para datos que ya están centrados en cero o para datos dispersos.

Aquí tienes cómo usar los datos de juguete del ejemplo anterior con este escalador:

In [14]:
# Importa las bibliotecas necesarias
import numpy as np
from sklearn import preprocessing

# Datos de entrenamiento
X_train = np.array([[ 1., -1.,  2.],
                    [ 2.,  0.,  0.],
                    [ 0.,  1., -1.]])

# Inicializa el transformador MaxAbsScaler
max_abs_scaler = preprocessing.MaxAbsScaler()

# Aplica MaxAbsScaler al conjunto de entrenamiento
X_train_maxabs = max_abs_scaler.fit_transform(X_train)

# Muestra el conjunto de entrenamiento escalado con MaxAbsScaler
X_train_maxabs

array([[ 0.5, -1. ,  1. ],
       [ 1. ,  0. ,  0. ],
       [ 0. ,  1. , -0.5]])

In [15]:
# Datos de prueba
X_test = np.array([[ -3., -1.,  4.]])

# Aplica MaxAbsScaler al conjunto de prueba
X_test_maxabs = max_abs_scaler.transform(X_test)

# Muestra el conjunto de prueba escalado con MaxAbsScaler
X_test_maxabs

array([[-1.5, -1. ,  2. ]])

In [16]:
# Muestra las escalas utilizadas por MaxAbsScaler
max_abs_scaler.scale_

array([2., 1., 2.])

##   <span style="color:blue">Escalar datos dispersos.</span>

Centrar datos dispersos destruiría la estructura de dispersión en los datos, por lo que rara vez es algo sensato hacer. Sin embargo, puede tener sentido escalar entradas dispersas, especialmente si las características están en diferentes escalas.

MaxAbsScaler fue diseñado específicamente para escalar datos dispersos y es la forma recomendada de hacerlo. Sin embargo, StandardScaler puede aceptar matrices dispersas de scipy como entrada, siempre y cuando se pase explícitamente with_mean=False al constructor. De lo contrario, se generará un ValueError, ya que centrar silenciosamente rompería la dispersión y, a menudo, causaría la interrupción de la ejecución al asignar inadvertidamente cantidades excesivas de memoria. RobustScaler no se puede ajustar a entradas dispersas, pero puedes utilizar el método de transformación en entradas dispersas.

Ten en cuenta que los escaladores aceptan tanto el formato de Compressed Sparse Rows como el de Compressed Sparse Columns (consulta scipy.sparse.csr_matrix y scipy.sparse.csc_matrix). Cualquier otra entrada dispersa se convertirá en la representación de Compressed Sparse Rows. Para evitar copias innecesarias de memoria, se recomienda elegir la representación CSR o CSC en la entrada original.

Por último, si se espera que los datos centralizados sean lo suficientemente pequeños, otra opción es convertir explícitamente la entrada en una matriz utilizando el método toarray de las matrices dispersas.

##   <span style="color:blue">Escalar datos con valores atípicos.</span>

Si tus datos contienen muchos valores atípicos, escalarlos utilizando la media y la varianza de los datos probablemente no funcionará muy bien. En estos casos, puedes utilizar RobustScaler como un reemplazo directo. Utiliza estimaciones más robustas para el centro y el rango de tus datos.

Referencias:

Una discusión más detallada sobre la importancia de centrar y escalar los datos está disponible en esta FAQ: ¿Debo normalizar/estandarizar/reescalar los datos? [http://www.faqs.org/faqs/ai-faq/neural-nets/part2/section-16.html]

Escalar vs. Blanquear (Whitening)

A veces, no es suficiente centrar y escalar las características de manera independiente, ya que un modelo posterior puede hacer suposiciones adicionales sobre la independencia lineal de las características.

Para abordar este problema, puedes utilizar PCA con whiten=True para eliminar aún más la correlación lineal entre las características.

##   <span style="color:blue">Centrar las matrices de kernel</span>

Si tienes una matriz de kernel de un kernel $K$ que calcula un producto punto en un espacio de características (posiblemente implícito) definido por una función $\phi(\cdot)$, un KernelCenterer puede transformar la matriz de kernel para que contenga productos internos en el espacio de características definido por $\phi(\cdot)$ seguido de la eliminación de la media en ese espacio. En otras palabras, KernelCenterer calcula la matriz de Gram centrada asociada a un kernel semidefinido positivo $K$.

Formulación matemática

Podemos echar un vistazo a la formulación matemática ahora que tenemos la intuición. Sea $K$ una matriz de kernel de forma (n_samples, n_samples) calculada a partir de X, una matriz de datos de forma (n_samples, n_features), durante el paso de ajuste. $K$ está definida por:

$$
K(X, X) = \phi(X) \cdot \phi(X)^{T}
$$

$\phi(X)$ es una función que asigna X a un espacio de Hilbert. Un kernel centrado $\tilde{K}$ se define como:

$$
\tilde{K}(X, X) = \tilde{\phi}(X) \cdot \tilde{\phi}(X)^{T}
$$

donde $\tilde{\phi}(X)$ resulta de centrar $\phi(X)$ en el espacio de Hilbert.

Así, uno podría calcular $\tilde{K}$ mapeando $X$ utilizando la función $\phi(\cdot)$ y centrando los datos en este nuevo espacio. Sin embargo, los kernels a menudo se utilizan porque permiten algunos cálculos algebraicos que evitan calcular explícitamente este mapeo utilizando $\phi(\cdot)$. De hecho, uno puede centrar implícitamente como se muestra en el Apéndice B en [Scikit-Learn](https://scikit-learn.org/stable/modules/preprocessing.html#scholkopf1998):

$$
\tilde{K} = K - 1_{\text{n}_{samples}} K - K 1_{\text{n}_{samples}} + 1_{\text{n}_{samples}} K 1_{\text{n}_{samples}}
$$

$1_{\text{n}_{samples}}$ es una matriz de (n_samples, n_samples) donde todas las entradas son iguales a $\frac{1}{\text{n}_{samples}}$. En el paso de transformación, el kernel se convierte en $K_{test}(X, Y)$ definido como:

$$
K_{test}(X, Y) = \phi(Y) \cdot \phi(X)^{T}
$$

$Y$ es el conjunto de pruebas de datos de forma (n_samples_test, n_features) y, por lo tanto, $K_{test}$ es de forma (n_samples_test, n_samples). En este caso, el centrado de $K_{test}$ se realiza como:

$$
\tilde{K}_{test}(X, Y) = K_{test} - 1'_{\text{n}_{samples}} K - K_{test} 1_{\text{n}_{samples}} + 1'_{\text{n}_{samples}} K 1_{\text{n}_{samples}}
$$

$1'_{\text{n}_{samples}}$ es una matriz de forma (n_samples_test, n_samples) donde todas las entradas son iguales a $\frac{1}{\text{n}_{samples}}$.

Referencias
- [Scikit-Learn](https://scikit-learn.org/stable/modules/preprocessing.html#scholkopf1998)
- B. Schölkopf, A. Smola, and K.R. Müller, "[MLpack - Kernel Principal Component Analysis](https://www.mlpack.org/papers/kpca.pdf)." Neural computation 10.5 (1998): 1299-1319.

##   <span style="color:blue">Tranformación no lineal</span>

Dos tipos de transformaciones están disponibles: transformaciones de cuantiles y transformaciones de potencia. Tanto las transformaciones de cuantiles como las de potencia se basan en transformaciones monótonas de las características y, por lo tanto, preservan la clasificación de los valores a lo largo de cada característica.

Las transformaciones de cuantiles colocan todas las características en la misma distribución deseada según la fórmula
$G_{-1}(F(X_i))$ donde $F$ es la función de distribución acumulativa de la característica y $G_{-1}$ es la función de cuantiles de la distribución de salida deseada. Esta fórmula se basa en los dos siguientes hechos: (i) si $X$ es una variable aleatoria con una función de distribución acumulativa continua $F$, entonces $F(X)$ está uniformemente distribuido en [0, 1]; (ii) si $U$ es una variable aleatoria con una distribución uniforme en [0, 1], entonces $G^{-1}(U)$ tiene una distribución $G$.

Al realizar una transformación de rango, una transformación de cuantiles suaviza las distribuciones inusuales y se ve menos influenciada por valores atípicos que los métodos de escalado. Sin embargo, distorsiona correlaciones y distancias dentro y entre características.

Las transformaciones de potencia son una familia de transformaciones paramétricas que tienen como objetivo mapear los datos desde cualquier distribución hacia una distribución gaussiana lo más cercana posible.

###   <span style="color:blue">Mapeo a una distribución uniforme.</span>

QuantileTransformer proporciona una transformación no paramétrica para mapear los datos a una distribución uniforme con valores entre 0 y 1:

In [17]:
# Importa las bibliotecas necesarias
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn import preprocessing
import numpy as np

# Carga el conjunto de datos de Iris y divide los datos en conjuntos de entrenamiento y prueba
X, y = load_iris(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

# Aplica la transformación de cuantiles utilizando el QuantileTransformer
quantile_transformer = preprocessing.QuantileTransformer(random_state=0)
X_train_trans = quantile_transformer.fit_transform(X_train)
X_test_trans = quantile_transformer.transform(X_test)

# Calcula los percentiles de la primera característica del conjunto de entrenamiento
percentiles = np.percentile(X_train[:, 0], [0, 25, 50, 75, 100])
percentiles



array([4.3, 5.1, 5.8, 6.5, 7.9])

Este atributo corresponde a la longitud del sépalo en centímetros. Una vez aplicada la transformación de cuantiles, estos puntos de referencia se acercan estrechamente a los percentiles previamente definidos.

In [18]:
np.percentile(X_train_trans[:, 0], [0, 25, 50, 75, 100])

array([0.        , 0.23873874, 0.50900901, 0.74324324, 1.        ])

Esto se puede confirmar en un conjunto de prueba independiente con observaciones similares:

In [19]:
np.percentile(X_test[:, 0], [0, 25, 50, 75, 100])

array([4.4  , 5.125, 5.75 , 6.175, 7.3  ])

In [20]:
np.percentile(X_test_trans[:, 0], [0, 25, 50, 75, 100])

array([0.01351351, 0.25      , 0.47747748, 0.60472973, 0.94144144])

###   <span style="color:blue">Mapeo a una distribución gausiana.</span>

Por supuesto, aquí está el mismo texto con los símbolos \[ reemplazados por $$:

En muchos escenarios de modelado, la normalidad de las características en un conjunto de datos es deseable. Las transformaciones de potencia son una familia de transformaciones paramétricas y monótonas que tienen como objetivo mapear los datos desde cualquier distribución lo más cerca posible de una distribución gaussiana para estabilizar la varianza y minimizar la asimetría.

PowerTransformer proporciona actualmente dos de estas transformaciones de potencia, la transformación Yeo-Johnson y la transformación Box-Cox.

La transformación Yeo-Johnson se define como:

$$
x_i^{(\lambda)} =
\begin{cases}
 [(x_i + 1)^\lambda - 1] / \lambda & \text{si } \lambda \neq 0, x_i \geq 0, \\[8pt]
\ln{(x_i + 1)} & \text{si } \lambda = 0, x_i \geq 0 \\[8pt]
-[(-x_i + 1)^{2 - \lambda} - 1] / (2 - \lambda) & \text{si } \lambda \neq 2, x_i < 0, \\[8pt]
 - \ln (- x_i + 1) & \text{si } \lambda = 2, x_i < 0
\end{cases}
$$

Mientras que la transformación Box-Cox se define como:

$$
x_i^{(\lambda)} =
\begin{cases}
\dfrac{x_i^\lambda - 1}{\lambda} & \text{si } \lambda \neq 0, \\[8pt]
\ln{(x_i)} & \text{si } \lambda = 0,
\end{cases}
$$

Box-Cox solo se puede aplicar a datos estrictamente positivos. En ambos métodos, la transformación está parametrizada por \(\lambda\), que se determina mediante estimación de máxima verosimilitud. Aquí tienes un ejemplo de cómo usar Box-Cox para mapear muestras extraídas de una distribución logarítmica normal a una distribución normal:

In [21]:
pt = preprocessing.PowerTransformer(method='box-cox', standardize=False)
X_lognormal = np.random.RandomState(616).lognormal(size=(3, 3))
X_lognormal

array([[1.28331718, 1.18092228, 0.84160269],
       [0.94293279, 1.60960836, 0.3879099 ],
       [1.35235668, 0.21715673, 1.09977091]])

In [22]:
pt.fit_transform(X_lognormal)

array([[ 0.49024349,  0.17881995, -0.1563781 ],
       [-0.05102892,  0.58863195, -0.57612414],
       [ 0.69420009, -0.84857822,  0.10051454]])

Mientras que el ejemplo anterior establece la opción "standardize" en Falso, [PowerTransformer](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.PowerTransformer.html#sklearn.preprocessing.PowerTransformer) aplicará por defecto una normalización de media cero y varianza unitaria a la salida transformada.

A continuación, se presentan ejemplos de aplicar Box-Cox y Yeo-Johnson a varias distribuciones de probabilidad. Ten en cuenta que cuando se aplican a ciertas distribuciones, las transformaciones de potencia logran resultados muy similares a una distribución gaussiana, pero en otros casos, son ineficaces. Esto resalta la importancia de visualizar los datos antes y después de la transformación.

<figure> 
<center>
<img src="https://scikit-learn.org/stable/_images/sphx_glr_plot_map_data_to_normal_001.png"/>
</center>
</figure>

También es posible mapear los datos a una distribución normal utilizando `QuantileTransformer` estableciendo `output_distribution='normal'`. Usando el ejemplo anterior con el conjunto de datos iris:

In [23]:
quantile_transformer = preprocessing.QuantileTransformer(
    output_distribution='normal', random_state=0)
X_trans = quantile_transformer.fit_transform(X)
quantile_transformer.quantiles_



array([[4.3, 2. , 1. , 0.1],
       [4.4, 2.2, 1.1, 0.1],
       [4.4, 2.2, 1.2, 0.1],
       [4.4, 2.2, 1.2, 0.1],
       [4.5, 2.3, 1.3, 0.1],
       [4.6, 2.3, 1.3, 0.2],
       [4.6, 2.3, 1.3, 0.2],
       [4.6, 2.3, 1.3, 0.2],
       [4.6, 2.4, 1.3, 0.2],
       [4.7, 2.4, 1.3, 0.2],
       [4.7, 2.4, 1.3, 0.2],
       [4.8, 2.5, 1.4, 0.2],
       [4.8, 2.5, 1.4, 0.2],
       [4.8, 2.5, 1.4, 0.2],
       [4.8, 2.5, 1.4, 0.2],
       [4.8, 2.5, 1.4, 0.2],
       [4.9, 2.5, 1.4, 0.2],
       [4.9, 2.5, 1.4, 0.2],
       [4.9, 2.5, 1.4, 0.2],
       [4.9, 2.6, 1.4, 0.2],
       [4.9, 2.6, 1.4, 0.2],
       [4.9, 2.6, 1.4, 0.2],
       [5. , 2.6, 1.4, 0.2],
       [5. , 2.6, 1.4, 0.2],
       [5. , 2.7, 1.5, 0.2],
       [5. , 2.7, 1.5, 0.2],
       [5. , 2.7, 1.5, 0.2],
       [5. , 2.7, 1.5, 0.2],
       [5. , 2.7, 1.5, 0.2],
       [5. , 2.7, 1.5, 0.2],
       [5. , 2.7, 1.5, 0.2],
       [5. , 2.7, 1.5, 0.2],
       [5.1, 2.7, 1.5, 0.2],
       [5.1, 2.8, 1.5, 0.2],
       [5.1, 2

Por lo tanto, la mediana de la entrada se convierte en la media de la salida, centrada en 0. La salida normal se recorta de modo que el mínimo y el máximo de la entrada, que corresponden a los cuantiles 1e-7 y 1 - 1e-7 respectivamente, no se vuelvan infinitos bajo la transformación.

##   <span style="color:blue">Normalización</span>

La normalización es el proceso de escalar muestras individuales para que tengan una norma unitaria. Este proceso puede ser útil si planeas utilizar una forma cuadrática como el producto punto o cualquier otro núcleo para cuantificar la similitud entre cualquier par de muestras.

Esta suposición es la base del Modelo de Espacio Vectorial que se utiliza a menudo en contextos de clasificación y agrupación de texto.

La función [normalize](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.normalize.html#sklearn.preprocessing.normalize) proporciona una forma rápida y sencilla de realizar esta operación en un solo conjunto de datos similar a una matriz, ya sea utilizando las normas l1, l2 o máxima (max):

In [24]:
X = [[ 1., -1.,  2.],
     [ 2.,  0.,  0.],
     [ 0.,  1., -1.]]
X_normalized = preprocessing.normalize(X, norm='l2')

X_normalized

array([[ 0.40824829, -0.40824829,  0.81649658],
       [ 1.        ,  0.        ,  0.        ],
       [ 0.        ,  0.70710678, -0.70710678]])

El módulo de preprocesamiento también proporciona una clase de utilidad llamada [Normalizer](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.Normalizer.html#sklearn.preprocessing.Normalizer) que implementa la misma operación utilizando la API de transformadores (aunque el método fit es inútil en este caso: la clase no guarda ningún estado ya que esta operación trata las muestras de forma independiente).

Por lo tanto, esta clase es adecuada para su uso en las primeras etapas de un [Pipeline](https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html#sklearn.pipeline.Pipeline):

normalizer = preprocessing.Normalizer().fit(X)  # fit does nothing
normalizer

La instancia del normalizador luego puede ser utilizada en vectores de muestra como cualquier otro transformador:

In [26]:
normalizer.transform(X)

array([[ 0.40824829, -0.40824829,  0.81649658],
       [ 1.        ,  0.        ,  0.        ],
       [ 0.        ,  0.70710678, -0.70710678]])

In [27]:
normalizer.transform([[-1.,  1., 0.]])

array([[-0.70710678,  0.70710678,  0.        ]])

Nota: La normalización L2 también se conoce como preprocesamiento de signo espacial.

Entrada dispersa

`normalize` y `Normalizer` aceptan tanto matrices densas similares a arrays como matrices dispersas de `scipy.sparse` como entrada.

Para entradas dispersas, los datos se convierten a la representación de Filas Comprimidas Dispersas (consultar `scipy.sparse.csr_matrix`) antes de ser alimentados a las eficientes rutinas de Cython. Para evitar copias innecesarias en la memoria, se recomienda elegir la representación CSR aguas arriba (es decir, antes) del proceso.

##   <span style="color:blue">Codificación de características categóricas.</span>

A menudo, las características no se presentan como valores continuos, sino como categóricos. Por ejemplo, una persona podría tener características como ["hombre", "mujer"], ["de Europa", "de EE. UU.", "de Asia"], ["usa Firefox", "usa Chrome", "usa Safari", "usa Internet Explorer"]. Tales características se pueden codificar de manera eficiente como enteros, por ejemplo, ["hombre", "de EE. UU.", "usa Internet Explorer"] podría expresarse como [0, 1, 3], mientras que ["mujer", "de Asia", "usa Chrome"] sería [1, 2, 1].

Para convertir características categóricas en tales códigos enteros, podemos utilizar el [OrdinalEncoder](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OrdinalEncoder.html#sklearn.preprocessing.OrdinalEncoder). Este estimador transforma cada característica categórica en una nueva característica de enteros (de 0 a n_categories - 1):

In [30]:
enc = preprocessing.OrdinalEncoder()
X = [['male', 'from US', 'uses Safari'], ['female', 'from Europe', 'uses Firefox']]
enc.fit(X)

In [31]:
enc.transform([['female', 'from US', 'uses Safari']])

array([[0., 1., 1.]])

Sin embargo, esta representación entera no se puede utilizar directamente con todos los estimadores de scikit-learn, ya que estos esperan una entrada continua y podrían interpretar las categorías como ordenadas, lo cual a menudo no es deseado (es decir, el conjunto de navegadores se ordenó arbitrariamente).

Por defecto, OrdinalEncoder también conservará los valores faltantes que están indicados por np.nan.

In [32]:
enc = preprocessing.OrdinalEncoder()
X = [['male'], ['female'], [np.nan], ['female']]
enc.fit_transform(X)

array([[ 1.],
       [ 0.],
       [nan],
       [ 0.]])

OrdinalEncoder proporciona un parámetro llamado 'encoded_missing_value' para codificar los valores faltantes sin necesidad de crear un pipeline y usar [SimpleImputer](https://scikit-learn.org/stable/modules/generated/sklearn.impute.SimpleImputer.html#sklearn.impute.SimpleImputer).

In [33]:
enc = preprocessing.OrdinalEncoder(encoded_missing_value=-1)
X = [['male'], ['female'], [np.nan], ['female']]
enc.fit_transform(X)

array([[ 1.],
       [ 0.],
       [-1.],
       [ 0.]])

El procesamiento anterior es equivalente a la siguiente canalización (pipeline):

In [34]:
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
enc = Pipeline(steps=[
    ("encoder", preprocessing.OrdinalEncoder()),
    ("imputer", SimpleImputer(strategy="constant", fill_value=-1)),
])
enc.fit_transform(X)

array([[ 1.],
       [ 0.],
       [-1.],
       [ 0.]])

Otra posibilidad para convertir características categóricas en características que se pueden utilizar con estimadores de scikit-learn es utilizar una codificación uno-de-K, también conocida como codificación one-hot o codificación dummy. Este tipo de codificación se puede obtener con OneHotEncoder, que transforma cada característica categórica con n_categories posibles valores en n_categories características binarias, en las cuales una de ellas es 1 y todas las demás son 0.

Continuando con el ejemplo anterior:

In [35]:
enc = preprocessing.OneHotEncoder()
X = [['male', 'from US', 'uses Safari'], ['female', 'from Europe', 'uses Firefox']]
enc.fit(X)

In [36]:
enc.transform([['female', 'from US', 'uses Safari'],
               ['male', 'from Europe', 'uses Safari']]).toarray()

array([[1., 0., 0., 1., 0., 1.],
       [0., 1., 1., 0., 0., 1.]])

Por defecto, los valores que cada característica puede tomar se infieren automáticamente a partir del conjunto de datos y se pueden encontrar en el atributo categories_.

In [37]:
enc.categories_

[array(['female', 'male'], dtype=object),
 array(['from Europe', 'from US'], dtype=object),
 array(['uses Firefox', 'uses Safari'], dtype=object)]

Es posible especificarlo explícitamente utilizando el parámetro "categorías". En nuestro conjunto de datos, hay dos géneros, cuatro continentes posibles y cuatro navegadores web.

In [38]:
genders = ['female', 'male']
locations = ['from Africa', 'from Asia', 'from Europe', 'from US']
browsers = ['uses Chrome', 'uses Firefox', 'uses IE', 'uses Safari']
enc = preprocessing.OneHotEncoder(categories=[genders, locations, browsers])
# Note that for there are missing categorical values for the 2nd and 3rd
# feature
X = [['male', 'from US', 'uses Safari'], ['female', 'from Europe', 'uses Firefox']]
enc.fit(X)

In [39]:
enc.transform([['female', 'from Asia', 'uses Chrome']]).toarray()

array([[1., 0., 0., 1., 0., 0., 1., 0., 0., 0.]])

Si existe la posibilidad de que los datos de entrenamiento puedan contener características categóricas faltantes, a menudo es mejor especificar `handle_unknown='infrequent_if_exist'` en lugar de establecer las categorías manualmente como se indicó anteriormente. Cuando se especifica `handle_unknown='infrequent_if_exist'` y se encuentran categorías desconocidas durante la transformación, no se generará ningún error, pero las columnas codificadas en one-hot resultantes para esta característica serán todas ceros o se considerarán como una categoría infrecuente si está habilitada (esto solo es compatible con la codificación one-hot).

In [40]:
enc = preprocessing.OneHotEncoder(handle_unknown='infrequent_if_exist')
X = [['male', 'from US', 'uses Safari'], ['female', 'from Europe', 'uses Firefox']]
enc.fit(X)

In [41]:
enc.transform([['female', 'from Asia', 'uses Chrome']]).toarray()

array([[1., 0., 0., 0., 0., 0.]])

También es posible codificar cada columna en n_categories - 1 columnas en lugar de n_categories columnas utilizando el parámetro "drop". Este parámetro permite al usuario especificar una categoría para que se elimine de cada característica. Esto es útil para evitar la multicolinealidad en la matriz de entrada en algunos clasificadores. Esta funcionalidad es útil, por ejemplo, cuando se utiliza una regresión no regularizada (LinearRegression), ya que la multicolinealidad haría que la matriz de covarianza no sea invertible:

In [42]:
X = [['male', 'from US', 'uses Safari'],
     ['female', 'from Europe', 'uses Firefox']]
drop_enc = preprocessing.OneHotEncoder(drop='first').fit(X)
drop_enc.categories_

[array(['female', 'male'], dtype=object),
 array(['from Europe', 'from US'], dtype=object),
 array(['uses Firefox', 'uses Safari'], dtype=object)]

In [43]:
drop_enc.transform(X).toarray()

array([[1., 1., 1.],
       [0., 0., 0.]])

Uno podría querer eliminar una de las dos columnas solo para las características con 2 categorías. En este caso, puedes configurar el parámetro `drop='if_binary'`.

In [44]:
X = [['male', 'US', 'Safari'],
     ['female', 'Europe', 'Firefox'],
     ['female', 'Asia', 'Chrome']]
drop_enc = preprocessing.OneHotEncoder(drop='if_binary').fit(X)
drop_enc.categories_

[array(['female', 'male'], dtype=object),
 array(['Asia', 'Europe', 'US'], dtype=object),
 array(['Chrome', 'Firefox', 'Safari'], dtype=object)]

In [45]:
drop_enc.transform(X).toarray()

array([[1., 0., 0., 1., 0., 0., 1.],
       [0., 0., 1., 0., 0., 1., 0.],
       [0., 1., 0., 0., 1., 0., 0.]])

En la matriz X transformada, la primera columna es la codificación de la característica con categorías "masculino"/"femenino", mientras que las 6 columnas restantes son la codificación de las 2 características, cada una con 3 categorías respectivamente.

Cuando `handle_unknown='ignore'` y `drop` no es `None`, las categorías desconocidas se codificarán como todo ceros:

In [46]:
drop_enc = preprocessing.OneHotEncoder(drop='first',
                                       handle_unknown='ignore').fit(X)
X_test = [['unknown', 'America', 'IE']]
drop_enc.transform(X_test).toarray()



array([[0., 0., 0., 0., 0.]])

Todas las categorías en X_test son desconocidas durante la transformación y se mapearán como todos ceros. Esto significa que las categorías desconocidas tendrán el mismo mapeo que la categoría eliminada. [OneHotEncoder.inverse_transform](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html#sklearn.preprocessing.OneHotEncoder.inverse_transform) mapeará todos los ceros a la categoría eliminada si una categoría es eliminada y a 'None' si una categoría no es eliminada:

In [47]:
drop_enc = preprocessing.OneHotEncoder(drop='if_binary', sparse_output=False,
                                       handle_unknown='ignore').fit(X)
X_test = [['unknown', 'America', 'IE']]
X_trans = drop_enc.transform(X_test)
X_trans



array([[0., 0., 0., 0., 0., 0., 0.]])

In [48]:
drop_enc.inverse_transform(X_trans)

array([['female', None, None]], dtype=object)

[OneHotEncoder](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html#sklearn.preprocessing.OneHotEncoder) admite características categóricas con valores faltantes al considerar los valores faltantes como una categoría adicional:

In [49]:
X = [['male', 'Safari'],
     ['female', None],
     [np.nan, 'Firefox']]
enc = preprocessing.OneHotEncoder(handle_unknown='error').fit(X)
enc.categories_

[array(['female', 'male', nan], dtype=object),
 array(['Firefox', 'Safari', None], dtype=object)]

In [50]:
enc.transform(X).toarray()

array([[0., 1., 0., 0., 1., 0.],
       [1., 0., 0., 0., 0., 1.],
       [0., 0., 1., 1., 0., 0.]])

Si una característica contiene tanto np.nan como None, se considerarán categorías separadas.

In [51]:
X = [['Safari'], [None], [np.nan], ['Firefox']]
enc = preprocessing.OneHotEncoder(handle_unknown='error').fit(X)
enc.categories_

[array(['Firefox', 'Safari', None, nan], dtype=object)]

In [52]:
enc.transform(X).toarray()

array([[0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.],
       [1., 0., 0., 0.]])

Mira [Cargando características desde diccionarios](https://scikit-learn.org/stable/modules/feature_extraction.html#dict-feature-extraction) para características categóricas que se representan como un diccionario en lugar de escalares.

###   <span style="color:blue">Categorías no frecuentes</span>

[OneHotEncoder](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html#sklearn.preprocessing.OneHotEncoder) y [OrdinalEncoder](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OrdinalEncoder.html#sklearn.preprocessing.OrdinalEncoder) admiten la agregación de categorías poco frecuentes en una única salida para cada característica. Los parámetros para habilitar la recopilación de categorías poco frecuentes son min_frequency y max_categories.

- min_frequency es un número entero mayor o igual a 1, o un número decimal en el intervalo (0.0, 1.0). Si min_frequency es un número entero, se considerarán categorías con una cardinalidad menor que min_frequency como poco frecuentes. Si min_frequency es un número decimal, se considerarán categorías con una cardinalidad menor que esta fracción del número total de muestras como poco frecuentes. El valor predeterminado es 1, lo que significa que cada categoría se codifica por separado.

- max_categories es None o cualquier número entero mayor que 1. Este parámetro establece un límite superior para el número de características de salida para cada característica de entrada. max_categories incluye la característica que combina las categorías poco frecuentes.

En el siguiente ejemplo con OrdinalEncoder, las categorías 'dog' y 'snake' se consideran poco frecuentes:

In [2]:
X = np.array([['dog'] * 5 + ['cat'] * 20 + ['rabbit'] * 10 +
              ['snake'] * 3], dtype=object).T
enc = preprocessing.OrdinalEncoder(min_frequency=6).fit(X)
enc.infrequent_categories_

[array(['dog', 'snake'], dtype=object)]

In [3]:
enc.transform(np.array([['dog'], ['cat'], ['rabbit'], ['snake']]))

array([[2.],
       [0.],
       [1.],
       [2.]])

El parámetro `max_categories` de `OrdinalEncoder` no tiene en cuenta las categorías faltantes o desconocidas. Establecer `unknown_value` o `encoded_missing_value` como un número entero aumentará el número de códigos enteros únicos en uno cada uno. Esto puede resultar en hasta `max_categories + 2` códigos enteros. En el siguiente ejemplo, "a" y "d" se consideran poco frecuentes y se agrupan en una sola categoría, "b" y "c" son sus propias categorías, los valores desconocidos se codifican como 3 y los valores faltantes se codifican como 4.

In [4]:
X_train = np.array(
    [["a"] * 5 + ["b"] * 20 + ["c"] * 10 + ["d"] * 3 + [np.nan]],
    dtype=object).T
enc = preprocessing.OrdinalEncoder(
    handle_unknown="use_encoded_value", unknown_value=3,
    max_categories=3, encoded_missing_value=4)
_ = enc.fit(X_train)
X_test = np.array([["a"], ["b"], ["c"], ["d"], ["e"], [np.nan]], dtype=object)
enc.transform(X_test)

array([[2.],
       [0.],
       [1.],
       [2.],
       [3.],
       [4.]])

De manera similar, OneHotEncoder se puede configurar para agrupar categorías poco frecuentes:

In [6]:
enc = preprocessing.OneHotEncoder(min_frequency=6, sparse_output=False).fit(X)
enc.infrequent_categories_
enc.transform(np.array([['dog'], ['cat'], ['rabbit'], ['snake']]))

array([[0., 0., 1.],
       [1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

Al establecer `handle_unknown` en 'infrequent_if_exist', las categorías desconocidas se considerarán como infrecuentes:

In [7]:
enc = preprocessing.OneHotEncoder(
    handle_unknown='infrequent_if_exist', sparse_output=False, min_frequency=6)
enc = enc.fit(X)
enc.transform(np.array([['dragon']]))

array([[0., 0., 1.]])

[OneHotEncoder.get_feature_names_out](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html#sklearn.preprocessing.OneHotEncoder.get_feature_names_out) utiliza 'infrequent' como el nombre de característica infrecuente:

In [8]:
enc.get_feature_names_out()

array(['x0_cat', 'x0_rabbit', 'x0_infrequent_sklearn'], dtype=object)

Cuando 'handle_unknown' se establece en 'infrequent_if_exist' y se encuentra una categoría desconocida en la transformación:

- Si el soporte para categorías infrecuentes no estaba configurado o no había categorías infrecuentes durante el entrenamiento, las columnas codificadas en one-hot resultantes para esta característica serán todos ceros. En la transformación inversa, una categoría desconocida se denotará como None.

- Si hay una categoría infrecuente durante el entrenamiento, la categoría desconocida se considerará infrecuente. En la transformación inversa, se utilizará 'infrequent_sklearn' para representar la categoría infrecuente.

Las categorías infrecuentes también se pueden configurar utilizando 'max_categories'. En el siguiente ejemplo, configuramos 'max_categories=2' para limitar el número de características en la salida. Esto dará como resultado que todas las categorías excepto la 'cat' se consideren infrecuentes, lo que conduce a dos características: una para 'cat' y otra para las categorías infrecuentes, que son todas las demás.

In [9]:
enc = preprocessing.OneHotEncoder(max_categories=2, sparse_output=False)
enc = enc.fit(X)
enc.transform([['dog'], ['cat'], ['rabbit'], ['snake']])

array([[0., 1.],
       [1., 0.],
       [0., 1.],
       [0., 1.]])

Si tanto max_categories como min_frequency tienen valores no predeterminados, entonces las categorías se seleccionan en función de min_frequency primero y se mantienen max_categories categorías. En el siguiente ejemplo, min_frequency=4 considera que solo "snake" es poco frecuente, pero max_categories=3 también fuerza a que "dog" sea poco frecuente.

In [10]:
enc = preprocessing.OneHotEncoder(min_frequency=4, max_categories=3, sparse_output=False)
enc = enc.fit(X)
enc.transform([['dog'], ['cat'], ['rabbit'], ['snake']])

array([[0., 0., 1.],
       [1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

Si existen categorías poco frecuentes con la misma cardinalidad en el umbral máximo de categorías (max_categories), entonces las primeras max_categories se seleccionan en función del orden léxico. En el siguiente ejemplo, "b", "c" y "d" tienen la misma cardinalidad y con max_categories=2, "b" y "c" son poco frecuentes porque tienen un orden léxico más alto.

In [11]:
X = np.asarray([["a"] * 20 + ["b"] * 10 + ["c"] * 10 + ["d"] * 10], dtype=object).T
enc = preprocessing.OneHotEncoder(max_categories=3).fit(X)
enc.infrequent_categories_

[array(['b', 'c'], dtype=object)]

###   <span style="color:blue">Codificador de Objetivo</span>

El [TargetEncoder](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.TargetEncoder.html#sklearn.preprocessing.TargetEncoder) utiliza la media del objetivo condicionada a la característica categórica para codificar categorías no ordenadas, es decir, categorías nominales [PAR](https://scikit-learn.org/stable/modules/preprocessing.html#par) [MIC](https://scikit-learn.org/stable/modules/preprocessing.html#mic). Este esquema de codificación es útil con características categóricas de alta cardinalidad, donde la codificación one-hot inflaría el espacio de características, lo que haría que fuera más costoso para un modelo posterior procesarlos. Un ejemplo clásico de categorías de alta cardinalidad son las basadas en ubicación, como el código postal o la región. Para el objetivo de clasificación binaria, la codificación objetivo se da por:

$$
S_i = \lambda_i\frac{n_{iY}}{n_i} + (1 - \lambda_i)\frac{n_Y}{n}
$$

donde $S_i$ es la codificación para la categoría i, $n_{iY}$ es el número de observaciones con Y=1 y categoría i, $n_i$ es el número de observaciones con categoría i, $n_Y$ es el número de observaciones con $Y=1$, $n$ es el número de observaciones, y $\lambda_i$ es un factor de contracción para la categoría $i$.

El factor de contracción se calcula de la siguiente manera:
$$
\lambda_i = \frac{n_i}{m + n_i}
$$

donde $m$ es un factor de suavizado, que se controla con el parámetro de suavizado en [TargetEncoder](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.TargetEncoder.html#sklearn.preprocessing.TargetEncoder). Factores de suavizado grandes darán más peso a la media global. Cuando smooth="auto", el factor de suavizado se calcula como una estimación de Bayes empírica: $m=\sigma_i^2/\tau^2$, donde $\sigma_i^2$ es la varianza de y con la categoría $i$ y $\tau^2$ es la varianza global de y.

Para objetivos continuos, la formulación es similar a la clasificación binaria:

$$
S_i = \lambda_i\frac{\sum_{k\in L_i}Y_k}{n_i} + (1 - \lambda_i)\frac{\sum_{k=1}^{n}Y_k}{n}
$$

donde $L_i$ es el conjunto de observaciones con categoría $i$ y $n_i$ es el número de observaciones con categoría $i$.

[fit_transform](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.TargetEncoder.html#sklearn.preprocessing.TargetEncoder.fit_transform) se basa internamente en un esquema de ajuste cruzado para evitar que la información del objetivo se filtre en la representación de tiempo de entrenamiento, especialmente para variables categóricas de alta cardinalidad no informativas, y ayudar a evitar que el modelo posterior se sobreajuste a correlaciones espurias. Tenga en cuenta que como resultado, fit(X, y).transform(X) no es igual a fit_transform(X, y). En fit_transform, los datos de entrenamiento se dividen en k pliegues (determinados por el parámetro cv) y se codifica cada pliegue utilizando las codificaciones entrenadas en los otros k-1 pliegues. El siguiente diagrama muestra el esquema de ajuste cruzado en fit_transform con el valor predeterminado cv=5:

<figure> 
<center>
<img src="https://scikit-learn.org/stable/_images/target_encoder_cross_validation.svg"/>
</center>
</figure>

[fit_transform](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.TargetEncoder.html#sklearn.preprocessing.TargetEncoder.fit_transform) también aprende una codificación de 'datos completos' utilizando todo el conjunto de entrenamiento. Esto nunca se utiliza en `fit_transform`, pero se guarda en el atributo `encodings_` para su uso cuando se llama a [transform](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.TargetEncoder.html#sklearn.preprocessing.TargetEncoder.transform). Tenga en cuenta que las codificaciones aprendidas para cada pliegue durante el esquema de ajuste cruzado no se guardan en un atributo.

El método [fit](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.TargetEncoder.html#sklearn.preprocessing.TargetEncoder.fit) no utiliza ningún esquema de ajuste cruzado y aprende una codificación en todo el conjunto de entrenamiento, que se utiliza para codificar las categorías en [transform](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.TargetEncoder.html#sklearn.preprocessing.TargetEncoder.transform). Esta codificación es la misma que la codificación de 'datos completos' aprendida en [fit_transform](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.TargetEncoder.html#sklearn.preprocessing.TargetEncoder.fit_transform).

#### Nota

TargetEncoder considera los valores faltantes, como np.nan o None, como otra categoría y los codifica como cualquier otra categoría. Las categorías que no se ven durante el ajuste se codifican con la media del objetivo, es decir, target_mean_.

#### Ejemplos:

- [Comparación de Target Encoder con Otros Codificadores](https://scikit-learn.org/stable/auto_examples/preprocessing/plot_target_encoder.html#sphx-glr-auto-examples-preprocessing-plot-target-encoder-py)

- [Ajuste Cruzado Interno de Target Encoder](https://scikit-learn.org/stable/auto_examples/preprocessing/plot_target_encoder_cross_val.html#sphx-glr-auto-examples-preprocessing-plot-target-encoder-cross-val-py)

#### Referencias

[Micci-Barreca, Daniele. "Un esquema de preprocesamiento para atributos categóricos de alta cardinalidad en problemas de clasificación y predicción" SIGKDD Explor. Newsl. 3, 1 (julio de 2001), 27–32.](https://doi.org/10.1145/507533.507538)

[Pargent, F., Pfisterer, F., Thomas, J. et al. "La codificación objetivo regularizada supera a los métodos tradicionales en el aprendizaje automático supervisado con características de alta cardinalidad" Comput Stat 37, 2671–2692 (2022)](https://link.springer.com/article/10.1007/s00180-022-01207-6)


##   <span style="color:blue">Discretización</span>

La discretización (también conocida como cuantificación o partición) proporciona una manera de dividir las características continuas en valores discretos. Algunos conjuntos de datos con características continuas pueden beneficiarse de la discretización, ya que esta puede transformar el conjunto de datos de atributos continuos en uno con atributos nominales únicamente.

Las características discretizadas codificadas con one-hot encoding pueden hacer que un modelo sea más expresivo, al tiempo que mantienen su interpretabilidad. Por ejemplo, el preprocesamiento con un discretizador puede introducir no linealidad en modelos lineales. Para posibilidades más avanzadas, especialmente las más suaves, consulta la [generación de características polinómicas](https://scikit-learn.org/stable/modules/preprocessing.html#generating-polynomial-features) más abajo.

###   <span style="color:blue">Discretización K-bins</span>

[KBinsDiscretizer](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.KBinsDiscretizer.html#sklearn.preprocessing.KBinsDiscretizer) discretiza las características en k contenedores:

In [12]:
X = np.array([[ -3., 5., 15 ],
              [  0., 6., 14 ],
              [  6., 3., 11 ]])
est = preprocessing.KBinsDiscretizer(n_bins=[3, 2, 2], encode='ordinal').fit(X)

De forma predeterminada, la salida se codifica en un formato one-hot en una matriz dispersa (ver Codificación de características categóricas) y esto se puede configurar con el parámetro "encode". Para cada característica, los límites de los intervalos se calculan durante el ajuste (fit) y, junto con el número de intervalos, definirán los intervalos. Por lo tanto, para el ejemplo actual, estos intervalos se definen como:

- Carácterística 1 ${[-\infty, -1), [-1, 2), [2, \infty)}$
- Carácterística 2 ${[-\infty, 5), [5, \infty)}$
- Carácterística 3 ${[-\infty, 14), [14, \infty)}$

Basándose en estos intervalos de intervalos, X se transforma de la siguiente manera:

In [13]:
est.transform(X)   

array([[0., 1., 1.],
       [1., 1., 1.],
       [2., 0., 0.]])

El conjunto de datos resultante contiene atributos ordinales que pueden ser utilizados posteriormente en un [Pipeline](https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html#sklearn.pipeline.Pipeline).

La discretización es similar a la construcción de histogramas para datos continuos. Sin embargo, los histogramas se centran en contar características que caen en bins específicos, mientras que la discretización se centra en asignar valores de características a estos bins.

`KBinsDiscretizer` implementa diferentes estrategias de particionamiento, que pueden seleccionarse con el parámetro `strategy`. La estrategia 'uniforme' utiliza bins de ancho constante. La estrategia 'cuantil' utiliza los valores de los cuantiles para tener bins igualmente poblados en cada característica. La estrategia 'kmeans' define bins basados en un procedimiento de agrupamiento k-means realizado en cada característica de forma independiente.

Ten en cuenta que puedes especificar bins personalizados pasando una función llamable que defina la estrategia de discretización a [FunctionTransformer](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.FunctionTransformer.html#sklearn.preprocessing.FunctionTransformer). Por ejemplo, podemos utilizar la función de Pandas [pandas.cut](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.cut.html#pandas.cut):

In [14]:
import pandas as pd
import numpy as np
bins = [0, 1, 13, 20, 60, np.inf]
labels = ['infant', 'kid', 'teen', 'adult', 'senior citizen']
transformer = preprocessing.FunctionTransformer(
    pd.cut, kw_args={'bins': bins, 'labels': labels, 'retbins': False}
)
X = np.array([0.2, 2, 15, 25, 97])
transformer.fit_transform(X)

['infant', 'kid', 'teen', 'adult', 'senior citizen']
Categories (5, object): ['infant' < 'kid' < 'teen' < 'adult' < 'senior citizen']

#### Ejemplos

- [Utilizando KBinsDiscretizer para discretizar características continuas](https://scikit-learn.org/stable/auto_examples/preprocessing/plot_discretization.html#sphx-glr-auto-examples-preprocessing-plot-discretization-py)
- [Discretización de características](https://scikit-learn.org/stable/auto_examples/preprocessing/plot_discretization_classification.html#sphx-glr-auto-examples-preprocessing-plot-discretization-classification-py)
- [Demostración de las diferentes estrategias de KBinsDiscretizer](https://scikit-learn.org/stable/auto_examples/preprocessing/plot_discretization_strategies.html#sphx-glr-auto-examples-preprocessing-plot-discretization-strategies-py)

###   <span style="color:blue">Binzarización de características</span>

La binarización de características es el proceso de aplicar un umbral a las características numéricas para obtener valores booleanos. Esto puede ser útil para estimadores probabilísticos posteriores que hacen suposiciones de que los datos de entrada se distribuyen según una distribución de Bernoulli multivariante. Por ejemplo, este es el caso de [BernoulliRBM](https://scikit-learn.org/stable/modules/generated/sklearn.neural_network.BernoulliRBM.html#sklearn.neural_network.BernoulliRBM).

También es común en la comunidad de procesamiento de texto utilizar valores de características binarias (probablemente para simplificar el razonamiento probabilístico), incluso si las cuentas normalizadas (también conocidas como frecuencias de términos) o las características valoradas con TF-IDF a menudo funcionan ligeramente mejor en la práctica.

Al igual que con el Normalizer, la clase de utilidad Binarizer está diseñada para ser utilizada en las primeras etapas de un Pipeline. El método `fit` no hace nada, ya que cada muestra se trata de forma independiente de las demás:

In [15]:
X = [[ 1., -1.,  2.],
     [ 2.,  0.,  0.],
     [ 0.,  1., -1.]]

binarizer = preprocessing.Binarizer().fit(X)  # fit does nothing
binarizer

In [16]:
binarizer.transform(X)

array([[1., 0., 1.],
       [1., 0., 0.],
       [0., 1., 0.]])

Es posible ajustar el umbral del binarizador:

In [17]:
binarizer = preprocessing.Binarizer(threshold=1.1)
binarizer.transform(X)

array([[0., 0., 1.],
       [1., 0., 0.],
       [0., 0., 0.]])

En cuanto a la clase Normalizer, el módulo de preprocesamiento proporciona una función complementaria llamada "binarize" que se utiliza cuando no es necesario utilizar la API de transformadores.

Ten en cuenta que "Binarizer" es similar a "KBinsDiscretizer" cuando "k = 2", y cuando el borde del bin está en el valor del umbral.

#### Entrada dispersa

[binarize](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.binarize.html#sklearn.preprocessing.binarize) y [Binarizer](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.Binarizer.html#sklearn.preprocessing.Binarizer) aceptan tanto matrices densas similares a matrices como matrices dispersas de "scipy.sparse" como entrada.

Para entradas dispersas, los datos se convierten a la representación de "Compressed Sparse Rows" (ver "scipy.sparse.csr_matrix"). Para evitar copias de memoria innecesarias, se recomienda elegir la representación CSR en las etapas anteriores.

##   <span style="color:blue">Imputación de valores faltantes</span>

Por diversas razones, muchos conjuntos de datos del mundo real contienen valores faltantes, a menudo codificados como espacios en blanco, NaN u otros marcadores de posición. Sin embargo, dichos conjuntos de datos son incompatibles con los estimadores de scikit-learn, que asumen que todos los valores en una matriz son numéricos y que todos tienen y mantienen un significado. Una estrategia básica para usar conjuntos de datos incompletos es descartar filas y/o columnas enteras que contienen valores faltantes. Sin embargo, esto conlleva la pérdida de datos que pueden ser valiosos (a pesar de estar incompletos). Una estrategia mejor es imputar los valores faltantes, es decir, inferirlos a partir de la parte conocida de los datos.

###   <span style="color:blue">Imputación Univariante vs. Imputación Multivariante</span>

Un tipo de algoritmo de imputación es la imputación univariante, que imputa valores en la dimensión de la característica i utilizando solo los valores no faltantes en esa dimensión de la característica (por ejemplo, impute.SimpleImputer). En contraste, los algoritmos de imputación multivariante utilizan el conjunto completo de dimensiones de características disponibles para estimar los valores faltantes (por ejemplo, impute.IterativeImputer).

###   <span style="color:blue">Imputación de características univariante</span>

La clase [SimpleImputer](https://scikit-learn.org/stable/modules/generated/sklearn.impute.SimpleImputer.html#sklearn.impute.SimpleImputer) proporciona estrategias básicas para imputar valores faltantes. Los valores faltantes pueden ser imputados con un valor constante proporcionado o utilizando las estadísticas (media, mediana o más frecuente) de cada columna en la que se encuentran los valores faltantes. Esta clase también permite diferentes codificaciones de valores faltantes.

El siguiente fragmento de código demuestra cómo reemplazar los valores faltantes, codificados como np.nan, utilizando el valor medio de las columnas (eje 0) que contienen los valores faltantes:

In [1]:
import numpy as np
from sklearn.impute import SimpleImputer
imp = SimpleImputer(missing_values=np.nan, strategy='mean')
imp.fit([[1, 2], [np.nan, 3], [7, 6]])

In [2]:
X = [[np.nan, 2], [6, np.nan], [7, 6]]
print(imp.transform(X))

[[4.         2.        ]
 [6.         3.66666667]
 [7.         6.        ]]


La clase SimpleImputer también admite matrices dispersas:

In [3]:
import scipy.sparse as sp
X = sp.csc_matrix([[1, 2], [0, -1], [8, 4]])
imp = SimpleImputer(missing_values=-1, strategy='mean')
imp.fit(X)

In [4]:
X_test = sp.csc_matrix([[-1, 2], [6, -1], [7, 6]])
print(imp.transform(X_test).toarray())

[[3. 2.]
 [6. 3.]
 [7. 6.]]


Ten en cuenta que este formato no está diseñado para ser utilizado para almacenar de manera implícita valores faltantes en la matriz, ya que lo densificaría al momento de la transformación. Los valores faltantes codificados como 0 deben utilizarse con entradas densas.

La clase [SimpleImputer](https://scikit-learn.org/stable/modules/generated/sklearn.impute.SimpleImputer.html#sklearn.impute.SimpleImputer) también admite datos categóricos representados como valores de cadena o categóricos de pandas cuando se utiliza la estrategia 'most_frequent' o 'constant':

In [5]:
import pandas as pd
df = pd.DataFrame([["a", "x"],
                   [np.nan, "y"],
                   ["a", np.nan],
                   ["b", "y"]], dtype="category")

imp = SimpleImputer(strategy="most_frequent")
print(imp.fit_transform(df))

[['a' 'x']
 ['a' 'y']
 ['a' 'y']
 ['b' 'y']]


###   <span style="color:blue">Imputación de características multivariadas</span>

Un enfoque más sofisticado consiste en utilizar la clase [IterativeImputer](https://scikit-learn.org/stable/modules/generated/sklearn.impute.IterativeImputer.html#sklearn.impute.IterativeImputer), que modela cada característica con valores faltantes como una función de otras características y utiliza esa estimación para la imputación. Lo hace de manera iterativa: en cada paso, una columna de característica se designa como salida y, las demás columnas de características se tratan como entradas X. Se ajusta un regresor en (X, y) para los valores de y conocidos. Luego, el regresor se utiliza para predecir los valores faltantes de y. Esto se hace para cada característica de manera iterativa y se repite durante un número máximo de rondas de imputación (max_iter). Los resultados de la última ronda de imputación se devuelven.

**Nota**

Este estimador todavía está en fase experimental en este momento: los parámetros predeterminados o los detalles de su comportamiento pueden cambiar sin un ciclo de desaprobación. Resolver los siguientes problemas ayudaría a estabilizar IterativeImputer: criterios de convergencia (#14338), estimadores predeterminados (#13286) y uso de un estado aleatorio (#15611). Para utilizarlo, debes importar explícitamente enable_iterative_imputer.

In [6]:
import numpy as np
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer
imp = IterativeImputer(max_iter=10, random_state=0)
imp.fit([[1, 2], [3, 6], [4, 8], [np.nan, 3], [7, np.nan]])

In [7]:
X_test = [[np.nan, 2], [6, np.nan], [np.nan, 6]]
# the model learns that the second feature is double the first
print(np.round(imp.transform(X_test)))

[[ 1.  2.]
 [ 6. 12.]
 [ 3.  6.]]


Tanto SimpleImputer como IterativeImputer pueden utilizarse en una Tubería como una forma de construir un estimador compuesto que admita la imputación. Consulta la imputación de valores faltantes antes de construir un estimador.

####   <span style="color:blue">Flexibilidad de IterativeImputer</span>

En el ecosistema de ciencia de datos de R, existen numerosos paquetes de imputación bien establecidos, como Amelia, mi, mice, missForest, etc. missForest es popular y resulta ser una instancia particular de diferentes algoritmos de imputación secuencial que pueden implementarse todos con IterativeImputer al proporcionar diferentes regresores para predecir los valores de características faltantes. En el caso de missForest, este regresor es un Bosque Aleatorio. Consulta la [imputación de valores faltantes con variantes de IterativeImputer](https://scikit-learn.org/stable/auto_examples/impute/plot_iterative_imputer_variants_comparison.html#sphx-glr-auto-examples-impute-plot-iterative-imputer-variants-comparison-py).

####   <span style="color:blue">Imputación Múltiple vs. Imputación Única</span>

En la comunidad estadística, es práctica común realizar múltiples imputaciones, generando, por ejemplo, m imputaciones separadas para una única matriz de características. Cada una de estas m imputaciones se somete luego al flujo de análisis posterior (por ejemplo, ingeniería de características, agrupación, regresión, clasificación). Los m resultados finales del análisis (por ejemplo, errores de validación retenida) permiten al científico de datos comprender cómo pueden diferir los resultados analíticos como consecuencia de la incertidumbre inherente causada por los valores faltantes. Esta práctica se denomina imputación múltiple.

Nuestra implementación de IterativeImputer se inspiró en el paquete R MICE (Imputación Multivariante por Ecuaciones Encadenadas), pero difiere de él al devolver una única imputación en lugar de múltiples imputaciones. Sin embargo, IterativeImputer también puede utilizarse para múltiples imputaciones aplicándolo repetidamente al mismo conjunto de datos con diferentes semillas aleatorias cuando sample_posterior=True.

Todavía es un problema abierto determinar cuán útil es la imputación única frente a la imputación múltiple en el contexto de la predicción y la clasificación cuando el usuario no está interesado en medir la incertidumbre debida a los valores faltantes.

Ten en cuenta que no está permitido que una llamada al método transform de IterativeImputer cambie el número de muestras. Por lo tanto, las imputaciones múltiples no pueden lograrse mediante una única llamada a transform.


**References**

Stef van Buuren, Karin Groothuis-Oudshoorn (2011). “mice: Multivariate Imputation by Chained Equations in R”. Journal of Statistical Software 45: 1-67.

Roderick J A Little and Donald B Rubin (1986). “Statistical Analysis with Missing Data”. John Wiley & Sons, Inc., New York, NY, USA

###   <span style="color:blue">Imputación de vecinos más cercanos</span>

La clase KNNImputer proporciona imputación para rellenar valores faltantes utilizando el enfoque de los k-Vecinos Más Cercanos. De forma predeterminada, se utiliza una métrica de distancia euclidiana que admite valores faltantes, llamada nan_euclidean_distances, para encontrar los vecinos más cercanos. Cada característica faltante se imputa utilizando valores de los n_neighbors vecinos más cercanos que tienen un valor para la característica. Las características de los vecinos se promedian de manera uniforme o se ponderan según la distancia a cada vecino. Si una muestra tiene más de una característica faltante, entonces los vecinos para esa muestra pueden ser diferentes dependiendo de la característica particular que se esté imputando. Cuando el número de vecinos disponibles es menor que n_neighbors y no hay distancias definidas en el conjunto de entrenamiento, se utiliza el promedio del conjunto de entrenamiento para esa característica durante la imputación. Si al menos un vecino tiene una distancia definida, se utilizará el promedio ponderado o no ponderado de los vecinos restantes durante la imputación. Si una característica siempre falta en el conjunto de entrenamiento, se elimina durante la transformación. Para obtener más información sobre la metodología, consulte la referencia [OL2001](https://scikit-learn.org/stable/modules/impute.html#ol2001).

El siguiente fragmento de código muestra cómo reemplazar los valores faltantes, codificados como np.nan, utilizando el valor medio de las características de los dos vecinos más cercanos de las muestras con valores faltantes:

In [8]:
import numpy as np
from sklearn.impute import KNNImputer
nan = np.nan
X = [[1, 2, nan], [3, 4, 3], [nan, 6, 5], [8, 8, 7]]
imputer = KNNImputer(n_neighbors=2, weights="uniform")
imputer.fit_transform(X)

array([[1. , 2. , 4. ],
       [3. , 4. , 3. ],
       [5.5, 6. , 5. ],
       [8. , 8. , 7. ]])

**References**
[OL2001](https://scikit-learn.org/stable/modules/impute.html#id5)

Olga Troyanskaya, Michael Cantor, Gavin Sherlock, Pat Brown, Trevor Hastie, Robert Tibshirani, David Botstein and Russ B. Altman, Missing value estimation methods for DNA microarrays, BIOINFORMATICS Vol. 17 no. 6, 2001 Pages 520-525.


###   <span style="color:blue">Manteniendo constante el número de características</span>

Por defecto, los rellenadores de scikit-learn eliminarán las características completamente vacías, es decir, las columnas que contengan solo valores faltantes. Por ejemplo:

In [9]:
imputer = SimpleImputer()
X = np.array([[np.nan, 1], [np.nan, 2], [np.nan, 3]])
imputer.fit_transform(X)



array([[1.],
       [2.],
       [3.]])

La primera característica en X que contenía solo np.nan fue eliminada después de la imputación. Aunque esta característica no ayudará en un entorno predictivo, eliminar las columnas cambiará la forma de X, lo que podría ser problemático al usar imputadores en una tubería de aprendizaje automático más compleja. El parámetro keep_empty_features ofrece la opción de mantener las características vacías imputándolas con un valor constante. En la mayoría de los casos, este valor constante es cero:

In [10]:
imputer.set_params(keep_empty_features=True)

In [11]:
imputer.fit_transform(X)

array([[0., 1.],
       [0., 2.],
       [0., 3.]])

###   <span style="color:blue">Marcando valores imputados</span>

El transformador [MissingIndicator](https://scikit-learn.org/stable/modules/generated/sklearn.impute.MissingIndicator.html#sklearn.impute.MissingIndicator) es útil para transformar un conjunto de datos en una matriz binaria correspondiente que indica la presencia de valores faltantes en el conjunto de datos. Esta transformación es útil en conjunto con la imputación. Al usar la imputación, preservar la información sobre qué valores faltaban puede ser informativo. Tenga en cuenta que tanto [SimpleImputer](https://scikit-learn.org/stable/modules/generated/sklearn.impute.SimpleImputer.html#sklearn.impute.SimpleImputer) como [IterativeImputer](https://scikit-learn.org/stable/modules/generated/sklearn.impute.IterativeImputer.html#sklearn.impute.IterativeImputer) tienen el parámetro booleano add_indicator (por defecto, False), que cuando se establece en True proporciona una forma conveniente de apilar la salida del transformador MissingIndicator con la salida del imputador.

NaN suele utilizarse como marcador de posición para valores faltantes. Sin embargo, esto impone que el tipo de datos sea float. El parámetro missing_values permite especificar otros marcadores de posición, como enteros. En el siguiente ejemplo, utilizaremos -1 como valores faltantes:

In [12]:
from sklearn.impute import MissingIndicator
X = np.array([[-1, -1, 1, 3],
              [4, -1, 0, -1],
              [8, -1, 1, 0]])
indicator = MissingIndicator(missing_values=-1)
mask_missing_values_only = indicator.fit_transform(X)
mask_missing_values_only

array([[ True,  True, False],
       [False,  True,  True],
       [False,  True, False]])

El parámetro "features" se utiliza para seleccionar las características para las cuales se construye la máscara. De forma predeterminada, es 'missing-only', lo que devuelve la máscara del imputador de las características que contienen valores faltantes en el momento del ajuste:

In [13]:
indicator.features_

array([0, 1, 3], dtype=int64)

El parámetro "features" puede establecerse en 'todos' para devolver todas las características, ya sea que contengan valores faltantes o no:

In [14]:
indicator = MissingIndicator(missing_values=-1, features="all")
mask_all = indicator.fit_transform(X)
mask_all

array([[ True,  True, False, False],
       [False,  True, False,  True],
       [False,  True, False, False]])

In [15]:
indicator.features_

array([0, 1, 2, 3])

Cuando se utiliza el MissingIndicator en una Tubería, asegúrate de utilizar FeatureUnion o ColumnTransformer para agregar las características indicadoras a las características regulares. Primero obtenemos el conjunto de datos iris y le agregamos algunos valores faltantes.

In [16]:
from sklearn.datasets import load_iris
from sklearn.impute import SimpleImputer, MissingIndicator
from sklearn.model_selection import train_test_split
from sklearn.pipeline import FeatureUnion, make_pipeline
from sklearn.tree import DecisionTreeClassifier
X, y = load_iris(return_X_y=True)
mask = np.random.randint(0, 2, size=X.shape).astype(bool)
X[mask] = np.nan
X_train, X_test, y_train, _ = train_test_split(X, y, test_size=100,
                                               random_state=0)

Ahora creamos una FeatureUnion. Todas las características se completarán utilizando SimpleImputer para permitir que los clasificadores trabajen con estos datos. Además, agrega las variables indicadoras de MissingIndicator.

In [17]:
transformer = FeatureUnion(
    transformer_list=[
        ('features', SimpleImputer(strategy='mean')),
        ('indicators', MissingIndicator())])
transformer = transformer.fit(X_train, y_train)
results = transformer.transform(X_test)
results.shape

(100, 8)

Por supuesto, no podemos usar el transformador para realizar predicciones por sí solo. Deberíamos envolverlo en una Tubería con un clasificador (por ejemplo, un DecisionTreeClassifier) para poder realizar predicciones.

In [18]:
clf = make_pipeline(transformer, DecisionTreeClassifier())
clf = clf.fit(X_train, y_train)
results = clf.predict(X_test)
results.shape

(100,)

###   <span style="color:blue">Estimadores que manejan valores NaN</span>

Algunos estimadores están diseñados para manejar valores NaN sin necesidad de preprocesamiento. A continuación se muestra la lista de estos estimadores, clasificados por tipo (cluster, regresor, clasificador, transformador):

Estimadores que permiten valores NaN para el tipo cluster:

- HDBSCAN

Estimadores que permiten valores NaN para el tipo regresor:

- BaggingRegressor
- DecisionTreeRegressor
- HistGradientBoostingRegressor

Estimadores que permiten valores NaN para el tipo clasificador:

- BaggingClassifier
- DecisionTreeClassifier
- HistGradientBoostingClassifier

Estimadores que permiten valores NaN para el tipo transformador:

- IterativeImputer
- KNNImputer
- MaxAbsScaler
- MinMaxScaler
- MissingIndicator
- PowerTransformer
- QuantileTransformer
- RobustScaler
- SimpleImputer
- StandardScaler
- VarianceThreshold

##   <span style="color:blue">Generación de características polinómicas</span>

A menudo es útil agregar complejidad a un modelo al considerar características no lineales de los datos de entrada. Mostramos dos posibilidades que se basan en polinomios: la primera utiliza polinomios puros, la segunda utiliza splines, es decir, polinomios por partes.

###   <span style="color:blue">Características polinómicas</span>

Un método simple y común de usar es el de características polinómicas, que puede obtener términos de alto orden e interacción entre características. Esto se implementa en [PolynomialFeatures](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.PolynomialFeatures.html#sklearn.preprocessing.PolynomialFeatures):

In [18]:
import numpy as np
from sklearn.preprocessing import PolynomialFeatures
X = np.arange(6).reshape(3, 2)
X

array([[0, 1],
       [2, 3],
       [4, 5]])

In [19]:
poly = PolynomialFeatures(2)
poly.fit_transform(X)

array([[ 1.,  0.,  1.,  0.,  0.,  1.],
       [ 1.,  2.,  3.,  4.,  6.,  9.],
       [ 1.,  4.,  5., 16., 20., 25.]])

Las características de X han sido transformadas de $(X_1, X_2)$ a $(1, X_1, X_2, X_1^2, X_1X_2, X_2^2)$.

En algunos casos, solo se requieren términos de interacción entre las características, y esto se puede lograr configurando interaction_only=True:

In [20]:
X = np.arange(9).reshape(3, 3)
X

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

poly = PolynomialFeatures(degree=3, interaction_only=True)
poly.fit_transform(X)

Las características de X han sido transformadas de $(X_1, X_2, X_3)$ a $(X_1, X_2, X_3)$.

Ten en cuenta que las características polinómicas se utilizan implícitamente en los métodos de kernel (por ejemplo, [SVC](https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html#sklearn.svm.SVC), [KernelPCA](https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.KernelPCA.html#sklearn.decomposition.KernelPCA)) al utilizar funciones de kernel polinómicas.

Consulta la [interpolación polinómica y de spline](https://scikit-learn.org/stable/auto_examples/linear_model/plot_polynomial_interpolation.html#sphx-glr-auto-examples-linear-model-plot-polynomial-interpolation-py) para la regresión Ridge utilizando características polinómicas creadas.

###   <span style="color:blue">Transformador Spline</span>

Otra forma de agregar términos no lineales en lugar de polinomios puros de características es generar funciones de base de spline para cada característica con el [SplineTransformer](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.SplineTransformer.html#sklearn.preprocessing.SplineTransformer). Los splines son polinomios por partes, parametrizados por su grado polinómico y las posiciones de los nudos. El SplineTransformer implementa una base de spline B, consulte las referencias a continuación.

#### Nota

El [SplineTransformer](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.SplineTransformer.html#sklearn.preprocessing.SplineTransformer) trata cada característica por separado, es decir, no proporcionará términos de interacción.

Algunas de las ventajas de los splines sobre los polinomios son:

- Los B-splines son muy flexibles y robustos si se mantiene un grado bajo fijo, generalmente 3, y se adapta de manera parsimoniosa el número de nudos. Los polinomios requerirían un grado más alto, lo que nos lleva al siguiente punto.

- Los B-splines no tienen un comportamiento oscilatorio en los límites como ocurre con los polinomios (cuanto mayor es el grado, peor). Esto se conoce como el fenómeno de Runge.

- Los B-splines proporcionan buenas opciones para la extrapolación más allá de los límites, es decir, más allá del rango de valores ajustados. Echa un vistazo a la opción "extrapolation".

- Los B-splines generan una matriz de características con una estructura en bandas. Para una sola característica, cada fila contiene solo elementos no nulos de grado + 1, que ocurren de manera consecutiva y son incluso positivos. Esto resulta en una matriz con buenas propiedades numéricas, como un bajo número de condición, en marcado contraste con una matriz de polinomios, que recibe el nombre de matriz de Vandermonde. Un bajo número de condición es importante para algoritmos estables de modelos lineales.

El siguiente fragmento de código muestra los splines en acción:

In [22]:
import numpy as np
from sklearn.preprocessing import SplineTransformer
X = np.arange(5).reshape(5, 1)
X

array([[0],
       [1],
       [2],
       [3],
       [4]])

In [23]:
spline = SplineTransformer(degree=2, n_knots=3)
spline.fit_transform(X)

array([[0.5  , 0.5  , 0.   , 0.   ],
       [0.125, 0.75 , 0.125, 0.   ],
       [0.   , 0.5  , 0.5  , 0.   ],
       [0.   , 0.125, 0.75 , 0.125],
       [0.   , 0.   , 0.5  , 0.5  ]])

Cuando los datos en `X` están ordenados, es fácil ver la matriz en bandas resultante. Para `degree=2`, solo las tres diagonales centrales tienen valores distintos de cero. Cuanto mayor sea el grado, mayor será la superposición de los splines.

Curiosamente, un `SplineTransformer` con `degree=0` es equivalente a `KBinsDiscretizer` con `encode='onehot-dense'` y `n_bins = n_knots - 1` si `knots = strategy`.

**Ejemplos:**

- [Interpolación Polinómica y de Splines](https://scikit-learn.org/stable/auto_examples/linear_model/plot_polynomial_interpolation.html#sphx-glr-auto-examples-linear-model-plot-polynomial-interpolation-py).

- [Ingeniería de características relacionadas con el tiempo](https://scikit-learn.org/stable/auto_examples/applications/plot_cyclical_feature_engineering.html#sphx-glr-auto-examples-applications-plot-cyclical-feature-engineering-py).

**Referencias:**

- Eilers, P., & Marx, B. (1996). [Flexible Smoothing with B-splines and Penalties](https://projecteuclid.org/journals/statistical-science/volume-11/issue-2/Flexible-smoothing-with-B-splines-and-penalties/10.1214/ss/1038425655.full). Statist. Sci. 11 (1996), no. 2, 89–121.

- Perperoglou, A., Sauerbrei, W., Abrahamowicz, M. et al. [A review of spline function procedures in R](https://bmcmedresmethodol.biomedcentral.com/articles/10.1186/s12874-019-0666-3). BMC Med Res Methodol 19, 46 (2019).


###   <span style="color:blue">Transformadores personalizados</span>

A menudo, querrás convertir una función Python existente en un transformador para ayudar en la limpieza o procesamiento de datos. Puedes implementar un transformador a partir de una función arbitraria con [FunctionTransformer](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.FunctionTransformer.html#sklearn.preprocessing.FunctionTransformer). Por ejemplo, para construir un transformador que aplique una transformación logarítmica en un pipeline, puedes hacer lo siguiente:

In [24]:
import numpy as np
from sklearn.preprocessing import FunctionTransformer
transformer = FunctionTransformer(np.log1p, validate=True)
X = np.array([[0, 1], [2, 3]])
# Since FunctionTransformer is no-op during fit, we can call transform directly
transformer.transform(X)

array([[0.        , 0.69314718],
       [1.09861229, 1.38629436]])

Puedes asegurarte de que func e inverse_func sean el uno inverso del otro configurando check_inverse=True y llamando a fit antes de transformar. Ten en cuenta que se genera una advertencia y se puede convertir en un error con un filtro de advertencias:

In [25]:
import warnings
warnings.filterwarnings("error", message=".*check_inverse*.",
                        category=UserWarning, append=False)

Para obtener un ejemplo de código completo que demuestre cómo utilizar un FunctionTransformer para extraer características de datos de texto, consulta [Column Transformer with Heterogeneous Data Sources](https://scikit-learn.org/stable/auto_examples/compose/plot_column_transformer.html#sphx-glr-auto-examples-compose-plot-column-transformer-py) and [Time-related feature engineering](https://scikit-learn.org/stable/auto_examples/applications/plot_cyclical_feature_engineering.html#sphx-glr-auto-examples-applications-plot-cyclical-feature-engineering-py).