<figure> 
<img src="../Imagenes/logo-final-ap.png"  width="80" height="80" align="left"/> 
</figure>

# <span style="color:blue"><left>Aprendizaje Profundo</left></span>

# <span style="color:red"><center>Transformación de datos</center></span>

##   <span style="color:blue">Profesores</span>

1. Alvaro Mauricio Montenegro Díaz, ammontenegrod@unal.edu.co
2. Daniel Mauricio Montenegro Reyes, dextronomo@gmail.com 
3. Campo Elías Pardo Turriago, cepardot@unal.edu.co 
4. Camilo José Torres Jiménez, MSc, cjtorresj@unal.edu.co

##   <span style="color:blue">Estudiantes auxiliares</span>

1. Jessica López, jelopezme@unal.edu.co
2. Camilo Chitivo, cchitivo@unal.edu.co
3. Daniel Rojas, anrojasor@unal.edu.co

##   <span style="color:blue">Asesora Medios y Marketing digital</span>
 

1. Maria del Pilar Montenegro, pmontenegro88@gmail.com 

##   <span style="color:blue">Contenido</span>

* [Introducción](#Introducción)
* [Transformación de conjuntos de datos](#Transformación-de-conjuntos-de-datos)
* [Pipeline y estimadores compuestos](#Pipeline-y-estimadores-compuestos)
* [Extracción de características](#Extracción-de-características)
* [Proyección Aleatoria](#Proyección-Aleatoria)
* [Aproximación Kernel](#Aproximación-Kernel)
* [Métricas por pares, Afinidades y Núcleos](#Métricas-por-pares,-Afinidades-y-Núcleos)
* [Transformando el objetivo de predicción (y)](#Transformando-el-objetivo-de-predicción-(y))

#   <span style="color:blue">Introducción</span>

En el emocionante mundo del aprendizaje automático y la ciencia de datos, la calidad de los datos es esencial. Los datos crudos rara vez están en la forma perfecta para alimentar nuestros algoritmos de aprendizaje automático. En su lugar, debemos realizar una serie de transformaciones en nuestros conjuntos de datos para prepararlos adecuadamente antes de alimentarlos a nuestros modelos. Estas transformaciones no solo mejoran la calidad de los datos, sino que también permiten que los modelos capturen patrones de manera más efectiva.

En este cuaderno de Jupyter, exploraremos dos aspectos cruciales: el uso de Scikit-Learn, una de las bibliotecas de aprendizaje automático más poderosas y versátiles, para llevar a cabo transformaciones en nuestros conjuntos de datos, y la importancia fundamental de estas transformaciones en todo el proceso de construcción de modelos predictivos.

**La Importancia de las Transformaciones de Datos**

Las transformaciones de datos son una fase esencial en el flujo de trabajo de aprendizaje automático. Estas transformaciones pueden tener un impacto significativo en la capacidad de nuestros modelos para generalizar y hacer predicciones precisas. Algunas de las razones por las cuales las transformaciones son esenciales incluyen:

- Mejora de la calidad de los datos.
- Tratamiento de valores atípicos y datos faltantes.
- Preparación de datos categóricos para modelos numéricos.
- Normalización de características para modelos sensibles a la escala.

En este cuaderno, exploraremos cómo estas transformaciones abordan estos desafíos comunes y cómo pueden aumentar la eficacia de nuestros modelos.

El material del cuaderno está basado en la documentación oficial de [scikit-learn](https://scikit-learn.org/stable/data_transforms.html) para preprocesamiento.

#   <span style="color:blue">Transformación de conjuntos de datos</span>

Scikit-learn proporciona una biblioteca de transformadores, que pueden limpiar (ver Preprocesamiento de datos), reducir (ver Reducción de dimensionalidad no supervisada), expandir (ver Aproximación de núcleos) o generar (ver Extracción de características) representaciones de características.

Al igual que otros estimadores, estos están representados por clases con un método fit, que aprende los parámetros del modelo (por ejemplo, la media y la desviación estándar para la normalización) a partir de un conjunto de entrenamiento, y un método transform que aplica este modelo de transformación a datos no vistos. fit_transform puede ser más conveniente y eficiente para modelar y transformar los datos de entrenamiento simultáneamente.

La combinación de estos transformadores, ya sea en paralelo o en serie, se aborda en Tuberías y estimadores compuestos. Las métricas por pares, las afinidades y los núcleos abordan la transformación de espacios de características en matrices de afinidad, mientras que la transformación del objetivo de predicción (y) considera transformaciones del espacio objetivo (por ejemplo, etiquetas categóricas) para su uso en scikit-learn.

#   <span style="color:blue">Pipeline y estimadores compuestos</span>

Por lo general, los transformadores se combinan con clasificadores, regresores u otros estimadores para construir un estimador compuesto. La herramienta más común es una [pipeline](https://scikit-learn.org/stable/modules/compose.html#pipeline). EL pipeline a menudo se utiliza en combinación con FeatureUnion, que concatena la salida de los transformadores en un espacio de características compuesto. TransformedTargetRegressor se encarga de transformar el objetivo (es decir, transformar logarítmicamente y). En contraste, las pipelines solo transforman los datos observados (X).

##   <span style="color:blue">Pipeline: encadenando estimadores</span>

EL pipeline se puede utilizar para encadenar varios estimadores en uno solo. Esto es útil ya que a menudo hay una secuencia fija de pasos en el procesamiento de los datos, como la selección de características, la normalización y la clasificación. El pipeline cumple múltiples propósitos aquí:

**Conveniencia y encapsulación**

Solo necesita llamar a fit y predict una vez en sus datos para ajustar toda una secuencia de estimadores.

**Selección conjunta de parámetros**

Puede buscar en la cuadrícula los parámetros de todos los estimadores en el pipeline a la vez.

**Seguridad**

Los pipelines ayudan a evitar que las estadísticas de sus datos de prueba se filtren en el modelo entrenado en la validación cruzada, al garantizar que se utilicen las mismas muestras para entrenar los transformadores y los predictores.

Todos los estimadores en un pipeline, excepto el último, deben ser transformadores (es decir, deben tener un método de transformación). El último estimador puede ser de cualquier tipo (transformador, clasificador, etc.).

###   <span style="color:blue">Uso</span>

**Construcción**

El pipeline se construye utilizando una lista de pares (clave, valor), donde la clave es una cadena que contiene el nombre que deseas darle a este paso y el valor es un objeto estimador:

from sklearn.pipeline import Pipeline
from sklearn.svm import SVC
from sklearn.decomposition import PCA
estimators = [('reduce_dim', PCA()), ('clf', SVC())]
pipe = Pipeline(estimators)
pipe

La función de utilidad make_pipeline es una abreviatura para construir pipelines; toma un número variable de estimadores y devuelve un pipeline, llenando automáticamente los nombres:

In [2]:
from sklearn.pipeline import make_pipeline
from sklearn.naive_bayes import MultinomialNB
from sklearn.preprocessing import Binarizer
make_pipeline(Binarizer(), MultinomialNB())

**Acceso a los pasos**

Los estimadores de un pipeline se almacenan como una lista en el atributo steps, pero se pueden acceder por índice o por nombre indexándolos (con [idx]) en el pipeline:

In [3]:
pipe.steps[0]

('reduce_dim', PCA())

In [4]:
pipe[0]

In [5]:
pipe['reduce_dim']

El atributo named_steps de el pipeline permite acceder a los pasos por nombre con la finalización de pestañas en entornos interactivos:

In [6]:
pipe.named_steps.reduce_dim is pipe['reduce_dim']

True

También se puede extraer un sub-pipeline utilizando la notación de segmentación comúnmente utilizada para secuencias de Python, como listas o cadenas (aunque solo se permite un paso de 1). Esto es conveniente para realizar solo algunas de las transformaciones (o su inverso):

In [7]:
pipe[:1]

In [8]:
pipe[-1:]

**Parámetros anidados**

Los parámetros de los estimadores en la tubería se pueden acceder utilizando la sintaxis <estimador>__<parámetro>:

In [9]:
pipe.set_params(clf__C=10)

Esto es particularmente importante al realizar Grid Search:

In [10]:
from sklearn.model_selection import GridSearchCV
param_grid = dict(reduce_dim__n_components=[2, 5, 10],
                  clf__C=[0.1, 10, 100])
grid_search = GridSearchCV(pipe, param_grid=param_grid)

Los pasos individuales también pueden ser reemplazados como parámetros, y los pasos que no son finales pueden ser ignorados configurándolos como 'passthrough':

In [11]:
from sklearn.linear_model import LogisticRegression
param_grid = dict(reduce_dim=['passthrough', PCA(5), PCA(10)],
                  clf=[SVC(), LogisticRegression()],
                  clf__C=[0.1, 10, 100])
grid_search = GridSearchCV(pipe, param_grid=param_grid)

Los estimadores de el pipeline se pueden recuperar por índice:

In [12]:
pipe[0]

In [13]:
pipe['reduce_dim']

Para habilitar la inspección del modelo, el "pipeline" tiene un método llamado get_feature_names_out(), al igual que todos los transformadores. Puedes utilizar el "pipeline slicing" para obtener los nombres de las características que ingresan en cada paso:

In [14]:
from sklearn.datasets import load_iris
from sklearn.feature_selection import SelectKBest
iris = load_iris()
pipe = Pipeline(steps=[
    ('select', SelectKBest(k=2)),
    ('clf', LogisticRegression())])
pipe.fit(iris.data, iris.target)

In [15]:
pipe[:-1].get_feature_names_out()

array(['x2', 'x3'], dtype=object)

También puedes proporcionar nombres de características personalizados para los datos de entrada utilizando get_feature_names_out:

In [16]:
pipe[:-1].get_feature_names_out(iris.feature_names)

array(['petal length (cm)', 'petal width (cm)'], dtype=object)

**Ejemplos**

- [Pipeline ANOVA SVM](https://scikit-learn.org/stable/auto_examples/feature_selection/plot_feature_selection_pipeline.html#sphx-glr-auto-examples-feature-selection-plot-feature-selection-pipeline-py)

- [Sample pipeline for text feature extraction and evaluation](https://scikit-learn.org/stable/auto_examples/model_selection/plot_grid_search_text_feature_extraction.html#sphx-glr-auto-examples-model-selection-plot-grid-search-text-feature-extraction-py)

- [Pipelining: chaining a PCA and a logistic regression](https://scikit-learn.org/stable/auto_examples/compose/plot_digits_pipe.html#sphx-glr-auto-examples-compose-plot-digits-pipe-py)

- [Explicit feature map approximation for RBF kernels](https://scikit-learn.org/stable/auto_examples/miscellaneous/plot_kernel_approximation.html#sphx-glr-auto-examples-miscellaneous-plot-kernel-approximation-py)

- [SVM-Anova: SVM with univariate feature selection](https://scikit-learn.org/stable/auto_examples/svm/plot_svm_anova.html#sphx-glr-auto-examples-svm-plot-svm-anova-py)

- [Selecting dimensionality reduction with Pipeline and GridSearchCV](https://scikit-learn.org/stable/auto_examples/compose/plot_compare_reduction.html#sphx-glr-auto-examples-compose-plot-compare-reduction-py)

- [Displaying Pipelines](https://scikit-learn.org/stable/auto_examples/miscellaneous/plot_pipeline_display.html#sphx-glr-auto-examples-miscellaneous-plot-pipeline-display-py)

Véase también:

- [Composite estimators and parameter spaces](https://scikit-learn.org/stable/modules/grid_search.html#composite-grid-search)

###   <span style="color:blue">Notas</span>

Llamar a fit en el "pipeline" es equivalente a llamar a fit en cada estimador por turno, transformar la entrada y pasarla al siguiente paso. El "pipeline" tiene todos los métodos que tiene el último estimador en el "pipeline", es decir, si el último estimador es un clasificador, el "pipeline" puede utilizarse como un clasificador. Si el último estimador es un transformador, una vez más, el "pipeline" también lo es.

###   <span style="color:blue">Almacenamiento en caché de transformadores: evita la computación repetida</span>

Ajustar transformadores puede ser computacionalmente costoso. Con su parámetro de memoria configurado, el Pipeline almacenará en caché cada transformador después de llamar a la función fit. Esta característica se utiliza para evitar calcular los transformadores ajustados dentro de un pipeline si los parámetros y los datos de entrada son idénticos. Un ejemplo típico es el caso de una búsqueda en cuadrícula en la que los transformadores solo se ajustan una vez y se reutilizan para cada configuración. El último paso nunca se almacenará en caché, incluso si es un transformador.

Se necesita el parámetro de memoria para almacenar en caché los transformadores. La memoria puede ser tanto una cadena que contiene el directorio donde se almacenarán en caché los transformadores como un objeto joblib.Memory:

In [17]:
from tempfile import mkdtemp
from shutil import rmtree
from sklearn.decomposition import PCA
from sklearn.svm import SVC
from sklearn.pipeline import Pipeline
estimators = [('reduce_dim', PCA()), ('clf', SVC())]
cachedir = mkdtemp()
pipe = Pipeline(estimators, memory=cachedir)
pipe

In [18]:
# Clear the cache directory when you don't need it anymore
rmtree(cachedir)

**Advertencia**

Efecto secundario de la caché de transformadores

Si se utiliza un el pipeline sin habilitar la caché, es posible inspeccionar la instancia original, como:

In [19]:
from sklearn.datasets import load_digits
X_digits, y_digits = load_digits(return_X_y=True)
pca1 = PCA()
svm1 = SVC()
pipe = Pipeline([('reduce_dim', pca1), ('clf', svm1)])
pipe.fit(X_digits, y_digits)

In [20]:
# The pca instance can be inspected directly
print(pca1.components_)

[[-1.77484909e-19 -1.73094651e-02 -2.23428835e-01 ... -8.94184677e-02
  -3.65977111e-02 -1.14684954e-02]
 [ 3.27805401e-18 -1.01064569e-02 -4.90849204e-02 ...  1.76697117e-01
   1.94547053e-02 -6.69693895e-03]
 [-1.68358559e-18  1.83420720e-02  1.26475543e-01 ...  2.32084163e-01
   1.67026563e-01  3.48043832e-02]
 ...
 [-0.00000000e+00 -6.55709878e-16 -3.24536420e-17 ... -7.56904149e-18
   6.81023211e-17 -1.33364863e-16]
 [-0.00000000e+00  1.95048835e-16 -1.28280511e-17 ... -4.44774426e-17
  -2.36654458e-18  2.59942050e-17]
 [ 1.00000000e+00 -1.68983002e-17  5.73338351e-18 ...  8.66631300e-18
  -1.57615962e-17  4.07058917e-18]]


Habilitar el almacenamiento en caché desencadena la clonación de los transformadores antes del ajuste. Por lo tanto, la instancia del transformador proporcionada al pipeline no se puede inspeccionar directamente. En el siguiente ejemplo, acceder a la instancia PCA llamada pca2 generará un error de atributo (AttributeError) ya que pca2 será un transformador sin ajustar. En su lugar, utilice el atributo llamado "named_steps" para inspeccionar los estimadores dentro del pipeline:

In [21]:
cachedir = mkdtemp()
pca2 = PCA()
svm2 = SVC()
cached_pipe = Pipeline([('reduce_dim', pca2), ('clf', svm2)],
                       memory=cachedir)
cached_pipe.fit(X_digits, y_digits)

In [22]:
print(cached_pipe.named_steps['reduce_dim'].components_)

[[-1.77484909e-19 -1.73094651e-02 -2.23428835e-01 ... -8.94184677e-02
  -3.65977111e-02 -1.14684954e-02]
 [ 3.27805401e-18 -1.01064569e-02 -4.90849204e-02 ...  1.76697117e-01
   1.94547053e-02 -6.69693895e-03]
 [-1.68358559e-18  1.83420720e-02  1.26475543e-01 ...  2.32084163e-01
   1.67026563e-01  3.48043832e-02]
 ...
 [-0.00000000e+00 -6.55709878e-16 -3.24536420e-17 ... -7.56904149e-18
   6.81023211e-17 -1.33364863e-16]
 [-0.00000000e+00  1.95048835e-16 -1.28280511e-17 ... -4.44774426e-17
  -2.36654458e-18  2.59942050e-17]
 [ 1.00000000e+00 -1.68983002e-17  5.73338351e-18 ...  8.66631300e-18
  -1.57615962e-17  4.07058917e-18]]


In [23]:
# Remove the cache directory
rmtree(cachedir)

**Ejemplos**

- [Selecting dimensionality reduction with Pipeline and GridSearchCV](https://scikit-learn.org/stable/auto_examples/compose/plot_compare_reduction.html#sphx-glr-auto-examples-compose-plot-compare-reduction-py)

##   <span style="color:blue">Transformando la variable objetivo en regresión

</span>

[TransformedTargetRegressor](https://scikit-learn.org/stable/modules/generated/sklearn.compose.TransformedTargetRegressor.html#sklearn.compose.TransformedTargetRegressor) transforma los objetivos y antes de ajustar un modelo de regresión. Las predicciones se mapean de nuevo al espacio original mediante una transformación inversa. Toma como argumento el regresor que se utilizará para la predicción y el transformador que se aplicará a la variable objetivo:

In [25]:
import numpy as np
from sklearn.datasets import fetch_california_housing
from sklearn.compose import TransformedTargetRegressor
from sklearn.preprocessing import QuantileTransformer
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
X, y = fetch_california_housing(return_X_y=True)
X, y = X[:2000, :], y[:2000]  # select a subset of data
transformer = QuantileTransformer(output_distribution='normal')
regressor = LinearRegression()
regr = TransformedTargetRegressor(regressor=regressor,
                                  transformer=transformer)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
regr.fit(X_train, y_train)

In [26]:
print('R2 score: {0:.2f}'.format(regr.score(X_test, y_test)))

R2 score: 0.61


In [27]:
raw_target_regr = LinearRegression().fit(X_train, y_train)
print('R2 score: {0:.2f}'.format(raw_target_regr.score(X_test, y_test)))

R2 score: 0.59


Para transformaciones simples, en lugar de un objeto Transformer, se pueden pasar un par de funciones que definan la transformación y su mapeo inverso, como el pipeline:

In [28]:
def func(x):
    return np.log(x)
def inverse_func(x):
    return np.exp(x)

Subsecuentemente el objeto creado es:

In [29]:
regr = TransformedTargetRegressor(regressor=regressor,
                                  func=func,
                                  inverse_func=inverse_func)
regr.fit(X_train, y_train)

In [30]:
print('R2 score: {0:.2f}'.format(regr.score(X_test, y_test)))

R2 score: 0.51


Por defecto, las funciones proporcionadas se verifican en cada ajuste para ser inversas entre sí. Sin embargo, es posible evitar esta verificación configurando check_inverse en False:

In [31]:
def inverse_func(x):
    return x
regr = TransformedTargetRegressor(regressor=regressor,
                                  func=func,
                                  inverse_func=inverse_func,
                                  check_inverse=False)
regr.fit(X_train, y_train)

In [32]:
print('R2 score: {0:.2f}'.format(regr.score(X_test, y_test)))

R2 score: -1.57


**Nota**

La transformación se puede activar configurando tanto el transformador como el par de funciones func e inverse_func. Sin embargo, configurar ambas opciones generará un error.

**Ejemplo**

- [Effect of transforming the targets in regression model](https://scikit-learn.org/stable/auto_examples/compose/plot_transformed_target.html#sphx-glr-auto-examples-compose-plot-transformed-target-py)

##   <span style="color:blue">FeatureUnion: Espacios de características compuestos

</span>

[FeatureUnion](https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.FeatureUnion.html#sklearn.pipeline.FeatureUnion) combina varios objetos transformadores en un nuevo transformador que combina sus salidas. Un FeatureUnion toma una lista de objetos transformadores. Durante el ajuste, cada uno de ellos se ajusta a los datos de forma independiente. Los transformadores se aplican en paralelo y las matrices de características que producen se concatenan una al lado de la otra en una matriz más grande.

Cuando desee aplicar transformaciones diferentes a cada campo de los datos, consulte la clase relacionada ColumnTransformer (consulte la [guía del usuario](https://scikit-learn.org/stable/modules/compose.html#column-transformer)).

FeatureUnion cumple con los mismos propósitos que Pipeline: comodidad y estimación conjunta de parámetros y validación.

FeatureUnion y Pipeline se pueden combinar para crear modelos complejos.

(Un FeatureUnion no tiene forma de verificar si dos transformadores pueden producir características idénticas. Solo produce una unión cuando los conjuntos de características son disjuntos, y garantizar que lo sean es responsabilidad del llamante).

###   <span style="color:blue">Uso

</span>

Un FeatureUnion se construye utilizando una lista de pares (clave, valor), donde la clave es el nombre que deseas dar a una determinada transformación (una cadena arbitraria; solo sirve como identificador) y el valor es un objeto estimador:

In [33]:
from sklearn.pipeline import FeatureUnion
from sklearn.decomposition import PCA
from sklearn.decomposition import KernelPCA
estimators = [('linear_pca', PCA()), ('kernel_pca', KernelPCA())]
combined = FeatureUnion(estimators)
combined

Al igual que el pipeline, las uniones de características tienen un constructor abreviado llamado make_union que no requiere la denominación explícita de los componentes.

Al igual que en el Pipeline, los pasos individuales pueden ser reemplazados utilizando set_params y ser ignorados configurándolos como 'drop':

In [34]:
combined.set_params(kernel_pca='drop')

**Ejemplos**

- [Concatenating multiple feature extraction methods](https://scikit-learn.org/stable/auto_examples/compose/plot_feature_union.html#sphx-glr-auto-examples-compose-plot-feature-union-py)

##   <span style="color:blue">ColumnTransformer para datos heterogéneos

</span>

Muchos conjuntos de datos contienen características de diferentes tipos, como texto, números decimales y fechas, donde cada tipo de característica requiere pasos de preprocesamiento o extracción de características por separado. A menudo, es más fácil preprocesar los datos antes de aplicar métodos de scikit-learn, por ejemplo, utilizando pandas. Procesar sus datos antes de pasarlos a scikit-learn puede ser problemático por una de las siguientes razones:

1. Incorporar estadísticas de datos de prueba en los preprocesadores hace que las puntuaciones de validación cruzada sean poco fiables (conocido como fuga de datos), por ejemplo, en el caso de escaladores o imputación de valores faltantes.

2. Es posible que desee incluir los parámetros de los preprocesadores en una [búsqueda de parámetros](https://scikit-learn.org/stable/modules/grid_search.html#grid-search).

El [ColumnTransformer](https://scikit-learn.org/stable/modules/generated/sklearn.compose.ColumnTransformer.html#sklearn.compose.ColumnTransformer) ayuda a realizar diferentes transformaciones en diferentes columnas de los datos, dentro de una Tubería que es segura contra la fuga de datos y que puede parametrizarse. ColumnTransformer funciona con matrices, matrices dispersas y pandas DataFrames.

A cada columna se le puede aplicar una transformación diferente, como preprocesamiento o un método específico de extracción de características.

In [35]:
import pandas as pd
X = pd.DataFrame(
    {'city': ['London', 'London', 'Paris', 'Sallisaw'],
     'title': ["His Last Bow", "How Watson Learned the Trick",
                "A Moveable Feast", "The Grapes of Wrath"],
     'expert_rating': [5, 3, 4, 5],
     'user_rating': [4, 5, 4, 3]})

Para estos datos, podríamos querer codificar la columna 'city' como una variable categórica utilizando OneHotEncoder pero aplicar CountVectorizer a la columna 'title'. Dado que podríamos usar múltiples métodos de extracción de características en la misma columna, damos a cada transformador un nombre único, como 'city_category' y 'title_bow'. Por defecto, se ignoran las columnas de calificación restantes (remainder='drop'):

In [36]:
from sklearn.compose import ColumnTransformer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.preprocessing import OneHotEncoder
column_trans = ColumnTransformer(
    [('categories', OneHotEncoder(dtype='int'), ['city']),
     ('title_bow', CountVectorizer(), 'title')],
    remainder='drop', verbose_feature_names_out=False)

column_trans.fit(X)

In [37]:
column_trans.get_feature_names_out()

array(['city_London', 'city_Paris', 'city_Sallisaw', 'bow', 'feast',
       'grapes', 'his', 'how', 'last', 'learned', 'moveable', 'of', 'the',
       'trick', 'watson', 'wrath'], dtype=object)

In [38]:
column_trans.transform(X).toarray()

array([[1, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0],
       [1, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0],
       [0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0],
       [0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1]], dtype=int64)

En el ejemplo anterior, [CountVectorizer](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html#sklearn.feature_extraction.text.CountVectorizer) espera una matriz unidimensional como entrada y, por lo tanto, las columnas se especificaron como una cadena ('title'). Sin embargo, [OneHotEncoder](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html#sklearn.preprocessing.OneHotEncoder), al igual que la mayoría de los otros transformadores, espera datos bidimensionales, por lo tanto, en ese caso debes especificar la columna como una lista de cadenas (['city']).

Además de un escalar o una lista de un solo elemento, la selección de columna se puede especificar como una lista de múltiples elementos, una matriz de enteros, una sección, una máscara booleana o con un make_column_selector. El [make_column_selector](https://scikit-learn.org/stable/modules/generated/sklearn.compose.make_column_selector.html#sklearn.compose.make_column_selector) se utiliza para seleccionar columnas según el tipo de datos o el nombre de la columna:

In [39]:
from sklearn.preprocessing import StandardScaler
from sklearn.compose import make_column_selector
ct = ColumnTransformer([
    ('scale', StandardScaler(),
     make_column_selector(dtype_include=np.number)),
    ('onehot',
     OneHotEncoder(),
     make_column_selector(pattern='city', dtype_include=object))])
ct.fit_transform(X)

array([[ 0.90453403,  0.        ,  1.        ,  0.        ,  0.        ],
       [-1.50755672,  1.41421356,  1.        ,  0.        ,  0.        ],
       [-0.30151134,  0.        ,  0.        ,  1.        ,  0.        ],
       [ 0.90453403, -1.41421356,  0.        ,  0.        ,  1.        ]])

Las cadenas pueden hacer referencia a columnas si la entrada es un DataFrame, los enteros siempre se interpretan como las columnas posicionales.

Podemos conservar las columnas de calificación restantes configurando remainder='passthrough'. Los valores se agregan al final de la transformación:

In [40]:
column_trans = ColumnTransformer(
    [('city_category', OneHotEncoder(dtype='int'),['city']),
     ('title_bow', CountVectorizer(), 'title')],
    remainder='passthrough')

column_trans.fit_transform(X)

array([[1, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 5, 4],
       [1, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0, 3, 5],
       [0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 4, 4],
       [0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 5, 3]],
      dtype=int64)

El parámetro remainder se puede configurar como un estimador para transformar las columnas de calificación restantes. Los valores transformados se agregan al final del pipeline de transformación.

In [41]:
from sklearn.preprocessing import MinMaxScaler
column_trans = ColumnTransformer(
    [('city_category', OneHotEncoder(), ['city']),
     ('title_bow', CountVectorizer(), 'title')],
    remainder=MinMaxScaler())
column_trans.fit_transform(X)[:, -2:]

array([[1. , 0.5],
       [0. , 1. ],
       [0.5, 0.5],
       [1. , 0. ]])

La función make_column_transformer está disponible para crear más fácilmente un objeto ColumnTransformer. Específicamente, los nombres se asignarán automáticamente. El equivalente para el ejemplo anterior sería:

In [42]:
from sklearn.compose import make_column_transformer
column_trans = make_column_transformer(
    (OneHotEncoder(), ['city']),
    (CountVectorizer(), 'title'),
    remainder=MinMaxScaler())
column_trans

Si ColumnTransformer se ajusta con un marco de datos y el marco de datos solo tiene nombres de columnas de tipo cadena, entonces al transformar un marco de datos, se utilizarán los nombres de las columnas para seleccionar las columnas:

In [43]:
ct = ColumnTransformer(
    [("scale", StandardScaler(), ["expert_rating"])]).fit(X)
X_new = pd.DataFrame({"expert_rating": [5, 6, 1],
                      "ignored_new_col": [1.2, 0.3, -0.1]})
ct.transform(X_new)

array([[ 0.90453403],
       [ 2.11057941],
       [-3.91964748]])

##   <span style="color:blue">Visualización de Estimadores Compuestos

</span>

Los estimadores se muestran con una representación HTML cuando se muestran en un cuaderno Jupyter. Esto es útil para diagnosticar o visualizar un Pipeline con muchos estimadores. Esta visualización está activada de forma predeterminada:

In [44]:
column_trans  

Puede desactivarse configurando la opción de visualización en set_config como 'text':

In [45]:
from sklearn import set_config
set_config(display='text')  
# displays text representation in a jupyter context
column_trans  

ColumnTransformer(remainder=MinMaxScaler(),
                  transformers=[('onehotencoder', OneHotEncoder(), ['city']),
                                ('countvectorizer', CountVectorizer(),
                                 'title')])

Un ejemplo de la salida HTML se puede ver en la sección de representación HTML del Pipeline en el Column Transformer con Tipos Mixtos. Como alternativa, el HTML se puede escribir en un archivo utilizando estimator_html_repr:

In [None]:
from sklearn.utils import estimator_html_repr
with open('my_estimator.html', 'w') as f:
    f.write(estimator_html_repr(clf))

**Ejemplos**

- [Column Transformer with Heterogeneous Data Sources](https://scikit-learn.org/stable/auto_examples/compose/plot_column_transformer.html#sphx-glr-auto-examples-compose-plot-column-transformer-py)

- [Column Transformer with Mixed Types](https://scikit-learn.org/stable/auto_examples/compose/plot_column_transformer_mixed_types.html#sphx-glr-auto-examples-compose-plot-column-transformer-mixed-types-py)

#   <span style="color:blue">Extracción de características</span>

El módulo [sklearn.feature_extraction](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.feature_extraction) se puede utilizar para extraer características en un formato compatible con algoritmos de aprendizaje automático a partir de conjuntos de datos que consisten en formatos como texto e imágenes.

**Nota**

La [extracción de características](https://scikit-learn.org/stable/modules/feature_selection.html#feature-selection) es muy diferente de la selección de características: la primera consiste en transformar datos arbitrarios, como texto o imágenes, en características numéricas utilizables para el aprendizaje automático. La última es una técnica de aprendizaje automático aplicada a estas características.

##   <span style="color:blue">Carga de características desde diccionarios</span>

La clase [DictVectorizer](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.DictVectorizer.html#sklearn.feature_extraction.DictVectorizer) se puede utilizar para convertir matrices de características representadas como listas de objetos diccionario estándar de Python en la representación de NumPy/SciPy utilizada por los estimadores de scikit-learn.

Si bien no es particularmente rápido de procesar, el diccionario de Python tiene la ventaja de ser conveniente de usar, ser disperso (las características ausentes no necesitan almacenarse) y almacenar nombres de características además de valores.

DictVectorizer implementa lo que se llama codificación uno-de-K o "one-hot" para características categóricas (también conocidas como nominales o discretas). Las características categóricas son pares "atributo-valor" donde el valor se restringe a una lista de posibilidades discretas sin orden (por ejemplo, identificadores de temas, tipos de objetos, etiquetas, nombres...).

En lo siguiente, "ciudad" es un atributo categórico mientras que "temperatura" es una característica numérica tradicional:

In [47]:
measurements = [
    {'city': 'Dubai', 'temperature': 33.},
    {'city': 'London', 'temperature': 12.},
    {'city': 'San Francisco', 'temperature': 18.},
]
from sklearn.feature_extraction import DictVectorizer
vec = DictVectorizer()

vec.fit_transform(measurements).toarray()

array([[ 1.,  0.,  0., 33.],
       [ 0.,  1.,  0., 12.],
       [ 0.,  0.,  1., 18.]])

In [48]:
vec.get_feature_names_out()

array(['city=Dubai', 'city=London', 'city=San Francisco', 'temperature'],
      dtype=object)

DictVectorizer acepta múltiples valores de cadena para una característica, como, por ejemplo, múltiples categorías para una película.

Supongamos que una base de datos clasifica cada película utilizando algunas categorías (no obligatorias) y su año de lanzamiento.

In [49]:
movie_entry = [{'category': ['thriller', 'drama'], 'year': 2003},
               {'category': ['animation', 'family'], 'year': 2011},
               {'year': 1974}]
vec.fit_transform(movie_entry).toarray()

array([[0.000e+00, 1.000e+00, 0.000e+00, 1.000e+00, 2.003e+03],
       [1.000e+00, 0.000e+00, 1.000e+00, 0.000e+00, 2.011e+03],
       [0.000e+00, 0.000e+00, 0.000e+00, 0.000e+00, 1.974e+03]])

In [50]:
vec.get_feature_names_out()

array(['category=animation', 'category=drama', 'category=family',
       'category=thriller', 'year'], dtype=object)

In [51]:
vec.transform({'category': ['thriller'],
               'unseen_feature': '3'}).toarray()

array([[0., 0., 0., 1., 0.]])

DictVectorizer también es una transformación de representación útil para entrenar clasificadores de secuencia en modelos de Procesamiento de Lenguaje Natural que suelen trabajar extrayendo ventanas de características alrededor de una palabra de interés en particular.

Por ejemplo, supongamos que tenemos un primer algoritmo que extrae etiquetas de Partes de la Oración (PoS) que queremos usar como etiquetas complementarias para entrenar un clasificador de secuencia (por ejemplo, un fragmentador). El siguiente diccionario podría ser una ventana de características como esa extraída alrededor de la palabra 'sat' en la oración 'The cat sat on the mat.':

In [52]:
pos_window = [
    {
        'word-2': 'the',
        'pos-2': 'DT',
        'word-1': 'cat',
        'pos-1': 'NN',
        'word+1': 'on',
        'pos+1': 'PP',
    },
]
# in a real application one would extract many such dictionaries

Esta descripción se puede vectorizar en una matriz bidimensional dispersa adecuada para alimentar a un clasificador (quizás después de pasar por un TfidfTransformer para normalización):

In [53]:
vec = DictVectorizer()
pos_vectorized = vec.fit_transform(pos_window)
pos_vectorized

<1x6 sparse matrix of type '<class 'numpy.float64'>'
	with 6 stored elements in Compressed Sparse Row format>

In [54]:
pos_vectorized.toarray()

array([[1., 1., 1., 1., 1., 1.]])

In [55]:
vec.get_feature_names_out()

array(['pos+1=PP', 'pos-1=NN', 'pos-2=DT', 'word+1=on', 'word-1=cat',
       'word-2=the'], dtype=object)

Como puedes imaginar, si se extrae un contexto similar alrededor de cada palabra individual de un corpus de documentos, la matriz resultante será muy amplia (con muchas características one-hot), y la mayoría de ellas tendrá un valor cero la mayor parte del tiempo. Para que la estructura de datos resultante pueda caber en memoria, la clase DictVectorizer utiliza una matriz scipy.sparse de forma predeterminada en lugar de un numpy.ndarray.

##   <span style="color:blue">Hashing de características</span>

La clase [FeatureHasher](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.FeatureHasher.html#sklearn.feature_extraction.FeatureHasher) es un vectorizador de alta velocidad y bajo consumo de memoria que utiliza una técnica conocida como hashing de características o el "truco del hashing". En lugar de construir una tabla hash de las características encontradas en el entrenamiento, como hacen los vectorizadores, las instancias de FeatureHasher aplican una función hash a las características para determinar su índice de columna en las matrices de muestra directamente. El resultado es una mayor velocidad y un menor uso de memoria, a expensas de la inspeccionabilidad; el hasher no recuerda cómo eran las características de entrada y no tiene un método inverse_transform.

Dado que la función hash puede causar colisiones entre características (no relacionadas), se utiliza una función hash con signo y el signo del valor hash determina el signo del valor almacenado en la matriz de salida para una característica. De esta manera, es probable que las colisiones se cancelen en lugar de acumular errores, y la media esperada del valor de cualquier característica de salida es cero. Este mecanismo está habilitado de forma predeterminada con alternate_sign=True y es particularmente útil para tamaños de tabla hash pequeños (n_features < 10000). Para tamaños de tabla hash grandes, se puede desactivar para permitir que la salida se pase a estimadores como [MultinomialNB](https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.MultinomialNB.html#sklearn.naive_bayes.MultinomialNB) o selectores de características [chi2](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.chi2.html#sklearn.feature_selection.chi2) que esperan entradas no negativas.

FeatureHasher acepta mapeos (como el diccionario de Python y sus variantes en el módulo collections), pares (característica, valor) o cadenas, dependiendo del parámetro constructor input_type. Los mapeos se tratan como listas de pares (característica, valor), mientras que las cadenas individuales tienen un valor implícito de 1, por lo que ['feat1', 'feat2', 'feat3'] se interpreta como [('feat1', 1), ('feat2', 1), ('feat3', 1)]. Si una característica única ocurre varias veces en una muestra, los valores asociados se sumarán (por lo que ('feat', 2) y ('feat', 3.5) se convierten en ('feat', 5.5)). La salida de FeatureHasher es siempre una matriz dispersa de scipy en el formato CSR.

El hashing de características se puede emplear en la clasificación de documentos, pero a diferencia de CountVectorizer, FeatureHasher no realiza la división de palabras ni ningún otro preprocesamiento, excepto la codificación Unicode a UTF-8; consulte [Vectorizar un corpus de texto grande con el truco del hashing](https://scikit-learn.org/stable/modules/feature_extraction.html#hashing-vectorizer) a continuación, para obtener un tokenizador/hasher combinado.

Como ejemplo, considere una tarea de procesamiento de lenguaje natural a nivel de palabra que requiere características extraídas de pares (token, parte_del_discurso). Uno podría usar una función generadora de Python para extraer características:

In [56]:
def token_features(token, part_of_speech):
    if token.isdigit():
        yield "numeric"
    else:
        yield "token={}".format(token.lower())
        yield "token,pos={},{}".format(token, part_of_speech)
    if token[0].isupper():
        yield "uppercase_initial"
    if token.isupper():
        yield "all_uppercase"
    yield "pos={}".format(part_of_speech)

Luego, el raw_X que se va a alimentar a FeatureHasher.transform se puede construir de la siguiente manera:

In [None]:
raw_X = (token_features(tok, pos_tagger(tok)) for tok in corpus)

y se puede alimentar a un "hasher" con:

In [None]:
hasher = FeatureHasher(input_type='string')
X = hasher.transform(raw_X)

para obtener una matriz dispersa de scipy.sparse X.

Ten en cuenta el uso de una comprensión de generador, que introduce la pereza en la extracción de características: los tokens solo se procesan cuando se solicitan desde el "hasher".

###   <span style="color:blue">Detalles de implementación</span>

[FeatureHasher](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.FeatureHasher.html#sklearn.feature_extraction.FeatureHasher) utiliza la variante con signo de 32 bits de MurmurHash3. Como resultado (y debido a limitaciones en scipy.sparse), el número máximo de características admitidas actualmente es $2^{31} - 1$

La formulación original del truco de hash por Weinberger et al. utilizó dos funciones de hash separadas $h$ y $\xi$ para determinar el índice de columna y el signo de una característica, respectivamente. La implementación actual trabaja bajo la suposición de que el bit de signo de MurmurHash3 es independiente de sus otros bits.

Dado que se utiliza un simple módulo para transformar la función de hash en un índice de columna, es recomendable utilizar una potencia de dos como parámetro "n_features"; de lo contrario, las características no se asignarán uniformemente a las columnas.

**Referencias**:

- Kilian Weinberger, Anirban Dasgupta, John Langford, Alex Smola y Josh Attenberg (2009). [Hashing de características para el aprendizaje multitarea a gran escala](https://alex.smola.org/papers/2009/Weinbergeretal09.pdf). Proc. ICML.

- [MurmurHash3](https://github.com/aappleby/smhasher).

##   <span style="color:blue">Extracción de características de texto</span>

###   <span style="color:blue">La representación de "Bolsa de Palabras</span>

El análisis de texto es un campo de aplicación importante para los algoritmos de aprendizaje automático. Sin embargo, los datos en bruto, una secuencia de símbolos, no se pueden alimentar directamente a los algoritmos en sí, ya que la mayoría de ellos esperan vectores de características numéricas con un tamaño fijo en lugar de documentos de texto en bruto con longitud variable.

Para abordar esto, scikit-learn proporciona utilidades para las formas más comunes de extraer características numéricas a partir del contenido de texto, a saber:

- Tokenizar cadenas y asignar un identificador entero a cada posible token, por ejemplo, mediante el uso de espacios en blanco y signos de puntuación como separadores de tokens.

- Contar las apariciones de tokens en cada documento.

- Normalizar y ponderar tokens con importancia decreciente que ocurren en la mayoría de las muestras/documentos.

En este esquema, las características y las muestras se definen de la siguiente manera:

- La frecuencia de aparición de cada token individual (normalizada o no) se trata como una característica.

- El vector de todas las frecuencias de tokens para un documento dado se considera una muestra multivariada.

Por lo tanto, un corpus de documentos puede representarse mediante una matriz con una fila por documento y una columna por token (por ejemplo, palabra) que ocurre en el corpus.

Llamamos vectorización al proceso general de convertir una colección de documentos de texto en vectores de características numéricas. Esta estrategia específica (tokenización, conteo y normalización) se llama representación "Bolsa de Palabras" o "Bolsa de n-gramas". Los documentos se describen mediante la frecuencia de aparición de palabras, sin tener en cuenta por completo la información sobre la posición relativa de las palabras en el documento.

###   <span style="color:blue">Esparcidez</span>

Dado que la mayoría de los documentos generalmente utilizan un subconjunto muy pequeño de las palabras utilizadas en el corpus, la matriz resultante tendrá muchos valores de características que son ceros (generalmente más del 99% de ellos).

Por ejemplo, una colección de 10,000 documentos de texto cortos (como correos electrónicos) utilizará un vocabulario con un tamaño del orden de 100,000 palabras únicas en total, mientras que cada documento utilizará de 100 a 1000 palabras únicas individualmente.

Para poder almacenar una matriz de este tipo en la memoria y acelerar las operaciones algebraicas de matriz/vector, las implementaciones suelen utilizar una representación dispersa, como las implementaciones disponibles en el paquete scipy.sparse.

###   <span style="color:blue">Uso común del Vectorizador</span>

[CountVectorizer](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html#sklearn.feature_extraction.text.CountVectorizer) implementa tanto la tokenización como el conteo de ocurrencias en una sola clase:

In [58]:
from sklearn.feature_extraction.text import CountVectorizer

Este modelo tiene muchos parámetros, sin embargo, los valores predeterminados son bastante razonables (consulte la documentación de referencia para obtener más detalles):

In [59]:
vectorizer = CountVectorizer()
vectorizer

CountVectorizer()

Vamos a usarlo para tokenizar y contar las ocurrencias de palabras en un corpus minimalista de documentos de texto:

In [61]:
corpus = [
    'This is the first document.',
    'This is the second second document.',
    'And the third one.',
    'Is this the first document?',
]
X = vectorizer.fit_transform(corpus)
X

<4x9 sparse matrix of type '<class 'numpy.int64'>'
	with 19 stored elements in Compressed Sparse Row format>

La configuración predeterminada tokeniza la cadena extrayendo palabras de al menos 2 letras. La función específica que realiza este paso se puede solicitar explícitamente:

In [63]:
analyze = vectorizer.build_analyzer()
analyze("This is a text document to analyze.") == (
    ['this', 'is', 'text', 'document', 'to', 'analyze'])

True

Cada término encontrado por el analizador durante el ajuste recibe un índice entero único que corresponde a una columna en la matriz resultante. Esta interpretación de las columnas se puede recuperar de la siguiente manera:

In [64]:
vectorizer.get_feature_names_out()

array(['and', 'document', 'first', 'is', 'one', 'second', 'the', 'third',
       'this'], dtype=object)

In [65]:
X.toarray()

array([[0, 1, 1, 1, 0, 0, 1, 0, 1],
       [0, 1, 0, 1, 0, 2, 1, 0, 1],
       [1, 0, 0, 0, 1, 0, 1, 1, 0],
       [0, 1, 1, 1, 0, 0, 1, 0, 1]], dtype=int64)

El mapeo inverso del nombre de la característica al índice de la columna se almacena en el atributo vocabulary_ del vectorizador:

In [66]:
vectorizer.vocabulary_.get('document')

1

Por lo tanto, las palabras que no se vieron en el corpus de entrenamiento se ignorarán por completo en futuras llamadas al método de transformación:

In [67]:
vectorizer.transform(['Something completely new.']).toarray()

array([[0, 0, 0, 0, 0, 0, 0, 0, 0]], dtype=int64)

Nota que en el corpus anterior, el primer y último documentos tienen exactamente las mismas palabras, por lo que están codificados en vectores iguales. En particular, perdemos la información de que el último documento es una forma interrogativa. Para preservar parte de la información de orden local, podemos extraer bigramas de palabras además de unigramas (palabras individuales):

In [68]:
bigram_vectorizer = CountVectorizer(ngram_range=(1, 2),
                                    token_pattern=r'\b\w+\b', min_df=1)
analyze = bigram_vectorizer.build_analyzer()
analyze('Bi-grams are cool!') == (
    ['bi', 'grams', 'are', 'cool', 'bi grams', 'grams are', 'are cool'])

True

El vocabulario extraído por este vectorizador es mucho más grande y ahora puede resolver ambigüedades codificadas en patrones de posicionamiento local:

In [69]:
X_2 = bigram_vectorizer.fit_transform(corpus).toarray()
X_2

array([[0, 0, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1, 1, 0],
       [0, 0, 1, 0, 0, 1, 1, 0, 0, 2, 1, 1, 1, 0, 1, 0, 0, 0, 1, 1, 0],
       [1, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 1, 1, 0, 0, 0],
       [0, 0, 1, 1, 1, 1, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 1]],
      dtype=int64)

En particular, la forma interrogativa "¿Es este?" solo está presente en el último documento:

In [70]:
feature_index = bigram_vectorizer.vocabulary_.get('is this')
X_2[:, feature_index]

array([0, 0, 0, 1], dtype=int64)

###   <span style="color:blue">Usar palabras de parada</span>

Las palabras de parada son palabras como "y", "el", "él", que se presumen no informativas en la representación del contenido de un texto y que pueden eliminarse para evitar que se interpreten como señales para la predicción. Sin embargo, a veces, palabras similares son útiles para la predicción, como en la clasificación del estilo de escritura o la personalidad.

Existen varios problemas conocidos en nuestra lista de palabras de parada en inglés proporcionada. No tiene como objetivo ser una solución general para todos los casos, ya que algunas tareas pueden requerir una solución más personalizada. Consulta [NQY18] para obtener más detalles.

Por favor, ten cuidado al elegir una lista de palabras de parada. Las listas de palabras de parada populares pueden incluir palabras que son altamente informativas para algunas tareas, como la informática.

También debes asegurarte de que la lista de palabras de parada haya tenido el mismo preprocesamiento y tokenización aplicados que el utilizado en el vectorizador. La palabra "we've" se divide en "we" y "ve" por el tokenizador predeterminado de CountVectorizer, por lo que si "we've" está en stop_words pero "ve" no lo está, "ve" se mantendrá en "we've" en el texto transformado. Nuestros vectorizadores intentarán identificar y advertir sobre algunos tipos de inconsistencias.

**Referencias**

J. Nothman, H. Qin and R. Yurchak (2018). [“Stop Word Lists in Free Open-source Software Packages”](https://aclweb.org/anthology/W18-2502). In Proc. Workshop for NLP Open Source Software.

###   <span style="color:blue">Peso de términos Tf-idf</span>

En un gran corpus de texto, algunas palabras estarán muy presentes (por ejemplo, "the", "a", "is" en inglés), por lo que llevarán muy poca información significativa sobre el contenido real del documento. Si alimentáramos directamente los datos de recuento a un clasificador, esas palabras muy frecuentes eclipsarían las frecuencias de términos más raros pero más interesantes.

Para volver a ponderar las características de recuento en valores de punto flotante adecuados para su uso por parte de un clasificador, es muy común utilizar la transformación tf-idf.

Tf significa frecuencia de término, mientras que tf-idf significa frecuencia de término multiplicada por la frecuencia inversa de documento $\text{tf-idf(t,d)}=\text{tf(t,d)} \times \text{idf(t)}$:

Usando la configuración predeterminada de TfidfTransformer, TfidfTransformer(norm='l2', use_idf=True, smooth_idf=True, sublinear_tf=False), la frecuencia de término, es decir, el número de veces que un término aparece en un documento dado, se multiplica por el componente idf, que se calcula como

$$
\text{idf}(t) = \log{\frac{1 + n}{1+\text{df}(t)}} + 1
$$

donde $n$ es el número total de documentos en el conjunto de documentos, y $df(t)$ es el número de documentos en el conjunto de documentos que contienen el término

$$
v_{norm} = \frac{v}{||v||_2} = \frac{v}{\sqrt{v{_1}^2 +
v{_2}^2 + \dots + v{_n}^2}}
$$

Originalmente, este era un esquema de ponderación de términos desarrollado para la recuperación de información (como una función de clasificación para los resultados de motores de búsqueda) que también se ha utilizado con éxito en la clasificación y agrupación de documentos.

Las siguientes secciones contienen explicaciones adicionales y ejemplos que ilustran cómo se calculan exactamente los tf-idf y cómo difieren ligeramente los tf-idf calculados en [TfidfTransformer](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfTransformer.html#sklearn.feature_extraction.text.TfidfTransformer) y [TfidfVectorizer](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html#sklearn.feature_extraction.text.TfidfVectorizer) de scikit-learn de la notación estándar de libros de texto que define el idf como:

$$
\text{idf}(t) = \log{\frac{n}{1+\text{df}(t)}}.
$$

En TfidfTransformer y TfidfVectorizer con smooth_idf=False, se agrega el conteo "1" al idf en lugar del denominador del idf:

$$
\text{idf}(t) = \log{\frac{n}{\text{df}(t)}} + 1
$$

Esta normalización se implementa mediante la clase TfidfTransformer:

In [71]:
from sklearn.feature_extraction.text import TfidfTransformer
transformer = TfidfTransformer(smooth_idf=False)
transformer

TfidfTransformer(smooth_idf=False)

Nuevamente, consulta la documentación de referencia para obtener detalles sobre todos los parámetros.

Tomemos un ejemplo con las siguientes cuentas. El primer término está presente el 100% del tiempo, por lo tanto, no es muy interesante. Las otras dos características solo están presentes en menos del 50% del tiempo, por lo tanto, probablemente sean más representativas del contenido de los documentos:

In [72]:
counts = [[3, 0, 1],
          [2, 0, 0],
          [3, 0, 0],
          [4, 0, 0],
          [3, 2, 0],
          [3, 0, 2]]

tfidf = transformer.fit_transform(counts)
tfidf

<6x3 sparse matrix of type '<class 'numpy.float64'>'
	with 9 stored elements in Compressed Sparse Row format>

In [73]:
tfidf.toarray()

array([[0.81940995, 0.        , 0.57320793],
       [1.        , 0.        , 0.        ],
       [1.        , 0.        , 0.        ],
       [1.        , 0.        , 0.        ],
       [0.47330339, 0.88089948, 0.        ],
       [0.58149261, 0.        , 0.81355169]])

Cada fila se normaliza para tener una norma euclidiana unitaria:

$$
v_{norm} = \frac{v}{||v||_2} = \frac{v}{\sqrt{v{_1}^2 +
v{_2}^2 + \dots + v{_n}^2}}
$$

Por ejemplo, podemos calcular el tf-idf del primer término en el primer documento en la matriz de conteo de la siguiente manera:

$$
n = 6
$$

$$
\text{df}(t)_{\text{term1}} = 6
$$

$$
\text{idf}(t)_{\text{term1}} =
\log \frac{n}{\text{df}(t)} + 1 = \log(1)+1 = 1
$$

$$
\text{tf-idf}_{\text{term1}} = \text{tf} \times \text{idf} = 3 \times 1 = 3
$$

Ahora, si repetimos este cálculo para los 2 términos restantes en el documento, obtenemos

$$
\text{tf-idf}_{\text{term2}} = 0 \times (\log(6/1)+1) = 0
$$

$$
\text{tf-idf}_{\text{term3}} = 1 \times (\log(6/2)+1) \approx 2.0986
$$

y el vector de tf-idf sin procesar:

$$
\text{tf-idf}_{\text{raw}} = [3, 0, 2.0986].
$$

Luego, aplicando la norma euclidiana (L2), obtenemos los siguientes tf-idf para el documento 1:

$$
\frac{[3, 0, 2.0986]}{\sqrt{\big(3^2 + 0^2 + 2.0986^2\big)}}
= [ 0.819,  0,  0.573].
$$

Además, el parámetro predeterminado smooth_idf=True agrega "1" al numerador y al denominador como si se hubiera visto un documento adicional que contiene cada término en la colección exactamente una vez, lo que evita divisiones por cero:

$$
\text{idf}(t) = \log{\frac{1 + n}{1+\text{df}(t)}} + 1
$$

Usando esta modificación, el tf-idf del tercer término en el documento 1 cambia a 1.8473:

$$
\text{tf-idf}_{\text{term3}} = 1 \times \log(7/3)+1 \approx 1.8473
$$

Y el tf-idf normalizado con L2 cambia a

$$
\frac{[3, 0, 1.8473]}{\sqrt{\big(3^2 + 0^2 + 1.8473^2\big)}}
= [0.8515, 0, 0.5243]
$$

In [74]:
transformer = TfidfTransformer()
transformer.fit_transform(counts).toarray()

array([[0.85151335, 0.        , 0.52433293],
       [1.        , 0.        , 0.        ],
       [1.        , 0.        , 0.        ],
       [1.        , 0.        , 0.        ],
       [0.55422893, 0.83236428, 0.        ],
       [0.63035731, 0.        , 0.77630514]])

Los pesos de cada característica calculados por la llamada al método "fit" se almacenan en un atributo del modelo:

In [75]:
transformer.idf_

array([1.        , 2.25276297, 1.84729786])

Dado que tf-idf se utiliza con mucha frecuencia para características de texto, también existe otra clase llamada TfidfVectorizer que combina todas las opciones de CountVectorizer y TfidfTransformer en un solo modelo.

In [76]:
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer()
vectorizer.fit_transform(corpus)

<4x9 sparse matrix of type '<class 'numpy.float64'>'
	with 19 stored elements in Compressed Sparse Row format>

Si bien la normalización tf-idf suele ser muy útil, puede haber casos en los que los marcadores de ocurrencia binaria puedan ofrecer características mejores. Esto se puede lograr utilizando el parámetro binario de [CountVectorizer](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html#sklearn.feature_extraction.text.CountVectorizer). En particular, algunos estimadores, como el [Bernoulli Naive Bayes](https://scikit-learn.org/stable/modules/naive_bayes.html#bernoulli-naive-bayes), modelan explícitamente variables booleanas discretas. Además, es probable que los textos muy cortos tengan valores tf-idf ruidosos, mientras que la información de ocurrencia binaria es más estable.

Como es habitual, la mejor manera de ajustar los parámetros de extracción de características es utilizar una búsqueda en cuadrícula con validación cruzada, por ejemplo, encadenando el extractor de características con un clasificador en el pipeline:

- [Sample pipeline for text feature extraction and evaluation](https://scikit-learn.org/stable/auto_examples/model_selection/plot_grid_search_text_feature_extraction.html#sphx-glr-auto-examples-model-selection-plot-grid-search-text-feature-extraction-py)

###   <span style="color:blue">Descodificación de archivos de texto</span>

El texto está compuesto por caracteres, pero los archivos están hechos de bytes. Estos bytes representan caracteres según algún tipo de codificación. Para trabajar con archivos de texto en Python, sus bytes deben descodificarse a un conjunto de caracteres llamado Unicode. Las codificaciones comunes son ASCII, Latin-1 (Europa Occidental), KOI8-R (Ruso) y las codificaciones universales UTF-8 y UTF-16. Existen muchas otras.

**Nota**

Una codificación también puede llamarse 'conjunto de caracteres', pero este término es menos preciso: puede haber varias codificaciones para un solo conjunto de caracteres.

Los extractores de características de texto en scikit-learn saben cómo descodificar archivos de texto, pero solo si les dices en qué codificación están los archivos. CountVectorizer toma un parámetro de codificación para este propósito. Para archivos de texto modernos, la codificación correcta probablemente sea UTF-8, por lo que es la opción predeterminada (encoding="utf-8").

Sin embargo, si el texto que estás cargando no está codificado con UTF-8, obtendrás un UnicodeDecodeError. Puedes indicar a los vectorizadores que ignoren los errores de descodificación configurando el parámetro decode_error en "ignore" o "replace". Consulta la documentación de la función bytes.decode de Python para obtener más detalles (escribe help(bytes.decode) en el indicador de Python).

Si tienes problemas para descodificar texto, aquí tienes algunas cosas que puedes intentar:

- Descubre cuál es la codificación real del texto. El archivo puede venir con un encabezado o un archivo README que te indique la codificación, o puede haber una codificación estándar que puedas asumir según de dónde provenga el texto.

- Es posible que puedas averiguar qué tipo de codificación es en general utilizando el comando UNIX file. El módulo chardet de Python viene con un script llamado chardetect.py que adivinará la codificación específica, aunque no puedes confiar en que su adivinanza sea correcta.

- Puedes intentar usar UTF-8 y pasar por alto los errores. Puedes descodificar cadenas de bytes con bytes.decode(errors='replace') para reemplazar todos los errores de descodificación con un carácter sin sentido, o configurar decode_error='replace' en el vectorizador. Esto puede dañar la utilidad de tus características.

- El texto real puede provenir de una variedad de fuentes que pueden haber utilizado diferentes codificaciones, o incluso haber sido descodificado de manera descuidada en una codificación diferente a la que fue codificado originalmente. Esto es común en el texto recuperado de la web. El paquete de Python llamado ftfy puede resolver automáticamente algunas clases de errores de descodificación, por lo que podrías intentar descodificar el texto desconocido como latin-1 y luego usar ftfy para corregir los errores.

- Si el texto está en una mezcla de codificaciones que es simplemente demasiado difícil de resolver (como en el caso del conjunto de datos 20 Newsgroups), puedes recurrir a una codificación simple de un solo byte, como latin-1. Algunos textos pueden mostrar incorrectamente, pero al menos la misma secuencia de bytes siempre representará la misma característica.

Por ejemplo, el siguiente fragmento de código utiliza chardet (no incluido en scikit-learn, debe instalarse por separado) para averiguar la codificación de tres textos. Luego, vectoriza los textos e imprime el vocabulario aprendido. La salida no se muestra aquí.

In [None]:
import chardet    
text1 = b"Sei mir gegr\xc3\xbc\xc3\x9ft mein Sauerkraut"
text2 = b"holdselig sind deine Ger\xfcche"
text3 = b"\xff\xfeA\x00u\x00f\x00 \x00F\x00l\x00\xfc\x00g\x00e\x00l\x00n\x00 \x00d\x00e\x00s\x00 \x00G\x00e\x00s\x00a\x00n\x00g\x00e\x00s\x00,\x00 \x00H\x00e\x00r\x00z\x00l\x00i\x00e\x00b\x00c\x00h\x00e\x00n\x00,\x00 \x00t\x00r\x00a\x00g\x00 \x00i\x00c\x00h\x00 \x00d\x00i\x00c\x00h\x00 \x00f\x00o\x00r\x00t\x00"
decoded = [x.decode(chardet.detect(x)['encoding'])
           for x in (text1, text2, text3)] 
v = CountVectorizer().fit(decoded).vocabulary_    
for term in v: print(v)                           

(Dependiendo de la versión de chardet, podría obtener el primero incorrectamente.)

Para obtener una introducción a Unicode y las codificaciones de caracteres en general, consulta [El mínimo absoluto que todo desarrollador de software debe saber sobre Unicode](https://www.joelonsoftware.com/2003/10/08/the-absolute-minimum-every-software-developer-absolutely-positively-must-know-about-unicode-and-character-sets-no-excuses/) de Joel Spolsky.

###   <span style="color:blue">Aplicaciones y ejemplos</span>

La representación de la bolsa de palabras es bastante simplista, pero sorprendentemente útil en la práctica.

En particular, en un entorno supervisado, se puede combinar con éxito con modelos lineales rápidos y escalables para entrenar clasificadores de documentos, por ejemplo:

- [Clasificación de documentos de texto utilizando características dispersas](https://scikit-learn.org/stable/auto_examples/text/plot_document_classification_20newsgroups.html#sphx-glr-auto-examples-text-plot-document-classification-20newsgroups-py)

En un entorno no supervisado, se puede utilizar para agrupar documentos similares aplicando algoritmos de agrupación como [K-means](https://scikit-learn.org/stable/modules/clustering.html#k-means):

- [Agrupación de documentos de texto utilizando K-means](https://scikit-learn.org/stable/auto_examples/text/plot_document_clustering.html#sphx-glr-auto-examples-text-plot-document-clustering-py)

Finalmente, es posible descubrir los temas principales de un corpus relajando la restricción de asignación rígida de la agrupación, por ejemplo, utilizando la [Factorización de Matrices No Negativas (NMF o NNMF)](https://scikit-learn.org/stable/modules/decomposition.html#nmf):

- [Extracción de temas con Factorización de Matrices No Negativas y Asignación Latente de Dirichlet](https://scikit-learn.org/stable/auto_examples/applications/plot_topics_extraction_with_nmf_lda.html#sphx-glr-auto-examples-applications-plot-topics-extraction-with-nmf-lda-py) (Latent Dirichlet Allocation, LDA)

###   <span style="color:blue">Limitaciones de las bolsas de palabras</span>

Limitaciones de la representación de Bolsa de Palabras

Una colección de unigramas (que es lo que es la bolsa de palabras) no puede capturar frases y expresiones de varias palabras, ignorando efectivamente cualquier dependencia del orden de las palabras. Además, el modelo de bolsa de palabras no tiene en cuenta posibles errores de escritura o derivaciones de palabras.

¡Los n-gramas vienen al rescate! En lugar de construir una simple colección de unigramas (n=1), uno podría preferir una colección de bigramas (n=2), donde se cuentan las ocurrencias de pares de palabras consecutivas.

También se podría considerar una colección de n-gramas de caracteres, una representación resistente a errores de escritura y derivaciones.

Por ejemplo, supongamos que estamos tratando con un corpus de dos documentos: ['words', 'wprds']. El segundo documento contiene un error de escritura de la palabra 'words'. Una representación de bolsa de palabras simple consideraría estos dos documentos como muy distintos, diferenciándose en ambas de las dos características posibles. Sin embargo, una representación de n-gramas de caracteres encontraría que los documentos coinciden en 4 de las 8 características, lo que podría ayudar al clasificador preferido a tomar decisiones mejores.

In [78]:
ngram_vectorizer = CountVectorizer(analyzer='char_wb', ngram_range=(2, 2))
counts = ngram_vectorizer.fit_transform(['words', 'wprds'])
ngram_vectorizer.get_feature_names_out()

array([' w', 'ds', 'or', 'pr', 'rd', 's ', 'wo', 'wp'], dtype=object)

In [79]:
counts.toarray().astype(int)

array([[1, 1, 1, 0, 1, 1, 1, 0],
       [1, 1, 0, 1, 1, 1, 0, 1]])

En el ejemplo anterior, se utiliza el analizador char_wb, que crea n-gramas solo a partir de caracteres dentro de los límites de las palabras (rellenados con espacios a cada lado). El analizador char, por otro lado, crea n-gramas que abarcan palabras:

In [80]:
ngram_vectorizer = CountVectorizer(analyzer='char_wb', ngram_range=(5, 5))
ngram_vectorizer.fit_transform(['jumpy fox'])

<1x4 sparse matrix of type '<class 'numpy.int64'>'
	with 4 stored elements in Compressed Sparse Row format>

In [81]:
ngram_vectorizer.get_feature_names_out()

array([' fox ', ' jump', 'jumpy', 'umpy '], dtype=object)

In [82]:
ngram_vectorizer = CountVectorizer(analyzer='char', ngram_range=(5, 5))
ngram_vectorizer.fit_transform(['jumpy fox'])

<1x5 sparse matrix of type '<class 'numpy.int64'>'
	with 5 stored elements in Compressed Sparse Row format>

In [83]:
ngram_vectorizer.get_feature_names_out()

array(['jumpy', 'mpy f', 'py fo', 'umpy ', 'y fox'], dtype=object)

La variante char_wb, que es consciente de los límites de las palabras, resulta especialmente interesante para los idiomas que utilizan espacios en blanco para separar palabras, ya que genera características significativamente menos ruidosas que la variante cruda de caracteres en ese caso. Para tales idiomas, puede aumentar tanto la precisión predictiva como la velocidad de convergencia de los clasificadores entrenados con estas características, al tiempo que mantiene la robustez en relación con errores ortográficos y derivaciones de palabras.

Si bien alguna información de posicionamiento local se puede preservar extrayendo n-gramos en lugar de palabras individuales, el modelo de bolsa de palabras y el modelo de bolsa de n-gramos destruyen la mayor parte de la estructura interna del documento y, por lo tanto, la mayoría del significado que lleva consigo esa estructura interna.

Para abordar la tarea más amplia de la comprensión del lenguaje natural, es necesario tener en cuenta la estructura local de las oraciones y los párrafos. Muchos de estos modelos se plantean como problemas de "salida estructurada", que actualmente están fuera del alcance de scikit-learn.

###   <span style="color:blue">Vectorización de un gran corpus de texto con el truco de hashing</span>

El esquema de vectorización mencionado anteriormente es simple, pero el hecho de que mantenga un mapeo en memoria de los tokens de cadena a los índices de características enteras (el atributo vocabulary_) causa varios problemas al tratar con conjuntos de datos grandes:

- Cuanto más grande sea el corpus, más crecerá el vocabulario y, por lo tanto, también el uso de memoria.
- El ajuste requiere la asignación de estructuras de datos intermedias de tamaño proporcional al del conjunto de datos original.
- La construcción del mapeo de palabras requiere un pase completo sobre el conjunto de datos, por lo que no es posible ajustar clasificadores de texto de manera estrictamente en línea.
- El envasado y desenvasado de vectorizadores con un vocabulario grande puede ser muy lento (generalmente mucho más lento que el envasado/desenvasado de estructuras de datos planas, como una matriz NumPy del mismo tamaño).
- No es fácilmente posible dividir el trabajo de vectorización en tareas secundarias concurrentes, ya que el atributo vocabulary_ tendría que ser un estado compartido con una barrera de sincronización de granularidad fina: el mapeo de la cadena de tokens al índice de características depende del orden de la primera aparición de cada token, lo que podría perjudicar el rendimiento de los trabajadores concurrentes hasta el punto de hacerlos más lentos que la variante secuencial.

Es posible superar estas limitaciones combinando el "truco de hashing" (hashing de características) implementado por la clase FeatureHasher y las características de preprocesamiento y tokenización de CountVectorizer.

Esta combinación se implementa en [HashingVectorizer](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.HashingVectorizer.html#sklearn.feature_extraction.text.HashingVectorizer), una clase transformadora que es en su mayoría compatible con la API de CountVectorizer. HashingVectorizer es sin estado, lo que significa que no es necesario llamar a fit en él.

In [84]:
from sklearn.feature_extraction.text import HashingVectorizer
hv = HashingVectorizer(n_features=10)
hv.transform(corpus)

<4x10 sparse matrix of type '<class 'numpy.float64'>'
	with 16 stored elements in Compressed Sparse Row format>

Puedes ver que se extrajeron 16 tokens de características no nulos en la salida vectorial. Esto es menos que los 19 no nulos extraídos anteriormente por CountVectorizer en el mismo corpus de prueba. La discrepancia se debe a colisiones de funciones hash debido al bajo valor del parámetro n_features.

En un entorno del mundo real, el parámetro n_features puede dejarse en su valor predeterminado de 2 ** 20 (aproximadamente un millón de características posibles). Si la memoria o el tamaño de los modelos posteriores son un problema, seleccionar un valor más bajo, como 2 ** 18, podría ayudar sin introducir demasiadas colisiones adicionales en tareas de clasificación de texto típicas.

Ten en cuenta que la dimensionalidad no afecta al tiempo de entrenamiento de la CPU de algoritmos que operan en matrices CSR (LinearSVC(dual=True), Perceptrón, SGDClassifier, PassiveAggressive), pero sí lo hace para algoritmos que trabajan con matrices CSC (LinearSVC(dual=False), Lasso(), etc.).

Intentemos de nuevo con la configuración predeterminada:

In [85]:
hv = HashingVectorizer()
hv.transform(corpus)

<4x1048576 sparse matrix of type '<class 'numpy.float64'>'
	with 19 stored elements in Compressed Sparse Row format>

Ya no obtenemos colisiones, pero esto conlleva una dimensionalidad mucho mayor en el espacio de salida. Por supuesto, otros términos distintos a los 19 utilizados aquí todavía pueden colisionar entre sí.

El HashingVectorizer también presenta las siguientes limitaciones:

- No es posible invertir el modelo (no hay método inverse_transform), ni acceder a la representación original en cadena de las características, debido a la naturaleza unidireccional de la función de hash que realiza la asignación.

- No proporciona ponderación IDF, ya que eso introduciría un estado en el modelo. Se puede agregar un TfidfTransformer si es necesario en una tubería.

###   <span style="color:blue">Realizando escalado fuera de línea con HashingVectorizer</span>

Un desarrollo interesante del uso de HashingVectorizer es la capacidad de realizar escalado fuera de línea. Esto significa que podemos aprender de datos que no caben en la memoria principal de la computadora.

Una estrategia para implementar el escalado fuera de línea es transmitir datos al estimador en mini-lotes. Cada mini-lote se vectoriza utilizando HashingVectorizer para garantizar que el espacio de entrada del estimador siempre tenga la misma dimensionalidad. La cantidad de memoria utilizada en cualquier momento está limitada por el tamaño de un mini-lote. Aunque no hay límite en la cantidad de datos que se pueden ingerir utilizando este enfoque, desde un punto de vista práctico, el tiempo de aprendizaje a menudo está limitado por el tiempo de CPU que uno desea dedicar a la tarea.

Para ver un ejemplo completo de escalado fuera de línea en una tarea de clasificación de texto, consulte la sección de Clasificación fuera de línea de documentos de texto.

###   <span style="color:blue">Personalización de las clases vectorizadoras</span>

Es posible personalizar el comportamiento pasando una función llamable al constructor del vectorizador:

In [88]:
def my_tokenizer(s):
    return s.split()

vectorizer = CountVectorizer(tokenizer=my_tokenizer)
vectorizer.build_analyzer()(u"Some... punctuation!") == (
    ['some...', 'punctuation!'])

True

En particular, nombramos:

- Preprocesador: una función llamable que toma un documento completo como entrada (como una sola cadena) y devuelve una versión posiblemente transformada del documento, aún como una cadena completa. Esto se puede utilizar para eliminar etiquetas HTML, convertir todo el documento a minúsculas, etc.

- Tokenizador: una función llamable que toma la salida del preprocesador y la divide en tokens, luego devuelve una lista de estos.

- Analizador: una función llamable que reemplaza al preprocesador y al tokenizador. Los analizadores predeterminados llaman al preprocesador y al tokenizador, pero los analizadores personalizados pueden omitir esto. La extracción de N-gramos y la filtración de palabras clave tienen lugar en el nivel del analizador, por lo que un analizador personalizado puede tener que reproducir estos pasos.

(Los usuarios de Lucene pueden reconocer estos nombres, pero deben tener en cuenta que los conceptos de scikit-learn pueden no coincidir uno a uno con los conceptos de Lucene).

Para que el preprocesador, el tokenizador y los analizadores estén al tanto de los parámetros del modelo, es posible derivar de la clase y anular los métodos de fábrica build_preprocessor, build_tokenizer y build_analyzer en lugar de pasar funciones personalizadas.

Algunos consejos y trucos:

- Si los documentos están pre-tokenizados por un paquete externo, guárdelos en archivos (o cadenas) con los tokens separados por espacios en blanco y pase analyzer=str.split.

- El análisis de nivel de tokenización avanzado, como el stemming, lematización, división de compuestos, filtrado basado en partes del discurso, etc., no está incluido en el código base de scikit-learn, pero se puede agregar personalizando el tokenizador o el analizador. Aquí tienes un ejemplo de CountVectorizer con un tokenizador y lematizador que utiliza [NLTK](https://www.nltk.org/):

In [None]:
from nltk import word_tokenize          
from nltk.stem import WordNetLemmatizer 
class LemmaTokenizer:
    def __init__(self):
        self.wnl = WordNetLemmatizer()
    def __call__(self, doc):
        return [self.wnl.lemmatize(t) for t in word_tokenize(doc)]
vect = CountVectorizer(tokenizer=LemmaTokenizer())  

(Ten en cuenta que esto no eliminará la puntuación.)

El siguiente ejemplo, por ejemplo, transformará algunas ortografías británicas en ortografías estadounidenses:

In [90]:
import re
def to_british(tokens):
    for t in tokens:
        t = re.sub(r"(...)our$", r"\1or", t)
        t = re.sub(r"([bt])re$", r"\1er", t)
        t = re.sub(r"([iy])s(e$|ing|ation)", r"\1z\2", t)
        t = re.sub(r"ogue$", "og", t)
        yield t
class CustomVectorizer(CountVectorizer):
    def build_tokenizer(self):
        tokenize = super().build_tokenizer()
        return lambda doc: list(to_british(tokenize(doc)))
print(CustomVectorizer().build_analyzer()(u"color colour"))

['color', 'color']


Para otros estilos de preprocesamiento; ejemplos incluyen el truncamiento, la lematización o la normalización de tokens numéricos, siendo estos últimos ilustrados en:

- [Agrupación biclúster de documentos con el algoritmo de coagrupación espectral](https://scikit-learn.org/stable/auto_examples/bicluster/plot_bicluster_newsgroups.html#sphx-glr-auto-examples-bicluster-plot-bicluster-newsgroups-py)

Personalizar el vectorizador también puede ser útil al trabajar con idiomas asiáticos que no utilizan un separador de palabras explícito, como un espacio en blanco.

##   <span style="color:blue">Extracción de características de imágenes</span>

###   <span style="color:blue">Extracción de parches</span>

La función [extract_patches_2d](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.image.extract_patches_2d.html#sklearn.feature_extraction.image.extract_patches_2d) extrae parches de una imagen almacenada como una matriz bidimensional o tridimensional con información de color a lo largo del tercer eje. Para reconstruir una imagen a partir de todos sus parches, utiliza [reconstruct_from_patches_2d](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.image.reconstruct_from_patches_2d.html#sklearn.feature_extraction.image.reconstruct_from_patches_2d). Por ejemplo, generemos una imagen de 4x4 píxeles con 3 canales de color (por ejemplo, en formato RGB):

In [91]:
import numpy as np
from sklearn.feature_extraction import image

one_image = np.arange(4 * 4 * 3).reshape((4, 4, 3))
one_image[:, :, 0]  # R channel of a fake RGB picture

array([[ 0,  3,  6,  9],
       [12, 15, 18, 21],
       [24, 27, 30, 33],
       [36, 39, 42, 45]])

In [92]:
patches = image.extract_patches_2d(one_image, (2, 2), max_patches=2,
                                   random_state=0)
patches.shape

(2, 2, 2, 3)

In [93]:
patches[:, :, :, 0]

array([[[ 0,  3],
        [12, 15]],

       [[15, 18],
        [27, 30]]])

In [94]:
patches = image.extract_patches_2d(one_image, (2, 2))
patches.shape

(9, 2, 2, 3)

In [95]:
patches[4, :, :, 0]

array([[15, 18],
       [27, 30]])

Ahora intentemos reconstruir la imagen original a partir de los fragmentos promediando en áreas superpuestas:

In [96]:
reconstructed = image.reconstruct_from_patches_2d(patches, (4, 4, 3))
np.testing.assert_array_equal(one_image, reconstructed)

La clase [PatchExtractor](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.image.PatchExtractor.html#sklearn.feature_extraction.image.PatchExtractor) funciona de la misma manera que [extract_patches_2d](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.image.extract_patches_2d.html#sklearn.feature_extraction.image.extract_patches_2d), solo que admite múltiples imágenes como entrada. Está implementada como un transformador de scikit-learn, por lo que se puede utilizar en tuberías (pipelines). Consulta:

In [97]:
five_images = np.arange(5 * 4 * 4 * 3).reshape(5, 4, 4, 3)
patches = image.PatchExtractor(patch_size=(2, 2)).transform(five_images)
patches.shape

(45, 2, 2, 3)

###   <span style="color:blue">Grafo de conectividad de una imagen</span>

Varios estimadores en scikit-learn pueden utilizar información de conectividad entre características o muestras. Por ejemplo, el agrupamiento de Ward (agrupamiento jerárquico) puede agrupar solo píxeles vecinos de una imagen, formando así parches contiguos:

<figure> 
<center>
<img src="https://scikit-learn.org/stable/_images/sphx_glr_plot_coin_ward_segmentation_001.png"/>
</center>
</figure>

Para este propósito, los estimadores utilizan una matriz de 'conectividad' que indica qué muestras están conectadas.

La función [img_to_graph](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.image.img_to_graph.html#sklearn.feature_extraction.image.img_to_graph) devuelve una matriz de este tipo a partir de una imagen 2D o 3D. De manera similar, [grid_to_graph](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.image.grid_to_graph.html#sklearn.feature_extraction.image.grid_to_graph) construye una matriz de conectividad para imágenes dada la forma de estas imágenes.

Estas matrices se pueden utilizar para imponer conectividad en estimadores que utilizan información de conectividad, como la agrupación de Ward ([agrupamiento jerárquico](https://scikit-learn.org/stable/modules/clustering.html#hierarchical-clustering)), pero también para construir núcleos precalculados o matrices de similitud.

**Nota**

Ejemplos

- Una demostración de clustering jerárquico estructurado de Ward en una imagen de monedas.

- Clustering espectral para segmentación de imágenes.

- Aglomeración de características vs. selección univariante.

#   <span style="color:blue">Proyección Aleatoria</span>

El módulo [sklearn.random_projection](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.random_projection) implementa una manera simple y eficiente computacionalmente para reducir la dimensionalidad de los datos al intercambiar una cantidad controlada de precisión (como varianza adicional) por tiempos de procesamiento más rápidos y tamaños de modelo más pequeños. Este módulo implementa dos tipos de matrices de proyección aleatoria no estructurada: [matriz aleatoria gaussiana](https://scikit-learn.org/stable/modules/random_projection.html#gaussian-random-matrix) y [matriz aleatoria dispersa](https://scikit-learn.org/stable/modules/random_projection.html#sparse-random-matrix).

Las dimensiones y la distribución de las matrices de proyección aleatoria se controlan de manera que se preserven las distancias entre pares entre cualquier par de muestras del conjunto de datos. Por lo tanto, la proyección aleatoria es una técnica de aproximación adecuada para métodos basados en distancias.

**Referencias**:

Sanjoy Dasgupta. 2000. [Experimentos con proyección aleatoria](https://cseweb.ucsd.edu/~dasgupta/papers/randomf.pdf). En Actas de la decimosexta conferencia sobre Incertidumbre en inteligencia artificial (UAI'00), Craig Boutilier y Moisés Goldszmidt (Eds.). Morgan Kaufmann Publishers Inc., San Francisco, CA, EE. UU., 143-151.

Ella Bingham y Heikki Mannila. 2001. [Proyección aleatoria en reducción de dimensionalidad: aplicaciones a datos de imágenes y texto](https://citeseerx.ist.psu.edu/doc_view/pid/aed77346f737b0ed5890b61ad02e5eb4ab2f3dc6). En Actas de la séptima conferencia internacional ACM SIGKDD sobre Descubrimiento de conocimiento y minería de datos (KDD '01). ACM, Nueva York, NY, EE. UU., 245-250.

###   <span style="color:blue">El lema de Johnson-Lindenstrauss</span>

El principal resultado teórico detrás de la eficiencia de la proyección aleatoria es el [lema de Johnson-Lindenstrauss](https://en.wikipedia.org/wiki/Johnson%E2%80%93Lindenstrauss_lemma):

"En matemáticas, el lema de Johnson-Lindenstrauss es un resultado relacionado con la inserción de puntos de alta dimensión en un espacio euclidiano de baja dimensión con baja distorsión. El lema establece que un pequeño conjunto de puntos en un espacio de alta dimensión puede ser insertado en un espacio de mucha menor dimensión de tal manera que las distancias entre los puntos se preserven casi por completo. El mapa utilizado para la inserción es al menos Lipschitz y puede incluso ser una proyección ortogonal."

Conociendo solo el número de muestras, [johnson_lindenstrauss_min_dim](https://scikit-learn.org/stable/modules/generated/sklearn.random_projection.johnson_lindenstrauss_min_dim.html#sklearn.random_projection.johnson_lindenstrauss_min_dim) estima de manera conservadora el tamaño mínimo del subespacio aleatorio para garantizar una distorsión acotada introducida por la proyección aleatoria:

In [98]:
from sklearn.random_projection import johnson_lindenstrauss_min_dim
johnson_lindenstrauss_min_dim(n_samples=1e6, eps=0.5)

663

In [99]:
johnson_lindenstrauss_min_dim(n_samples=1e6, eps=[0.5, 0.1, 0.01])

array([    663,   11841, 1112658], dtype=int64)

In [100]:
johnson_lindenstrauss_min_dim(n_samples=[1e4, 1e5, 1e6], eps=0.1)

array([ 7894,  9868, 11841], dtype=int64)

<figure> 
<center>
<img src="https://scikit-learn.org/stable/_images/sphx_glr_plot_johnson_lindenstrauss_bound_001.png"/>
</center>
</figure>

<figure> 
<center>
<img src="https://scikit-learn.org/stable/_images/sphx_glr_plot_johnson_lindenstrauss_bound_002.png"/>
</center>
</figure>

**Ejemplos**:

- [See The Johnson-Lindenstrauss bound for embedding with random projections](https://scikit-learn.org/stable/auto_examples/miscellaneous/plot_johnson_lindenstrauss_bound.html#sphx-glr-auto-examples-miscellaneous-plot-johnson-lindenstrauss-bound-py) for a theoretical explication on the Johnson-Lindenstrauss lemma and an empirical validation using sparse random matrices.

**References**:

-Sanjoy Dasgupta and Anupam Gupta, 1999. [An elementary proof of the Johnson-Lindenstrauss Lemma](https://citeseerx.ist.psu.edu/doc_view/pid/95cd464d27c25c9c8690b378b894d337cdf021f9).



###   <span style="color:blue">Proyección aleatoria gaussiana</span>

El GaussianRandomProjection reduce la dimensionalidad proyectando el espacio de entrada original en una matriz generada aleatoriamente, donde los componentes se extraen de la siguiente distribución $N(0, \frac{1}{n_{components}})$.

Aquí hay un pequeño fragmento que ilustra cómo usar el transformador de proyección aleatoria gaussiana:

In [102]:
import numpy as np
from sklearn import random_projection
X = np.random.rand(100, 10000)
transformer = random_projection.GaussianRandomProjection()
X_new = transformer.fit_transform(X)
X_new.shape

(100, 3947)

###   <span style="color:blue">Proyección aleatoria dispersa</span>

SparseRandomProjection reduce la dimensionalidad proyectando el espacio de entrada original mediante una matriz aleatoria dispersa.

Las matrices aleatorias dispersas son una alternativa a las matrices de proyección aleatoria gaussiana densa que garantizan una calidad de incrustación similar al tiempo que son mucho más eficientes en memoria y permiten una computación más rápida de los datos proyectados.

Si definimos s = 1 / densidad, los elementos de la matriz aleatoria se eligen de

$$
\begin{split}\left\{
\begin{array}{c c l}
-\sqrt{\frac{s}{n_{\text{components}}}} & & 1 / 2s\\
0 &\text{with probability}  & 1 - 1 / s \\
+\sqrt{\frac{s}{n_{\text{components}}}} & & 1 / 2s\\
\end{array}
\right.\end{split}
$$

donde $n_{\text{components}}$ es el tamaño del subespacio proyectado. De forma predeterminada, la densidad de elementos diferentes de cero se establece en la densidad mínima recomendada por Ping Li y otros $1 / \sqrt{n_{\text{features}}}$.

A continuación, se muestra un pequeño fragmento que ilustra cómo utilizar el transformador de proyección aleatoria dispersa:

In [103]:
import numpy as np
from sklearn import random_projection
X = np.random.rand(100, 10000)
transformer = random_projection.SparseRandomProjection()
X_new = transformer.fit_transform(X)
X_new.shape

(100, 3947)

**References**:

- D. Achlioptas. 2003. [Database-friendly random projections: Johnson-Lindenstrauss with binary coins](https://www.sciencedirect.com/science/article/pii/S0022000003000254). Journal of Computer and System Sciences 66 (2003) 671–687

- Ping Li, Trevor J. Hastie, and Kenneth W. Church. 2006. [Very sparse random projections](https://web.stanford.edu/~hastie/Papers/Ping/KDD06_rp.pdf). In Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining (KDD ‘06). ACM, New York, NY, USA, 287-296.



###   <span style="color:blue">Transformación inversa</span>

Los transformadores de proyección aleatoria tienen un parámetro compute_inverse_components. Cuando se establece en True, después de crear la matriz de componentes_ aleatorios durante el ajuste, el transformador calcula la pseudo-inversa de esta matriz y la almacena como inverse_components_. La matriz inverse_components_ tiene una forma $n_{features} \times n_{components}$, y siempre es una matriz densa, independientemente de si la matriz de componentes es dispersa o densa. Por lo tanto, dependiendo del número de características y componentes, puede consumir mucha memoria.

Cuando se llama al método inverse_transform, calcula el producto de la entrada X y la transposición de los componentes inversos. Si los componentes inversos se calcularon durante el ajuste, se reutilizan en cada llamada a inverse_transform. De lo contrario, se recalculan cada vez, lo que puede ser costoso. El resultado siempre es denso, incluso si X es disperso.

Aquí tienes un pequeño ejemplo de código que ilustra cómo usar la función de transformación inversa:

In [104]:
import numpy as np
from sklearn.random_projection import SparseRandomProjection
X = np.random.rand(100, 10000)
transformer = SparseRandomProjection(
    compute_inverse_components=True
)
X_new = transformer.fit_transform(X)
X_new.shape

(100, 3947)

In [105]:
X_new_inversed = transformer.inverse_transform(X_new)
X_new_inversed.shape

(100, 10000)

In [106]:
X_new_again = transformer.transform(X_new_inversed)
np.allclose(X_new, X_new_again)

True

#   <span style="color:blue">Aproximación Kernel</span>

Este submódulo contiene funciones que aproximan los mapeos de características que corresponden a ciertos núcleos, como se utilizan, por ejemplo, en las máquinas de vectores de soporte (ver Máquinas de Vectores de Soporte). Las siguientes funciones de características realizan transformaciones no lineales de la entrada, que pueden servir como base para la clasificación lineal u otros algoritmos.

La ventaja de utilizar mapas de características explícitos aproximados en comparación con el truco del núcleo, que utiliza mapas de características de manera implícita, es que los mapeos explícitos pueden ser más adecuados para el aprendizaje en línea y pueden reducir significativamente el costo del aprendizaje con conjuntos de datos muy grandes. Las SVM (Máquinas de Vectores de Soporte) con núcleo estándar no escalan bien para conjuntos de datos grandes, pero utilizando un mapa de núcleo aproximado es posible utilizar SVM lineales mucho más eficientes. En particular, la combinación de aproximaciones de mapas de núcleo con SGDClassifier puede hacer posible el aprendizaje no lineal en conjuntos de datos grandes.

Dado que no ha habido mucho trabajo empírico utilizando incrustaciones aproximadas, es recomendable comparar los resultados con métodos de núcleo exactos cuando sea posible.

###   <span style="color:blue">Método Nystroem para la Aproximación de Núcleos</span>

El método Nystroem, implementado en [Nystroem](https://scikit-learn.org/stable/modules/generated/sklearn.kernel_approximation.Nystroem.html#sklearn.kernel_approximation.Nystroem), es un método general para aproximaciones de bajo rango de núcleos. Logra esto esencialmente tomando una submuestra de los datos en los cuales se evalúa el núcleo. De forma predeterminada, Nystroem utiliza el núcleo rbf, pero puede utilizar cualquier función de núcleo o una matriz de núcleo precalculada. El número de muestras utilizadas, que también es la dimensionalidad de las características calculadas, se determina mediante el parámetro n_components.

###   <span style="color:blue"> Núcleo de Función de Base Radial (Radial Basis Function Kernel)</span>

RBFSampler construye una asignación aproximada para el núcleo de función de base radial, también conocido como Random Kitchen Sinks [RR2007]. Esta transformación se puede utilizar para modelar explícitamente un mapa de núcleo antes de aplicar un algoritmo lineal, como por ejemplo una SVM lineal:

In [107]:
from sklearn.kernel_approximation import RBFSampler
from sklearn.linear_model import SGDClassifier
X = [[0, 0], [1, 1], [1, 0], [0, 1]]
y = [0, 0, 1, 1]
rbf_feature = RBFSampler(gamma=1, random_state=1)
X_features = rbf_feature.fit_transform(X)
clf = SGDClassifier(max_iter=5)
clf.fit(X_features, y)



SGDClassifier(max_iter=5)

In [108]:
clf.score(X_features, y)

1.0

El mapeo se basa en una aproximación de Monte Carlo a los valores del núcleo. La función fit realiza el muestreo de Monte Carlo, mientras que el método transform realiza el mapeo de los datos. Debido a la aleatoriedad inherente del proceso, los resultados pueden variar entre diferentes llamadas a la función fit.

La función fit toma dos argumentos: n_components, que es la dimensionalidad objetivo de la transformación de características, y gamma, el parámetro del núcleo RBF. Un valor más alto de n_components resultará en una mejor aproximación del núcleo y producirá resultados más similares a los producidos por una SVM con núcleo. Tenga en cuenta que "ajustar" la función de características en realidad no depende de los datos proporcionados a la función fit. Solo se utiliza la dimensionalidad de los datos. Los detalles sobre el método se pueden encontrar en [RR2007].

Para un valor dado de n_components, [RBFSampler](https://scikit-learn.org/stable/modules/generated/sklearn.kernel_approximation.RBFSampler.html#sklearn.kernel_approximation.RBFSampler) a menudo es menos preciso que Nystroem. Sin embargo, RBFSampler es más económico de calcular, lo que hace que su uso en espacios de características más grandes sea más eficiente.

<figure> 
<center>
<img src="https://scikit-learn.org/stable/_images/sphx_glr_plot_kernel_approximation_002.png"/>
</center>
</figure>

**Examples**:

- [Explicit feature map approximation for RBF kernels](https://scikit-learn.org/stable/auto_examples/miscellaneous/plot_kernel_approximation.html#sphx-glr-auto-examples-miscellaneous-plot-kernel-approximation-py)

###   <span style="color:blue"> Núcleo aditivo de Chi-cuadrado</span>

El núcleo aditivo de Chi-cuadrado es un núcleo utilizado en histogramas, a menudo utilizado en visión por computadora.

El núcleo aditivo de Chi-cuadrado utilizado aquí se define como

$$
k(x, y) = \sum_i \frac{2x_iy_i}{x_i+y_i}
$$

Esto no es exactamente igual que sklearn.metrics.additive_chi2_kernel. Los autores de [VZ2010](https://scikit-learn.org/stable/modules/kernel_approximation.html#vz2010) prefieren la versión anterior porque siempre es definitivamente positiva. Dado que el núcleo es aditivo, es posible tratar todos los componentes por separado para su inclusión. Esto permite muestrear la transformada de Fourier en intervalos regulares en lugar de aproximarse mediante el muestreo de Monte Carlo.

La clase [AdditiveChi2Sampler](https://scikit-learn.org/stable/modules/generated/sklearn.kernel_approximation.AdditiveChi2Sampler.html#sklearn.kernel_approximation.AdditiveChi2Sampler) implementa este muestreo determinista por componentes. Se muestrea cada componente $n$ veces, lo que produce $2n+1$ dimensiones por dimensión de entrada (el múltiplo de dos se debe a la parte real y compleja de la transformada de Fourier). En la literatura, suele elegirse como 1 o 2, lo que transforma el conjunto de datos en un tamaño de n_samples * 5 * n_features (en el caso de $n=2$).

El mapa de características aproximado proporcionado por AdditiveChi2Sampler se puede combinar con el mapa de características aproximado proporcionado por RBFSampler para obtener un mapa de características aproximado para el núcleo de Chi-cuadrado exponenciado. Consulte [VZ2010] para obtener detalles y [VVZ2010] para obtener información sobre la combinación con RBFSampler.

###   <span style="color:blue"> Núcleo Chi Cuadrado Sesgado</span>

El núcleo chi cuadrado sesgado se define de la siguiente manera:

$$
k(x,y) = \prod_i \frac{2\sqrt{x_i+c}\sqrt{y_i+c}}{x_i + y_i + 2c}
$$

Tiene propiedades similares al núcleo chi cuadrado exponenciado que a menudo se utiliza en visión por computadora, pero permite una aproximación simple de Monte Carlo del mapa de características.

El uso del [SkewedChi2Sampler](https://scikit-learn.org/stable/modules/generated/sklearn.kernel_approximation.SkewedChi2Sampler.html#sklearn.kernel_approximation.SkewedChi2Sampler) es el mismo que se describe anteriormente para el RBFSampler. La única diferencia está en el parámetro libre, que se llama [nombre del parámetro]. Para obtener una motivación para esta asignación y los detalles matemáticos, consulte [LS2010].

###   <span style="color:blue">Aproximación del núcleo polinómico mediante Tensor Sketch</span>

El [núcleo polinómico](https://scikit-learn.org/stable/modules/metrics.html#polynomial-kernel) es un tipo popular de función de núcleo definida como:

$$
k(x, y) = (\gamma x^\top y +c_0)^d
$$

donde:

- x, y son los vectores de entrada
- d es el grado del núcleo


De manera intuitiva, el espacio de características del núcleo polinómico de grado d consiste en todos los productos posibles de grado d entre las características de entrada, lo que permite que los algoritmos de aprendizaje que utilizan este núcleo tengan en cuenta las interacciones entre características.

El método TensorSketch [PP2013](https://scikit-learn.org/stable/modules/kernel_approximation.html#pp2013), implementado en [PolynomialCountSketch](https://scikit-learn.org/stable/modules/generated/sklearn.kernel_approximation.PolynomialCountSketch.html#sklearn.kernel_approximation.PolynomialCountSketch), es un método escalable e independiente de los datos de entrada para la aproximación del núcleo polinómico. Se basa en el concepto de Count Sketch [WIKICS](https://scikit-learn.org/stable/modules/kernel_approximation.html#wikics) [CCF2002](https://scikit-learn.org/stable/modules/kernel_approximation.html#ccf2002), una técnica de reducción de dimensionalidad similar a la función de hash de características, que en su lugar utiliza varias funciones de hash independientes. TensorSketch obtiene un Count Sketch del producto exterior de dos vectores (o un vector consigo mismo), que se puede utilizar como una aproximación del espacio de características del núcleo polinómico. En particular, en lugar de calcular explícitamente el producto exterior, TensorSketch calcula el Count Sketch de los vectores y luego utiliza la multiplicación polinómica a través de la Transformada Rápida de Fourier para calcular el Count Sketch de su producto exterior.

De manera conveniente, la fase de entrenamiento de TensorSketch simplemente consiste en inicializar algunas variables aleatorias. Por lo tanto, es independiente de los datos de entrada, es decir, solo depende del número de características de entrada, pero no de los valores de los datos. Además, este método puede transformar muestras en $\mathcal{O}(n_{\text{samples}}(n_{\text{features}} + n_{\text{components}} \log(n_{\text{components}})))$ tiempo, donde $n_{\text{components}}$ es la dimensión de salida deseada, determinada por n_components.

**Ejemplos**:

- [Scalable learning with polynomial kernel approximation](https://scikit-learn.org/stable/auto_examples/kernel_approximation/plot_scalable_poly_kernels.html#sphx-glr-auto-examples-kernel-approximation-plot-scalable-poly-kernels-py)

###   <span style="color:blue">Detalles matemáticos</span>

Los métodos de núcleo, como las máquinas de soporte vectorial o el PCA con núcleo, se basan en una propiedad de los espacios de Hilbert de núcleos reproductores. Para cualquier función de núcleo definida positiva $k$ (una función de núcleo de Mercer), se garantiza que existe un mapeo en un espacio de Hilbert $h$ , tal que

$$
k(x,y) = \langle \phi(x), \phi(y) \rangle
$$

Donde $\langle \cdot, \cdot \rangle$ denota el producto interno en el espacio de Hilbert.

Si un algoritmo, como una máquina de soporte vectorial lineal o el PCA, se basa únicamente en el producto escalar de puntos de datos $x_i$
, uno puede usar el valor de $k(x_i, x_j)$, que corresponde a aplicar el algoritmo a los puntos de datos mapeados $\phi(x_i)$. La ventaja de usar $k$ es que el mapeo $\phi(x_i)$ nunca tiene que calcularse explícitamente, lo que permite características arbitrariamente grandes (incluso infinitas).

Una desventaja de los métodos de núcleo es que puede ser necesario almacenar muchos valores de núcleo $k(x_i, x_j)$ durante la optimización. Si se aplica un clasificador con núcleo a nuevos datos $y_I$, $k(x_i, y_j)$  es necesario calcular
para hacer predicciones, posiblemente para muchos $x_i$ en el conjunto de entrenamiento.

Las clases en este submódulo permiten aproximar la incrustación $\phi$ , trabajando explícitamente con las representaciones $\phi(x_i)$, lo que evita la necesidad de aplicar el núcleo o almacenar ejemplos de entrenamiento.

**References**:
[RR2007] (1,2)

“Random features for large-scale kernel machines” Rahimi, A. and Recht, B. - Advances in neural information processing 2007,
[LS2010]

“Random Fourier approximations for skewed multiplicative histogram kernels” Li, F., Ionescu, C., and Sminchisescu, C. - Pattern Recognition, DAGM 2010, Lecture Notes in Computer Science.
[VZ2010] (1,2)

“Efficient additive kernels via explicit feature maps” Vedaldi, A. and Zisserman, A. - Computer Vision and Pattern Recognition 2010
[VVZ2010]

“Generalized RBF feature maps for Efficient Detection” Vempati, S. and Vedaldi, A. and Zisserman, A. and Jawahar, CV - 2010
[PP2013]

“Fast and scalable polynomial kernels via explicit feature maps” Pham, N., & Pagh, R. - 2013
[CCF2002]

“Finding frequent items in data streams” Charikar, M., Chen, K., & Farach-Colton - 2002
[WIKICS]

“Wikipedia: Count sketch”


#   <span style="color:blue">Métricas por pares, Afinidades y Núcleos</span>

El submódulo sklearn.metrics.pairwise implementa utilidades para evaluar distancias por pares o afinidades de conjuntos de muestras.

Este módulo contiene tanto métricas de distancia como núcleos. Se presenta aquí un breve resumen de ambos.

Las métricas de distancia son funciones d(a, b) tales que d(a, b) < d(a, c) si se considera que los objetos a y b son "más similares" que los objetos a y c. Dos objetos idénticos tendrían una distancia de cero. Uno de los ejemplos más populares es la distancia euclidiana. Para ser una métrica "verdadera", debe cumplir con las siguientes cuatro condiciones:

In [None]:
1. d(a, b) >= 0, for all a and b
2. d(a, b) == 0, if and only if a = b, positive definiteness
3. d(a, b) == d(b, a), symmetry
4. d(a, c) <= d(a, b) + d(b, c), the triangle inequality

Los núcleos son medidas de similitud, es decir, s(a, b) > s(a, c) si los objetos a y b se consideran "más similares" que los objetos a y c. Un núcleo también debe ser positivo semidefinido.

Existen varias formas de convertir una métrica de distancia en una medida de similitud, como un núcleo. Sea D la distancia y S el núcleo:

S = np.exp(-D * gamma), donde una heurística para elegir gamma es 1 / num_features

S = 1. / (D / np.max(D))

Las distancias entre los vectores de fila de X y los vectores de fila de Y se pueden evaluar utilizando pairwise_distances. Si se omite Y, se calculan las distancias por pares de los vectores de fila de X. Del mismo modo, pairwise.pairwise_kernels se puede utilizar para calcular el núcleo entre X e Y utilizando diferentes funciones de núcleo. Consulta la referencia de la API para obtener más detalles.

In [109]:
import numpy as np
from sklearn.metrics import pairwise_distances
from sklearn.metrics.pairwise import pairwise_kernels
X = np.array([[2, 3], [3, 5], [5, 8]])
Y = np.array([[1, 0], [2, 1]])
pairwise_distances(X, Y, metric='manhattan')

array([[ 4.,  2.],
       [ 7.,  5.],
       [12., 10.]])

In [110]:
pairwise_distances(X, metric='manhattan')

array([[0., 3., 8.],
       [3., 0., 5.],
       [8., 5., 0.]])

In [111]:
pairwise_kernels(X, Y, metric='linear')

array([[ 2.,  7.],
       [ 3., 11.],
       [ 5., 18.]])

###   <span style="color:blue">Similitud coseno</span>

[cosine_similarity](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.pairwise.cosine_similarity.html#sklearn.metrics.pairwise.cosine_similarity) calcula el producto escalar normalizado L2 de vectores. Es decir, si $x$ y $y$ son vectores fila, su similitud coseno $k$ se define como:

$$
k(x, y) = \frac{x y^\top}{\|x\| \|y\|}
$$

Esto se llama similitud coseno porque la normalización Euclidiana (L2) proyecta los vectores en la esfera unitaria, y su producto escalar es entonces el coseno del ángulo entre los puntos representados por los vectores.

Este kernel es una elección popular para calcular la similitud de documentos representados como vectores tf-idf. cosine_similarity acepta matrices dispersas scipy.sparse. (Tenga en cuenta que la funcionalidad tf-idf en sklearn.feature_extraction.text puede producir vectores normalizados, en cuyo caso cosine_similarity es equivalente a [linear_kernel](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.pairwise.linear_kernel.html#sklearn.metrics.pairwise.linear_kernel), solo que más lento).

**Referencias**:

C.D. Manning, P. Raghavan y H. Schütze (2008). Introducción a la Recuperación de Información. Cambridge University Press. [https://nlp.stanford.edu/IR-book/html/htmledition/the-vector-space-model-for-scoring-1.html](https://nlp.stanford.edu/IR-book/html/htmledition/the-vector-space-model-for-scoring-1.html)

###   <span style="color:blue">Núcleo lineal</span>

La función linear_kernel calcula el núcleo lineal, que es un caso especial del núcleo polinómico con degree=1 y coef0=0 (homogéneo). Si x e y son vectores columna, su núcleo lineal es:

$$
k(x, y) = x^\top y
$$

###   <span style="color:blue">Kernel polinomial</span>

La función polynomial_kernel calcula el kernel polinómico de grado-d entre dos vectores. El kernel polinómico representa la similitud entre dos vectores. Conceptualmente, el kernel polinómico no solo considera la similitud entre vectores en la misma dimensión, sino también entre dimensiones. Cuando se utiliza en algoritmos de aprendizaje automático, esto permite tener en cuenta la interacción entre características.

El kernel polinómico se define como:

$$
k(x, y) = (\gamma x^\top y +c_0)^d
$$

donde:

- x, y son los vectores de entrada

- d es el grado del kernel

Si $c_0 = 0$ se dice que el kernel es homogéneo.

###   <span style="color:blue">Kernel sigmoide</span>

La función [sigmoid_kernel](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.pairwise.sigmoid_kernel.html#sklearn.metrics.pairwise.sigmoid_kernel) calcula el núcleo sigmoidal entre dos vectores. El núcleo sigmoidal también se conoce como tangente hiperbólica o Perceptrón Multicapa (porque, en el campo de las redes neuronales, a menudo se utiliza como función de activación de neuronas). Se define de la siguiente manera:

$$
k(x, y) = \tanh( \gamma x^\top y + c_0)
$$

donde:

- x, y son los vectores de entrada

- $\gamma$ se conoce como la pendiente

- $c_0$ se conoce como la intercepción

###   <span style="color:blue">Kernel RBF</span>

La función rbf_kernel calcula el kernel de función de base radial (RBF) entre dos vectores. Este kernel se define como:

$$
k(x, y) = \exp( -\gamma \| x-y \|^2)
$$

donde x e y son los vectores de entrada. Si $\gamma = \sigma^{-2}$ el kernel se conoce como el kernel Gaussiano de varianza $\sigma^2$.

###   <span style="color:blue">Kernel laplaciano</span>

La función [laplacian_kernel](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.pairwise.laplacian_kernel.html#sklearn.metrics.pairwise.laplacian_kernel) es una variante del kernel de función de base radial definido como:

$$
k(x, y) = \exp( -\gamma \| x-y \|_1)
$$

donde x e y son los vectores de entrada y $\|x-y\|_1$ es la distancia de Manhattan entre los vectores de entrada.

Se ha demostrado útil en el aprendizaje automático aplicado a datos sin ruido. Véase, por ejemplo, [Machine learning for quantum mechanics in a nutshell](https://onlinelibrary.wiley.com/doi/full/10.1002/qua.24954).

###   <span style="color:blue">Kernel Chi-cuadrado</span>

El núcleo chi-cuadrado es una elección muy popular para entrenar SVM no lineales en aplicaciones de visión por computadora. Se puede calcular utilizando [chi2_kernel](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.pairwise.chi2_kernel.html#sklearn.metrics.pairwise.chi2_kernel) y luego pasarse a un [SVC](https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html#sklearn.svm.SVC) con kernel="precomputed":

In [112]:
from sklearn.svm import SVC
from sklearn.metrics.pairwise import chi2_kernel
X = [[0, 1], [1, 0], [.2, .8], [.7, .3]]
y = [0, 1, 0, 1]
K = chi2_kernel(X, gamma=.5)
K

array([[1.        , 0.36787944, 0.89483932, 0.58364548],
       [0.36787944, 1.        , 0.51341712, 0.83822343],
       [0.89483932, 0.51341712, 1.        , 0.7768366 ],
       [0.58364548, 0.83822343, 0.7768366 , 1.        ]])

In [113]:
svm = SVC(kernel='precomputed').fit(K, y)
svm.predict(K)

array([0, 1, 0, 1])

También se puede usar directamente como el argumento del núcleo:

In [114]:
svm = SVC(kernel=chi2_kernel).fit(X, y)
svm.predict(X)

array([0, 1, 0, 1])

El kernel chi cuadrado se define como

$$
k(x, y) = \exp \left (-\gamma \sum_i \frac{(x[i] - y[i]) ^ 2}{x[i] + y[i]} \right )
$$

Se supone que los datos son no negativos y a menudo se normalizan para tener una norma L1 igual a uno. La normalización se justifica mediante la conexión con la distancia chi cuadrado, que es una distancia entre distribuciones de probabilidad discretas.

El kernel chi cuadrado se utiliza más comúnmente en histogramas (bolsas) de palabras visuales.

**Referencias**:

Zhang, J. y Marszalek, M. y Lazebnik, S. y Schmid, C. Características locales y kernels para la clasificación de texturas y categorías de objetos: un estudio exhaustivo. International Journal of Computer Vision 2007. [Enlace al documento](https://hal.archives-ouvertes.fr/hal-00171412/document)

#   <span style="color:blue">Transformando el objetivo de predicción (y)</span>

Estos son transformadores que no están destinados a utilizarse en características, sino solo en objetivos de aprendizaje supervisado. Consulta también "Transformar el objetivo en regresión" si deseas transformar el objetivo de predicción para el aprendizaje, pero evaluar el modelo en el espacio original (sin transformar).

###   <span style="color:blue">Binarización de etiquetas</span>

####   <span style="color:blue">LabelBinarizer</span>

[LabelBinarizer](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelBinarizer.html#sklearn.preprocessing.LabelBinarizer) es una clase de utilidad que ayuda a crear una matriz indicadora de etiquetas a partir de una lista de etiquetas multiclase:

In [115]:
from sklearn import preprocessing
lb = preprocessing.LabelBinarizer()
lb.fit([1, 2, 6, 4, 2])

LabelBinarizer()

In [116]:
lb.classes_

array([1, 2, 4, 6])

In [117]:
lb.transform([1, 6])

array([[1, 0, 0, 0],
       [0, 0, 0, 1]])

Usar este formato puede permitir la clasificación multiclase en estimadores que admiten el formato de matriz indicadora de etiquetas.

**Advertencia**

No es necesario usar LabelBinarizer si estás utilizando un estimador que ya admite datos multiclase.

####   <span style="color:blue">MultiLabelBinarizer</span>

En el aprendizaje multietiqueta, el conjunto conjunto conjunto de tareas de clasificación binaria se expresa con un arreglo indicador binario de etiquetas: cada muestra es una fila de un arreglo bidimensional de forma (n_muestras, n_clases) con valores binarios donde el uno, es decir, los elementos no nulos, corresponden al subconjunto de etiquetas para esa muestra. Un arreglo como np.array([[1, 0, 0], [0, 1, 1], [0, 0, 0]]) representa la etiqueta 0 en la primera muestra, las etiquetas 1 y 2 en la segunda muestra y ninguna etiqueta en la tercera muestra.

Producir datos multietiqueta como una lista de conjuntos de etiquetas puede ser más intuitivo. El transformador [MultiLabelBinarizer](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MultiLabelBinarizer.html#sklearn.preprocessing.MultiLabelBinarizer) se puede utilizar para convertir entre una colección de colecciones de etiquetas y el formato indicador:

In [118]:
from sklearn.preprocessing import MultiLabelBinarizer
y = [[2, 3, 4], [2], [0, 1, 3], [0, 1, 2, 3, 4], [0, 1, 2]]
MultiLabelBinarizer().fit_transform(y)

array([[0, 0, 1, 1, 1],
       [0, 0, 1, 0, 0],
       [1, 1, 0, 1, 0],
       [1, 1, 1, 1, 1],
       [1, 1, 1, 0, 0]])

###   <span style="color:blue">Codificación de etiquetas</span>

[LabelEncoder](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html#sklearn.preprocessing.LabelEncoder) es una clase de utilidad que ayuda a normalizar etiquetas de manera que solo contengan valores entre 0 y n_classes-1. Esto a veces es útil para escribir rutinas eficientes en Cython. LabelEncoder se puede usar de la siguiente manera:

In [119]:
from sklearn import preprocessing
le = preprocessing.LabelEncoder()
le.fit([1, 2, 2, 6])

LabelEncoder()

In [120]:
le.classes_

array([1, 2, 6])

In [121]:
le.transform([1, 1, 2, 6])

array([0, 0, 1, 2], dtype=int64)

In [122]:
le.inverse_transform([0, 0, 1, 2])

array([1, 1, 2, 6])

También se puede usar para transformar etiquetas no numéricas (siempre y cuando sean hasheables y comparables) en etiquetas numéricas:

In [123]:
le = preprocessing.LabelEncoder()
le.fit(["paris", "paris", "tokyo", "amsterdam"])

LabelEncoder()

In [124]:
list(le.classes_)

['amsterdam', 'paris', 'tokyo']

In [125]:
le.transform(["tokyo", "tokyo", "paris"])

array([2, 2, 1])

In [126]:
list(le.inverse_transform([2, 2, 1]))

['tokyo', 'tokyo', 'paris']