# Trabajando con texto

Seguramente habr√°s escuchado hablar de algo llamado ChatGPT. Pues aqu√≠ tiene sus principios: en el an√°lisis de texto.

El an√°lisis de texto es un tema que merece probablemente su propio curso, pero podemos ir poniendo las bases empleando scikit-learn.

Lo primero, es que hay que recordar que las palabras escritas no son consumibles directamente por los modelos de aprendizaje autom√°tico, sino que necesitamos convertirlas en una representaci√≥n num√©rica que podamos procesar. 

## Bag of words ‚Äì CountVectorizer

Una de las formas m√°s comunes de hacer esto es mediante el uso de la t√©cnica de bag of words (BoW) o bolsa de palabras, que convierte un texto en una matriz de frecuencia de palabras.

Para llevar a cabo este scikit-learn nos ofrece una utilidad que realiza por nosotros lo siguiente:

 - Parte el texto en tokens, generalmente palabras completas,

 - Cuenta las ocurrencias de cada uno de estos tokens,

 - Asigna valores dentro de un vector de acuerdo a el n√∫mero de ocurrencias de cada token en nuestros datos de entrada.

Esto lo hace a trav√©s del vectorizador conocido como <code>CountVectorizer</code>, para verlo en acci√≥n, primero hay que generar un conjunto de datos. Por cierto, a un conjunto de datos se le suele llamar corpus, y a cada uno de sus elementos individuales se le conoce como documento. 

Entonces vamos a generar un corpus con tres documentos:

In [None]:
corpus = [
    "Scikit-learn nos ayuda a trabajar con texto",
    "Parte el texto en tokens, generalmente palabras completas",
    "Cuenta las ocurrencias de cada uno de estos tokens"
]

Importamos el vectorizador ‚Äì nota que estamos importando de <code>sklearn.feature_extraction.text</code>:

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

Creamos un objeto con valores por default ‚Äì y lo entrenamos con nuestro corpus:

In [None]:
count_vectorizer = CountVectorizer()
count_vectorizer.fit(corpus)

Si llamamos al m√©todo <code>transform</code> pas√°ndole nuestro corpus, el resultado es el esperado: una matriz dispersa puesto que esa es la mejor representaci√≥n de nuestros datos. Podemos convertirla a un arreglo de NumPy con su m√©todo <code>todense</code>.

In [None]:
transformed_corpus = count_vectorizer.transform(corpus)
transformed_corpus.todense()

S√≠, es una matriz con un mont√≥n de ceros. Si quieres ver a qu√© palabra corresponde cada columna, puedes acceder a la propiedad calculada <code>vocabulary_</code>, as√≠ podr√°s ver que la palabra ‚Äúayuda‚Äù corresponde a la columna cero y que la palabra ‚Äúuno‚Äù corresponde a la columna n√∫mero 20.

## Transformaci√≥n inversa

El <code>CountVectorizer</code> nos ofrece el m√©todo <code>inverse_transform</code> para que a partir de una matriz de vectores, puedas recuperar los tokens que usaste a la entrada. Ten cuidado porque a pesar de que es una transformaci√≥n inversa, esta no es tan fidedigna, puesto que una de las desventajas de esta familia de vectorizadores es que el orden de las palabras se pierde. 

Lo podemos probar llamando al m√©todo con la matriz que acabamos de conseguir:

In [None]:
count_vectorizer.inverse_transform(transformed_corpus)

## Par√°metros extra

El <code>CountVectorizer</code> es una de las primeras clases que tiene una gran cantidad de par√°metros para configurar su comportamiento. Entre las m√°s comunes que he viso son usadas est√°n:

 - <code>binary</code> que por defecto tiene el valor de <code>False</code>, cuando este valor es verdadero, el <code>CountVectorizer</code> se comporta m√°s bien como un one-hot encoder, nuestra matriz resultante consta de unos y ceros.

 - <code>max_features</code>, este puede ser un n√∫mero que nos indica la cantidad m√°xima de columnas que queremos dentro de nuestra matriz. En el ejemplo anterior ten√≠amos como resultado una matriz de 21 columnas, pero si hubi√©semos establecido <code>max_features</code> con un valor de 10, tendr√≠amos como resultado una matriz de 10 columnas, en donde esas diez columnas contendr√≠an los 10 tokens m√°s frecuentes.

 - <code>max_df</code> y <code>min_df</code>, estos par√°metros nos permiten eliminar palabras que est√°n sobrerepresentadas y subrepresentadas en nuestro corpus. Estos valores pueden ser flotantes, pueden ir entre 0 y 1 si queremos usarlo como proporci√≥n, o podemos usarlo como entero si queremos contar las ocurrencias netamente.

Por ejemplo, si creamos un vectorizador con los siguientes argumentos:

In [None]:
modified_count_vectorizer = CountVectorizer(
    binary = True,
    max_features = 6,
    min_df = 1
)

Podr√°s ver que como resultado de transformar nuestro corpus obtenemos una matriz de 6 columnas, rellena con solamente unos y ceros ‚Äì y que el vocabulario est√° formado √∫nicamente de los seis tokens con mayor frecuencia:

In [None]:
new_result = modified_count_vectorizer.fit_transform(corpus)
print(modified_count_vectorizer.vocabulary_)
new_result.todense()

## Cambiando el tokenizer

Hay ocasiones en las que queremos tener m√°s control sobre la forma en la que los documentos de nuestro corpus deben ser fragmentados en tokens. Por ejemplo si estamos lidiando con otro idioma, o estamos trabajando con texto que contiene emojis.

In [None]:
import re

# Un tokenizador que mantiene solo los emojis
def emoji_tokenizer(text):
    emojis = re.findall(r'[\U0001F000-\U0001F6FF]', text)
    return emojis

print(emoji_tokenizer("I üíö üçï"))

Usamos el tokenziador pas√°ndolo a <code>CountVectorizer</code> en el argumento <code>tokenizer</code>:

In [None]:
emoji_corpus = [
    "I üíö üçï",
    "This üçï was üëé",
    "I like either üçï or üçî, but not üå≠",
]

emoji_vectorizer = CountVectorizer(tokenizer=emoji_tokenizer)
X = emoji_vectorizer.fit_transform(emoji_corpus)

# Print the feature names and the count matrix
print(emoji_vectorizer.vocabulary_)
print(X.toarray())

## Ponderaci√≥n Tf-idf ‚Äì TfidfVectorizer

En un corpus de texto grande, algunas palabras estar√°n muy sobrerrepresentadas (como "el", "un", "es") y, por lo tanto, tienen poca informaci√≥n significativa sobre el contenido real del documento ‚Äì si estas palabras existen en todos los documentos, no son tan √∫tiles.

Si nosotros tomamos los resultados de un <code>CountVectorizer</code> en esos casos, corremos el riesgo de pasarle informaci√≥n innecesaria a nuestro modelo, ocultando as√≠ palabras menos frecuentes, m√°s raras y m√°s interesantes. Para abordar este problema, podemos utilizar t√©cnicas de extracci√≥n de caracter√≠sticas de texto que ponderan las palabras en funci√≥n de su importancia relativa en el corpus.

Una t√©cnica com√∫n utilizada para la extracci√≥n de caracter√≠sticas de texto es la frecuencia de t√©rmino ‚Äì frecuencia inversa de documento o (TF-IDF), que mide la importancia relativa de una palabra en un documento en funci√≥n de la frecuencia de esa palabra en el corpus en su conjunto.

Scikit-learn nos ofrece una clase llamada <code>TfidfVectorizer</code> que tiene el mismo comportamiento externo que el <code>CountVectorizer</code>: recibe un conjunto de textos y nos da una matriz correspondiente. Adem√°s de que tiene casi los mismos argumentos. 

 > üìö De tarea se te queda probar los ejemplos que vimos pero utilizando el <code>TfidfVectorizer</code>, dime en los comentarios ¬øqu√© notas de diferencia?

## Feature hashing

Otra de las formas de convertir texto a representaci√≥n num√©rica es a trav√©s del uso del <i>hashing trick</i>, ¬ørecuerdas que lo vimos hace poco? ‚Äì para este caso, scikit-learn nos tiene otra clase: <code>HashingVectorizer</code>, que comparte muchas caracter√≠sticas con los dos vectorizadores anteriormente vistos. Obviamente, tiene las mismas limitantes que ya conocemos, sin embargo puede ser buena alternativa en algunos escenario ‚Äì ah, recuerda, utilizando <i>feature hashing</i> es imposible regresar a los valores originales.

 > üìö Otra tarea m√°s: prueba los ejemplos que vimos pero utilizando el <code>HashingVectorizer</code>, dime en los comentarios ¬øqu√© notas de diferencia?

## Conclusi√≥n

Ya vimos m√∫ltiples maneras de transformar nuestro texto en n√∫meros, <code>CountVectorizer</code> en modo cuenta o en modo binario, <code>TfidfVectorizer</code> y <code>HashingVectorizer</code>. El m√©todo que debas usar depender√° de tu caso de uso, pero puedes seguir estas reglas generales:

 - <code><b>CountVectorizer</b></code> es √∫til para crear una matriz de recuento de palabras cuando es importante el n√∫mero absoluto de ocurrencias de cada palabra en el texto.

 - <code><b>TfidfVectorizer</b></code> es √∫til cuando se pondera la importancia de cada palabra en el texto en funci√≥n de la frecuencia con que aparece en el corpus.

 - <code><b>HashingVectorizer</b></code> es √∫til para trabajar con conjuntos de datos muy grandes que no caben en memoria y para reducir la dimensionalidad del espacio de caracter√≠sticas.

Espero ahora te quede m√°s claro cu√°l es el primer paso antes de tratar de alimentar texto en tus modelos de machine learning, recuerda que debes practicar y en los recursos encontrar√°s ejemplos pr√°cticos en los que se usan algunos vectorizadores.