# Contexto

El texto debe analizarse para eliminar palabras (**tokenización**). Luego, las palabras deben codificarse como números enteros o valores de punto flotante para usar como entrada en un algoritmo de ML, i.e., extracción de características (**vectorización**).
Aquí nos centramos en :

**·** Convertir texto en vectores de conteo de palabras con `CountVectorizer`

**·** Convertir texto a vectores de frecuencia de palabras con `TfidVectorizer`

**·** Convertir textos enteros únicos con `HashingVectorizer`

# Modelo de la bolsa de palabras

No se puede tratar directamente con texto cuando utilizamos algoritmos de ML, sino que debemos convertir el texto a número. 
Los algoritmos toman vectores de números como entrada, por lo tanto, necesitamos convertir el documento en vectores de 
números de longitud fija.

El modelo de bolsa de palabras elimina toda la información de orden en las palabras y se enfoca en la aparición de palabras
en un documento, asignando a cada palabra un número único. Entonces:

    - Cualquier documento que puede codificarse como un vector de longitud fija con la longitud de vocabulario de palabras 
    conocidas.
    - El valor en cada posición en el vector podría completarse con un recuento o frecuencia de cada palabra en el
    documento codificado.

# Contar palabras con `CountVectorizer`

`CountVectorizer` proporciona:

    - Una forma sencilla de tokenizar una colección de documentos de texto y crear un vocabulario de palabras conocidas.
    - Codificar nuevos documentos utilizando ese vocabulario.
    
Uso:

 1. Crear una instancia de la clase `CountVectorizer`
 2. Llamar a la función `fit()` para aprender un vocabulario de uno o más documentos
 3. Llamar a la función `transform()` en uno o más documentos según sea necesario para codificar cada uno como un vector
 4. Se devuelve un vector codificado con la longitud de todo el vocabulario y un número entero para el nº de veces que ha           aparecido cada palabra en el documento
      · Como contienen muchos 0's, los denominamos vectores dispersos
      · El paquete `scipy.parse` proporciona formas eficientes de trabajar con estos vectores dispersos
 5. Los vectores devueltos por una llamada a `transform()` serán vectores dispersos.
 6. Se pueden volver a transformar en matrices NumPy con la función `toarray()`

In [1]:
from sklearn.feature_extraction.text import CountVectorizer

text = ['Texto de prueba para primera toma de contacto con CountVectorizer para probar']

vectorizer = CountVectorizer()

vectorizer.fit(text)

print(vectorizer.vocabulary_)

vector = vectorizer.transform(text)

print()
print('Shape: ', vector.shape, 'Type:', type(vector), 'Array: ', vector.toarray())

{'texto': 8, 'de': 3, 'prueba': 7, 'para': 4, 'primera': 5, 'toma': 9, 'contacto': 1, 'con': 0, 'countvectorizer': 2, 'probar': 6}

Shape:  (1, 10) Type: <class 'scipy.sparse._csr.csr_matrix'> Array:  [[1 1 1 2 2 1 1 1 1 1]]


Detalles:
- Todas las palabras se escriben en minúsculas
- Ignora la puntuación
- Tenemos 10 palabras en el vocabulario
- Tenemos un vector de longitud del vocabulario
- Se codifican las palabras por orden alfabético

El mismo `vectorizer` se puede utilizar en otros documentos:
- Si no se incluyen en su vocabulario, se ignoran
- Si están incluidas, las tiene en cuenta

In [2]:
text2 = ['Texto prueba fuera vector']
vector = vectorizer.transform(text2)
print(vector.toarray())

[[0 0 0 0 0 0 0 1 1 0]]


Como podemos ver los 1's corresponden con las posiciones 7 y 8, es decir, prueba y texto, respectivamente, que sabíamos que pertenecían al vocabulario original

# Frecuencia de palabras con `TfidfVectorizer`

Un problema con los recuentos simples es que palabras como *the* aparecerán muchas veces cuando no añade información de contexto.

Para mitigarlo, se utiliza el método Term Frequency - Inverse Document Frequency (TF-IDF), que significa:
- **Frecuencia de términos**: ¿Con qué frecuencia el término aparece en este documento? Mientras mayor sea la frecuencia del término en el documento, mayor será su importancia.
- **Frecuencia de documentos inversa**: ¿Con qué frecuencia el término aparece en todos los documentos de la colección? Mientras mayor sea la frecuencia en los documentos, menor será su importancia.

`TfidfVectorizer` tokenizará los documentos, aprenderá el vocabulario y el documento inverso sobre ponderaciones de frecuencia y permitirá codificar nuevos documentos.

In [10]:
from sklearn.feature_extraction.text import TfidfVectorizer

'''
 En cada texto, vamos a poner una palabra que exista en el primero junto con un conector y una, o más, palabras
 que no existan en el primero
'''

text = ['Texto de prueba para primera toma de contacto con CountVectorizer para probar', 
        'Prueba con computer science',
        'CountVectorizer con TfidfVectorizer']

vectorizer = TfidfVectorizer()
vectorizer.fit(text)

print('Vocabulario:',vectorizer.vocabulary_)
print('idf:',vectorizer.idf_)

vector = vectorizer.transform([text[0]])
print('Shape:', vector.shape)
vector.toarray()

Vocabulario: {'texto': 10, 'de': 4, 'prueba': 8, 'para': 5, 'primera': 6, 'toma': 12, 'contacto': 2, 'con': 1, 'countvectorizer': 3, 'probar': 7, 'computer': 0, 'science': 9, 'tfidfvectorizer': 11}
idf: [1.69314718 1.         1.69314718 1.28768207 1.69314718 1.69314718
 1.69314718 1.69314718 1.28768207 1.69314718 1.69314718 1.69314718
 1.69314718]
Shape: (1, 13)


array([[0.        , 0.15507331, 0.26256193, 0.19968512, 0.52512386,
        0.52512386, 0.26256193, 0.26256193, 0.19968512, 0.        ,
        0.26256193, 0.        , 0.26256193]])

[Mas informacion de TfidfVectorizer](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html)

Detalles:
- Aprende un vocabulario de 13 palabras
- A cada palabra le asigna un índice entero único en el vector de salida
- Las fecuencias inversas del documento se calculan para cada palabra del vocabulario
- Se le asigna la puntuación más baja de 1 a la palabra con mayor frecuencia: *con* en el índice 1
- Las palabras que aparecen en el resto de texto tienen menor valor(*CountVectorizer* y *Prueba*)
- El primer documento se codifica como una matriz dispersa de 13 elementos con el puntaje de cada palabra
- Las palabras que aparecen con 0 son las que no se encuentran
- Las puntuaciones se normalizan con valores entre 0 y 1

# Hashing con `HashingVectorizer`

Los conteos y las frecuencias tienen la limitación de que el vocabulario se vuelve muy extenso y requerirá grandes vectores para codificar documentos que requerirán, a su vez, grandes requisitos de memoria.

Una solución es utilizar un hash de palabras unidireccional para convertirlas en números enteros:
- No requiere vocabulario
- Se puede elegir un vector de longitud fija arbitraria 
- Inconveniente: Es una función unidireccional, no podemos volver atrás

La clase `HashingVectorizer` implementa este enfoque que se puede usar para hash palabras, luego tokenizar y codificar documentos según sea necesario.

In [11]:
from sklearn.feature_extraction.text import HashingVectorizer

text = ['Texto de prueba para primera toma de contacto con CountVectorizer para probar']

vectorizer = HashingVectorizer(n_features=20)

vector = vectorizer.transform(text)

print(vector.shape)
print(vector.toarray())

(1, 20)
[[ 0.    0.25  0.    0.    0.    0.25  0.   -0.25  0.    0.    0.5   0.
   0.    0.    0.    0.5   0.    0.    0.5   0.25]]


La ejecución del ejemplo codifica el documento de muestra como una matriz dispersa de 20 elementos. Los valores del documento codificado corresponden a recuentos de palabras normalizados por defecto en el rango de -1 a 1, pero se pueden hacer recuentos de enteros simple cambiando la configuración predeterminada.