# **PROCESAMIENTO DE LENGUAJE NATURAL**

#**Bag of Words (BoW) - Bolsa de palabras**

El modelo de Bag of Words (BoW) es una técnica utilizada para representar datos de texto. En este modelo, un documento se representa como un conjunto de palabras sin tener en cuenta la estructura gramatical o el orden en que aparecen.

La idea básica detrás del BoW es crear un vocabulario de todas las palabras únicas en un conjunto de documentos y luego contar cuántas veces aparece cada palabra en cada documento. Esto resulta en una representación vectorial donde cada dimensión del vector corresponde a una palabra en el vocabulario y el valor en esa dimensión indica la frecuencia de esa palabra en el documento.


A continuación se muestra con código python como obtener una bolsa de palabras a partir del siguiente "corpus":

In [None]:
# crear corpus de documentos
documents = [
    "política ser tema importante sociedad política gobierno",
    "elecciones gobierno país ser evento político",
    "partidos políticos competir elecciones política democracia",
    "presidente país liderar gobierno política",
    "leyes gobierno promulgar político legal",
    "política económica país afectar ciudadanos",
    "campañas políticas influir elecciones país",
    "ciudadanos participar proceso político",
    "opinión pública ser importante política",
    "debates políticos discutir temas sociedad"
]


bow = dict()

for doc in documents:
    doc = doc.split(' ')
    for word in doc:
        if word in bow:
            bow[word] += 1
        else:
            bow[word] = 1

print(bow)


{'política': 6, 'ser': 3, 'tema': 1, 'importante': 2, 'sociedad': 2, 'gobierno': 4, 'elecciones': 3, 'país': 4, 'evento': 1, 'político': 3, 'partidos': 1, 'políticos': 2, 'competir': 1, 'democracia': 1, 'presidente': 1, 'liderar': 1, 'leyes': 1, 'promulgar': 1, 'legal': 1, 'económica': 1, 'afectar': 1, 'ciudadanos': 2, 'campañas': 1, 'políticas': 1, 'influir': 1, 'participar': 1, 'proceso': 1, 'opinión': 1, 'pública': 1, 'debates': 1, 'discutir': 1, 'temas': 1}


* La construcción de las bolsas de palabras no solo se centran en la frecuencia si no que existen otras maneras de asignar un "peso" o "importancia" dentro del documento o del corpus a las palabras.


* Aunque existen más formas de construir bolsas de palabras, las más utilizadas son las siguiente:

    1. Vectores de Frecuencias
    2. One-Hot-Encode
    3. Term Frequency - Inverse Document Frequency (TF-IDF)
    
    
* Veamos a continuación como implementar estas bolsas de palabras con las siguientes librerías:

    * ***scikit***
    * ***NLTK***
    * ***Gensim***
    
    
<hr>


### **1. Vectores de Frecuencias**

* Los ***vectores de frecuencias*** es el método más trivial de construir las ***Bolsas de Palabras***.


* Simplemente consiste en contar cuantas veces aparece una palabra en el documento del corpus.




#### **- scikit**

* Esta librería devuelve una matriz en la que las **filas representan a cada documento del corpus** y las **columnas el número de apariciones de las palabras**.


* Para saber que palabra corresponde a cada columan de la matriz, scikit nos devuelve una lista en la que coinciden los indice de cada una de las palabras de la lista con la matriz.


* Para más información ver el siguiente enlace: https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html


In [None]:
# Importar la clase CountVectorizer para convertir el texto en vectores de características.
from sklearn.feature_extraction.text import CountVectorizer

# Convertir los documentos en una matriz de vectores de características utilizando el método fit_transform.
vectorizer = CountVectorizer()
vectors = vectorizer.fit_transform(documents)

# Imprimir los nombres de las características
print ('Lista de términos del vocabulario')
print(vectorizer.get_feature_names_out())

# Imprimir la matriz de vectores de características.
print ('\n BoW binario')
print(vectors.toarray())

Lista de términos del vocabulario
['afectar' 'campañas' 'ciudadanos' 'competir' 'debates' 'democracia'
 'discutir' 'económica' 'elecciones' 'evento' 'gobierno' 'importante'
 'influir' 'legal' 'leyes' 'liderar' 'opinión' 'participar' 'partidos'
 'país' 'política' 'políticas' 'político' 'políticos' 'presidente'
 'proceso' 'promulgar' 'pública' 'ser' 'sociedad' 'tema' 'temas']

 BoW binario
[[0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 1 1 1 0]
 [0 0 0 0 0 0 0 0 1 1 1 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 1 0 0 0]
 [0 0 0 1 0 1 0 0 1 0 0 0 0 0 0 0 0 0 1 0 1 0 0 1 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 1 1 0 0 0 1 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 1 0 0 1 1 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0]
 [1 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0]
 [0 1 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0]
 [0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 1 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 1 1 0 0 0]
 [0 0 

#### **- NLTK**

NLTK trabajar con diccionarios (un diccionario por documento) cuyas claves son las palabras y los valores son el número de apariciones de esa palabra en el documento.

In [None]:
import nltk

nltk.download('punkt')
nltk.download('punkt_tab')


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


True

In [None]:
# Importar bibliotecas necesarias para tokenización y creación del BoW
import nltk
nltk.download('punkt')
from collections import defaultdict


# Función de tokenización usando NLTK
def tokenize(text):
    for token in nltk.word_tokenize(text):
        yield token


# Función para vectorizar un texto en un diccionario de frecuencias
def vectorize(corpus):
    features = defaultdict(int)
    for token in tokenize(corpus):
        features[token] += 1
    return features


# Generar vectores BoW para cada documento del corpus
vectors = map(vectorize, documents)

# Mostrar los resultados
for v in vectors:
    print(v)


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


defaultdict(<class 'int'>, {'política': 2, 'ser': 1, 'tema': 1, 'importante': 1, 'sociedad': 1, 'gobierno': 1})
defaultdict(<class 'int'>, {'elecciones': 1, 'gobierno': 1, 'país': 1, 'ser': 1, 'evento': 1, 'político': 1})
defaultdict(<class 'int'>, {'partidos': 1, 'políticos': 1, 'competir': 1, 'elecciones': 1, 'política': 1, 'democracia': 1})
defaultdict(<class 'int'>, {'presidente': 1, 'país': 1, 'liderar': 1, 'gobierno': 1, 'política': 1})
defaultdict(<class 'int'>, {'leyes': 1, 'gobierno': 1, 'promulgar': 1, 'político': 1, 'legal': 1})
defaultdict(<class 'int'>, {'política': 1, 'económica': 1, 'país': 1, 'afectar': 1, 'ciudadanos': 1})
defaultdict(<class 'int'>, {'campañas': 1, 'políticas': 1, 'influir': 1, 'elecciones': 1, 'país': 1})
defaultdict(<class 'int'>, {'ciudadanos': 1, 'participar': 1, 'proceso': 1, 'político': 1})
defaultdict(<class 'int'>, {'opinión': 1, 'pública': 1, 'ser': 1, 'importante': 1, 'política': 1})
defaultdict(<class 'int'>, {'debates': 1, 'políticos': 1, '

#### **- Gensim**

* ***Gensim trabaja con "Diccionarios"*** (implementados como gensim.corpora.Dictionary) los cuales son una estructura de datos que mapea cada palabra única en el corpus a un identificador único (id), es decir, no conserva el orden de las palabras, sino que se encarga de la tarea de asignar un identificador a cada palabra única.

* Una vez creado el "Diccionario", se puede utilizar para convertir documentos en representaciones de "Bolsa de Palabras", utilizando la función "***doc2bow***". En una representación de Bolsa de Palabras, cada documento se representa como una lista de tuplas. Cada tupla consta de un identificador de palabra (obtenido del "Diccionario") y la frecuencia de esa palabra en el documento.

* Como resultado de este proceso, se obtiene una lista de listas por cada documento, donde cada lista interna contiene tuplas. Cada tupla representa una palabra en el documento identificada por su 'id' y la frecuencia de esa palabra en el documento

* Para más información ver el siguiente enlace: https://radimrehurek.com/gensim/corpora/dictionary.html

In [None]:
!pip install gensim



In [None]:
import nltk
import gensim

# Tokenizar cada documento en el corpus.
tokenize = [nltk.word_tokenize(text) for text in documents]

# Crear un diccionario de palabras a partir de los tokens.
dictionary = gensim.corpora.Dictionary(tokenize)

# Convertir cada documento tokenizado en un BoW usando el diccionario.
vectors = [dictionary.doc2bow(token) for token in tokenize]

# Imprimir los resultados.
print('Diccionario de palabras -> palabra: identificador\n')
print(dictionary.token2id)
print('\nApariciones de las palabras en los documentos:')
vectors

Diccionario de palabras -> palabra: identificador

{'gobierno': 0, 'importante': 1, 'política': 2, 'ser': 3, 'sociedad': 4, 'tema': 5, 'elecciones': 6, 'evento': 7, 'país': 8, 'político': 9, 'competir': 10, 'democracia': 11, 'partidos': 12, 'políticos': 13, 'liderar': 14, 'presidente': 15, 'legal': 16, 'leyes': 17, 'promulgar': 18, 'afectar': 19, 'ciudadanos': 20, 'económica': 21, 'campañas': 22, 'influir': 23, 'políticas': 24, 'participar': 25, 'proceso': 26, 'opinión': 27, 'pública': 28, 'debates': 29, 'discutir': 30, 'temas': 31}

Apariciones de las palabras en los documentos:


[[(0, 1), (1, 1), (2, 2), (3, 1), (4, 1), (5, 1)],
 [(0, 1), (3, 1), (6, 1), (7, 1), (8, 1), (9, 1)],
 [(2, 1), (6, 1), (10, 1), (11, 1), (12, 1), (13, 1)],
 [(0, 1), (2, 1), (8, 1), (14, 1), (15, 1)],
 [(0, 1), (9, 1), (16, 1), (17, 1), (18, 1)],
 [(2, 1), (8, 1), (19, 1), (20, 1), (21, 1)],
 [(6, 1), (8, 1), (22, 1), (23, 1), (24, 1)],
 [(9, 1), (20, 1), (25, 1), (26, 1)],
 [(1, 1), (2, 1), (3, 1), (27, 1), (28, 1)],
 [(4, 1), (13, 1), (29, 1), (30, 1), (31, 1)]]

<hr>

### **2. BoW binario**

* Este método de construcción de la ***Bolsa de Palabras*** consiste en indicar con un flag ([0,1], [True, False], etc.) si una palabra aparece o no en el documento.

#### **- scikit**

* Las estructuras de datos de salida de ***scikit*** son iguales de en el caso de la construcción del vector de frecuencias salvo que en el contenido de la matriz solo hay ceros y unos.

* Para más información ver el siguiente enlace: https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.Binarizer.html#sklearn.preprocessing.Binarizer

In [None]:
# Importar CountVectorizer para convertir texto en vectores de características
from sklearn.feature_extraction.text import CountVectorizer
# Importar la clase Binarizer para realizar BoW binario.
from sklearn.preprocessing import Binarizer

# convertir el corpus en una matriz de frecuencia de términos
vectorizer = CountVectorizer()
corpus = vectorizer.fit_transform(documents)

# Crear una instancia de Binarizer para realizar BoW binario
onehot = Binarizer()

# Aplicar BoW binario a la matriz de términos y documentos.
corpus = onehot.fit_transform(corpus.toarray())

# Imprimir los nombres de las características o términos
print ('Términos del vocuabulario: ')
print(vectorizer.get_feature_names_out())

# Imprimir la matriz de BoW binario.
print('\n BoW binario')
print(corpus)

Términos del vocuabulario: 
['afectar' 'campañas' 'ciudadanos' 'competir' 'debates' 'democracia'
 'discutir' 'económica' 'elecciones' 'evento' 'gobierno' 'importante'
 'influir' 'legal' 'leyes' 'liderar' 'opinión' 'participar' 'partidos'
 'país' 'política' 'políticas' 'político' 'políticos' 'presidente'
 'proceso' 'promulgar' 'pública' 'ser' 'sociedad' 'tema' 'temas']

 BoW binario
[[0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 1 1 0]
 [0 0 0 0 0 0 0 0 1 1 1 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 1 0 0 0]
 [0 0 0 1 0 1 0 0 1 0 0 0 0 0 0 0 0 0 1 0 1 0 0 1 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 1 1 0 0 0 1 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 1 0 0 1 1 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0]
 [1 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0]
 [0 1 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0]
 [0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 1 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 1 1 0 0 0]
 [0 0 0 0 1 

#### **- NLTK**

* La estructura de datos de salida de ***NLTK*** es la misma que en el caso de la construcción del vector de frecuencias salvo que los valores del diccionario son ***booleanos*** en vez de numéricos.

In [None]:
import nltk
nltk.download('punkt')
nltk.download('punkt_tab')


# Función de tokenización usando NLTK
def tokenize(text):
    for token in nltk.word_tokenize(text):
        yield token


# Función para vectorizar un texto en un BoW binario
def vectorize(corpus):
    return {token: True for token in tokenize(corpus)}


# Generar vectores BoW binarios para cada documento del corpus
vectors = map(vectorize, documents)

# Mostrar los resultados
print('BoW binario')
for v in vectors:
    print(v)




BoW binario
{'política': True, 'ser': True, 'tema': True, 'importante': True, 'sociedad': True, 'gobierno': True}
{'elecciones': True, 'gobierno': True, 'país': True, 'ser': True, 'evento': True, 'político': True}
{'partidos': True, 'políticos': True, 'competir': True, 'elecciones': True, 'política': True, 'democracia': True}
{'presidente': True, 'país': True, 'liderar': True, 'gobierno': True, 'política': True}
{'leyes': True, 'gobierno': True, 'promulgar': True, 'político': True, 'legal': True}
{'política': True, 'económica': True, 'país': True, 'afectar': True, 'ciudadanos': True}
{'campañas': True, 'políticas': True, 'influir': True, 'elecciones': True, 'país': True}
{'ciudadanos': True, 'participar': True, 'proceso': True, 'político': True}
{'opinión': True, 'pública': True, 'ser': True, 'importante': True, 'política': True}
{'debates': True, 'políticos': True, 'discutir': True, 'temas': True, 'sociedad': True}


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


#### **- Gensim**

* En ***Gensim***, la estructura de los datos de salida es similar a la de una "Bolsa de Palabras". Sin embargo, en lugar de almacenar las frecuencias de las palabras en cada documento, cada palabra en un documento se representa con un valor de '1'.

* Para más información ver el siguiente enlace: https://radimrehurek.com/gensim/corpora/dictionary.html

In [None]:
import nltk
import gensim

# Tokenizar cada documento en el corpus.
tokenize = [nltk.word_tokenize(text) for text in documents]

# Crear un diccionario de palabras a partir de los tokens.
dictionary = gensim.corpora.Dictionary(tokenize)

# Convertir cada documento tokenizado en una representación de BoW binario usando el diccionario.
vectors = [[(token[0], 1) for token in dictionary.doc2bow(doc)] for doc in tokenize]

# Imprimir los resultados.
print('Diccionario de palabras -> palabra: id\n')
print(dictionary.token2id)
print('\nApariciones de las palabras en los documentos (id, 1):')
vectors

Diccionario de palabras -> palabra: id

{'gobierno': 0, 'importante': 1, 'política': 2, 'ser': 3, 'sociedad': 4, 'tema': 5, 'elecciones': 6, 'evento': 7, 'país': 8, 'político': 9, 'competir': 10, 'democracia': 11, 'partidos': 12, 'políticos': 13, 'liderar': 14, 'presidente': 15, 'legal': 16, 'leyes': 17, 'promulgar': 18, 'afectar': 19, 'ciudadanos': 20, 'económica': 21, 'campañas': 22, 'influir': 23, 'políticas': 24, 'participar': 25, 'proceso': 26, 'opinión': 27, 'pública': 28, 'debates': 29, 'discutir': 30, 'temas': 31}

Apariciones de las palabras en los documentos (id, 1):


[[(0, 1), (1, 1), (2, 1), (3, 1), (4, 1), (5, 1)],
 [(0, 1), (3, 1), (6, 1), (7, 1), (8, 1), (9, 1)],
 [(2, 1), (6, 1), (10, 1), (11, 1), (12, 1), (13, 1)],
 [(0, 1), (2, 1), (8, 1), (14, 1), (15, 1)],
 [(0, 1), (9, 1), (16, 1), (17, 1), (18, 1)],
 [(2, 1), (8, 1), (19, 1), (20, 1), (21, 1)],
 [(6, 1), (8, 1), (22, 1), (23, 1), (24, 1)],
 [(9, 1), (20, 1), (25, 1), (26, 1)],
 [(1, 1), (2, 1), (3, 1), (27, 1), (28, 1)],
 [(4, 1), (13, 1), (29, 1), (30, 1), (31, 1)]]

<hr>

### **3. Term Frequency-Inverse Document Frequency (TF-IDF)**

* El TF-IDF (Frecuencia de Termino - Frecuencia Inversa de Documento) es una medida numérica que permite expresar como de relevante es una palabra para un documento en una colección de documentos (o corpus).

* Construir la Bolsa de Palabras con TF-IDF en vez de con frecuencias evita dar "importancia" a texto muy largos y con mucha repetición de palabras, frente a textos cortos y con pocas repeticiones de palabras. En lugar de solo contar las frecuencias de las palabras, permite tener una representación más equilibrada y significativa de los documentos en un corpus

* La media de ***TF-IDF*** tiene dos componentes que son:
    
    * ***TF*** (Term Frecuency): Es la frecuencia con la que aparece la palabra en un documento del corpus. Esta se define como:
    
    $$tf(t,d) = 1 + log(f_{t,d})$$
    
    Al aplicar el logaritmo a la frecuencia del término se logra atenuar el efecto de las diferencias extremas en las frecuencias de los términos y proporcionar una representación más equilibrada
    * ***IDF*** (Inverse Document Frequency): La frecuencia inversa del documento nos indica lo común que es una palabra en el corpus.
    
    $$idf(t,D) = log(1 + \frac{N}{n_t})$$
    

* ***TF-IDF*** queda definido como:
$$tfidf(t,d,D) = tf(t,d) \cdot idf(t,D)$$



#### **Ejemplos:**

* Veamos un ejemplo dado el siguiente corpus de 2 documentos con las siguientes palabras:

```
corpus = ["messi messi messi ronaldo ronaldo balon",
          "messi ronaldo futbol futbol futbol"]
```

* ***Ejemplo 1***: Calculamos el ***tf-idf*** de la palabra "**messi**" para el documento 1:
    
    * ***TF***:
        - t: número de veces que aparece la palabra "messi" en el documento 1 -> 3
        - d: número de palabras que tiene el documento 1 -> 6
        $$tf(t,d) = 1 + log(\frac{3}{6}) =  0,69$$
        
    * ***IDF***:
        - n<sub>t</sub>: número de documentos en los que aparece la palabra 'messi' -> 2
        - D: número total de documentos en el corpus -> 2
        $$idf(t,D) = log(1 + \frac{2}{2}) = 0,3$$
        
    * ***TF-IDF***:
    $$tfidf(t,d,D) = tf(t,d) \cdot idf(t,D) = 0,69 * 0,3 = 0,21$$
    
    
* ***Ejemplo 2***: Calculamos el ***tf-idf*** de la palabra "**futbol**" para el documento 2:
    
    * ***TF***:
        - t: número de veces que aparece la palabra "futbol" en el documento 2 -> 3
        - d: número de palabras que tiene el documento 2 -> 5
        $$tf(t,d) = 1 + log(\frac{3}{5}) =  0,78$$
        
    * ***IDF***:
        - n<sub>t</sub>: número de documentos en los que aparece la palabra 'futbol' -> 1
        - D: número total de documentos en el corpus -> 2
        $$idf(t,D) = log(1 + \frac{2}{1}) = 0,48$$
        
    * ***TF-IDF***:
$$tfidf(t,d,D) = tf(t,d) \cdot idf(t,D) = 0,78 * 0,48 = 0,37$$

**Implementación:**


* En el ejemplo mostrado anteriormente se ha realizado sobre el un TF-IDF teórico, calculando la frecuencia escalada logaritmicamente y sobre un corpus de "juguete" para entender el concepto.


* Las implementaciones del ***TF-IDF*** de **scikit** y **Gensim** estan pensadas para corpus con un número relevante de documentos y de palabras, por tanto la implementación del ***TF-IDF*** acepta una serie de parámetros para no tener en cuenta Stop Words, palabras irrelevantes, etc. por lo que si se realiza una implementación del ***TF-IDF*** según la bibliografia no van a conincidir los resultados de esa implementación con los resultados de las librerías de **scikit** y **Gensim** a no ser que se modifiquen los parámetros de las funciones del ***TF-IDF***.


#### **- scikit**

* Las estructuras de datos de salida de ***scikit*** son iguales de en el caso de la construcción del vector de frecuencias salvo que en el contenido de la matriz será de números decimales en vez de números enteros.


* Para más información ver el siguiente enlace: https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html

In [None]:
# Importar la clase TfidfVectorizer para calcular TF-IDF.
from sklearn.feature_extraction.text import TfidfVectorizer

# Crear una instancia de TfidfVectorizer para calcular TF-IDF.
tfidf = TfidfVectorizer()

# Convertir el corpus en una matriz de TF-IDF.
corpus = tfidf.fit_transform(documents)

# Imprimir los nombres de las características
print ('Términos del vocabulario: ')
print(tfidf.get_feature_names_out())

# Imprimir la matriz de TF-IDF.
print ('\n Vecores TF-IDF:')
print(corpus.toarray())


Términos del vocabulario: 
['afectar' 'campañas' 'ciudadanos' 'competir' 'debates' 'democracia'
 'discutir' 'económica' 'elecciones' 'evento' 'gobierno' 'importante'
 'influir' 'legal' 'leyes' 'liderar' 'opinión' 'participar' 'partidos'
 'país' 'política' 'políticas' 'político' 'políticos' 'presidente'
 'proceso' 'promulgar' 'pública' 'ser' 'sociedad' 'tema' 'temas']

 Vecores TF-IDF:
[[0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.30036745 0.38615948
  0.         0.         0.         0.         0.         0.
  0.         0.         0.5394939  0.         0.         0.
  0.         0.         0.         0.         0.33784392 0.38615948
  0.45425645 0.        ]
 [0.         0.         0.         0.         0.         0.
  0.         0.         0.3956317  0.53195646 0.35174493 0.
  0.         0.         0.         0.         0.         0.
  0.         0.35174493 0.         0.         0.3956317  0.
  0.         0.         0.     

#### **- Gensim**

* La estructura de datos de salida de ***Gensim*** es la misma que en el caso de la construcción de la Bolsa de Palabras de frecuencias salvo que los valores de las palabras en los documentos tendrán números decimales en vez de números enteros.


* Para más información ver el siguiente enlace: https://radimrehurek.com/gensim/models/tfidfmodel.html

In [None]:
import nltk
import gensim

# Tokenizar cada documento en el corpus.
tokenize = [nltk.word_tokenize(text) for text in documents]

# Crear un diccionario de palabras a partir de los tokens.
dictionary = gensim.corpora.Dictionary(tokenize)

# Crear un modelo TF-IDF a partir del diccionario.
tfidf = gensim.models.TfidfModel(dictionary=dictionary, normalize=True)

# Calcular los vectores TF-IDF para cada documento.
vectors = [tfidf[dictionary.doc2bow(doc)] for doc in tokenize]

# Imprimir los resultados.
print('Diccionario de palabras -> palabra: id\n')
print(dictionary.token2id)
print('\nApariciones de las palabras en los documentos (id, tfidf):')
vectors

Diccionario de palabras -> palabra: id

{'gobierno': 0, 'importante': 1, 'política': 2, 'ser': 3, 'sociedad': 4, 'tema': 5, 'elecciones': 6, 'evento': 7, 'país': 8, 'político': 9, 'competir': 10, 'democracia': 11, 'partidos': 12, 'políticos': 13, 'liderar': 14, 'presidente': 15, 'legal': 16, 'leyes': 17, 'promulgar': 18, 'afectar': 19, 'ciudadanos': 20, 'económica': 21, 'campañas': 22, 'influir': 23, 'políticas': 24, 'participar': 25, 'proceso': 26, 'opinión': 27, 'pública': 28, 'debates': 29, 'discutir': 30, 'temas': 31}

Apariciones de las palabras en los documentos (id, tfidf):


[[(0, 0.23904061476607658),
  (1, 0.4198678592210365),
  (2, 0.3616544889099199),
  (3, 0.31409070210614737),
  (4, 0.4198678592210365),
  (5, 0.6006951036759965)],
 [(0, 0.272222219104851),
  (3, 0.35769012730831634),
  (6, 0.35769012730831634),
  (7, 0.6840785373988446),
  (8, 0.272222219104851),
  (9, 0.35769012730831634)],
 [(2, 0.15336770617138346),
  (6, 0.2663944288758852),
  (10, 0.5094764919791486),
  (11, 0.5094764919791486),
  (12, 0.5094764919791486),
  (13, 0.3561087858077651)],
 [(0, 0.25647772361020643),
  (2, 0.19401790808603714),
  (8, 0.25647772361020643),
  (14, 0.6445135397822808),
  (15, 0.6445135397822808)],
 [(0, 0.21481235202011797),
  (9, 0.28225564318054464),
  (16, 0.53981089445358),
  (17, 0.53981089445358),
  (18, 0.53981089445358)],
 [(2, 0.18194075042224608),
  (8, 0.24051258958805682),
  (19, 0.604394090432549),
  (20, 0.4224533400103029),
  (21, 0.604394090432549)],
 [(6, 0.28225564318054464),
  (8, 0.21481235202011797),
  (22, 0.53981089445358),
  (23,