**MODELO DE BAG OF WORDS**
---

En este ejemplo se presenta el modelo de representación BAG OF WORDS para el cual se realizan los siguientes pasos:

**1. Importación de librerías**

> En el primer paso se importan algunas bibliotecas que se mencionan a continuación
*   **nltk:** biblioteca de PLN
*   **numpy** biblioteca para operaciones
*   **random:** bbilioteca para 
*   **string:** biblioteca para el manejo de cadenas de caracteres
*   **bs4:** Beautifulsoup4, biblioteca para analizar los datos de Wikipedia
*   **urllib.request**; 
*   **re:** biblioteca de expresiones regulares para preprocesamiento en el texto.

In [1]:
import nltk  
nltk.download('punkt')
import numpy as np  
import random  
import string

import bs4 as bs  
import urllib.request  
import re  

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


**2. Obtención del texto**

Desde el artículo de Wikipedia sobre Procesamiento natural del lenguaje, se importa el HTML sin formato, se filtra el texto dentro del texto del párrafo. Finalmente, creamos un corpus completo concatenando todos los párrafos y con la librería bs4 se obtienen el corpus que se guarda en la variable **article_text** 

In [2]:
raw_html = urllib.request.urlopen('https://en.wikipedia.org/wiki/Natural_language_processing')  
raw_html = raw_html.read()

article_html = bs.BeautifulSoup(raw_html, 'lxml')

article_paragraphs = article_html.find_all('p')

article_text=""

for para in article_paragraphs:  
    article_text += para.text
article_text

'Natural language processing (NLP) is a subfield of linguistics, computer science, and artificial intelligence concerned with the interactions between computers and human language, in particular how to program computers to process and analyze large amounts of natural language data.  The goal is a computer capable of "understanding" the contents of documents, including the contextual nuances of the language within them. The technology can then accurately extract information and insights contained in the documents as well as categorize and organize the documents themselves.\nChallenges in natural language processing frequently involve speech recognition, natural-language understanding, and natural-language generation.\nNatural language processing has its roots in the 1950s. Already in 1950, Alan Turing published an article titled "Computing Machinery and Intelligence" which proposed what is now called the Turing test as a criterion of intelligence, though at the time that was not articul

**3. Normalización**

El siguiente paso es dividir el corpus en oraciones individuales. Para hacerlo, usaremos el sent_tokenize función de la biblioteca NLTK.
El texto contiene signos de puntuación. No queremos que las puntuaciones formen parte de nuestro diccionario de frecuencia de palabras. En el siguiente script, primero convertimos nuestro texto a minúsculas y luego eliminamos la puntuación de nuestro texto. Eliminar la puntuación puede resultar en varios espacios vacíos. Eliminaremos los espacios vacíos del texto usando expresiones regulares.

In [21]:
corpus = nltk.sent_tokenize(article_text)
for i in range(len(corpus )):
    corpus [i] = corpus [i].lower()
    # Elimina los signos de puntuación y espacios.
    corpus [i] = re.sub(r'[^\w\s]', '', corpus [i]) 
    # ^\w reconoce caracteres que no son alfanuméricos y \s reconoce espacios.
    # Estos caracteres los substituye por '', es decir, los elimina.
print(len(corpus))
print(corpus[30])

50
since 201519 the field has thus largely abandoned statistical methods and shifted to neural networks for machine learning


**4. Crear la matriz de frecuencia**

In [18]:
wordfreq = {}
for sentence in corpus:
    tokens = nltk.word_tokenize(sentence)
    for token in tokens:
        if token not in wordfreq.keys():
            wordfreq[token] = 1
        else:
            wordfreq[token] += 1
import heapq
most_freq = heapq.nlargest(200, wordfreq, key=wordfreq.get)
print(most_freq)


['the', 'of', 'and', 'in', 'to', 'language', 'a', 'natural', 'nlp', 'as', 'is', 'that', 'processing', 'cognitive', 'statistical', 'for', 'with', 'tasks', 'on', 'such', 'rules', 'eg', 'machine', 'have', 'are', 'models', 'linguistics', 'learning', 'neural', 'more', 'has', 'by', 'systems', 'algorithms', 'methods', 'many', 'research', 'been', 'input', 'data', 'can', 'an', 'which', 'was', 'based', 'however', 'be', 'they', 'computer', 'intelligence', 'understanding', 'documents', 'from', 'symbolic', 'or', 'machinelearning', 'results', 'increasingly', 'when', 'since', 'some', 'science', 'large', 'proposed', 'given', '1980s', 'most', 'this', 'computational', 'deep', 'set', 'commonly', 'used', 'through', 'realworld', 'networks', 'larger', 'approaches', 'translation', 'trends', 'aspects', 'artificial', 'computers', 'human', 'how', 'process', 'analyze', 'frequently', 'involve', 'speech', 'recognition', 'naturallanguage', 'generation', 'its', 'turing', 'now', 'test', 'though', 'separate', 'task', 

**5. Matriz de vectores**

El último paso es convertir las oraciones de nuestro corpus en su correspondiente representación vectorial. La idea es sencilla, para cada palabra en el most_freq diccionario si la palabra existe en la oración, se agregará un 1 para la palabra, de lo contrario se agregará 0.

In [19]:
sentence_vectors = []
for sentence in corpus:
    sentence_tokens = nltk.word_tokenize(sentence)
    sent_vec = []
    for token in most_freq:
        if token in sentence_tokens:
            sent_vec.append(1)
        else:
            sent_vec.append(0)
    sentence_vectors.append(sent_vec)

En el script de arriba creamos una lista vacía sentence_vectors que almacenará vectores para todas las oraciones en el corpus. Luego, iteramos a través de cada oración en el corpus y creamos una lista vacía sent_vec para las oraciones individuales. Del mismo modo, también tokenizamos la oración. A continuación, iteramos a través de cada palabra en el most_freq lista y verifica si la palabra existe en las fichas de la oración. Si la palabra es parte de la oración, se agrega 1 al vector de oración individual sent_vec, de lo contrario se agrega 0. Finalmente, el vector de oración se agrega a la lista sentence_vectors que contiene vectores para todas las oraciones. Básicamente, esto sentence_vectors es nuestro modelo de bolsa de palabras.

In [20]:
sentence_vectors = np.asarray(sentence_vectors)
sentence_vectors

array([[1, 1, 1, ..., 0, 0, 0],
       [1, 1, 0, ..., 0, 0, 0],
       [1, 0, 1, ..., 0, 0, 0],
       ...,
       [1, 1, 0, ..., 0, 0, 0],
       [0, 1, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0]])