In [49]:
# Gabriel Marchioro Klein
#
# Sua tarefa será gerar a matriz termo documento, dos documentos recuperados da internet e
# imprimir esta matriz na tela. Para tanto:
# a) Considere que todas as listas de sentenças devem ser transformadas em listas de vetores,
# onde cada item será uma das palavras da sentença.
# b) Todos os vetores devem ser unidos em um corpus único formando uma lista de vetores,
# onde cada item será um lexema.
# c) Este único corpus será usado para gerar o vocabulário.
# d) O resultado esperado será uma matriz termo documento criada a partir da aplicação da
# técnica bag of Words em todo o corpus.

from bs4 import BeautifulSoup
import requests
import spacy
import re
import numpy as np

spacyEnglish = spacy.load("en_core_web_sm")
spacyEnglish.add_pipe('sentencizer')

allCorpus = []

links = [
  "https://en.wikipedia.org/wiki/Natural_language_processing", 
  "https://www.tableau.com/learn/articles/natural-language-processing-examples",
  "https://www.geeksforgeeks.org/natural-language-processing-overview/",
  "https://monkeylearn.com/natural-language-processing/",
  "https://cloud.google.com/learn/what-is-natural-language-processing"
]

def createCorpus(link):
    try:
      page = requests.get(link)
    except requests.exceptions.MissingSchema:
      pass
    soup = BeautifulSoup(page.content, 'html.parser')
    corpus = []
    for tag in soup.find_all(["h1", "h2", "h3", "h4", "h5", "h6", "p", "li"]):
      text = tag.get_text()
      strippedText = text.strip("\n")
      strippedText = text.strip()
      if len(strippedText) > 0:
        spacyText = spacyEnglish(strippedText)
        for sentence in spacyText.sents:
          corpus.append(sentence.text)
          allCorpus.append(sentence.text)

    return allCorpus

def bagOfWords(allsentences):
    vocab = []                                                                    #Variável para armazenar as palavras do vocabulário
    ignore = ['a', "the", "is"]                                                   #Variável para ignorar stopwords
    #Criação do vocabulário:

    for sentence in allsentences:                                                 #Loop que separa todas as palavras das frases
        words = re.sub("[^\w]", " ",  sentence).split()                           #  separa as palavras das frases usando regex
        lowerText = [w.lower() for w in words if w not in ignore]                 #  transforma as palavras em lowercase
        vocab.extend(lowerText)                                                   #  adiciona as palavras ao vocabulário
    vocab = sorted(list(set(vocab)))                                              #Ordena as palavras em ordem alfabética
    docWords = [vocab]                                                            #Coloca o vocabulário na variável que vai conter o vetor de vetores
    totalWords = np.zeros(len(vocab))                                             #Variável que vai conter quantas palavras do vocabulário estão presentes em todo o documento
    for sentence in allsentences:                                                 #Loop que separa todas as palavras das frases
        words = re.sub("[^\w]", " ",  sentence).split()                           #  separa as palavras das frases usando regex
        lowerText = [w.lower() for w in words if w not in ignore]                 #
        wordBag = np.zeros(len(vocab))                                            #  cria um vetor vazio com zeros correspondentes ao tamanho do vocab
        for w in lowerText:                                                       #Loop que coloca as palavras na BoW
            for i, word in enumerate(vocab):                                      #  
                if word == w:                                                     # Checa qual é a palavra atual
                    wordBag[i] += 1                                               # Adiciona uma ocorrência no BoW
        totalWords = np.add(wordBag, totalWords)                                  #Vetor com a soma total da BoW de todas as frases
        docWords.append(wordBag)                                                  #Coloca o wordBag atual no vetor final
    print(f'VETOR FINAL:')
    for i, sentence in enumerate(docWords):                                       #Printa o vetor final como matriz
      if i == 0:
        print(f'Vocab:   {docWords[i]}')
      else:
        print(f'Frase {i}: {sentence}')

for link in links:
  createCorpus(link)

bagOfWords(allCorpus)

VETOR FINAL:
Vocab:   ['0', '01', '02', '02410', '03', '030', '04', '05', '05674', '06', '07', '08', '09', '09792', '1', '10', '100', '1007', '1026', '1035', '1073', '108', '10854', '11', '1109', '1145', '11585', '1162', '117', '1177', '11th', '12', '125', '127', '12px', '12th', '13', '133', '13360', '13580', '14', '1412', '15', '1533', '1558', '155818532', '156', '16', '1602', '1613', '164', '1643823', '1643908', '16799', '16800', '17', '1705', '18', '1807', '1848218482', '1848219212', '187321', '19', '1932', '19322968211000831', '1950', '1950s', '1954', '19557', '1960s', '1964', '1966', '1970s', '1971', '1975', '1976', '1977', '1978', '1979', '1980s', '1981', '1983', '1986', '1989', '1990s', '1995', '1995pnas', '1999', '1_2', '1em', '2', '20', '2000s', '2001', '2002', '2003', '2004', '2005', '2006', '2007', '2008', '2009', '2010s', '2011', '2012', '2013', '2014', '2014arxiv1412', '2015', '2016', '2016arxiv160202410j', '2017', '2018', '2019', '2020', '2021', '2022', '2023', '207', '21