In [3]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
from webdriver_manager.chrome import ChromeDriverManager
from nltk.tokenize import RegexpTokenizer
from nltk.corpus import stopwords
import pandas as pd
import plotly.express as px

In [4]:
class WebText:
    def __init__(self, driver = None):
        self.driver = driver
        self.options = Options()
        self.options.add_argument('--headless')
        if self.driver == None:
            self.driver = webdriver.Chrome(options = self.options, service = Service(ChromeDriverManager().install()))

    def get_url(self):
        #self.url = 'https://pt.wikipedia.org/wiki/Alexandre_Nero'
        self.url = input('URL: ')
        if not self.url.startswith('https://'):
            url = f'https://{url}'
        self.driver.get(self.url)

    def process_text(self):
        html = self.driver.find_element(By.TAG_NAME, 'html')
        #A página deve estar no idioma português
        if html.get_attribute('lang') not in ['pt', 'PT', 'pt-BR', 'pt_BR', 'pt-br', 'pt_br', 'PT-BR', 'PT_BR', 'PT-br', 'PT_br']:
            print('A página não está em português.')
        else:
            #Obtém o texto da página inteira
            text = html.text
            #Retira as quebras de linha (\n)
            text = text.replace('\\n', '')
            #Usa Regex para pegar apenas termos que possuam letras e números
            tokenizer = RegexpTokenizer('\w+')
            tokens = tokenizer.tokenize(text)
            #letras minúsculas e remoção de números
            tokens = [word.lower() for word in tokens if not word.isdigit()]
            #remoção de stopwords
            sw = stopwords.words('portuguese')
            tokens = [word for word in tokens if word not in sw]
            return tokens

    def word_count(self):
        #Exibição final dos dados obtidos
        tokens = self.process_text()
        df = pd.DataFrame(tokens).rename(columns = {0: 'termos'})
        value_counts = df.value_counts().reset_index().rename(columns = {0: 'contagem'})[:20]
        fig = px.bar(value_counts, x = 'termos', y = 'contagem', color = 'termos', title = 'Os 20 termos que mais aparecem na página')
        fig.show()


In [5]:
webtext = WebText()



Current google-chrome version is 97.0.4692
Get LATEST chromedriver version for 97.0.4692 google-chrome
Driver [/home/rafaelcoelho/.wdm/drivers/chromedriver/linux64/97.0.4692.71/chromedriver] found in cache


In [6]:
webtext.get_url()
webtext.process_text()


['saltar',
 'conteúdo',
 'alternar',
 'barra',
 'lateral',
 'busca',
 'criar',
 'conta',
 'ferramentas',
 'pessoais',
 'artigo',
 'discussão',
 'ler',
 'editar',
 'ver',
 'histórico',
 'página',
 'principal',
 'conteúdo',
 'destacado',
 'eventos',
 'atuais',
 'esplanada',
 'página',
 'aleatória',
 'portais',
 'informar',
 'erro',
 'colaboração',
 'boas',
 'vindas',
 'ajuda',
 'página',
 'testes',
 'portal',
 'comunitário',
 'mudanças',
 'recentes',
 'manutenção',
 'criar',
 'página',
 'páginas',
 'novas',
 'contato',
 'donativos',
 'ferramentas',
 'páginas',
 'afluentes',
 'alterações',
 'relacionadas',
 'carregar',
 'ficheiro',
 'páginas',
 'especiais',
 'hiperligação',
 'permanente',
 'informações',
 'página',
 'citar',
 'página',
 'elemento',
 'wikidata',
 'editar',
 'hiperligações',
 'interlínguas',
 'imprimir',
 'exportar',
 'criar',
 'livro',
 'descarregar',
 'pdf',
 'versão',
 'impressão',
 'noutros',
 'projetos',
 'wikimedia',
 'commons',
 'idiomas',
 'nesta',
 'wikipédia',
 'a

In [7]:
webtext.word_count()
webtext.driver.quit()