Skip to content

Tag cloud das palavras mais ditas pelos candidatos durante o primeiro debate da band

Notifications You must be signed in to change notification settings

matEvangelista/wordcloud_debate

Repository files navigation

Tag cloud (ou word cloud) das palavras mais ditas pelos candidatos à presidência no primeiro debate na Band

Foram feitos dois conjuntos de imagens: um com o texto sem alterações e outro com lemmatization, que coloca verbos no infinitivo e substantivos no singular

Texto sem alterações

Ciro Gomes

Felipe d'Ávila

Jair Bolsonaro

Lula

Simone Tebet

Soraya

Texto lemmatizado

Ciro Gomes

Felipe d'Ávila

Jair Bolsonaro

Lula

Simone Tebet

Soraya

Com a lemmatização, a palavra mais dita por alguns candidatos mudou. A de Bolsonaro passou a ser "mulher"; a de Soraya, "todo"

Primeira etapa - web scraping de uma página com a transcrição

Como, neste site, toda a fala registrada por cada candidato começa com seu nome em negrito, selecionaram-se apenas os parágrafos que começavam com seus nomes, com o apoio do módulo Beautiful Soup 4. Depois, os parágrafos lidos foram salvos em arquivos .txt.

Esta etapa pertence ao arquivo scraper.py

Segunda etapa - frequência absoluta de cada palavra por candidato

O programa gera csv.py e gera csv lemmatizado.py lêem os arquivos .txt, contam a frequência das palavras utilizadas em cada arquivo e salva-as em arquivos csv, na forma palavra, quantidade. Há pastas indicando quais foram lematizados ou não.

Terceira etapa - leitura dos arquivos .csv e WordCloud

Esta estapa é feita por gerador de imagens.py. São lidas as palavras e quantidades dos arquivos .csv e, a partir deles, através do módulo wordcloud, obtiveram-se as imagens.

About

Tag cloud das palavras mais ditas pelos candidatos durante o primeiro debate da band

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages