No description, website, or topics provided.
Branch: master
Clone or download
Fetching latest commit…
Cannot retrieve the latest commit at this time.
Permalink
Type Name Latest commit message Commit time
Failed to load latest commit information.
App
Web-Scraping
log
README.md
icon.png
install.sh

README.md

Mineração de Texto em Jornais


O objetivo desse repositório é armazenar os arquivos do trabalho proposto pela disciplina CE062 - Análise de Texto, oferecida pela Universidade Federal do Paraná e ministrada pelo Prof.PhD Walmes Marques Zeviani.


Proposta do trabalho

O presente trabalho tem como propósito utilizar as técnicas aprendidas na disciplina para extrair informações pertinentes dos jornais. Devido nosso tempo ser finito e haver uma grande quantidade de matérias publicadas diariamente, fica praticamente impossivel nos mantermos informados sobre os acontecimentos e fatos diários. Sendo assim, o objetivo central é encontrar os termos-chaves dentro das notícias em um determinado período de tempo, criando assim um filtro o qual espera-se a diminuição de ruídos (ruído nesse contexto seria notícias que não agregam valor). O objetivo secundário é agrupar os documentos com base nos termos-chaves e então criar uma lista ponderada para as notícias. Ou seja, este programa visa identificar os temas relevantes do periodo de interesse e as notícias que melhor os representam, economizando tempo do leitor.

Jornais

A primeira parte do trabalho foi decidir quais jornais utilizar. Com base na Associação Nacional de Jornais optou-se pelo G1,Folha de São Paulo e Estadão. Para uma primeira análise também foi escolhido somente uma categoria desses três jornais, a aba escolhida é Política ou Poder.

Etapas do trabalho

Após a primeira parte, foi definido 4 etapas subsequentes, são elas:

i. Web Scraping
ii. Modelagem de tópicos e agrupamento por similaridade
iii. Reprodução - RShiny

i. Web Scraping

A parte do web-scraping nesse contexto é a extração diária das notícias que são armazenadas em um arquivo .RData.

ii. Modelagem de tópicos e agrupamento por similaridade

Para a modelagem dos tópicos foi utilizado o Latent Dirichlet Allocation (LDA).

iii. Reprodução - R Shiny

O RShiny resultante tem seis panéis.

i. Painel 0 - Controles, onde o usúario irá definir os inputs.
ii. Painel 1 - Gráfico da proporção dos tópicos.
iii. Painel 2 - Wordclouds dos tópicos com as palavras mais frequentes.
iv. Painel 3 - Lista decrescente dos títulos relacionados com o tópico selecionado.
v. Painel 4 - Matério selecionada no painel 3.
vi. Painel 5 - Email - serve para receber e-mail da execução dos scripts de Web-Scraping