iPrensa

Olá, seja bem-vinde ao iPrensa. Este programa raspa os dados dos dois principais portais de notícias do Brasil (Uol e Globo) e dos sites da Folha, do Estadão da CNN e da Jovem Pan. Além de raspar os dados, o programa guarda as informações na planilha abaixo. A raspagem é programada para ocorrer a cada hora,

DADOS https://docs.google.com/spreadsheets/d/1UY2MkXq41EBEU5AXxGDE2oVrd8rQgPcc28xWi7oHVOU/edit?usp=sharing

Com algumas exceções, os dados coletados dos sites são:

nº da matéria;
data;
título;
posição ou classe(se é manchete, destaque, coluna etc);
link.

Análise dos dados

Com os dados da planilha, o iPrensa faz análises e salva essas informações em uma tabela:

Termos mais mencionados nos jornais;
Número de vezes que os pré-candidatos à Presidência em 2022 foram mencionados;
Número de vezes que times foram mencionados nas seções de esportes do Uol e da Globo;
A palavra que mais apareceu na parte principal dos sites;

Como funcionam as análises:

Termos mais mencionados

O filtro funciona da seguinte forma:

Todas as palavras foram colocadas em caixa baixa;
Foi feito um filtro para tirar uma série de palavras que são comuns em textos, mas não acrescentam muito significado em uma análise como esta. Entre as palavras retiradas estão: verbos, números e adjetivos;
Uma ordenação trouxe as 10 mais mencionadas.

OBS: Neste caso, queremos saber quais palavras apareceram mais e por mais tempo nos sites. Por isso, títulos iguais que aparecem mais de uma vez no dia (algo comum) são considerados na análise. Isso quer dizer que se a palavra "milho" apareceu somente em uma matéria no ano, mas essa matéria passou 2 dias na página principal do site, ela irá aparecer com um número bem maior que 1.

Ranking dos pré-candidatos

O filtro funcinou assim:

Foi retirado alguns nomes que poderiam confundir com os dos pré-candidatos. "Eduardo Bolsonaro", por exemplo, virou "Eduardo B.";
Cada vez que o nome de um pré-candidato apareceu em um título foi contado.

OBS: Neste caso, como queremos saber a quantidade de matéria produzida sobre o candidato, não consideramos na conta matérias iguais. Ou seja, se o Doria só apareceu em uma matéria durante o ano, mas essa matéria passou 2 dias na página principal do site, ele irá aparece com o número 1.

Termo do dia

As 35 primeiras matérias (que ficam no topo da página e, por isso, são mais importantes) são selecionadas;
Remove-se os links duplicados;
Faz-se um processamento de linguagem natural por meio do Spacy;
A palavra mais mencionada é selecionada;

Ranking dos times

Faz-se uma busca pelos nomes dos times em matérias qdo Uol e da Globo que contenham "futebol" ou "esporte" no link;
Deleta-se links duplicados;
Os termos são contados, e o ranking é gerado

Última atualização

24/07/2022

Autoria

Victor Farias, com orientação de Eduardo Cuducos, Bernardo Vianna, Paula Cristina dos Santos, Vinícius Sueiro, Rodrigo Menegat, Tiago Maranhão e Álvaro Justen, no âmbito do Master em Jornalismo de Dados do Insper. Contato victorfariassb@gmail.com

Name		Name	Last commit message	Last commit date
Latest commit History 943 Commits
.github/workflows		.github/workflows
.idea		.idea
__pycache__		__pycache__
base_dados		base_dados
static		static
templates		templates
LICENSE		LICENSE
Procfile		Procfile
README.md		README.md
app.py		app.py
atualiza_dados.py		atualiza_dados.py
contagem_candidatos.py		contagem_candidatos.py
contagem_palavras.py		contagem_palavras.py
ranking_times.py		ranking_times.py
raspador_sites.py		raspador_sites.py
raspagem1.py		raspagem1.py
raspagem2.py		raspagem2.py
raspagem3.py		raspagem3.py
requirements.txt		requirements.txt
runtime.txt		runtime.txt
termos_dia.py		termos_dia.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

iPrensa

Análise dos dados

Como funcionam as análises:

Termos mais mencionados

Ranking dos pré-candidatos

Termo do dia

Ranking dos times

Última atualização

Autoria

About

Releases

Packages

Languages

License

victorfariassb/iPrensa

Folders and files

Latest commit

History

Repository files navigation

iPrensa

Análise dos dados

Como funcionam as análises:

Termos mais mencionados

Ranking dos pré-candidatos

Termo do dia

Ranking dos times

Última atualização

Autoria

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages