# Imports

In [1]:
import numpy as np
import pandas as pd

# Leitura dos dados

## Utilizando o MongoDB

Caso você queirá pegar a extração de um MongoDB

In [2]:
from pymongo import MongoClient

In [3]:
client = MongoClient()
collec = client['portaisnoticias']['tech']

### Transferir os dados de uma collection mongo para um DataFrame

In [4]:
df_dict = {
    '_id': [],
    'spider': [], 
    'url': [], 
    'titulo': [], 
    'qtd_comentarios': [],
    'autor': [],
    'revisor': [], 
    'data_publicacao': [], 
    'referencias': [],
    'tags': [],
    'conteudo_relacionado': [],
}

for doc in collec.find({}):
    for key, value in doc.items():
        df_dict[key].append(value)
        
    for missing in set(df_dict.keys()).difference(set(doc.keys())):
        df_dict[missing].append(None)
    

Essa váriavel `df_noticias` é a qu

In [5]:
df_noticias = pd.DataFrame(df_dict)

## Utilizando Json

Caso você queira pegar os dados salvos nos jsons gerados pelas spiders

In [3]:
import glob 

datas_jl = glob.glob('../portais_tech/*.jsonl')

In [4]:
df_list = []

for file in datas_jl:
    df = pd.read_json(file, lines=True)
    
    df_list.append(df)

if len(df_list) > 1:
    df_noticias = pd.concat(df_list)
else:
    df_noticias = df_list[0]

# Trabalhando com um DataFrame

Vamos utilizar o `df_noticias` instânciado com os dados extraídos pelas spiders.

In [5]:
df_noticias.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 107158 entries, 0 to 59157
Data columns (total 10 columns):
 #   Column                Non-Null Count   Dtype  
---  ------                --------------   -----  
 0   spider                107158 non-null  object 
 1   url                   107158 non-null  object 
 2   titulo                107158 non-null  object 
 3   autor                 107158 non-null  object 
 4   data_publicacao       107158 non-null  object 
 5   conteudo_relacionado  64986 non-null   object 
 6   tags                  107118 non-null  object 
 7   referencias           52581 non-null   object 
 8   revisor               22095 non-null   object 
 9   qtd_comentarios       59158 non-null   float64
dtypes: float64(1), object(9)
memory usage: 9.0+ MB


In [6]:
df_noticias.head()

Unnamed: 0,spider,url,titulo,autor,data_publicacao,conteudo_relacionado,tags,referencias,revisor,qtd_comentarios
0,olhardigital,https://olhardigital.com.br/carros-e-tecnologi...,Revelado conceito do primeiro sedan elétrico q...,Renato Mota,2020-02-25T12:30:00,[https://olhardigital.com.br/carros-e-tecnolog...,"[sustentabilidade, carro, carro elétrico, volv...",[https://www.theverge.com/2020/2/25/21151592/p...,Fabiana Rolfini,
1,olhardigital,https://olhardigital.com.br/ciencia-e-espaco/n...,"Não vai ter supernova? Lentamente, Betelgeuse ...",Renato Mota,2020-02-25T13:02:00,[https://olhardigital.com.br/ciencia-e-espaco/...,"[espaço, estrelas, supernova, ciência&espaço]",[https://www.sciencealert.com/betelgeuse-has-o...,,
2,olhardigital,https://olhardigital.com.br/fique_seguro/notic...,Microsoft quer dificultar a criação e uso de c...,Luiz Nogueira,2020-02-25T19:30:00,[https://olhardigital.com.br/dicas_e_tutoriais...,"[segurança, microsoft, sistema operacional, wi...",[https://mspoweruser.com/microsoft-extends-plo...,Cesar Schaeffer,
3,olhardigital,https://olhardigital.com.br/noticia/apple-watc...,Apple Watch será avaliado sobre capacidade de ...,Guilherme Preta,2020-02-25T13:44:00,[https://olhardigital.com.br/noticia/apple-vai...,"[saúde, apple, apple watch, sistema de saúde]",[https://www.macrumors.com/2020/02/25/apple-he...,Fabiana Rolfini,
4,olhardigital,https://olhardigital.com.br/ciencia-e-espaco/n...,Astrônomos encontram exoplaneta por meio da au...,Guilherme Preta,2020-02-25T12:20:00,[https://olhardigital.com.br/ciencia-e-espaco/...,"[espaço, júpiter, exoplanetas, via láctea, ciê...",[https://www.wired.com/story/a-stars-auroras-l...,Fabiana Rolfini,


## Encontrar elementos duplicados

Quando se utiliza o `titulo` como item verificador da duplicação, obtemos uma quantidade significativa de resultados:

In [55]:
df_noticias_dupl = df_noticias[df_noticias.duplicated(subset=['titulo'])]

df_noticias_dupl.head()

Unnamed: 0,spider,url,titulo,autor,data_publicacao,conteudo_relacionado,tags,referencias,revisor,qtd_comentarios
274,olhardigital,https://olhardigital.com.br/dicas_e_tutoriais/...,Os melhores aplicativos e jogos da semana para...,Alvaro Scola,2020-02-14T10:50:00,[https://olhardigital.com.br/noticia/android-p...,"[aplicativos, android, dicas, google play, jog...",,,
428,olhardigital,https://olhardigital.com.br/dicas_e_tutoriais/...,Os melhores aplicativos e jogos da semana para...,Luiz Nogueira,2020-02-07T12:50:00,[https://olhardigital.com.br/fique_seguro/noti...,"[aplicativos, android, dicas, google play, jog...",,Cesar Schaeffer,
658,olhardigital,https://olhardigital.com.br/dicas_e_tutoriais/...,Os melhores aplicativos e jogos da semana para...,Luiz Nogueira,2020-01-31T11:58:00,[https://olhardigital.com.br/fique_seguro/noti...,"[aplicativos, android, dicas, google play, jog...",,Cesar Schaeffer,
808,olhardigital,https://olhardigital.com.br/dicas_e_tutoriais/...,Os melhores aplicativos e jogos da semana para...,Luiz Nogueira,2020-01-24T13:00:00,[https://olhardigital.com.br/noticia/como-a-mi...,"[aplicativos, android, dicas, google play, jog...",,Daniel Junqueira,
1035,olhardigital,https://olhardigital.com.br/cinema-e-streaming...,Os 10 filmes mais pirateados da semana,Daniel Junqueira,2020-01-20T11:05:00,,"[filmes, torrent, pirataria, filmes&series]",,,


Por isso, o `titulo` não será utilizado como primary_key e sim a `url`

In [56]:
df_noticias_dupl = df_noticias[df_noticias.duplicated(subset=['url'])]

df_noticias_dupl

Unnamed: 0,spider,url,titulo,autor,data_publicacao,conteudo_relacionado,tags,referencias,revisor,qtd_comentarios


## Limpa caracteres errados em campos do tipo String

Algumas strings foram extraídas com o caracter `\n` e/ou com uma grande quantidade de espaços (`  exemplo  `). Por isso, foi preciso remover esse caracter e os espaços em branco.

In [7]:
def remove_(value):
    if type(value) == str:
        if '\n' in value:
            value = value.replace('\n', '')
        
        value = value.strip()
    
    return value

In [8]:
df_noticias['autor'] = df_noticias['autor'].apply(remove_)
df_noticias['revisor'] = df_noticias['revisor'].apply(remove_)

# Persistir os dados limpos

In [18]:
df_noticias.to_json('./noticias.jsonl', orient='records')

# Quantidade de noticias por site

Mesmo sem ter extraído todas as notícias, já é possível perceber que o TecMundo possuí mais artigos do que o OlharDigital

In [10]:
df_noticias.groupby('spider')['titulo'].count()

spider
olhardigital    48000
tecmundo        59158
Name: titulo, dtype: int64

In [11]:
df_noticias.shape

(107158, 10)

# Tags utilizadas

Como pode ser observado lá em cima, o campo `tags` possuí uma lista de tags. Por isso aqui nessa etapa será criado um novo DataFrame, onde o `tag` não será uma lista e sim possuirá um unico elemento. Para isso o campo `urls` e outros campos serão repetidos, como pode ser observado a seguir:

In [12]:
urls = []
titulos = []
tags = []
spider = []
autor = []
data_publicacao = []
conteudo_relacionado = []
referencias = []
revisor = [] 
qtd_comentarios = []

for i, tags_ in df_noticias['tags'].items():
    elemento = df_noticias.iloc[i]
    
    if type(tags_) != float:
        for tag in tags_:
            tag = remove_(tag)
            urls.append(elemento.url)
            titulos.append(elemento.titulo)
            spider.append(elemento.spider)
            autor.append(elemento.autor)
            data_publicacao.append(elemento.data_publicacao)
            conteudo_relacionado.append(elemento.conteudo_relacionado)
            referencias.append(elemento.referencias)
            revisor.append(elemento.revisor)
            qtd_comentarios.append(elemento.qtd_comentarios)
            tags.append(tag)

            
df_tags = pd.DataFrame({'url': urls, 'titulo': titulos, 'spider': spider,
                        'tag': tags, 'autor': autor, 'data_publicacao': data_publicacao,
                        'conteudo_relacionado': conteudo_relacionado,
                        'referencias': referencias, 'revisor': revisor,
                        'qtd_comentarios': qtd_comentarios})

In [9]:
df_tags.head()

Unnamed: 0,url,titulo,spider,tag,autor,data_publicacao,conteudo_relacionado,referencias,revisor,qtd_comentarios
0,https://olhardigital.com.br/carros-e-tecnologi...,Revelado conceito do primeiro sedan elétrico q...,olhardigital,sustentabilidade,Renato Mota,2020-02-25T12:30:00,[https://olhardigital.com.br/carros-e-tecnolog...,[https://www.theverge.com/2020/2/25/21151592/p...,Fabiana Rolfini,
1,https://olhardigital.com.br/carros-e-tecnologi...,Revelado conceito do primeiro sedan elétrico q...,olhardigital,carro,Renato Mota,2020-02-25T12:30:00,[https://olhardigital.com.br/carros-e-tecnolog...,[https://www.theverge.com/2020/2/25/21151592/p...,Fabiana Rolfini,
2,https://olhardigital.com.br/carros-e-tecnologi...,Revelado conceito do primeiro sedan elétrico q...,olhardigital,carro elétrico,Renato Mota,2020-02-25T12:30:00,[https://olhardigital.com.br/carros-e-tecnolog...,[https://www.theverge.com/2020/2/25/21151592/p...,Fabiana Rolfini,
3,https://olhardigital.com.br/carros-e-tecnologi...,Revelado conceito do primeiro sedan elétrico q...,olhardigital,volvo,Renato Mota,2020-02-25T12:30:00,[https://olhardigital.com.br/carros-e-tecnolog...,[https://www.theverge.com/2020/2/25/21151592/p...,Fabiana Rolfini,
4,https://olhardigital.com.br/carros-e-tecnologi...,Revelado conceito do primeiro sedan elétrico q...,olhardigital,android automotive,Renato Mota,2020-02-25T12:30:00,[https://olhardigital.com.br/carros-e-tecnolog...,[https://www.theverge.com/2020/2/25/21151592/p...,Fabiana Rolfini,


Apenas notícias com `tags` foram extraídas.

In [17]:
len(df_tags['url'].unique()), df_noticias.size

(59157, 1071580)

## Persistir o DataFrame de tags

In [10]:
df_tags.to_json('./noticias_tags.jsonl', orient='records')

## Principais tags utilizadas

Lembrando que a escolha dos nomes foi realizada pelos editores dos portais de notícias. Não posso afirmar qual o critério que eles utilizam. Além disso, uma notícia pode ter mais de uma tag ou nenhuma.

In [11]:
df_tags['tag'].unique()

array(['sustentabilidade', 'carro', 'carro elétrico', ..., 'LG K7',
       'Motorola DROID Turbo 2', 'Yosemite'], dtype=object)

Como os dados foram duplicados, a quantidade de artigos sofreu uma alteração. Mas essa mudança nos informa que o `OlharDigital` insere em seus artigos mais `tags` do que o `TecMundo`

In [13]:
df_tags.groupby(['spider'])['url'].count().nlargest(20)

spider
olhardigital    352952
tecmundo         52107
Name: url, dtype: int64

In [12]:
df_tags.groupby(['spider', 'tag'])['url'].count().nlargest(20)

spider        tag                    
olhardigital  Software                   7542
              Internet                   6036
              Dispositivos Móveis        5251
              Mercado                    5161
              google                     5003
              Produto                    4652
              apple                      4252
              Empresas e instituições    4196
              Produtos                   4104
              android                    3981
              Segurança                  3966
              Celular                    3929
              smartphones                3702
tecmundo      Empresas e instituições    3614
olhardigital  aplicativos                3363
              Cultura Geek               3345
              facebook                   3324
tecmundo      Entretenimento             3161
olhardigital  Ciência                    2981
              Apple                      2892
Name: url, dtype: int64

### Por portal de noticia

Além disso, o `OlharDigital` fala mais sobre `Software`, `Internet` e `Dispositivos Móveis` do que o `TecMundo`.

In [13]:
df_tags[df_tags['spider'] == 'olhardigital'].groupby('tag')['url'].count().nlargest(10)

tag
Software                   7542
Internet                   6036
Dispositivos Móveis        5251
Mercado                    5161
google                     5003
Produto                    4652
apple                      4252
Empresas e instituições    4196
Produtos                   4104
android                    3981
Name: url, dtype: int64

In [14]:
df_tags[df_tags['spider'] == 'tecmundo'].groupby('tag')['url'].count().nlargest(10)

tag
Empresas e instituições    3614
Entretenimento             3161
Produtos                   2868
Video Game e Jogos         2159
Celular                    1875
Tecnologia                 1844
Internet                   1641
Software                   1553
Ciência                    1067
Sistema operacional        1034
Name: url, dtype: int64

### Por autor

Percebemos que autores são alocados para falar de alguns temas especificos.

In [15]:
df_tags.groupby(['spider', 'autor', 'tag']).count()['url'].nlargest(10)

spider        autor             tag                    
olhardigital  Renato  Santino   google                     1085
              Leonardo Pereira  Empresas e instituições    1075
              Alvaro Scola      dicas&tutoriais            1061
                                dicas                      1053
              Renato  Santino   Software                    897
                                android                     877
                                Empresas e instituições     858
                                Internet                    849
                                microsoft                   819
                                smartphones                 783
Name: url, dtype: int64

Uma observação, na query acima o `Renato Santino` possuí mais publicações do que o restante dos escritores do OlharDigital. Fazendo uma query parecida no DataFrame com todas as notícias, podemos perceber que isso se repete.

In [14]:
df_noticias.groupby(['spider', 'autor'])['titulo'].count().nlargest(10)

spider        autor           
olhardigital  Renato  Santino     6273
              Leonardo Pereira    5414
              Caroline Rocha      4778
tecmundo      Felipe Payão        4262
              Léo Müller          4126
              Douglas Ciriaco     3688
olhardigital  Lucas Carvalho      3241
tecmundo      Claudio Yuge        3180
              Nilton Kleina       3178
olhardigital  Gustavo Sumares     2997
Name: titulo, dtype: int64

# Noticias por data de publicação

Fazer uma comparação ano/mês com a quantidade de publicações 

Se publicou mais no ano de 2016 do que nos outros anos e mais especificamente no mês de Março.

In [18]:
times = pd.DatetimeIndex(df_noticias['data_publicacao'])
noticias_ano = df_noticias.groupby([times.year, times.month])['url'].count()

noticias_ano.nlargest(10)

data_publicacao  data_publicacao
2016             3                  2393
                 2                  2332
                 6                  2138
2019             10                 2108
2016             1                  2106
2019             7                  2100
2020             1                  2029
2017             8                  2012
2019             6                  1987
                 11                 1984
Name: url, dtype: int64

E quem publicou mais nesse período foi o Tecmundo, com 14.497 artigos. 

Em 2019 ambos publicaram tanto quanto o outro, mas não na mesma quantidade que em 2016.

In [19]:
times = pd.DatetimeIndex(df_noticias['data_publicacao'])
noticias_ano = df_noticias.groupby([times.year, 'spider'])['url'].count()

noticias_ano.nlargest(10)

data_publicacao  spider      
2016             tecmundo        14497
2017             tecmundo        12457
2018             tecmundo        11803
2019             tecmundo        11244
                 olhardigital    10327
2016             olhardigital     8554
2017             olhardigital     6336
2015             olhardigital     6298
2018             olhardigital     6089
2013             olhardigital     4280
Name: url, dtype: int64

# Quantidade de noticias por autor

Se for utilizar os dados obtidos, podemos afirmar que os autores do OlharDigital produzem mais do que no TecMundo.

In [25]:
df_noticias.groupby(['spider', 'autor'])['url'].count().nlargest(10)

spider        autor           
olhardigital  Renato  Santino     6273
              Leonardo Pereira    5414
              Caroline Rocha      4778
tecmundo      Felipe Payão        4262
              Léo Müller          4126
              Douglas Ciriaco     3688
olhardigital  Lucas Carvalho      3241
tecmundo      Claudio Yuge        3180
              Nilton Kleina       3178
olhardigital  Gustavo Sumares     2997
Name: url, dtype: int64

## Informações sobre os revisores

Apenas o OlharDigital fornece informações sobre os revisores, mas nem todos os artigos do OlharDigital possuem revisores.

In [33]:
len(df_noticias[df_noticias['revisor'].isna()])

85063

Outra informação que podemos retirar é que autores também trabalham como revisores e vice-versa

In [26]:
df_noticias.groupby(['spider', 'revisor'])['url'].count().nlargest(20)

spider        revisor           
olhardigital  Marcelo Gripa         5739
              Leonardo Pereira      3450
              Renato  Santino       1669
              Rui Maciel            1595
              Cesar Schaeffer       1502
              Daniel Junqueira      1379
              Matheus Luque         1139
              Liliane Nakagawa       933
              Roseli Andrion         594
              Lucas Carvalho         539
              Rafael Rigues          538
              Gustavo Sumares        535
              Maria Lutfi            516
              Camila Rinaldi         441
              Caroline Rocha         425
              Wharrysson Lacerda     277
              Rodrigo Loureiro       165
              Stephanie Kohn         139
              Fabiana Rolfini        103
              Elson de Souza         100
Name: url, dtype: int64

Podemos perceber também que revisores trabalham com varios autores, assim como alguns autores. 

In [24]:
df_noticias.groupby(['spider', 'autor', 'revisor'])['url'].count().nlargest(20)

spider        autor               revisor         
olhardigital  Caroline Rocha      Marcelo Gripa       957
                                  Leonardo Pereira    695
              Renato  Santino     Marcelo Gripa       666
              Gustavo Sumares     Marcelo Gripa       599
                                  Leonardo Pereira    553
              Renato  Santino     Leonardo Pereira    523
              Juliana  AmÃ©rico   Leonardo Pereira    498
              Jeferson Goncalves  Marcelo Gripa       427
              Kaluan Bernardo     Marcelo Gripa       407
              Juliana  AmÃ©rico   Marcelo Gripa       396
              Leonardo Pereira    Marcelo Gripa       361
              Jeferson Goncalves  Gustavo Sumares     335
              Luiz Nogueira       Matheus Luque       294
              Lucas Carvalho      Leonardo Pereira    291
                                  Marcelo Gripa       287
              Jeferson Goncalves  Caroline Rocha      276
              Thiago 