## Importações

In [1]:
import pandas as pd

## Criando os dataframes

In [2]:
df_verdadeiras = pd.read_csv('./datasets/verdadeiras.csv')
df_falsas = pd.read_csv('./datasets/falsas.csv')

In [3]:
df_verdadeiras.head()

Unnamed: 0,Titulo,Categoria,Resumo,Status
0,"Max Born, o físico quântico que alertou o mund...",ciencia,"Avô de Olivia Newton-John e amigo de Einstein,...",Verdadeira
1,“A contenção do idoso é uma manifestação de et...,ciencia,O enfermeiro Rômulo Delvalle faz parte do Mini...,Verdadeira
2,Hubble flagra 'nuvens celestiais' e estrela ve...,ciencia,Nova imagem e dados científicos do telescópio ...,Verdadeira
3,"O que é a arquitetura passiva, com casas onde ...",ciencia,O conceito surgiu com a crise do petróleo dos ...,Verdadeira
4,Como escovar os dentes direito? O que diz a ci...,ciencia,Escovar os dentes de maneira eficaz reduz as c...,Verdadeira


In [4]:
df_falsas.head()

Unnamed: 0,Titulo,Categoria,Resumo,Data,Status
0,\nFenômeno Aphelion chega amanhã e vai trazer ...,ciencia,"Terra vai ficar mais longe do Sol amanhã, por ...",25/04/2022,Falsa
1,\nAsteroide 2009 JF1 vai destruir a Terra em m...,ciencia,Asteroide de 130 metros e com força de 250 mil...,13/01/2022,Falsa
2,"\nAranha se esconde na praia, parece obra de a...",ciencia,"Aranha de espécie mortal, que parece uma obra ...",09/11/2021,Falsa
3,\nHá um Vulcão em Ribeirão Preto (São Paulo) p...,ciencia,Fumaça tóxica que está saindo do solo em Ribei...,05/11/2021,Falsa
4,\nPerigeu da Lua gigante entre o Canadá e Rúss...,ciencia,Vídeo mostra o fenômeno da Lua chamado Perigeu...,27/08/2021,Falsa


### Deletando coluna para os dataframes ficarem iguais

Devido a um erro de timeout, o algoritmo de scraping das notícias verdadeiras acabou não pegando as datas.
Por isso, será excluído do dataset de falsas

In [5]:
del df_falsas['Data']
df_falsas.head()

Unnamed: 0,Titulo,Categoria,Resumo,Status
0,\nFenômeno Aphelion chega amanhã e vai trazer ...,ciencia,"Terra vai ficar mais longe do Sol amanhã, por ...",Falsa
1,\nAsteroide 2009 JF1 vai destruir a Terra em m...,ciencia,Asteroide de 130 metros e com força de 250 mil...,Falsa
2,"\nAranha se esconde na praia, parece obra de a...",ciencia,"Aranha de espécie mortal, que parece uma obra ...",Falsa
3,\nHá um Vulcão em Ribeirão Preto (São Paulo) p...,ciencia,Fumaça tóxica que está saindo do solo em Ribei...,Falsa
4,\nPerigeu da Lua gigante entre o Canadá e Rúss...,ciencia,Vídeo mostra o fenômeno da Lua chamado Perigeu...,Falsa


## Concatenando os datasets

In [6]:
df = df_verdadeiras.append(df_falsas)

In [7]:
df.head()

Unnamed: 0,Titulo,Categoria,Resumo,Status
0,"Max Born, o físico quântico que alertou o mund...",ciencia,"Avô de Olivia Newton-John e amigo de Einstein,...",Verdadeira
1,“A contenção do idoso é uma manifestação de et...,ciencia,O enfermeiro Rômulo Delvalle faz parte do Mini...,Verdadeira
2,Hubble flagra 'nuvens celestiais' e estrela ve...,ciencia,Nova imagem e dados científicos do telescópio ...,Verdadeira
3,"O que é a arquitetura passiva, com casas onde ...",ciencia,O conceito surgiu com a crise do petróleo dos ...,Verdadeira
4,Como escovar os dentes direito? O que diz a ci...,ciencia,Escovar os dentes de maneira eficaz reduz as c...,Verdadeira


In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 8659 entries, 0 to 3728
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   Titulo     8659 non-null   object
 1   Categoria  8659 non-null   object
 2   Resumo     8659 non-null   object
 3   Status     8659 non-null   object
dtypes: object(4)
memory usage: 338.2+ KB


In [9]:
df.describe()

Unnamed: 0,Titulo,Categoria,Resumo,Status
count,8659,8659,8659,8659
unique,8214,5,8018,2
top,China lança missão para concluir montagem de e...,politica,Erro,Verdadeira
freq,3,1990,170,4930


### Removendo linhas sem resumo

Como o HTML das páginas aprensetava muitas diferenças no campo resumo, ficou inviável tratar todas as possibilidades.
Sendo assim, optou-se por incluir as linhas com mensagem de erro. Como é um quantidade pequena e o resumo é primordial
para a nossa análise, essas linhas com erro serão excluídas.

In [10]:
erros_resumo = df.loc[df['Resumo'] == 'Erro']

In [11]:
erros_resumo

Unnamed: 0,Titulo,Categoria,Resumo,Status
74,Viagem à Lua: minuto a minuto,ciencia,Erro,Verdadeira
85,Entenda por que mosquitos picam mais algumas p...,ciencia,Erro,Verdadeira
91,James Webb: o que revelam as fotos do supertel...,ciencia,Erro,Verdadeira
135,Sua cor preferida é o azul? A ciência pode exp...,ciencia,Erro,Verdadeira
142,"Kemune: a cidade de 3,4 mil anos que reaparece...",ciencia,Erro,Verdadeira
...,...,...,...,...
4244,Você sabe a maneira correta para higienizar se...,tecnologia,Erro,Verdadeira
4324,Veja como proteger acesso a apps de bancos,tecnologia,Erro,Verdadeira
4358,Veja dicas para não cair em golpes ao reservar...,tecnologia,Erro,Verdadeira
4413,O que pode mudar no Twitter com a compra por E...,tecnologia,Erro,Verdadeira


In [12]:
erros_resumo.count()

Titulo       170
Categoria    170
Resumo       170
Status       170
dtype: int64

In [13]:
df = df[df.Resumo != 'Erro']

In [14]:
df.loc[df['Resumo'] == 'Erro'].count()

Titulo       0
Categoria    0
Resumo       0
Status       0
dtype: int64

### Verificando valores nulos

In [15]:
df.isnull().sum()

Titulo       0
Categoria    0
Resumo       0
Status       0
dtype: int64

### Normalizando os dados da coluna "status"

In [16]:
df['Status'].unique()

array(['Verdadeira', 'Falsa'], dtype=object)

In [17]:
df.replace({'Verdadeira': '1'}, inplace=True)

In [18]:
df.replace({'Falsa': '0'}, inplace=True)

In [19]:
df['Status'].unique()

array(['1', '0'], dtype=object)

In [20]:
type(df)

pandas.core.frame.DataFrame

### Removendo palavras indicativas do status

Apesar do tratamento dado a essas palavras no algoritmo de scraping, alguns registros permanecem com elas, provavelmente devido a diferenças no HTML de algumas páginas.

In [21]:
boatos = df[df['Resumo'].str.contains(r'boato(?!$)')]

In [22]:
boatos.head(27)

Unnamed: 0,Titulo,Categoria,Resumo,Status
166,Ratanabá: arqueólogo explica por que lenda de ...,ciencia,"Nos últimos dias, suposta revelação de civiliz...",1
1060,Documentos sobre armas nucleares estariam entr...,mundo,Washington Post diz que conversou com pessoas ...,1
1738,Putin: não há evidências de que presidente rus...,mundo,"William Burns, diretor da agência, disse que n...",1
111,\n7 s sobre fim do mundo que viralizaram recen...,ciencia,Como se pode perceber o mundo não acabou de no...,0
742,\n7 s (e uma verdade) sobre a Alemanha que já ...,mundo,Confira sete boatos (e uma dura verdade) sobre...,0
783,\nTAP Portugal está dando bilhetes aéreos grát...,mundo,TAP Portugal está oferecendo gratuitamente 2 b...,0
823,\nPresidente da Croácia de biquíni na praia,mundo,"Imagem mostra presidente da Croácia, Kolinda G...",0
1440,\n41 fake news desmentidas e um balanço da des...,politica,O Boatos.org encerra a cobertura das eleições ...,0
1769,\n21 fake news que circularam na web após Lula...,politica,Decisão do STF sobre prisão em segunda instânc...,0
2589,\n[Erramos] Caso da cerveja em BH,saude,"Atualização em 11/01/2020: Com a confirmação, ...",0


In [23]:
boatos.count()

Titulo       27
Categoria    27
Resumo       27
Status       27
dtype: int64

In [24]:
df[df['Resumo'].str.contains(r'hoax(?!$)')].count()

Titulo       0
Categoria    0
Resumo       0
Status       0
dtype: int64

In [25]:
fake = df[df['Resumo'].str.contains(r'fake(?!$)')]

In [26]:
fake.count()

Titulo       32
Categoria    32
Resumo       32
Status       32
dtype: int64

In [27]:
fake.head(32)

Unnamed: 0,Titulo,Categoria,Resumo,Status
750,"Ela ignorou o médico, mentiu para a família e ...",ciencia,"Adriana Avancini conta que a mãe, Maria das Gr...",1
752,Ele ignora pedido do filho para usar máscara e...,ciencia,Série do g1 mostra vítimas das fake news disse...,1
755,Vítimas do negacionismo: as mortes causadas pe...,ciencia,Série do g1 mostra vítimas das fake news disse...,1
782,Ele deixou de ir ao hospital por acreditar em ...,ciencia,"Luíz Carlos Guglieri, de 76 anos, fazia uso de...",1
911,Conselho Nacional de Saúde recomenda que minis...,ciencia,Marcelo Queiroga restringiu a aplicação de dos...,1
916,Drauzio Varella diz que decisão de Queiroga so...,ciencia,"Nesta quinta-feira, ministro restringiu vacina...",1
2015,Ministério da Defesa pede ao TSE que inclua ma...,politica,Código-fonte está disponível desde outubro de ...,1
2027,Exército diz que não indicará novo membro para...,politica,"Na segunda, TSE descredenciou militar que publ...",1
2279,PP de Ciro Nogueira entra na Justiça no Piauí ...,politica,Diretório do partido no Piauí apontou fake new...,1
2526,Moraes manda tirar do ar postagens de bolsonar...,politica,Ministro atendeu a pedido do PT; decisão vale ...,1


In [28]:
df.count()

Titulo       8489
Categoria    8489
Resumo       8489
Status       8489
dtype: int64

Como a maioria das notícias com "fake" são verdadeiras, resolvi mantê-las por enquanto

In [29]:
df = df[df["Resumo"].str.contains("boato")==False]

In [30]:
df.count()

Titulo       8462
Categoria    8462
Resumo       8462
Status       8462
dtype: int64

### Convertendo valores

Como o csv foi salvo com todos os valores object, converteremos para os tipos mais apropriados

In [31]:
df.dtypes

Titulo       object
Categoria    object
Resumo       object
Status       object
dtype: object

In [32]:
df = df.astype({'Titulo':'str','Categoria':'str', 'Resumo': 'str', 'Status': 'int'})

In [33]:
df.dtypes

Titulo       object
Categoria    object
Resumo       object
Status        int32
dtype: object

In [34]:
print (type(df['Titulo'].iat[0]))

<class 'str'>


## Balanceado a classe de status

In [35]:
df['Status'].unique()

array([1, 0])

In [43]:
v = df[df['Status'] == 1].count()
f = df[df['Status'] == 0].count()
diff = v - f
diff

Titulo       1052
Categoria    1052
Resumo       1052
Status       1052
dtype: int64

In [37]:
v

Titulo       4757
Categoria    4757
Resumo       4757
Status       4757
dtype: int64

In [38]:
f

Titulo       3705
Categoria    3705
Resumo       3705
Status       3705
dtype: int64

A princípio serão deletadas as últimas linhas

In [39]:
df.count()

Titulo       8462
Categoria    8462
Resumo       8462
Status       8462
dtype: int64

In [51]:
df2 = df[~df['Status'] == 1].tail(diff).all() #ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all()
df2

ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().

In [41]:
df.count()

Titulo       8462
Categoria    8462
Resumo       8462
Status       8462
dtype: int64

## Salvando o dataset

In [42]:
df.to_csv('./datasets/merged.csv', index = False, encoding='utf-8') # False: not include index
print(df)

                                                 Titulo   Categoria  \
0     Max Born, o físico quântico que alertou o mund...     ciencia   
1     “A contenção do idoso é uma manifestação de et...     ciencia   
2     Hubble flagra 'nuvens celestiais' e estrela ve...     ciencia   
3     O que é a arquitetura passiva, com casas onde ...     ciencia   
4     Como escovar os dentes direito? O que diz a ci...     ciencia   
...                                                 ...         ...   
3723  \nCNN alerta para vírus na atualização do Wind...  tecnologia   
3724  \nFalso concurso cultural promete Audi A3 e es...  tecnologia   
3725  \nAviso falso de privacidade no Facebook fala ...  tecnologia   
3726  \nEvolução de  dá 12 horas para chegada do Fac...  tecnologia   
3727  \nBoato no Facebook fala de Domingo Fantástico...  tecnologia   

                                                 Resumo  Status  
0     Avô de Olivia Newton-John e amigo de Einstein,...       1  
1     O enferme