## Importações

In [1]:
import pandas as pd

## Criando os dataframes

In [2]:
df_verdadeiras = pd.read_csv('./datasets/origem/verdadeiras.csv', index_col=0)
df_falsas = pd.read_csv('./datasets/origem/falsas.csv', index_col=0)

In [3]:
df_verdadeiras.head()

Unnamed: 0_level_0,Categoria,Resumo,Status
Titulo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
"Max Born, o físico quântico que alertou o mundo sobre 'a causa de todos os males'",ciencia,"Avô de Olivia Newton-John e amigo de Einstein,...",Verdadeira
"“A contenção do idoso é uma manifestação de etarismo”, diz especialista",ciencia,O enfermeiro Rômulo Delvalle faz parte do Mini...,Verdadeira
Hubble flagra 'nuvens celestiais' e estrela vermelha supergigante se recuperando de explosão,ciencia,Nova imagem e dados científicos do telescópio ...,Verdadeira
"O que é a arquitetura passiva, com casas onde não se passa calor nem frio e que quase não consomem energia",ciencia,O conceito surgiu com a crise do petróleo dos ...,Verdadeira
Como escovar os dentes direito? O que diz a ciência,ciencia,Escovar os dentes de maneira eficaz reduz as c...,Verdadeira


In [4]:
df_falsas.head()

Unnamed: 0_level_0,Categoria,Resumo,Data,Status
Titulo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
\nFenômeno Aphelion chega amanhã e vai trazer nova onda de frio,ciencia,"Terra vai ficar mais longe do Sol amanhã, por ...",25/04/2022,Falsa
\nAsteroide 2009 JF1 vai destruir a Terra em maio de 2022,ciencia,Asteroide de 130 metros e com força de 250 mil...,13/01/2022,Falsa
"\nAranha se esconde na praia, parece obra de arte e tem veneno mortal",ciencia,"Aranha de espécie mortal, que parece uma obra ...",09/11/2021,Falsa
\nHá um Vulcão em Ribeirão Preto (São Paulo) prestes a entrar em erupção,ciencia,Fumaça tóxica que está saindo do solo em Ribei...,05/11/2021,Falsa
\nPerigeu da Lua gigante entre o Canadá e Rússia é mostrado em vídeo,ciencia,Vídeo mostra o fenômeno da Lua chamado Perigeu...,27/08/2021,Falsa


### Deletando coluna para os dataframes ficarem iguais

Devido a um erro de timeout, o algoritmo de scraping das notícias verdadeiras acabou não pegando as datas.
Por isso, será excluído do dataset de falsas

In [5]:
#del df_falsas['Data']
#df_falsas.head()

## Concatenando os datasets

In [6]:
#df = df_verdadeiras.append(df_falsas)

In [7]:
#df.head()

In [8]:
#df.info()

In [9]:
#df.describe()

### Removendo linhas sem resumo

Como o HTML das páginas aprensetava muitas diferenças no campo resumo, ficou inviável tratar todas as possibilidades.
Sendo assim, optou-se por incluir as linhas com mensagem de erro. Como é um quantidade pequena e o resumo é primordial
para a nossa análise, essas linhas com erro serão excluídas.

In [10]:
df_verdadeiras.loc[df_verdadeiras['Resumo'] == 'Erro'].count()

Categoria    170
Resumo       170
Status       170
dtype: int64

In [11]:
df_falsas.loc[df_falsas['Resumo'] == 'Erro'].count()

Categoria    0
Resumo       0
Data         0
Status       0
dtype: int64

In [12]:
df_verdadeiras_erros_resumo = df_verdadeiras.loc[df_verdadeiras['Resumo'] == 'Erro']

In [13]:
df_verdadeiras_erros_resumo.head(3)

Unnamed: 0_level_0,Categoria,Resumo,Status
Titulo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Viagem à Lua: minuto a minuto,ciencia,Erro,Verdadeira
Entenda por que mosquitos picam mais algumas pessoas que outras,ciencia,Erro,Verdadeira
James Webb: o que revelam as fotos do supertelescópio?,ciencia,Erro,Verdadeira


In [14]:
df_verdadeiras = df_verdadeiras[df_verdadeiras['Resumo'] != 'Erro']

In [15]:
df_verdadeiras.loc[df_verdadeiras['Resumo'] == 'Erro'].count()

Categoria    0
Resumo       0
Status       0
dtype: int64

### Verificando valores nulos

In [16]:
df_verdadeiras.isnull().sum()

Categoria    0
Resumo       0
Status       0
dtype: int64

In [17]:
df_falsas.isnull().sum()

Categoria    0
Resumo       0
Data         0
Status       0
dtype: int64

### Normalizando os dados da coluna "status"

In [18]:
df_verdadeiras['Status'].unique()

array(['Verdadeira'], dtype=object)

In [19]:
df_verdadeiras.replace({'Verdadeira': '0'}, inplace=True)

In [20]:
df_falsas.replace({'Falsa': '1'}, inplace=True)

In [21]:
df_verdadeiras['Status'].unique()

array(['0'], dtype=object)

In [22]:
df_falsas['Status'].unique()

array(['1'], dtype=object)

### Removendo palavras indicativas do status

Apesar do tratamento dado a essas palavras no algoritmo de scraping, alguns registros permanecem com elas, provavelmente devido a diferenças no HTML de algumas páginas. Isso acontece majoritariamente no dataset de notícias falsas.

In [23]:
df_falsas.count()

Categoria    3729
Resumo       3729
Data         3729
Status       3729
dtype: int64

In [24]:
df_falsas = df_falsas[~df_falsas['Resumo'].str.contains('fake|hoax|boato', case=False, regex=True)]

df_falsas.count()

Categoria    3672
Resumo       3672
Data         3672
Status       3672
dtype: int64

### Convertendo valores

Como o csv foi salvo com todos os valores object, converteremos para os tipos mais apropriados.

In [25]:
df_verdadeiras.dtypes

Categoria    object
Resumo       object
Status       object
dtype: object

In [26]:
df_falsas.dtypes

Categoria    object
Resumo       object
Data         object
Status       object
dtype: object

In [27]:
df_verdadeiras.convert_dtypes().dtypes  
df_falsas.convert_dtypes().dtypes          

Categoria    string
Resumo       string
Data         string
Status       string
dtype: object

In [28]:
df_verdadeiras.dtypes

Categoria    object
Resumo       object
Status       object
dtype: object

In [29]:
df_falsas.head()

Unnamed: 0_level_0,Categoria,Resumo,Data,Status
Titulo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
\nFenômeno Aphelion chega amanhã e vai trazer nova onda de frio,ciencia,"Terra vai ficar mais longe do Sol amanhã, por ...",25/04/2022,1
\nAsteroide 2009 JF1 vai destruir a Terra em maio de 2022,ciencia,Asteroide de 130 metros e com força de 250 mil...,13/01/2022,1
"\nAranha se esconde na praia, parece obra de arte e tem veneno mortal",ciencia,"Aranha de espécie mortal, que parece uma obra ...",09/11/2021,1
\nHá um Vulcão em Ribeirão Preto (São Paulo) prestes a entrar em erupção,ciencia,Fumaça tóxica que está saindo do solo em Ribei...,05/11/2021,1
\nPerigeu da Lua gigante entre o Canadá e Rússia é mostrado em vídeo,ciencia,Vídeo mostra o fenômeno da Lua chamado Perigeu...,27/08/2021,1


In [30]:
df_verdadeiras.head()

Unnamed: 0_level_0,Categoria,Resumo,Status
Titulo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
"Max Born, o físico quântico que alertou o mundo sobre 'a causa de todos os males'",ciencia,"Avô de Olivia Newton-John e amigo de Einstein,...",0
"“A contenção do idoso é uma manifestação de etarismo”, diz especialista",ciencia,O enfermeiro Rômulo Delvalle faz parte do Mini...,0
Hubble flagra 'nuvens celestiais' e estrela vermelha supergigante se recuperando de explosão,ciencia,Nova imagem e dados científicos do telescópio ...,0
"O que é a arquitetura passiva, com casas onde não se passa calor nem frio e que quase não consomem energia",ciencia,O conceito surgiu com a crise do petróleo dos ...,0
Como escovar os dentes direito? O que diz a ciência,ciencia,Escovar os dentes de maneira eficaz reduz as c...,0


## Balanceado a classe de status

In [31]:
df_verdadeiras.count() - df_falsas.count()

Categoria    1088.0
Data            NaN
Resumo       1088.0
Status       1088.0
dtype: float64

A princípio serão deletadas as últimas linhas

In [32]:
# df["Keep"] = df.groupby("Status")["Status"].transform(
#     lambda x: [True] * (len(x) - diff) + [False] * diff if x.name == 1 else True
# )
# df = df.loc[df["Keep"]]

In [33]:
df_falsas.head()

Unnamed: 0_level_0,Categoria,Resumo,Data,Status
Titulo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
\nFenômeno Aphelion chega amanhã e vai trazer nova onda de frio,ciencia,"Terra vai ficar mais longe do Sol amanhã, por ...",25/04/2022,1
\nAsteroide 2009 JF1 vai destruir a Terra em maio de 2022,ciencia,Asteroide de 130 metros e com força de 250 mil...,13/01/2022,1
"\nAranha se esconde na praia, parece obra de arte e tem veneno mortal",ciencia,"Aranha de espécie mortal, que parece uma obra ...",09/11/2021,1
\nHá um Vulcão em Ribeirão Preto (São Paulo) prestes a entrar em erupção,ciencia,Fumaça tóxica que está saindo do solo em Ribei...,05/11/2021,1
\nPerigeu da Lua gigante entre o Canadá e Rússia é mostrado em vídeo,ciencia,Vídeo mostra o fenômeno da Lua chamado Perigeu...,27/08/2021,1


## Salvando o dataset

In [34]:
#df.to_csv('./datasets/merged.csv', index = False, encoding='utf-8') # False: not include index
#print(df)

In [35]:
df_verdadeiras.to_csv('./datasets/verdadeiras.csv', encoding='utf-8') # False: not include index
df_falsas.to_csv('./datasets/falsas.csv',encoding='utf-8') # False: not include index