## Importações

In [1]:
import pandas as pd

## Criando os dataframes

In [2]:
df_verdadeiras = pd.read_csv('verdadeiras.csv')
df_falsas = pd.read_csv('falsas.csv')

In [3]:
df_verdadeiras.head()

Unnamed: 0,Titulo,Categoria,Resumo,Status
0,"Max Born, o físico quântico que alertou o mund...",ciencia,"Avô de Olivia Newton-John e amigo de Einstein,...",Verdadeira
1,“A contenção do idoso é uma manifestação de et...,ciencia,O enfermeiro Rômulo Delvalle faz parte do Mini...,Verdadeira
2,Hubble flagra 'nuvens celestiais' e estrela ve...,ciencia,Nova imagem e dados científicos do telescópio ...,Verdadeira
3,"O que é a arquitetura passiva, com casas onde ...",ciencia,O conceito surgiu com a crise do petróleo dos ...,Verdadeira
4,Como escovar os dentes direito? O que diz a ci...,ciencia,Escovar os dentes de maneira eficaz reduz as c...,Verdadeira


In [4]:
df_falsas.head()

Unnamed: 0,Titulo,Categoria,Resumo,Data,Status
0,\nFenômeno Aphelion chega amanhã e vai trazer ...,ciencia,"Terra vai ficar mais longe do Sol amanhã, por ...",25/04/2022,Falsa
1,\nAsteroide 2009 JF1 vai destruir a Terra em m...,ciencia,Asteroide de 130 metros e com força de 250 mil...,13/01/2022,Falsa
2,"\nAranha se esconde na praia, parece obra de a...",ciencia,"Aranha de espécie mortal, que parece uma obra ...",09/11/2021,Falsa
3,\nHá um Vulcão em Ribeirão Preto (São Paulo) p...,ciencia,Fumaça tóxica que está saindo do solo em Ribei...,05/11/2021,Falsa
4,\nPerigeu da Lua gigante entre o Canadá e Rúss...,ciencia,Vídeo mostra o fenômeno da Lua chamado Perigeu...,27/08/2021,Falsa


### Deletando coluna para os dataframes ficarem iguais

Devido a um erro de timeout, o algoritmo de scraping das notícias verdadeiras acabou não pegando as datas.
Por isso, será excluído do dataset de falsas

In [5]:
del df_falsas['Data']
df_falsas.head()

Unnamed: 0,Titulo,Categoria,Resumo,Status
0,\nFenômeno Aphelion chega amanhã e vai trazer ...,ciencia,"Terra vai ficar mais longe do Sol amanhã, por ...",Falsa
1,\nAsteroide 2009 JF1 vai destruir a Terra em m...,ciencia,Asteroide de 130 metros e com força de 250 mil...,Falsa
2,"\nAranha se esconde na praia, parece obra de a...",ciencia,"Aranha de espécie mortal, que parece uma obra ...",Falsa
3,\nHá um Vulcão em Ribeirão Preto (São Paulo) p...,ciencia,Fumaça tóxica que está saindo do solo em Ribei...,Falsa
4,\nPerigeu da Lua gigante entre o Canadá e Rúss...,ciencia,Vídeo mostra o fenômeno da Lua chamado Perigeu...,Falsa


## Concatenando os datasets

In [6]:
df = df_verdadeiras.append(df_falsas)

In [7]:
df.head()

Unnamed: 0,Titulo,Categoria,Resumo,Status
0,"Max Born, o físico quântico que alertou o mund...",ciencia,"Avô de Olivia Newton-John e amigo de Einstein,...",Verdadeira
1,“A contenção do idoso é uma manifestação de et...,ciencia,O enfermeiro Rômulo Delvalle faz parte do Mini...,Verdadeira
2,Hubble flagra 'nuvens celestiais' e estrela ve...,ciencia,Nova imagem e dados científicos do telescópio ...,Verdadeira
3,"O que é a arquitetura passiva, com casas onde ...",ciencia,O conceito surgiu com a crise do petróleo dos ...,Verdadeira
4,Como escovar os dentes direito? O que diz a ci...,ciencia,Escovar os dentes de maneira eficaz reduz as c...,Verdadeira


In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 8659 entries, 0 to 3728
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   Titulo     8659 non-null   object
 1   Categoria  8659 non-null   object
 2   Resumo     8659 non-null   object
 3   Status     8659 non-null   object
dtypes: object(4)
memory usage: 338.2+ KB


In [9]:
df.describe()

Unnamed: 0,Titulo,Categoria,Resumo,Status
count,8659,8659,8659,8659
unique,8214,5,8018,2
top,China lança missão para concluir montagem de e...,politica,Erro,Verdadeira
freq,3,1990,170,4930


### Removendo linhas sem resumo

Como o HTML das páginas aprensetava muitas diferenças no campo resumo, ficou inviável tratar todas as possibilidades.
Sendo assim, optou-se por incluir as linhas com mensagem de erro. Como é um quantidade pequena e o resumo é primordial
para a nossa análise, essas linhas com erro serão excluídas.

In [10]:
erros_resumo = df.loc[df['Resumo'] == 'Erro']

In [11]:
erros_resumo

Unnamed: 0,Titulo,Categoria,Resumo,Status
74,Viagem à Lua: minuto a minuto,ciencia,Erro,Verdadeira
85,Entenda por que mosquitos picam mais algumas p...,ciencia,Erro,Verdadeira
91,James Webb: o que revelam as fotos do supertel...,ciencia,Erro,Verdadeira
135,Sua cor preferida é o azul? A ciência pode exp...,ciencia,Erro,Verdadeira
142,"Kemune: a cidade de 3,4 mil anos que reaparece...",ciencia,Erro,Verdadeira
...,...,...,...,...
4244,Você sabe a maneira correta para higienizar se...,tecnologia,Erro,Verdadeira
4324,Veja como proteger acesso a apps de bancos,tecnologia,Erro,Verdadeira
4358,Veja dicas para não cair em golpes ao reservar...,tecnologia,Erro,Verdadeira
4413,O que pode mudar no Twitter com a compra por E...,tecnologia,Erro,Verdadeira


In [12]:
erros_resumo.count()

Titulo       170
Categoria    170
Resumo       170
Status       170
dtype: int64

In [13]:
df = df[df.Resumo != 'Erro']

In [14]:
df.loc[df['Resumo'] == 'Erro'].count()

Titulo       0
Categoria    0
Resumo       0
Status       0
dtype: int64

### Verificando valores nulos

In [15]:
df.isnull().sum()

Titulo       0
Categoria    0
Resumo       0
Status       0
dtype: int64

### Normalizando os dados da coluna "status"

In [16]:
df['Status'].unique()

array(['Verdadeira', 'Falsa'], dtype=object)

In [17]:
df.replace({'Verdadeira': '1'}, inplace=True)

In [18]:
df.replace({'Falsa': '0'}, inplace=True)

In [19]:
df['Status'].unique()

array(['1', '0'], dtype=object)

In [20]:
type(df)

pandas.core.frame.DataFrame

### Convertendo valores

Como o csv foi salvo com todos os valores object, converteremos para os tipos mais apropriados

In [21]:
df.dtypes

Titulo       object
Categoria    object
Resumo       object
Status       object
dtype: object

In [24]:
df = df.astype({'Titulo':'str','Categoria':'str', 'Resumo': 'str', 'Status': 'bool'})

In [25]:
df.dtypes

Titulo       object
Categoria    object
Resumo       object
Status         bool
dtype: object

In [26]:
print (type(df['Titulo'].iat[0]))

<class 'str'>


In [None]:
df.to_csv('./datasedataset.csv', index = False, encoding='utf-8') # False: not include index
print(df)