# Join Folha Datasets

In [1]:
import pandas as pd

In [2]:
folha_2015_2017 = pd.read_csv('../data/folha_2015_2017.zip')
folha_2017_2023 = pd.read_csv('../data/folha_2017_2023.csv.zip')

In [3]:
# to datetime
folha_2015_2017['date'] = pd.to_datetime(folha_2015_2017['date'], errors = 'coerce')
folha_2017_2023['date'] = pd.to_datetime(folha_2017_2023['date'], errors = 'coerce')

In [4]:
# check shapes
print(f"folha_2015_2017 shape: {folha_2015_2017.shape}")
print(f"folha_2017_2023 shape: {folha_2017_2023.shape}")

folha_2015_2017 shape: (167053, 6)
folha_2017_2023 shape: (365674, 7)


In [5]:
# check min max dates
print(f"folha_2015_2017 min date: {folha_2015_2017['date'].min()}")
print(f"folha_2015_2017 max date: {folha_2015_2017['date'].max()}")

print(f"folha_2017_2023 min date: {folha_2017_2023['date'].min()}")
print(f"folha_2017_2023 max date: {folha_2017_2023['date'].max()}")

folha_2015_2017 min date: 2015-01-01 00:00:00
folha_2015_2017 max date: 2017-10-01 00:00:00
folha_2017_2023 min date: 2017-10-02 00:01:00
folha_2017_2023 max date: 2023-05-28 19:45:00


In [6]:
# check columns
print(f"folha_2015_2017 columns: {folha_2015_2017.columns}")
print(f"folha_2017_2023 columns: {folha_2017_2023.columns}")

folha_2015_2017 columns: Index(['title', 'text', 'date', 'category', 'subcategory', 'link'], dtype='object')
folha_2017_2023 columns: Index(['category', 'date', 'link', 'page', 'subcategory', 'text', 'title'], dtype='object')


In [7]:
# select columns to export
columns = ['title', 'text', 'date', 'category', 'subcategory', 'link']

In [8]:
# concat dataframes
folha_concat = pd.concat([folha_2015_2017[columns], folha_2017_2023[columns]], axis = 0)
folha_concat.shape

(532727, 6)

In [9]:
folha_concat.head()

Unnamed: 0,title,text,date,category,subcategory,link
0,"Lula diz que está 'lascado', mas que ainda tem...",Com a possibilidade de uma condenação impedir ...,2017-09-10,poder,,http://www1.folha.uol.com.br/poder/2017/10/192...
1,"'Decidi ser escrava das mulheres que sofrem', ...","Para Oumou Sangaré, cantora e ativista malines...",2017-09-10,ilustrada,,http://www1.folha.uol.com.br/ilustrada/2017/10...
2,Três reportagens da Folha ganham Prêmio Petrob...,Três reportagens da Folha foram vencedoras do ...,2017-09-10,poder,,http://www1.folha.uol.com.br/poder/2017/10/192...
3,Filme 'Star Wars: Os Últimos Jedi' ganha trail...,A Disney divulgou na noite desta segunda-feira...,2017-09-10,ilustrada,,http://www1.folha.uol.com.br/ilustrada/2017/10...
4,CBSS inicia acordos com fintechs e quer 30% do...,"O CBSS, banco da holding Elopar dos sócios Bra...",2017-09-10,mercado,,http://www1.folha.uol.com.br/mercado/2017/10/1...


In [10]:
# export compressed file
filename = 'folha_2015_2023'
compression_options = dict(method='zip', archive_name=f'{filename}.csv')
folha_concat.to_csv(f'../data/{filename}.zip', compression=compression_options, index = False)