# Cleaning Folha Dataset

In [49]:
import pandas as pd
import numpy as np
import html
import re
from datasets import Dataset, DatasetDict, load_dataset

pd.set_option('display.max_rows', 120)

## 1. Load Dataset and Overview

In [50]:
dataset_filepath = "../data/folha_2013_2023_raw.zip"
folha = pd.read_csv(dataset_filepath)
folha.head()

Unnamed: 0,title,text,date,category,subcategory,link
0,Feira de produtos e cultura ligada à maconha a...,Estandes produtores e importadores de óleos de...,2023-09-18 10:08:00,cotidiano,,https://www1.folha.uol.com.br/cotidiano/2023/0...
1,Após Luva de Pedreiro indicar que pagaria pens...,"Na tarde de domingo (17), Luva de Pedreiro abr...",2023-09-18 08:40:00,celebridades,,https://f5.folha.uol.com.br/celebridades/2023/...
2,Sabesp quer automatizar saneamento em todo o e...,A Sabesp está prestes a concluir um projeto-pi...,2023-09-18 10:00:00,mercado,,https://www1.folha.uol.com.br/mercado/2023/09/...
3,Sons de S.Paulo: poluição sonora em Embu das A...,Sons de S.Paulo é uma série do Música em Letra...,2023-09-18 09:42:00,blogs,musica-em-letras,https://www1.folha.uol.com.br/blogs/musica-em-...
4,OMS cobra da China 'acesso total' para investi...,O diretor-geral da OMS (Organização Mundial da...,2023-09-18 09:49:00,equilibrioesaude,,https://www1.folha.uol.com.br/equilibrioesaude...


In [51]:
# number of rows and columns
print(f"Rows: {folha.shape[0]}")
print(f"Columns: {folha.shape[1]}")

Rows: 1081495
Columns: 6


## 2. Checking columns

### 2.1. title

In [52]:
# NaN titles
print(f"NaN title rows: {folha['title'].isna().sum()}")
print(f"% NaN title rows: {folha['title'].isna().sum() / len(folha) * 100} %")

NaN title rows: 0
% NaN title rows: 0.0 %


In [53]:
# check for double spaces, tabs or line breaks
cond = folha['title'].apply(lambda x: str(x)).str.contains(r"  +|\t+|\n+")
folha.loc[cond, 'title']

356778     Morcheeba retorna ao Brasil para  Nublu Jazz F...
360086     ​    Para leitores, Carnaval de São Paulo sobr...
392740     Roberta Miranda reúne novatas em CD para mostr...
471964               Drops Olímpicos - Brasil  4X0 Dinamarca
480160     Vídeo mostra o momento em  que um dos atirador...
                                 ...                        
1034432    Parlamento grego aprova 2º pacote de leis para...
1034809    Grécia leva ao Parlamento novo pacote de ajust...
1035005    Grécia inicia o pagamento de  6,25 bilhões ao ...
1035984    Comissão da UE propõe empréstimo de curto praz...
1055341    Moradores esperam por obras públicas  na 'Ilha...
Name: title, Length: 3936, dtype: object

In [54]:
# check for double spaces, tabs or line breaks
folha.loc[cond, 'title'].tail(1).values[0]

"Moradores esperam por obras públicas  na 'Ilha da Paciência'"

### 2.2. text

In [55]:
# NaN text
print(f"NaN text rows: {folha['text'].isna().sum()}")
print(f"% NaN text rows: {folha['text'].isna().sum() / len(folha) * 100} %")

NaN text rows: 504760
% NaN text rows: 46.67243029325147 %


In [56]:
# check for double spaces, tabs or line breaks
cond = folha['text'].apply(lambda x: str(x)).str.contains(r"  +|\t+|\n+")
folha.loc[cond, 'text'].tail(1).values[0]

'DE SÃO PAULOVeja atrações culturais para curtir em São Paulo nesta quinta (5).Cirque du SoleilA companhia canadense Cirque\xa0 du\xa0 Soleil –que volta ao Brasil depois de quatro anos–\xa0apresenta o espetáculo \'Amaluna\', o\xa0primeiro com elenco majoritariamente feminino (65% dos atores são mulheres). Após passar por dez países, a turnê chega ao parque Villa-Lobos nesta quinta (5). Saiba mais sobre o espetáculo.Pq. Villa-Lobos - Av. Prof. Fonseca Rodrigues, 2.001, Alto de Pinheiros. 2.482 lugares. Ter. a sex.: 21h. Sáb.: 17h30 e 21h. Dom.: 16h e 19h30. Estreia 5/10. Até 17/12. Ingr.: R$ 250 a R$ 450 p/ tudus.com.br.                                       Mais                              \'Why the Horse?\'\xa0Texto: Fábio Furtado. Direção: Maria Alice Vergueiro. Com: Carolina Splendore, Robson Catalunha e Otávio Ortega. 50 min. 16 anos.\xa0A atriz Maria Alice Vergueiro encena pela centésima vez essa peça, que também dirige, em curta temporada no Teatro Oficina. Instigada pelo tema d

In [57]:
text = folha.loc[cond, 'text'].tail(10).values[0]
test = re.sub(r"\s+", " ", text)
test

'Tite escolheu o amistoso desta sexta (10) para testar os reservas para a Copa, mas o adversário acabou não ajudando. Com facilidade, o time misto do Brasil venceu o Japão, por 3 a 1, em Lille, no penúltimo amistoso do ano. Todos os gols da seleção foram marcados na fase inicial. O primeiro acabou contando com a ajuda do árbitro de vídeo, que apontou um pênalti sofrido por Fernandinho após o juiz pedir o auxílio da tecnologia. Com a falta confirmada, Neymar aproveitou a oportunidade e fez o seu oitavo gol na carreira contra os japoneses. Marcelo e Gabriel Jesus completaram a vitória. O gol dos japoneses foi marcado aos 17min do segundo tempo por Makino, que ganhou na cabeça de Jemerson. Com a vitória, a seleção manteve a invencibilidade diante do Japão. Nesta terça (10), o Brasil fará o último amistoso deste ano. Com todos os titulares, a seleção enfrentará a Inglaterra, em Wembley. No próximo ano, o treinador terá apenas dois jogos antes de decidir a lista dos convocados para a disput

### 2.3. date

In [58]:
# NaN data
print(f"NaN date rows: {folha['date'].isna().sum()}")
print(f"% NaN date rows: {folha['date'].isna().sum() / len(folha) * 100} %")

NaN date rows: 503321
% NaN date rows: 46.539373737280336 %


### 2.4. category

In [59]:
# NaN categories
print(f"NaN category rows: {folha['category'].isna().sum()}")
print(f"% NaN category rows: {folha['category'].isna().sum() / len(folha) * 100} ")

NaN category rows: 0
% NaN category rows: 0.0 


In [60]:
len(folha['category'].value_counts().sort_values(ascending = False))

120

In [61]:
# number of rows per category
folha['category'].value_counts().sort_values(ascending = False)

category
mercado                                            205893
colunas                                            129648
poder                                               95776
cotidiano                                           92004
esporte                                             83282
mundo                                               81757
ilustrada                                           73719
fsp                                                 35414
celebridades                                        32565
televisao                                           23787
opiniao                                             22806
paineldoleitor                                      16391
equilibrioesaude                                    15093
saopaulo                                            12349
tec                                                 10803
educacao                                             9113
colunistas                                           8610
inter

In [62]:
# colunas x colunistas (seems to be the same thing)
print(folha.query("category == 'colunas'").iloc[2, -1])
print(folha.query("category == 'colunistas'").iloc[0, -1])

https://www1.folha.uol.com.br/colunas/painelsa/2023/09/construtoras-chinesas-farao-uma-das-maiores-pontes-do-pais.shtml
https://f5.folha.uol.com.br/colunistas/de-faixa-a-coroa/2023/09/mister-international-2023-brasileiro-fica-em-3o-e-tailandes-vence.shtml


In [63]:
# restaurantes x comidas (seems to be the same thing)
print(folha.query("category == 'restaurantes'").iloc[0, -1])
print(folha.query("category == 'comida'").iloc[1, -1])

https://guia.folha.uol.com.br/restaurantes/2023/09/festivais-fazem-degustacao-gratis-de-comida-e-bebida-coreanas-em-sp-veja-como-participar.shtml
https://www1.folha.uol.com.br/comida/2023/09/wine-tour-2023-tera-ator-juan-alba-e-degustacao-de-100-vinhos-em-sp.shtml


In [64]:
# cinemas-e-series x cinema x 42a-mostra-internacional-de-cinema x 41a-mostra-internacional-de-cinema (seems to be the same thing)
print(folha.query("category == 'cinema-e-series'").iloc[2, -1])
print(folha.query("category == 'cinema'").iloc[4, -1])
print(folha.query("category == '42a-mostra-internacional-de-cinema'").iloc[0, -1])
print(folha.query("category == '41a-mostra-internacional-de-cinema'").iloc[1, -1])

https://f5.folha.uol.com.br/cinema-e-series/2023/09/amazon-vai-estrear-serie-inspirada-do-filme-sr-e-sra-smith-em-2024-veja-detalhes.shtml
https://guia.folha.uol.com.br/cinema/2023/08/a-chamada-com-liam-neeson-e-gran-turismo-estreiam-nos-cinemas-de-sao-paulo.shtml
https://guia.folha.uol.com.br/42a-mostra-internacional-de-cinema/2018/10/vencedor-do-leao-de-ouro-e-documentario-sobre-eleitores-de-trump-sao-destaque-do-dia-na-mostra.shtml
https://guia.folha.uol.com.br/41a-mostra-internacional-de-cinema/2017/11/veja-tres-filmes-em-destaque-no-ultimo-dia-da-mostra-de-cinema.shtml


In [65]:
# sao-paulo x saopaulo x o-melhor-de-sao-paulo (seems to be the same thing)
print(folha.query("category == 'sao-paulo'").iloc[9, -1])
print(folha.query("category == 'saopaulo'").iloc[30, -1])
print(folha.query("category == 'o-melhor-de-sao-paulo'").iloc[12, -1])

https://agora.folha.uol.com.br/sao-paulo/2021/11/arvore-de-natal-na-ponte-estaiada-em-sp-sera-inaugurada-neste-sabado-27.shtml
https://www1.folha.uol.com.br/saopaulo/viaja-sp/melhores/2019/05/1987966-cvc-melhor-marca-de-turismo-e-agencia-de-viagem-online-investe-em-parcerias-com-grandes-eventos-como-o-rock-in-rio.shtml


https://www1.folha.uol.com.br/o-melhor-de-sao-paulo/2023/08/heinz-e-a-marca-preferida-de-ketchup-e-mostarda-dos-paulistanos.shtml


## 3. Clean Dataset

In [66]:
folha_filtered = folha.copy()

In [67]:
def group_categories(df):
    """
    Group similar categories into one.
    """
    df.loc[df['category'] == 'equilibrioesaude', 'category'] = 'equilibrio'
    df.loc[df['category'] == 'tv', 'category'] = 'televisao'
    df.loc[df['category'] == 'mundo', 'category'] = 'internacional'
    df.loc[df['category'] == 'cinema', 'category'] = 'cinema-e-series'
    df.loc[df['category'] == 'equilibrio', 'category'] = 'equilibrio-e-saude'

    return df

In [68]:
def clean_text(df, column):
    """
    Cleans text column, removing tabs, line breaks, double spaces, unicode and html strings. Removes NaN values.
    """

    # remove NaN values
    df.dropna(subset = column, inplace = True)
    
    if column != 'title':
        # remove duplicated column values
        df.drop_duplicates(subset=column, inplace=True)

    # remove tabs and line breaks
    df[column] = df[column].str.replace(r"\t+|\n+", "")

    # remove double spaces and strip
    df[column] = df[column].str.strip() \
                        .apply(lambda text: re.sub(r"\s+", " ", text))

    # remove html strings
    df[column] = df[column].apply(lambda text: html.unescape(text))

    return df

### 3.1. Filter categories

In [69]:
categories_to_drop = [
    "folhinha",
    "webstories",
    "seminariosfolha",
    "banco-de-dados",
    "sobretudo",
    "voceviu",
    "ilustrissima",
    "blogs",
    "colunistas",
    "sao-paulo",
    "saopaulo",
    "paineldoleitor",
    "opiniao",
    "ilustrada",
    "colunas",
    "fsp",
    "bbc",
    "passeios",
    "shows",
    "restaurantes",
    "bichos",
    "humanos",
    "teatro",
    "multimidia",
    "serafina",
    "asmais"
]

In [70]:
aux = pd.DataFrame(folha['category'].value_counts().rename('qtd').sort_values(ascending=False))
aux = aux.query("qtd > 1000").reset_index()
aux = aux.query("~category.isin(@categories_to_drop)")
filtered_categories = aux['category'].unique()
print(len(filtered_categories))
print(filtered_categories)

23
['mercado' 'poder' 'cotidiano' 'esporte' 'mundo' 'celebridades'
 'televisao' 'equilibrioesaude' 'tec' 'educacao' 'internacional' 'turismo'
 'ciencia' 'ambiente' 'tv' 'comida' 'grana' 'empreendedorsocial'
 'cinema-e-series' 'musica' 'cinema' 'podcasts' 'equilibrio']


In [71]:
print(f"Before filtering categories: {len(folha_filtered)}")
folha_filtered = folha_filtered.query("category.isin(@filtered_categories)").copy()
print(f"After filtering categories: {len(folha_filtered)}")

Before filtering categories: 1081495
After filtering categories: 707439


### 3.2. Clean text

In [72]:
def clean_dataset(df):
    """
    Pipeline to clean dataset.
    """
    print(f"Rows in dataset: {len(df)}")
    # cleans title
    df = clean_text(df, 'title')
    print(f"Rows in dataset after title cleaning: {len(df)}")

    # cleans text
    df = clean_text(df, 'text')
    print(f"Rows in dataset after text cleaning: {len(df)}")

    # group categories
    df = group_categories(df)
    print(f"Final categories: {len(df['category'].unique())}")

    return df

In [73]:
# clean and export
folha_filtered = clean_dataset(folha_filtered)

Rows in dataset: 707439
Rows in dataset after title cleaning: 707439
Rows in dataset after text cleaning: 354051
Final categories: 19


### 3.3. Filter texts with less than X characters

In [74]:
print(folha_filtered.shape)
folha_filtered = folha_filtered.loc[folha_filtered['text'].str.len() > 300]
print(folha_filtered.shape)

(354051, 6)
(351568, 6)


### 3.4. Filter Columns

In [75]:
folha_filtered = folha_filtered.loc[:, ["title", "text", "date", "category", "link"]]
folha_filtered.head()

Unnamed: 0,title,text,date,category,link
0,Feira de produtos e cultura ligada à maconha a...,Estandes produtores e importadores de óleos de...,2023-09-18 10:08:00,cotidiano,https://www1.folha.uol.com.br/cotidiano/2023/0...
1,Após Luva de Pedreiro indicar que pagaria pens...,"Na tarde de domingo (17), Luva de Pedreiro abr...",2023-09-18 08:40:00,celebridades,https://f5.folha.uol.com.br/celebridades/2023/...
2,Sabesp quer automatizar saneamento em todo o e...,A Sabesp está prestes a concluir um projeto-pi...,2023-09-18 10:00:00,mercado,https://www1.folha.uol.com.br/mercado/2023/09/...
4,OMS cobra da China 'acesso total' para investi...,O diretor-geral da OMS (Organização Mundial da...,2023-09-18 09:49:00,equilibrio-e-saude,https://www1.folha.uol.com.br/equilibrioesaude...
6,Agência de mineração mantém ativos processos e...,"Pesquisa da ONG Ekō, que monitora o comportame...",2023-09-18 10:00:00,ambiente,https://www1.folha.uol.com.br/ambiente/2023/09...


### 3.5. Check changes

In [76]:
def calculate_metrics(df):
    # calculate descriptive statistics
    metrics = df.groupby('category')['text'] \
                .apply(lambda x: x.str.len().describe()) \
                .reset_index()
    metrics = pd.pivot_table(
        metrics,
        values = "text",
        index = "category",
        columns = "level_1"
        ) \
        .add_suffix("_len_text") \
        .reset_index()
    
    # calculate percentage
    metrics.rename(columns = {'count_len_text' : 'count'}, inplace = True)
    pct = pd.DataFrame(df['category'].value_counts(normalize = True))

    # calculate mean title length
    mean_len_title = df.groupby('category')['title'] \
                       .apply(lambda x: np.mean(x.str.len())) \
                       .rename("mean_len_title") \
                       .round() \
                       .astype(int)

    # join metrics tables
    pct_mean_len_title = pct.join(mean_len_title)
    metrics = metrics.merge(
        pct_mean_len_title,
        left_on = "category",
        right_index = True
        )
    metrics['count'] = metrics['count'].astype(int)
    metrics = metrics[
        [
            "category", "count", "proportion", "mean_len_title", "25%_len_text", 
            "50%_len_text", "75%_len_text", "max_len_text", 
            "mean_len_text", "min_len_text", "std_len_text"
        ]
    ].sort_values(by = "count", ascending = False)

    return metrics

In [87]:
folha_filtered['text'].str.len().mean()

3215.8699739452964

In [77]:
metrics = calculate_metrics(folha_filtered)
metrics

Unnamed: 0,category,count,proportion,mean_len_title,25%_len_text,50%_len_text,75%_len_text,max_len_text,mean_len_text,min_len_text,std_len_text
12,mercado,62081,0.176583,69,2059.0,3130.0,4568.0,102232.0,3611.782011,301.0,2344.024511
15,poder,51268,0.145827,72,2280.0,3410.0,5193.0,215128.0,4040.614438,301.0,2995.517579
11,internacional,51261,0.145807,71,1684.0,2869.0,4492.0,50032.0,3439.617702,302.0,2413.283511
5,cotidiano,40372,0.114834,70,1882.0,2866.0,4314.25,37019.0,3321.019692,301.0,2011.308289
9,esporte,35237,0.100228,67,1448.0,2279.0,3419.0,57574.0,2721.576808,301.0,1886.698589
1,celebridades,32249,0.091729,74,895.0,1337.0,1862.0,20609.0,1576.714472,301.0,1202.729674
17,televisao,25743,0.073223,73,732.0,1242.0,2041.0,34127.0,1632.025755,301.0,1416.758075
8,equilibrio-e-saude,13690,0.03894,74,2759.0,4210.5,5914.75,31998.0,4687.155734,305.0,2799.590691
3,cinema-e-series,6099,0.017348,76,1273.0,1956.0,3560.5,52737.0,3082.180849,312.0,3513.257428
6,educacao,5145,0.014634,70,2466.0,3629.0,5023.0,33713.0,3939.360739,302.0,2084.014983


## 4. Export and push to hub

### 4.1. Export to CSV (.zip)

In [78]:
# Export file
filename = 'folha_2013_2023_clean_cats'
print(f"Exporting file {filename}")
compression_options = dict(method='zip', archive_name=f'{filename}.csv')
folha_filtered.to_csv(f'../data/{filename}.zip', compression=compression_options, index = False)

Exporting file folha_2013_2023_clean_cats


### 4.2. Export to Hub

In [79]:
# dataset_filepath = "../data/folha_2013_2023_clean_cats.zip"
# folha_filtered = pd.read_csv(dataset_filepath)
# print(folha_filtered.columns)
# print(folha_filtered.shape)

In [80]:
rename_dict = {
    'mercado':'Mercado',
    'poder': 'Poder',
    'internacional': 'Internacional',
    'cotidiano': 'Cotidiano',
    'esporte': 'Esporte',
    'celebridades': 'Celebridades',
    'televisao': 'Televisão',
    'equilibrio-e-saude': 'Equilibrio e Saúde',
    'cinema-e-series': 'Cinema e Séries',
    'educacao': 'Educação',
    'grana': 'Grana ou Dinheiro',
    'ambiente': 'Meio Ambiente',
    'tec': 'Tecnologia',
    'ciencia': 'Ciência',
    'turismo': 'Turismo',
    'musica': 'Música',
    'empreendedorsocial': 'Empreendedorismo Social',
    'podcasts': 'Podcasts',
    'comida': 'Comida'
}

folha_filtered['category_natural_language'] = folha_filtered['category'].map(rename_dict)
folha_filtered['category_natural_language'].unique()

array(['Cotidiano', 'Celebridades', 'Mercado', 'Equilibrio e Saúde',
       'Meio Ambiente', 'Poder', 'Internacional', 'Comida', 'Televisão',
       'Podcasts', 'Esporte', 'Educação', 'Música', 'Ciência',
       'Tecnologia', 'Cinema e Séries', 'Turismo',
       'Empreendedorismo Social', 'Grana ou Dinheiro'], dtype=object)

In [81]:
test = folha_filtered.sample(frac = 0.5, random_state = 42)
metrics_test = calculate_metrics(test)
metrics_test

Unnamed: 0,category,count,proportion,mean_len_title,25%_len_text,50%_len_text,75%_len_text,max_len_text,mean_len_text,min_len_text,std_len_text
12,mercado,30962,0.176137,69,2059.25,3135.0,4560.0,102232.0,3607.879982,302.0,2356.080177
15,poder,25525,0.145207,72,2293.0,3394.0,5155.0,140692.0,4014.814574,301.0,2805.441344
11,internacional,25459,0.144831,71,1696.0,2893.0,4521.5,50032.0,3469.560863,302.0,2468.730892
5,cotidiano,20271,0.115318,70,1873.0,2864.0,4319.0,32006.0,3319.308865,301.0,1998.524074
9,esporte,17724,0.100828,67,1447.0,2287.0,3435.0,57574.0,2733.883378,301.0,1925.340737
1,celebridades,16214,0.092238,74,899.25,1333.0,1863.0,20609.0,1572.406562,301.0,1184.996086
17,televisao,12840,0.073044,73,730.0,1240.0,2039.0,26027.0,1632.996729,301.0,1427.759321
8,equilibrio-e-saude,6861,0.039031,74,2752.0,4216.0,5884.0,29320.0,4675.042559,313.0,2784.824636
3,cinema-e-series,3056,0.017385,76,1288.0,1971.0,3655.75,52575.0,3108.136453,314.0,3504.757053
6,educacao,2672,0.0152,70,2416.75,3604.0,5044.75,22857.0,3927.519835,302.0,2086.65918


In [82]:
train = folha_filtered.loc[~folha_filtered.index.isin(test.index)]
metrics_train = calculate_metrics(train)
metrics_train

Unnamed: 0,category,count,proportion,mean_len_title,25%_len_text,50%_len_text,75%_len_text,max_len_text,mean_len_text,min_len_text,std_len_text
12,mercado,31119,0.17703,69,2059.0,3123.0,4575.5,68550.0,3615.664353,301.0,2331.999194
11,internacional,25802,0.146782,72,1672.0,2844.0,4466.75,41094.0,3410.072591,303.0,2356.970322
15,poder,25743,0.146447,72,2269.0,3428.0,5232.0,215128.0,4066.19582,301.0,3172.608765
5,cotidiano,20101,0.114351,70,1892.0,2870.0,4307.0,37019.0,3322.744988,303.0,2024.16711
9,esporte,17513,0.099628,67,1449.0,2272.0,3393.0,44172.0,2709.121967,304.0,1846.739332
1,celebridades,16035,0.09122,74,890.0,1341.0,1862.0,17042.0,1581.070471,301.0,1220.420746
17,televisao,12903,0.073403,73,735.0,1246.0,2044.0,34127.0,1631.059521,301.0,1405.779752
8,equilibrio-e-saude,6829,0.038849,74,2772.0,4202.0,5936.0,31998.0,4699.32567,305.0,2814.499348
3,cinema-e-series,3043,0.017311,76,1248.0,1941.0,3479.0,52737.0,3056.114361,312.0,3522.156937
6,educacao,2473,0.014068,70,2517.0,3653.0,5010.0,33713.0,3952.154468,365.0,2081.500473


In [83]:
train_dataset = Dataset.from_pandas(train[["title", "text", "date", "category", "category_natural_language", "link"]])
test_dataset = Dataset.from_pandas(test[["title", "text", "date", "category", "category_natural_language", "link"]])
train_dataset = train_dataset.remove_columns("__index_level_0__")
test_dataset = test_dataset.remove_columns("__index_level_0__")

In [84]:
folha_dataset = DatasetDict(
    {
        'train': train_dataset,
        'test': test_dataset 
    }
)

In [85]:
print(folha_dataset)

DatasetDict({
    train: Dataset({
        features: ['title', 'text', 'date', 'category', 'category_natural_language', 'link'],
        num_rows: 175784
    })
    test: Dataset({
        features: ['title', 'text', 'date', 'category', 'category_natural_language', 'link'],
        num_rows: 175784
    })
})


In [86]:
# folha_dataset.push_to_hub("iara-project/news-articles-ptbr-dataset")