In [44]:
# == importando bibliotecas == 

import pandas as pd
import numpy as np
import re

from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"
import warnings
warnings.filterwarnings('ignore')

In [45]:
# == ler a base de artigos == 

artigos = pd.read_parquet('../../dataset/processed/artigos_de_partidos/artigos_partidos.parquet')

In [46]:
# == tornar os artigos em letras minúsculas == 

artigos.Conteudo = artigos.Conteudo.str.lower()

In [47]:
# == remover artigos contendo links == 

artigos[artigos.Conteudo.str.contains('http')].Partido.value_counts()
artigos = artigos[~artigos.Conteudo.str.contains('http')]

PL              198
PCB              60
PT               42
PV               42
MDB              41
Novo             35
União Brasil     16
PSB              11
PP               10
Rede              8
PSTU              5
PDT               4
Name: Partido, dtype: int64

In [48]:
# == todas as sentenças após o penúltimo "." a fim de eliminar ruídos que não fazem parte do artigo == 

artigos.Conteudo = artigos.Conteudo.apply(
    lambda x : ''.join(x.split('.')[:-2])
)

In [49]:
# == mascarar nome de partido == 

partidos = ['novo', 'pcb', 'pdt', 'pl', 'pp', 'psol', 'pstu', 'mdb', 'pcdob', 'psb', 'pt', 'pv', 'rede', 'união brasil']
for partido in partidos:
    artigos.Conteudo = artigos.Conteudo.str.replace(f' {partido} ', ' ')

In [64]:
# == remover todas as palavras contendo caracteres especiais ==

artigos.Conteudo = artigos.Conteudo.apply(
    lambda x : ' '.join(word for word in x.split(' ') if word.isalnum())
)

In [68]:
# == normalização por unicode e encode ascii ==

artigos.Conteudo = artigos.Conteudo.str.lower()\
                                   .str.normalize('NFKD')\
                                   .str.encode('ascii', errors='ignore')\
                                   .str.decode('utf-8')

In [72]:
# == remover pontuações e números == 

artigos.Conteudo = artigos.Conteudo.str.replace('[^a-zA-Z]', ' ')

In [92]:
# == remover double space == 

for n in range(30):
    artigos.Conteudo = artigos.Conteudo.str.replace('  ', ' ')

In [93]:
# == analisar a contagem média de palavras por partido == 

copy = artigos.copy()
copy['Contagem'] = copy.Conteudo.str.count(' ')
copy.groupby(
    by=['Vies', 'Partido'],
).agg(
    ContagemPalavras = ('Contagem', 'mean'), 
    ContagemArtigos = ('Contagem', 'count')
)

Unnamed: 0_level_0,Unnamed: 1_level_0,ContagemPalavras,ContagemArtigos
Vies,Partido,Unnamed: 2_level_1,Unnamed: 3_level_1
centro,MDB,341.078571,560
centro,PDT,475.828442,443
centro,PSB,351.91719,1751
centro,PV,418.48184,826
direita,Novo,228.310671,1162
direita,PL,198.180107,3187
direita,PP,237.377816,577
direita,União Brasil,221.873134,268
esquerda,PCB,477.260323,557
esquerda,PCDoB,362.799003,602


In [78]:
# == salvar o df tratado == 

artigos.to_parquet('../../dataset/processed/artigos_tratados/artigos_tratados.parquet')