# Text Mining 2020/1 - Practical Project

This is a notebook for the practical project in the context of the Text Mining subject, taught by the professors Vinicius Borges and Thiago Faleiros at the University of Brasília, in 2020/1 semester.

The goal for the first part is to do some preprocessing in the selected dataset.

As long as the file is large, is more practical use the Drive mount in Colab.

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


### Packages Import

The first two packages we'll need are Pandas, for deal with CSV files, and Pickle, for manage pickle files.

In [None]:
import pandas as pd
import pickle as pkl

## Getting the data


First of all, we have to read the pickle file. We use the function `read_pickle`, from the Pandas lib.

In [None]:
data = pd.read_pickle(r'/content/drive/MyDrive/Mineracao_Texto/discursos_raw_all.pickle')

The data is composed of political speeches, gathered from the open-data initiative from the Brazilian Senate. The pickle file is composed of a list of nested dict structures. `'IdentificacaoParlamentar'`, `'IdentificacaoPronunciamento'`, `'Conteudo'` are the main keys of each entry.

In [None]:
len(data)

74981

In [None]:
data[2].keys()

dict_keys(['IdentificacaoParlamentar', 'IdentificacaoPronunciamento', 'Conteudo'])

`'IdentificacaoParlamentar'` is simple a dict:

In [None]:
data[2]['IdentificacaoParlamentar']

{'CodigoParlamentar': '4531',
 'CodigoPublicoNaLegAtual': '837',
 'EmailParlamentar': 'Sen.JaymeCampos@senado.leg.br',
 'FormaTratamento': 'Senador ',
 'NomeCompletoParlamentar': 'Jayme Veríssimo de Campos',
 'NomeParlamentar': 'Jayme Campos',
 'SexoParlamentar': 'Masculino',
 'SiglaPartidoParlamentar': 'DEM',
 'UfParlamentar': 'MT',
 'UrlFotoParlamentar': 'http://www.senado.leg.br/senadores/img/fotos-oficiais/senador4531.jpg',
 'UrlPaginaParlamentar': 'http://www25.senado.leg.br/web/senadores/senador/-/perfil/4531'}

`'IdentificacaoPronunciamento'` is a dict with some keys that also are dicts.

In [None]:
data[2]['IdentificacaoPronunciamento']

{'CodigoPronunciamento': '410003',
 'DataPronunciamento': '2014-11-18',
 'Indexacao': 'SOLICITAÇÃO, APROVAÇÃO, CAMARA DOS DEPUTADOS, PROJETO DE LEI, AUTORIA, ORADOR, ASSUNTO, CRIAÇÃO, FUNDO NACIONAL, AUXILIO, MULHER, VITIMA, VIOLENCIA DOMESTICA.',
 'NomeCasaPronunciamento': 'Senado Federal',
 'Publicacoes': {'Publicacao': {'DataPublicacao': '2014-11-19',
   'DescricaoVeiculoPublicacao': 'DSF',
   'IndicadorRepublicacao': 'Não',
   'NumeroPagFimPublicacao': '237',
   'NumeroPagInicioPublicacao': '236',
   'UrlDiario': 'http://legis.senado.leg.br/diarios/BuscaDiario?tipDiario=1&datDiario=19/11/2014&paginaDireta=236'}},
 'SenadorId': '4531',
 'SessaoPlenaria': {'CodigoSessao': '21959',
  'CodigoSessaoLegislativa': '849',
  'DataSessao': '2014-11-18',
  'HoraInicioSessao': '14:00:00',
  'NomeCasaSessao': 'Senado Federal',
  'NumeroSessao': '169',
  'SiglaCasaSessao': 'SF',
  'SiglaTipoSessao': 'DOR'},
 'SiglaCasaPronunciamento': 'SF',
 'SiglaPartidoParlamentarNaData': 'DEM',
 'TextoResumo'

`'Conteudo'` is the discourse itself:

In [None]:
data[2]['Conteudo']

'O SR. JAYME CAMPOS (Bloco Minoria/DEM - MT. Pronuncia o seguinte discurso. Sem revisão do orador.) - Sr. Presidente, Srªs e Srs. Senadores, na manhã de hoje, a Rede Record de televisão veiculou importantíssima reportagem acerca da violência doméstica, denunciando, mais uma vez, a trágica situação em que vivem hoje milhares de mulheres brasileiras, que, reféns da submissão imposta pela dependência financeira, seguem como vítimas caladas, sofrendo toda sorte de agressões e violências. \xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0Mesmo contando com a Lei Maria da Penha, diploma potencialmente eficaz na punição de seus agressores, muitas dessas mulheres continuam amarradas aos grilhões do sofrimento, por não terem autonomia financeira, nem capacitação profissional que lhes permita custear seu sustento longe de seus algozes. \xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0Assim, para que o Estado venha a oferecer efetiva garantia de proteção a esse grande número de mulheres agredidas, é

Knowing the data structure, we can proceed to put it in some memory representation, and then in a csv file. The main idea is to build a custom dict for each entry and append these dicts in a list. The following code cell shows the procedure used in a single entry.

In [None]:
df_list = []
handle_dict = {}

for item, value in data[2].items():
  if item == 'IdentificacaoParlamentar':
    for subitem in value:
      if subitem == 'NomeParlamentar':
        handle_dict[subitem] = value[subitem]
        pass
      elif subitem == 'SexoParlamentar':
        handle_dict[subitem] = value[subitem]
        pass
      elif subitem == 'SiglaPartidoParlamentar':
        handle_dict[subitem] = value[subitem]
        pass
      elif subitem == 'UfParlamentar':
        handle_dict[subitem] = value[subitem]
        pass
  elif item == 'IdentificacaoPronunciamento':
    for subitem in value:
      if subitem == 'DataPronunciamento':
        handle_dict[subitem] = value[subitem]
        pass
      elif subitem == 'Indexacao':
        handle_dict[subitem] = value[subitem]
        pass
      elif subitem == 'TextoResumo':
        handle_dict[subitem] = value[subitem]
        pass
  else:
    handle_dict[item] = value

print(handle_dict)
df_list.append(handle_dict)

{'NomeParlamentar': 'Jayme Campos', 'SexoParlamentar': 'Masculino', 'SiglaPartidoParlamentar': 'DEM', 'UfParlamentar': 'MT', 'DataPronunciamento': '2014-11-18', 'TextoResumo': '\n      Apelo no sentido da aprovação, pela Câmara dos Deputados, de projeto de autoria de S. Exª que cria o Fundo Nacional de Amparo a Mulheres Agredidas.', 'Indexacao': 'SOLICITAÇÃO, APROVAÇÃO, CAMARA DOS DEPUTADOS, PROJETO DE LEI, AUTORIA, ORADOR, ASSUNTO, CRIAÇÃO, FUNDO NACIONAL, AUXILIO, MULHER, VITIMA, VIOLENCIA DOMESTICA.', 'Conteudo': 'O SR. JAYME CAMPOS (Bloco Minoria/DEM - MT. Pronuncia o seguinte discurso. Sem revisão do orador.) - Sr. Presidente, Srªs e Srs. Senadores, na manhã de hoje, a Rede Record de televisão veiculou importantíssima reportagem acerca da violência doméstica, denunciando, mais uma vez, a trágica situação em que vivem hoje milhares de mulheres brasileiras, que, reféns da submissão imposta pela dependência financeira, seguem como vítimas caladas, sofrendo toda sorte de agressões e v

In [None]:
df_list

[{'Conteudo': 'O SR. JAYME CAMPOS (Bloco Minoria/DEM - MT. Pronuncia o seguinte discurso. Sem revisão do orador.) - Sr. Presidente, Srªs e Srs. Senadores, na manhã de hoje, a Rede Record de televisão veiculou importantíssima reportagem acerca da violência doméstica, denunciando, mais uma vez, a trágica situação em que vivem hoje milhares de mulheres brasileiras, que, reféns da submissão imposta pela dependência financeira, seguem como vítimas caladas, sofrendo toda sorte de agressões e violências. \xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0Mesmo contando com a Lei Maria da Penha, diploma potencialmente eficaz na punição de seus agressores, muitas dessas mulheres continuam amarradas aos grilhões do sofrimento, por não terem autonomia financeira, nem capacitação profissional que lhes permita custear seu sustento longe de seus algozes. \xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0Assim, para que o Estado venha a oferecer efetiva garantia de proteção a esse grande número de mulhere

Now we do the same for the whole dataset:

In [None]:
df_list = []

for ramen in data:
  handle_dict = {}
  for item, value in ramen.items():
    if item == 'IdentificacaoParlamentar':
      for subitem in value:
        if subitem == 'NomeParlamentar':
          handle_dict[subitem] = value[subitem]
          pass
        elif subitem == 'SexoParlamentar':
          handle_dict[subitem] = value[subitem]
          pass
        elif subitem == 'SiglaPartidoParlamentar':
          handle_dict[subitem] = value[subitem]
          pass
        elif subitem == 'UfParlamentar':
          handle_dict[subitem] = value[subitem]
          pass
    elif item == 'IdentificacaoPronunciamento':
      for subitem in value:
        if subitem == 'DataPronunciamento':
          handle_dict[subitem] = value[subitem]
          pass
        elif subitem == 'Indexacao':
          handle_dict[subitem] = value[subitem]
          pass
        elif subitem == 'TextoResumo':
          handle_dict[subitem] = value[subitem]
          pass
    else:
      handle_dict[item] = value

  df_list.append(handle_dict)

The resultant list has the same length as the original pickle file. Each entry is composed of our custom made dict.

In [None]:
len(df_list)

74981

In [None]:
df_list[2]

{'Conteudo': 'O SR. JAYME CAMPOS (Bloco Minoria/DEM - MT. Pronuncia o seguinte discurso. Sem revisão do orador.) - Sr. Presidente, Srªs e Srs. Senadores, na manhã de hoje, a Rede Record de televisão veiculou importantíssima reportagem acerca da violência doméstica, denunciando, mais uma vez, a trágica situação em que vivem hoje milhares de mulheres brasileiras, que, reféns da submissão imposta pela dependência financeira, seguem como vítimas caladas, sofrendo toda sorte de agressões e violências. \xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0Mesmo contando com a Lei Maria da Penha, diploma potencialmente eficaz na punição de seus agressores, muitas dessas mulheres continuam amarradas aos grilhões do sofrimento, por não terem autonomia financeira, nem capacitação profissional que lhes permita custear seu sustento longe de seus algozes. \xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0Assim, para que o Estado venha a oferecer efetiva garantia de proteção a esse grande número de mulheres

Great! Now we have the data we want on memory. The next step is to save this data in some kind of file, for the sake of easier access. We'll save our data in a CSV file, that is more commonly used in ML/DL applications. The first step is to generate a list to identify the dataframe columns.

In [None]:
colunas = []
for item in df_list[2]:
  print(item)
  colunas.append(item)

NomeParlamentar
SexoParlamentar
SiglaPartidoParlamentar
UfParlamentar
DataPronunciamento
TextoResumo
Indexacao
Conteudo


In [None]:
colunas

['NomeParlamentar',
 'SexoParlamentar',
 'SiglaPartidoParlamentar',
 'UfParlamentar',
 'DataPronunciamento',
 'TextoResumo',
 'Indexacao',
 'Conteudo']

Once we have the columns list, we generate a dataframe, iterate over the `df_list` and append each dict entry as a row. The following two code cells show the procedure and result for a single entry.

In [None]:
df = pd.DataFrame(columns=colunas)
handle_df = pd.DataFrame(data=df_list[2], index=[0])
df = df.append(handle_df)

In [None]:
df

Unnamed: 0,NomeParlamentar,SexoParlamentar,SiglaPartidoParlamentar,UfParlamentar,DataPronunciamento,TextoResumo,Indexacao,Conteudo
0,Jayme Campos,Masculino,DEM,MT,2014-11-18,"\n Apelo no sentido da aprovação, pela Câ...","SOLICITAÇÃO, APROVAÇÃO, CAMARA DOS DEPUTADOS, ...",O SR. JAYME CAMPOS (Bloco Minoria/DEM - MT. Pr...


Now is just do the same for the whole thing. This step is quite long, and the generated CSV quite large: over 700mb.

In [None]:
df = pd.DataFrame(columns=colunas)

for item in df_list:
  handle_df = pd.DataFrame(data=item, index=[0])
  df = df.append(handle_df)

In [None]:
df

Unnamed: 0,NomeParlamentar,SexoParlamentar,SiglaPartidoParlamentar,UfParlamentar,DataPronunciamento,TextoResumo,Indexacao,Conteudo
0,Paulo Paim,Masculino,PT,RS,2012-12-07,"\n Destaque à aprovação, pelo Senado Fede...","REGISTRO, PRESENÇA, ORADOR, SOLENIDADE, POSSE,...",O SR. PAULO PAIM (Bloco/PT - RS. Pronuncia o s...
0,Ângela Portela,Feminino,PDT,,2013-06-25,\n Satisfação com a postura do Governo Fe...,"ELOGIO, ATUAÇÃO, GOVERNO FEDERAL, DIALOGO, LID...",A SRª ANGELA PORTELA (Bloco/PT - RR. Pronuncia...
0,Jayme Campos,Masculino,DEM,MT,2014-11-18,"\n Apelo no sentido da aprovação, pela Câ...","SOLICITAÇÃO, APROVAÇÃO, CAMARA DOS DEPUTADOS, ...",O SR. JAYME CAMPOS (Bloco Minoria/DEM - MT. Pr...
0,Leomar Quintanilha,Masculino,MDB,,2010-11-12,\n Relato sobre as dificuldades verificad...,"ANALISE, DESIGUALDADE REGIONAL, QUALIDADE, EDU...",SENADO FEDERAL SF - SECRETARIA-GE...
0,Cícero Lucena,Masculino,PSDB,,2013-04-24,,,O SR. CÍCERO LUCENA (Bloco/PSDB - PB) - É por...
...,...,...,...,...,...,...,...,...
0,Romero Jucá,Masculino,MDB,,2008-04-29,\n Considerações sobre o acesso às comuni...,"IMPORTANCIA, INTERNET, INCLUSÃO, CIDADANIA, RE...",O SR. ROMERO JUCÁ (PMDB - RR. Sem apanhamento...
0,Serys Slhessarenko,Feminino,PT,,2005-09-21,\n Manifestação em defesa dos funcionário...,"REGISTRO, PAUTA, REIVINDICAÇÃO, SERVIDOR, UNIV...",A SRª SERYS SLHESSARENKO (Bloco/PT - MT. Pron...
0,Jefferson Peres,Masculino,,,1999-10-01,\n CONSIDERAÇÕES SOBRE A DECLARAÇÃO DE IN...,"APOIO, DECISÃO JUDICIAL, SUPREMO TRIBUNAL FEDE...",O SR. JEFFERSON PÉRES (Bloco/PDT - AM. Pronun...
0,Eduardo Suplicy,Masculino,PT,,2012-08-22,\n – Considerações acerca da desigualdade...,"LEITURA, DECLARAÇÃO, ENCONTRO, AMBITO NACIONAL...",O SR. EDUARDO SUPLICY (Bloco/PT - SP. Pronunci...


In [None]:
df.to_csv('senate_speeches.csv')

The following code cell saves a copy from the generated csv file to drive.

In [None]:
!cp senate_speeches.csv "/content/drive/My Drive/"

A brief exploration of the data: most of the speeches were given by men; MDB, PT, and PSDB are the most represented parties in the dataset; and the states with discourses are Rio Grande do Sul and Paraná.

In [None]:
df.SexoParlamentar.value_counts()

Masculino    65881
Feminino      9100
Name: SexoParlamentar, dtype: int64

In [None]:
df.SiglaPartidoParlamentar.value_counts()

MDB              14460
PT               12608
PSDB             12484
PTB               4047
DEM               3848
PSB               3517
PODEMOS           2962
PP                2263
PDT               1872
PL                1653
CIDADANIA         1364
PSC               1168
S/Partido         1166
PCdoB             1087
PSOL               831
PROS               662
REPUBLICANOS       654
PSD                649
REDE               617
PV                 536
SOLIDARIEDADE      337
PSL                 50
PPL                  8
PRTB                 5
Name: SiglaPartidoParlamentar, dtype: int64

In [None]:
df.UfParlamentar.value_counts()

RS    2774
PR    2641
MT     735
PE     611
AL     611
RO     442
BA     420
RJ     398
RR     332
AP     319
SC     316
PI     309
AM     289
PA     268
PB     258
DF     257
CE     225
SE     199
AC     177
TO     164
GO     161
ES     158
MG     146
RN     109
MS     105
SP      77
MA      47
Name: UfParlamentar, dtype: int64

## Classifier experiments

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
import torch
import pandas as pd
from tqdm.notebook import tqdm
import numpy as np

In [None]:
data = pd.read_csv('/content/drive/MyDrive/mt_final_project/senate_speeches.csv')
data

Unnamed: 0.1,Unnamed: 0,NomeParlamentar,SexoParlamentar,SiglaPartidoParlamentar,UfParlamentar,DataPronunciamento,TextoResumo,Indexacao,Conteudo
0,0,Paulo Paim,Masculino,PT,RS,2012-12-07,"\n Destaque à aprovação, pelo Senado Fede...","REGISTRO, PRESENÇA, ORADOR, SOLENIDADE, POSSE,...",O SR. PAULO PAIM (Bloco/PT - RS. Pronuncia o s...
1,0,Ângela Portela,Feminino,PDT,,2013-06-25,\n Satisfação com a postura do Governo Fe...,"ELOGIO, ATUAÇÃO, GOVERNO FEDERAL, DIALOGO, LID...",A SRª ANGELA PORTELA (Bloco/PT - RR. Pronuncia...
2,0,Jayme Campos,Masculino,DEM,MT,2014-11-18,"\n Apelo no sentido da aprovação, pela Câ...","SOLICITAÇÃO, APROVAÇÃO, CAMARA DOS DEPUTADOS, ...",O SR. JAYME CAMPOS (Bloco Minoria/DEM - MT. Pr...
3,0,Leomar Quintanilha,Masculino,MDB,,2010-11-12,\n Relato sobre as dificuldades verificad...,"ANALISE, DESIGUALDADE REGIONAL, QUALIDADE, EDU...",SENADO FEDERAL SF - SECRETARIA-GE...
4,0,Cícero Lucena,Masculino,PSDB,,2013-04-24,,,O SR. CÍCERO LUCENA (Bloco/PSDB - PB) - É por...
...,...,...,...,...,...,...,...,...,...
74976,0,Romero Jucá,Masculino,MDB,,2008-04-29,\n Considerações sobre o acesso às comuni...,"IMPORTANCIA, INTERNET, INCLUSÃO, CIDADANIA, RE...",O SR. ROMERO JUCÁ (PMDB - RR. Sem apanhamento...
74977,0,Serys Slhessarenko,Feminino,PT,,2005-09-21,\n Manifestação em defesa dos funcionário...,"REGISTRO, PAUTA, REIVINDICAÇÃO, SERVIDOR, UNIV...",A SRª SERYS SLHESSARENKO (Bloco/PT - MT. Pron...
74978,0,Jefferson Peres,Masculino,,,1999-10-01,\n CONSIDERAÇÕES SOBRE A DECLARAÇÃO DE IN...,"APOIO, DECISÃO JUDICIAL, SUPREMO TRIBUNAL FEDE...",O SR. JEFFERSON PÉRES (Bloco/PDT - AM. Pronun...
74979,0,Eduardo Suplicy,Masculino,PT,,2012-08-22,\n – Considerações acerca da desigualdade...,"LEITURA, DECLARAÇÃO, ENCONTRO, AMBITO NACIONAL...",O SR. EDUARDO SUPLICY (Bloco/PT - SP. Pronunci...


Removing NaN values

In [None]:
data = data.dropna(subset=['Conteudo', 'SiglaPartidoParlamentar'])

In [None]:
data.SiglaPartidoParlamentar.value_counts()

MDB              14460
PT               12608
PSDB             12484
PTB               4047
DEM               3848
PSB               3517
PODEMOS           2962
PP                2263
PDT               1872
PL                1653
CIDADANIA         1364
PSC               1168
S/Partido         1166
PCdoB             1087
PSOL               831
PROS               662
REPUBLICANOS       654
PSD                649
REDE               617
PV                 536
SOLIDARIEDADE      337
PSL                 50
PPL                  8
PRTB                 5
Name: SiglaPartidoParlamentar, dtype: int64

In [None]:
possible_labels = data.SiglaPartidoParlamentar.unique()
label_dict = {}
for index, possible_label in enumerate(possible_labels):
    label_dict[possible_label] = index

In [None]:
data['label'] = data.SiglaPartidoParlamentar.replace(label_dict)
data

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


Unnamed: 0.1,Unnamed: 0,NomeParlamentar,SexoParlamentar,SiglaPartidoParlamentar,UfParlamentar,DataPronunciamento,TextoResumo,Indexacao,Conteudo,label
0,0,Paulo Paim,Masculino,PT,RS,2012-12-07,"\n Destaque à aprovação, pelo Senado Fede...","REGISTRO, PRESENÇA, ORADOR, SOLENIDADE, POSSE,...",O SR. PAULO PAIM (Bloco/PT - RS. Pronuncia o s...,0
1,0,Ângela Portela,Feminino,PDT,,2013-06-25,\n Satisfação com a postura do Governo Fe...,"ELOGIO, ATUAÇÃO, GOVERNO FEDERAL, DIALOGO, LID...",A SRª ANGELA PORTELA (Bloco/PT - RR. Pronuncia...,1
2,0,Jayme Campos,Masculino,DEM,MT,2014-11-18,"\n Apelo no sentido da aprovação, pela Câ...","SOLICITAÇÃO, APROVAÇÃO, CAMARA DOS DEPUTADOS, ...",O SR. JAYME CAMPOS (Bloco Minoria/DEM - MT. Pr...,2
3,0,Leomar Quintanilha,Masculino,MDB,,2010-11-12,\n Relato sobre as dificuldades verificad...,"ANALISE, DESIGUALDADE REGIONAL, QUALIDADE, EDU...",SENADO FEDERAL SF - SECRETARIA-GE...,3
4,0,Cícero Lucena,Masculino,PSDB,,2013-04-24,,,O SR. CÍCERO LUCENA (Bloco/PSDB - PB) - É por...,4
...,...,...,...,...,...,...,...,...,...,...
74975,0,Ana Amélia,Feminino,PP,,2014-04-22,\n Indignação com o assassinato do menino...,"HOMENAGEM POSTUMA, JORNALISTA, ESPORTE, TELEVI...",A SRª ANA AMÉLIA (Bloco Maioria/PP-RS. Pronunc...,13
74976,0,Romero Jucá,Masculino,MDB,,2008-04-29,\n Considerações sobre o acesso às comuni...,"IMPORTANCIA, INTERNET, INCLUSÃO, CIDADANIA, RE...",O SR. ROMERO JUCÁ (PMDB - RR. Sem apanhamento...,3
74977,0,Serys Slhessarenko,Feminino,PT,,2005-09-21,\n Manifestação em defesa dos funcionário...,"REGISTRO, PAUTA, REIVINDICAÇÃO, SERVIDOR, UNIV...",A SRª SERYS SLHESSARENKO (Bloco/PT - MT. Pron...,0
74979,0,Eduardo Suplicy,Masculino,PT,,2012-08-22,\n – Considerações acerca da desigualdade...,"LEITURA, DECLARAÇÃO, ENCONTRO, AMBITO NACIONAL...",O SR. EDUARDO SUPLICY (Bloco/PT - SP. Pronunci...,0


In [None]:
data = data.drop(columns=['Unnamed: 0', 'NomeParlamentar', 'SexoParlamentar', 'UfParlamentar', 'DataPronunciamento'])

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(data['Conteudo'], data['label'], test_size=0.25, random_state=14, stratify=data['label'])

### Baseline TFIDF

A baseline of TFIDF text representation + SVM and Logistic Regression.

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer()

# fit_transform no treino
X_csr_train = vectorizer.fit_transform(X_train)
print(X_csr_train.shape)

# apenas transform no teste
X_csr_test = vectorizer.transform(X_test)
print(X_csr_test.shape)

(51636, 199671)
(17212, 199671)


In [None]:
from sklearn.svm import LinearSVC
from sklearn.linear_model import LogisticRegression

In [None]:
svm_model = LinearSVC(max_iter=1000, random_state=14, verbose=True)
svm_model.fit(X_csr_train, y_train)
svm_prediction_tfidf = svm_model.predict(X_csr_test)

[LibLinear]

In [None]:
tfidf_logreg = LogisticRegression(max_iter=1000, random_state=14, verbose=True)
tfidf_logreg.fit(X_csr_train, y_train)
y_pred_tfidf_reg = tfidf_logreg.predict(X_csr_test)

[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.
[Parallel(n_jobs=1)]: Done   1 out of   1 | elapsed: 16.2min finished


In [None]:
from sklearn.metrics import precision_recall_fscore_support

results = pd.DataFrame(columns = ['Precision', 'Recall', 'F1 score', 'support']
          )
results.loc['tfidf + regressão'] = precision_recall_fscore_support(
          y_test, 
          y_pred_tfidf_reg, 
          average = 'weighted'
          )
results.loc['tfidf + SVM'] = precision_recall_fscore_support(
          y_test, 
          svm_prediction_tfidf, 
          average = 'weighted'
          )

In [None]:
results

Unnamed: 0,Precision,Recall,F1 score,support
tfidf + regressão,0.8283,0.806926,0.799848,
tfidf + SVM,0.898456,0.895937,0.895464,


### BERT

Here we'll use the language model called BERT. It allows performing fine-tuning for several NLP tasks, including text classification. The original paper can be found [here](https://arxiv.org/abs/1810.04805).

These code cells were highly inspired by the guided project entitled 'Sentiment Analysis with Deep Learning using BERT'.

The first thing to do is import the Hugging Face transformers lib.

In [None]:
pip install transformers

Collecting transformers
[?25l  Downloading https://files.pythonhosted.org/packages/99/84/7bc03215279f603125d844bf81c3fb3f2d50fe8e511546eb4897e4be2067/transformers-4.0.0-py3-none-any.whl (1.4MB)
[K     |▎                               | 10kB 20.7MB/s eta 0:00:01[K     |▌                               | 20kB 18.3MB/s eta 0:00:01[K     |▊                               | 30kB 16.2MB/s eta 0:00:01[K     |█                               | 40kB 15.0MB/s eta 0:00:01[K     |█▏                              | 51kB 12.3MB/s eta 0:00:01[K     |█▌                              | 61kB 12.6MB/s eta 0:00:01[K     |█▊                              | 71kB 12.5MB/s eta 0:00:01[K     |██                              | 81kB 12.9MB/s eta 0:00:01[K     |██▏                             | 92kB 12.6MB/s eta 0:00:01[K     |██▍                             | 102kB 13.6MB/s eta 0:00:01[K     |██▋                             | 112kB 13.6MB/s eta 0:00:01[K     |███                             | 

Once installed, we have to import the packages required for the pretrained model. We'll use [BERTimbau Base](https://huggingface.co/neuralmind/bert-base-portuguese-cased), a Portuguese BERT-based variety.

In [None]:
from transformers import AutoModel  # or BertModel, for BERT without pretraining heads

from transformers import BertTokenizer
from torch.utils.data import TensorDataset

#### Load tokenizer and encode data
We have to load the tokenizer for the specific model used. Then, we properly encode our data.

In [None]:
tokenizer = BertTokenizer.from_pretrained('neuralmind/bert-base-portuguese-cased', do_lower_case=False)

HBox(children=(FloatProgress(value=0.0, description='Downloading', max=209528.0, style=ProgressStyle(descripti…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=2.0, style=ProgressStyle(description_wi…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=112.0, style=ProgressStyle(description_…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=43.0, style=ProgressStyle(description_w…




In [None]:
y_train.values

array([ 1,  3,  0, ..., 12,  0, 16])

In [None]:
encoded_data_train = tokenizer.batch_encode_plus(
    X_train.values, 
    add_special_tokens=True, 
    return_attention_mask=True, 
    pad_to_max_length=True, 
    max_length=256, 
    return_tensors='pt'
)

encoded_data_test = tokenizer.batch_encode_plus(
    X_test.values, 
    add_special_tokens=True, 
    return_attention_mask=True, 
    pad_to_max_length=True, 
    max_length=256, 
    return_tensors='pt'
)

input_ids_train = encoded_data_train['input_ids']
attention_masks_train = encoded_data_train['attention_mask']
labels_train = torch.tensor(y_train.values)

input_ids_test = encoded_data_test['input_ids']
attention_masks_test = encoded_data_test['attention_mask']
labels_test = torch.tensor(y_test.values)



In [None]:
dataset_train = TensorDataset(input_ids_train, attention_masks_train, labels_train)
dataset_test = TensorDataset(input_ids_test, attention_masks_test, labels_test)

In [None]:
len(dataset_train)

51025

In [None]:
len(dataset_test)

17009

#### Setting up our model

In [None]:
from transformers import BertForSequenceClassification

In [None]:
model = BertForSequenceClassification.from_pretrained("neuralmind/bert-base-portuguese-cased",
                                                      num_labels=len(label_dict),
                                                      output_attentions=False,
                                                      output_hidden_states=False)

HBox(children=(FloatProgress(value=0.0, description='Downloading', max=647.0, style=ProgressStyle(description_…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=438235074.0, style=ProgressStyle(descri…




Some weights of the model checkpoint at neuralmind/bert-base-portuguese-cased were not used when initializing BertForSequenceClassification: ['cls.predictions.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.decoder.weight', 'cls.seq_relationship.weight', 'cls.seq_relationship.bias']
- This IS expected if you are initializing BertForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForSequenceClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of BertForSequenceClassification were not initialized from the

#### Creating dataloaders

In [None]:
from torch.utils.data import DataLoader, RandomSampler, SequentialSampler

In [None]:
batch_size = 32

dataloader_train = DataLoader(dataset_train, 
                              sampler=RandomSampler(dataset_train), 
                              batch_size=batch_size)

dataloader_test = DataLoader(dataset_test, 
                                   sampler=SequentialSampler(dataset_test), 
                                   batch_size=batch_size)

#### Defining optimizer and scheduler

In [None]:
from transformers import AdamW, get_linear_schedule_with_warmup

In [None]:
optimizer = AdamW(model.parameters(),
                  lr=1e-5, 
                  eps=1e-8)

In [None]:
epochs = 3

scheduler = get_linear_schedule_with_warmup(optimizer, 
                                            num_warmup_steps=0,
                                            num_training_steps=len(dataloader_train)*epochs)

#### Specifying performance metrics

Also inspired by [this](https://mccormickml.com/2019/07/22/BERT-fine-tuning/#41-bertforsequenceclassification) tutorial.

In [None]:
import numpy as np
from sklearn.metrics import f1_score

In [None]:
def f1_score_func(preds, labels):
    preds_flat = np.argmax(preds, axis=1).flatten()
    labels_flat = labels.flatten()
    return f1_score(labels_flat, preds_flat, average='weighted')

In [None]:
def accuracy_per_class(preds, labels):
    label_dict_inverse = {v: k for k, v in label_dict.items()}
    
    preds_flat = np.argmax(preds, axis=1).flatten()
    labels_flat = labels.flatten()

    for label in np.unique(labels_flat):
        y_preds = preds_flat[labels_flat==label]
        y_true = labels_flat[labels_flat==label]
        print(f'Class: {label_dict_inverse[label]}')
        print(f'Accuracy: {len(y_preds[y_preds==label])}/{len(y_true)}\n')

#### Creating training loop

Adapted from the original `run_glue.py` [script](https://github.com/huggingface/transformers/blob/5bfcd0485ece086ebcbed2d008813037968a9e58/examples/run_glue.py#L128).

In [None]:
import random

seed_val = 17
random.seed(seed_val)
np.random.seed(seed_val)
torch.manual_seed(seed_val)
torch.cuda.manual_seed_all(seed_val)

In [None]:
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model.to(device)

print(device)

cuda


In [None]:
def evaluate(dataloader_val):

    model.eval()
    
    loss_val_total = 0
    predictions, true_vals = [], []
    
    for batch in dataloader_val:
        
        batch = tuple(b.to(device) for b in batch)
        
        inputs = {'input_ids':      batch[0],
                  'attention_mask': batch[1],
                  'labels':         batch[2],
                 }

        with torch.no_grad():        
            outputs = model(**inputs)
            
        loss = outputs[0]
        logits = outputs[1]
        loss_val_total += loss.item()

        logits = logits.detach().cpu().numpy()
        label_ids = inputs['labels'].cpu().numpy()
        predictions.append(logits)
        true_vals.append(label_ids)
    
    loss_val_avg = loss_val_total/len(dataloader_val) 
    
    predictions = np.concatenate(predictions, axis=0)
    true_vals = np.concatenate(true_vals, axis=0)
            
    return loss_val_avg, predictions, true_vals

In [None]:
for epoch in tqdm(range(1, epochs+1)):
    
    model.train()
    
    loss_train_total = 0

    progress_bar = tqdm(dataloader_train, desc='Epoch {:1d}'.format(epoch), leave=False, disable=False)
    for batch in progress_bar:

        model.zero_grad()
        
        batch = tuple(b.to(device) for b in batch)
        
        inputs = {'input_ids':      batch[0],
                  'attention_mask': batch[1],
                  'labels':         batch[2],
                 }       

        outputs = model(**inputs)
        
        loss = outputs[0]
        loss_train_total += loss.item()
        loss.backward()

        torch.nn.utils.clip_grad_norm_(model.parameters(), 1.0)

        optimizer.step()
        scheduler.step()
        
        progress_bar.set_postfix({'training_loss': '{:.3f}'.format(loss.item()/len(batch))})
         
        
    torch.save(model.state_dict(), f'finetuned_BERT_epoch_{epoch}.model')
        
    tqdm.write(f'\nEpoch {epoch}')
    
    loss_train_avg = loss_train_total/len(dataloader_train)            
    tqdm.write(f'Training loss: {loss_train_avg}')
    
    val_loss, predictions, true_vals = evaluate(dataloader_test)
    val_f1 = f1_score_func(predictions, true_vals)
    tqdm.write(f'Validation loss: {val_loss}')
    tqdm.write(f'F1 Score (Weighted): {val_f1}')

HBox(children=(FloatProgress(value=0.0, max=3.0), HTML(value='')))

HBox(children=(FloatProgress(value=0.0, description='Epoch 1', max=1595.0, style=ProgressStyle(description_wid…


Epoch 1
Training loss: 0.5419387039468626
Validation loss: 0.05313367645004134
F1 Score (Weighted): 0.9920294261986637


HBox(children=(FloatProgress(value=0.0, description='Epoch 2', max=1595.0, style=ProgressStyle(description_wid…


Epoch 2
Training loss: 0.036105727803306564
Validation loss: 0.03604652079853362
F1 Score (Weighted): 0.9947349274823766


HBox(children=(FloatProgress(value=0.0, description='Epoch 3', max=1595.0, style=ProgressStyle(description_wid…


Epoch 3
Training loss: 0.022422375769404035
Validation loss: 0.03246861748345707
F1 Score (Weighted): 0.9952122570748156



We can see above that the BERT model's performance is great! 99,5% of F1-score.

#### Saving the best model

In [None]:
!cp /content/finetuned_BERT_epoch_3.model /content/drive/MyDrive

#### Running evaluation scripts

In [None]:
_, predictions, true_vals = evaluate(dataloader_test)

In [None]:
accuracy_per_class(predictions, true_vals)

Class: PT
Accuracy: 3109/3118

Class: PDT
Accuracy: 463/463

Class: DEM
Accuracy: 944/950

Class: MDB
Accuracy: 3557/3571

Class: PODEMOS
Accuracy: 732/735

Class: PL
Accuracy: 403/409

Class: PCdoB
Accuracy: 260/260

Class: SOLIDARIEDADE
Accuracy: 84/84

Class: S/Partido
Accuracy: 275/279

Class: PSDB
Accuracy: 3078/3095

Class: PROS
Accuracy: 164/165

Class: PTB
Accuracy: 998/1000

Class: PP
Accuracy: 553/556

Class: PSB
Accuracy: 864/869

Class: PSD
Accuracy: 158/159

Class: CIDADANIA
Accuracy: 339/340

Class: PV
Accuracy: 132/133

Class: PSC
Accuracy: 291/292

Class: REDE
Accuracy: 146/146

Class: PSOL
Accuracy: 207/208

Class: REPUBLICANOS
Accuracy: 161/162

Class: PPL
Accuracy: 0/2

Class: PSL
Accuracy: 11/12

Class: PRTB
Accuracy: 0/1



Comparing to the baseline results, BERT's model performed with a nifty 99,5% F1-Score.

In [None]:
results

Unnamed: 0,Precision,Recall,F1 score,support
tfidf + regressão,0.8283,0.806926,0.799848,
tfidf + SVM,0.898456,0.895937,0.895464,


### Embeddings

#### Stratified Sampling

In [None]:
data.shape[0]

68848

The original dataset tested before have 68848 rows. Build a embedding representation for the whole dataset is computational unfeasiable due to the 12 GB of RAM in Colab. For this reason, I sampled 5% of the original size and removed the categories with few examples.

In [None]:
N = np.floor(data.shape[0]/20)
# Ref below: https://www.statology.org/stratified-sampling-pandas/
sample_str = data.groupby('SiglaPartidoParlamentar').apply(lambda x: x.sample(int(np.rint(N*len(x)/len(data))))).sample(frac=1).reset_index(drop=True)

In [None]:
data.SiglaPartidoParlamentar.value_counts()

MDB              14460
PT               12608
PSDB             12484
PTB               4047
DEM               3848
PSB               3517
PODEMOS           2962
PP                2263
PDT               1872
PL                1653
CIDADANIA         1364
PSC               1168
S/Partido         1166
PCdoB             1087
PSOL               831
PROS               662
REPUBLICANOS       654
PSD                649
REDE               617
PV                 536
SOLIDARIEDADE      337
PSL                 50
PPL                  8
PRTB                 5
Name: SiglaPartidoParlamentar, dtype: int64

In [None]:
sample_str.SiglaPartidoParlamentar.value_counts()

MDB              723
PT               630
PSDB             624
PTB              202
DEM              192
PSB              176
PODEMOS          148
PP               113
PDT               94
PL                83
CIDADANIA         68
PSC               58
S/Partido         58
PCdoB             54
PSOL              42
REPUBLICANOS      33
PROS              33
PSD               32
REDE              31
PV                27
SOLIDARIEDADE     17
PSL                2
Name: SiglaPartidoParlamentar, dtype: int64

We'll remove PSL instances because of the small amount of instances.

In [None]:
sample_str = sample_str[sample_str.SiglaPartidoParlamentar != 'PSL']
sample_str.SiglaPartidoParlamentar.value_counts()

MDB              723
PT               630
PSDB             624
PTB              202
DEM              192
PSB              176
PODEMOS          148
PP               113
PDT               94
PL                83
CIDADANIA         68
S/Partido         58
PSC               58
PCdoB             54
PSOL              42
PROS              33
REPUBLICANOS      33
PSD               32
REDE              31
PV                27
SOLIDARIEDADE     17
Name: SiglaPartidoParlamentar, dtype: int64

#### Embedding dataframe creation

In [None]:
path_w2v_cbow300 = '/content/drive/My Drive/pesquisa/embeddings_NILC_W2V/cbow_s300.txt'

Here, we'll instantiate a dict and append the first 100000 terms as keys and lists with their vector representations. As we have an embedding of 300 dimensions, each list will store 300 float values.

In [None]:
dictionary = open(path_w2v_cbow300, 'r', encoding='utf-8',
                  newline='\n', errors='ignore')
embeds = {}
for line in dictionary:
    tokens = line.rstrip().split(' ')
    embeds[tokens[0]] = [float(x) for x in tokens[1:]]
    
    if len(embeds) == 100000:
        break

print(len(embeds))

100000


We'll build a list containing the speeches' texts and use a function for tokenize them. We'll use only the first 256 tokens of each speech - for BERT comparision purposes!

In [None]:
speeches = sample_str.Conteudo.to_list()
speeches[0]

'O SR. AROLDE DE OLIVEIRA  (PSD - RJ. Para discursar.) – Presidente Soraya Thronicke, colegas Parlamentares, Senadores Marcos do Val, Eduardo Girão, Elmano Férrer, Jayme Campos, eu serei breve. O escopo, a estrutura da frente parlamentar já foi devidamente colocada pela Presidente, então, eu vou apenas tratar de outros assuntos que são mais ou menos paralelos e que são importantes. \xa0\xa0\xa0\xa0Quando se trata de gastos públicos, nós estamos tratando de orçamentação, de Orçamento. \xa0\xa0\xa0\xa0No Brasil, o nosso orçamento é um orçamento autorizativo, simplesmente autorizativo. O que significa isso? Significa que a elaboração do orçamento decorre muito da vontade política do próprio Governo e é apresentado ao Congresso Nacional, que tem comissão mista que avalia e que faz. E existem naturalmente ali muitas negociações para a destinação desse orçamento, do orçamento público.  \xa0\xa0\xa0\xa0O importante é levar em conta que um orçamento autorizativo, então, não está focado na elab

In [None]:
from tqdm import tqdm

tqdm.pandas(desc="progress-bar")
# Function for tokenizing
def tokenize_text(text):
    tokens = []
    for sent in nltk.sent_tokenize(text):
        for word in nltk.word_tokenize(sent):
            if len(word) < 2:
                continue
            tokens.append(word.lower())
        if len(tokens) == 256:
          return tokens
    return tokens

In [None]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

Here is where we build the embedding representation of our dataset. 
1. Create a dataframe;
2. We tokenize and save the first 256 terms of each speech in a variable `words`;
3. For each element in `words` we check its correspondant vector representation in our earlier created dict. If the term doesn't exist in the dict, we just move on to the next one;
4. If each one of the 256 tokens do exist in our dict, our row will have a shape of (1, 76800). In cases where we have less than 256 terms added - when the term doesn't exist in the dict, for instance - we would have a different shape, and it could bring us trouble during training. To solve that issue, we save in a variable `array_length` the size we expect for each dataframe row and add zeroes to the row which had less than 256 terms. This way we make sure that the shape of each row will be always (1, 76800);
5. We append each processed line in the created dataframe.

In [None]:
# 256 tokens * 300 dimensions
array_length = 76800
embedding_features = pd.DataFrame()
for document in tqdm(speeches):
    # Saving the first 256 words of the document as a sequence
    words = tokenize_text(document)[0:256]
    
    # Retrieving the vector representation of each word and 
    # appending it to the feature vector 
    feature_vector = []
    for word in words:
        try:
            feature_vector = np.append(feature_vector, 
                                       np.array(embeds[word]))
        except KeyError:
            # In the event that a word is not included in our 
            # dictionary skip that word
            pass
    # If the text has less then 100 words, fill remaining vector with
    # zeros
    zeroes_to_add = array_length - len(feature_vector)
    if zeroes_to_add > 0:
      feature_vector = np.append(feature_vector, 
                                np.zeros(zeroes_to_add)
                                ).reshape((1,-1))
    
    feature_vector = feature_vector.reshape((1,-1))
    
    # Append the document feature vector to the feature table
    embedding_features = embedding_features.append( 
                                     pd.DataFrame(feature_vector))
print(embedding_features.shape)

100%|██████████| 3438/3438 [21:29<00:00,  2.67it/s]

(3438, 76800)





#### Split and classifiers instantiation

Here we split the embedding dataframe in train and test. The same setup configurations of the last tests were keeped for comparasion reasons.

In [None]:
X_train_samp, X_test_samp, y_train_samp, y_test_samp = train_test_split(sample_str['Conteudo'], sample_str['label'], test_size=0.25, random_state=14, stratify=sample_str['label'])

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer()

# fit_transform no treino
X_csr_train_samp = vectorizer.fit_transform(X_train_samp)
print(X_csr_train_samp.shape)

# apenas transform no teste
X_csr_test_samp = vectorizer.transform(X_test_samp)
print(X_csr_test_samp.shape)

(5159, 86513)
(1720, 86513)


In [None]:
emb_train, emb_test = train_test_split(embedding_features, test_size=0.25, random_state=14, stratify=sample_str['label'])

print(emb_train.shape, emb_test.shape)

(2578, 76800) (860, 76800)


The embedding used here is Word2vec CBOW 300 dimensions. The classifiers used were SVM and Logistic Regression, both with standard parameters,  the same setup employed in TFIDF representation test.

In [None]:
svm_w2v_cbow300 = LinearSVC(max_iter=40000)
svm_w2v_cbow300.fit(emb_train, y_train_samp)
svm_pred_w2v_cbow300 = svm_w2v_cbow300.predict(emb_test)

In [None]:
w2v_cbow300_logreg = LogisticRegression(max_iter=25000)
w2v_cbow300_logreg.fit(emb_train, y_train_samp)
y_pred_w2v_cbow300_reg = w2v_cbow300_logreg.predict(emb_test)

#### Evaluation

In [None]:
from sklearn.metrics import precision_recall_fscore_support

In [None]:
results = pd.DataFrame(columns = ['Precision', 'Recall', 'F1 score', 'support']
          )
results.loc['w2v + log reg'] = precision_recall_fscore_support(
          y_test_samp, 
          y_pred_w2v_cbow300_reg, 
          average = 'weighted'
          )
results.loc['w2v + SVM'] = precision_recall_fscore_support(
          y_test_samp, 
          svm_pred_w2v_cbow300, 
          average = 'weighted'
          )

In [None]:
results

Unnamed: 0,Precision,Recall,F1 score,support
w2v + log reg,0.599741,0.590698,0.541338,
w2v + SVM,0.671685,0.639535,0.606722,
