**IFSP - Campus Campinas** <br>
**Pós-graduação em Ciência de Dados** <br>
**Disciplina D3TOP/2023 – Tópicos em Ciência de Dados** <br>

**Projeto em Grupo - Parte 2**

#### Sprint 4 - v 2.4 
- continuando com dados salvos no Sprint 3, já pre-processados com SpaCy
- pre-processamento com Neattext na coluna **'Ementa'** da PLO
- feature extraction com TfidfVectorizer na coluna **'Ementa'** da PLO
- treinamento com LogisticRegression
- rodado em PC local (não AWS)


Professor: Samuel Martins (samuel.martins@ifsp.edu.br)<br>
Aluno: Swift Motoo Yaguchi - CP301665X

------

### 1. Etapa de limpeza e pré-processamento

##### Instalando bibliotecas

In [1]:
#Upgrade dependencies
#!pip install --upgrade pip
#!pip install --upgrade scikit-learn
#!pip install --upgrade wordcloud
#!pip install --upgrade sagemaker

In [2]:
import pandas as pd
import numpy as np

##### Leitura da base de dados salvo no Sprint 3

In [3]:
# load the datasets
df_train = pd.read_csv('test_dataset_train_3.csv', sep=';', index_col=False)
df_test = pd.read_csv('test_dataset_test_3.csv', sep=';', index_col=False)

In [4]:
df_train

Unnamed: 0,Texto,Ementa,Vereador,Data,Nota,isUtil,Label
0,art 10 fica proibido venda comercialização b...,proíbe venda brinquedos constituem réplicas si...,Carmo Luiz,2019,13,não,0
1,art i fica assegurada criança adolescente pai ...,assegura criança adolescente pai mãe responsáv...,Carmo Luiz,2019,7,não,0
2,art 1º fica ins tuído programa municipal popul...,institui programa municipal população imigrant...,Carlão do PT,2019,12,não,0
3,art 10 ficam obrigadas escolas rede privada mu...,dispõe obrigatoriedade escolas rede privada mu...,Gustao Petta,2019,12,não,0
4,art 1º fica denominado praça cyro baldin recre...,denomina praça cyro baldin recreio município c...,Carmo Luiz,2019,9,não,0
...,...,...,...,...,...,...,...
74,projeto lei ordinária passou tramitar projeto ...,institui programa árvores qualidade vida munic...,Luiz Rossini,2019,12,não,0
75,data conforme manifestação procuradoria legisl...,acrescenta art 20a lei nº 9953 18 dezembro 199...,Marcelo Silva,2019,11,não,0
76,art 1º fica denominada praça etelvina ramos pr...,denomina praça etelvina ramos praça pública mu...,Luiz Rossini,2019,9,não,0
77,art 1 lei objetivo implantar postos coletas to...,dispõe obrigatoriedade implantação postos cole...,Cidão Santos,2019,6,não,0


In [5]:
df_test

Unnamed: 0,Texto,Ementa,Vereador,Data,Nota,isUtil,Label
0,art 1 fica declarada órgão utilidade pública m...,declara órgão utilidade pública municipal asso...,Mariana Conti,2019,7,não,0
1,art 1 fica denominada praça jacira guedes pint...,denomina praça jacira guedes pinto alberto pra...,Marcos Bernardelli,2019,9,não,0
2,art 1º fica alterado art 1º lei nº 14045 7 abr...,altera art 1º lei nº 14045 07 abril 2011 inclu...,Professor Alberto,2019,10,não,0
3,data conforme manifestação procuradoria legisl...,estabelece possibilidade corte eou poda árvore...,Nelson Hossri,2019,3,sim,1
4,art lº ficam proibidos comercialização uso esp...,proíbe comércio uso produtos especifica acondi...,Luiz Rossini,2019,13,não,0
5,art i encaminharem nome consumidor inadimplent...,dispõe obrigatoriedade empresas credoras notif...,Cidão Santos,2019,6,não,0
6,art 10 fica declarada órgão utilidade pública ...,declara órgão utilidade pública municipal asso...,Vinicius Gratti,2019,7,não,0
7,art 1 2 fica acrescido s 5 2 art 3 2 lei n 635...,acrescenta 5º art 3º suprime inciso iii art 5º...,Tenente Santini,2019,5,sim,1
8,art 1º estabelecimentos situados âmbito municí...,dispõe disponibilização espaços destinados col...,Permínio Monteiro,2019,14,não,0
9,art 1º fica denominada praça maria souza ruiz ...,denomina praça maria souza ruiz praça pública ...,Carlão do PT,2019,9,não,0


In [6]:
print('O tamanho do dataset de treino é:', df_train.shape)
print('O tamanho do dataset de teste é:', df_test.shape)

O tamanho do dataset de treino é: (79, 7)
O tamanho do dataset de teste é: (20, 7)


##### Nova remoção na coluna 'Texto' usando biblioteca neattext
- lowering, expand contractions
- remove:
  + punctuations, stop words, urls, emails, numbers, emojis, phone numbers, multiple whitespaces, currency symbols, special characters

In [7]:
import neattext.functions as ntx

def text_preprocessing(text_in: str) -> str:
    text = text_in.lower()
    text = ntx.fix_contractions(text)
    text = ntx.remove_punctuations(text)
    text = ntx.remove_stopwords(text)
    text = ntx.remove_urls(text)
    text = ntx.remove_emails(text)
    text = ntx.remove_numbers(text)
    text = ntx.remove_emojis(text)
    text = ntx.remove_phone_numbers(text)
    text = ntx.remove_multiple_spaces(text)
    text = ntx.remove_currency_symbols(text)
    text = ntx.remove_special_characters(text)
    return text

In [8]:
# progress bar in pandas
#!pip install tqdm

In [9]:
from tqdm import tqdm
tqdm.pandas()  # it enables some new progress bar functions/methods for pandas

In [10]:
# pre-process the training set
df_train['Ementa-pre'] = df_train['Ementa'].progress_apply(lambda text: text_preprocessing(text))

100%|█████████████████████████████████████████████████████████████████████████████████| 79/79 [00:00<00:00, 868.67it/s]


In [11]:
df_train.head()

Unnamed: 0,Texto,Ementa,Vereador,Data,Nota,isUtil,Label,Ementa-pre
0,art 10 fica proibido venda comercialização b...,proíbe venda brinquedos constituem réplicas si...,Carmo Luiz,2019,13,não,0,probe venda brinquedos constituem rplicas simu...
1,art i fica assegurada criança adolescente pai ...,assegura criança adolescente pai mãe responsáv...,Carmo Luiz,2019,7,não,0,assegura criana adolescente pai me responsvel ...
2,art 1º fica ins tuído programa municipal popul...,institui programa municipal população imigrant...,Carlão do PT,2019,12,não,0,institui programa municipal populao imigrante ...
3,art 10 ficam obrigadas escolas rede privada mu...,dispõe obrigatoriedade escolas rede privada mu...,Gustao Petta,2019,12,não,0,dispe obrigatoriedade escolas rede privada mun...
4,art 1º fica denominado praça cyro baldin recre...,denomina praça cyro baldin recreio município c...,Carmo Luiz,2019,9,não,0,denomina praa cyro baldin recreio municpio cam...


In [12]:
# pre-process the training set
df_test['Ementa-pre'] = df_test['Ementa'].progress_apply(lambda text: text_preprocessing(text))

100%|████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 1333.96it/s]


In [13]:
df_test.head()

Unnamed: 0,Texto,Ementa,Vereador,Data,Nota,isUtil,Label,Ementa-pre
0,art 1 fica declarada órgão utilidade pública m...,declara órgão utilidade pública municipal asso...,Mariana Conti,2019,7,não,0,declara rgo utilidade pblica municipal associa...
1,art 1 fica denominada praça jacira guedes pint...,denomina praça jacira guedes pinto alberto pra...,Marcos Bernardelli,2019,9,não,0,denomina praa jacira guedes pinto alberto praa...
2,art 1º fica alterado art 1º lei nº 14045 7 abr...,altera art 1º lei nº 14045 07 abril 2011 inclu...,Professor Alberto,2019,10,não,0,altera art lei n abril inclui calendrio ofici...
3,data conforme manifestação procuradoria legisl...,estabelece possibilidade corte eou poda árvore...,Nelson Hossri,2019,3,sim,1,estabelece possibilidade corte eou poda rvores...
4,art lº ficam proibidos comercialização uso esp...,proíbe comércio uso produtos especifica acondi...,Luiz Rossini,2019,13,não,0,probe comrcio uso produtos especifica acondici...


### 3. Feature Extraction

In [14]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf = TfidfVectorizer()

X_train = tfidf.fit_transform(df_train['Ementa-pre'])
y_train = df_train['Label']

X_test = tfidf.transform(df_test['Ementa-pre'])
y_test = df_test['Label']

In [15]:
X_train.shape, X_test.shape

((79, 472), (20, 472))

In [16]:
print(f'Vocabulary size: {len(tfidf.vocabulary_)}')

Vocabulary size: 472


### 4. Treinamento de modelos

In [17]:
from sklearn.linear_model import LogisticRegression

logreg = LogisticRegression(class_weight='balanced', n_jobs=-1)

logreg.fit(X_train, y_train)

In [18]:
# prediction on training set
y_train_pred = logreg.predict(X_train)

In [19]:
from sklearn.metrics import classification_report

#print(classification_report(y_train, y_train_pred, target_names=target_names))
print(classification_report(y_train, y_train_pred))

              precision    recall  f1-score   support

           0       1.00      0.97      0.98        65
           1       0.88      1.00      0.93        14

    accuracy                           0.97        79
   macro avg       0.94      0.98      0.96        79
weighted avg       0.98      0.97      0.98        79



In [20]:
from sklearn.metrics import f1_score

f1_train = f1_score(y_train, y_train_pred, average='macro')

print(f'F1 Train: {f1_train}')

F1 Train: 0.9588541666666666


In [21]:
from sklearn.metrics import balanced_accuracy_score

balacc_train = balanced_accuracy_score(y_train, y_train_pred)

print(f'Balanced Acc Train: {balacc_train}')

Balanced Acc Train: 0.9846153846153847


#### Evaluate the model on the Test Set

In [22]:
# prediction on testing set
y_test_pred = logreg.predict(X_test)

In [23]:
#from sklearn.metrics import classification_report
print(classification_report(y_test, y_test_pred))

              precision    recall  f1-score   support

           0       0.89      1.00      0.94        17
           1       1.00      0.33      0.50         3

    accuracy                           0.90        20
   macro avg       0.95      0.67      0.72        20
weighted avg       0.91      0.90      0.88        20



In [24]:
from sklearn.metrics import f1_score
f1_test = f1_score(y_test, y_test_pred, average='macro')
print(f'F1 Test: {f1_test}')

F1 Test: 0.7222222222222222


O resultado **F1 score** diminuiu um pouco em relação ao Sprint 3, devido ao menor vocabulário no campo 'Ementa' em relação ao campo "Texto'