# Trabalho Final de Mineração de Dados

## Importando bibliotecas

In [90]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report
from sklearn.metrics import f1_score
from sklearn.feature_extraction.text import TfidfVectorizer
from nltk.corpus import stopwords
from sklearn import metrics
from imblearn.over_sampling import SMOTE
from pathlib import Path
import os
import pandas as pd
import numpy as np
import nltk
nltk.download("punkt")
nltk.download("stopwords")

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

## 1 - Fase de Preparação dos Dados
---

Carregando o arquivo original de classes.

In [91]:
url = "https://raw.githubusercontent.com/vanerven/md-trabalho-final/master/dados/csv/SistemaDeClassificacao.csv"
classes_original = pd.read_csv(url, sep=',', encoding='ISO-8859-1')
classes_original.head()

Unnamed: 0,Unnamed: 1,COD_CLASSE,DES_NOME_PREFERIDO,COD_CLASSE_PAI,NUM_NIVEL,CYCLE,TREE,PATH,QTD_FILHOS,DES_NIVEL1,DES_NIVEL2,DES_NIVEL3,DES_NIVEL4
0,1,33254494,Classificação Temática Unificada,,1,0,Classificação Temática Unificada,Classificação Temática Unificada,202,,,,
1,2,33809814,Temas Exclusivos de Pronunciamentos,33254494.0,2,0,-- Temas Exclusivos de Pronunciamentos,Classificação Temática Unificada / Temas Exclu...,22,Temas Exclusivos de Pronunciamentos,,,
2,3,33809634,Meio Ambiente,33254494.0,2,0,-- Meio Ambiente,Classificação Temática Unificada / Meio Ambiente,11,Meio Ambiente,,,
3,4,33809514,"Soberania, Defesa Nacional e Ordem Pública",33254494.0,2,0,"-- Soberania, Defesa Nacional e Ordem Pública","Classificação Temática Unificada / Soberania, ...",7,"Soberania, Defesa Nacional e Ordem Pública",,,
4,5,33808912,Política Social,33254494.0,2,0,-- Política Social,Classificação Temática Unificada / Política So...,37,Política Social,,,


Filtra o arquivo de classes original para exibir apenas aquelas que serão raiz na classificação da ementa.
Essa classes possuem nível 2 na tabela original.

In [92]:
classes_raiz = classes_original.query("NUM_NIVEL == 2").filter(["COD_CLASSE", "DES_NOME_PREFERIDO"])
classes_raiz.rename(columns={"DES_NOME_PREFERIDO": "DES_CLASSE"}, inplace=True)
classes_raiz

Unnamed: 0,COD_CLASSE,DES_CLASSE
1,33809814,Temas Exclusivos de Pronunciamentos
2,33809634,Meio Ambiente
3,33809514,"Soberania, Defesa Nacional e Ordem Pública"
4,33808912,Política Social
5,33805362,Jurídico
6,33805317,Honorífico
7,33805137,Infraestrutura
8,33769167,Economia e Desenvolvimento
9,33768972,Organização do Estado
10,33685789,Administração Pública


Carrega o dataset contendo as leis que já foram classificadas. Com os dados carregados, cria uma coluna derivada (DES_CLASSE_RAIZ) a partir da árvore de classes (DES_CLASSE_HIERARQUIA), da qual a informação de classe raiz é extraída.

In [93]:
url = "https://raw.githubusercontent.com/vanerven/md-trabalho-final/master/dados/csv/ClassificacaoDeLeisOrdinarias-LeisComplementares-e-DecretosNumerados-Desde1900.csv"
leis_classificadas_original = pd.read_csv(url, sep=',', encoding='ISO-8859-1')
leis_classificadas_original["DES_CLASSE_RAIZ"] = leis_classificadas_original["DES_CLASSE_HIERARQUIA"].apply(lambda hierarquia : hierarquia.split(" / ")[1])
leis_classificadas_original.head()

Unnamed: 0,Unnamed: 1,COD_PRC_DOC_TEMA,COD_PROCESSO_DOCUMENTO,COD_CLASSE,DES_CLASSE,DES_CLASSE_HIERARQUIA,DES_CLASSE_RAIZ
0,1,36155183,386343,33805827,Crédito Suplementar,Classificação Temática Unificada / Orçamento P...,Orçamento Público
1,2,36192020,386579,33805287,Rádio e TV,Classificação Temática Unificada / Infraestrut...,Infraestrutura
2,3,36155185,387419,33805827,Crédito Suplementar,Classificação Temática Unificada / Orçamento P...,Orçamento Público
3,4,36192056,387832,33805287,Rádio e TV,Classificação Temática Unificada / Infraestrut...,Infraestrutura
4,5,36155187,388197,33805827,Crédito Suplementar,Classificação Temática Unificada / Orçamento P...,Orçamento Público


Carrega os dados de todas as leis (classificadas e não classificadas) e aplica as transformações iniciais.

In [94]:
url = "https://raw.githubusercontent.com/vanerven/md-trabalho-final/master/dados/csv/LeisOrdinarias-LeisComplementare-e-DecretosNumeradosComClassificacaoDesde1900.csv"
leis_original = pd.read_csv(url, sep=',', encoding='ISO-8859-1')
leis_original.rename(columns={"DBMS_LOB.SUBSTR(S01.TXT_EMENTA": "TXT_EMENTA"}, inplace=True)
leis_original.drop(columns="   ", inplace=True)
leis_original.head()

Unnamed: 0,COD_DOCUMENTO,DES_NOME_PREFERIDO,DES_NOMES_ALTERNATIVOS,TXT_EMENTA
0,35345364,Lei nº 14.263 de 22/12/2021,LEI-14263-2021-12-22,Abre ao Orçamento da Seguridade Social da Uniã...
1,26247104,Lei nº 13.486 de 03/10/2017,LEI-13486-2017-10-03,"Altera o art. 8º da Lei nº 8.078, de 11 de set..."
2,27445746,Lei nº 13.701 de 06/08/2018,LEI-13701-2018-08-06,Cria o cargo de natureza especial de Intervent...
3,36348502,Lei nº 14.447 de 09/09/2022,LEI-14447-2022-09-09,Altera os limites da Floresta Nacional de Bras...
4,32103727,Lei nº 13.988 de 14/04/2020,LEI-13988-2020-04-14,Dispõe sobre a transação nas hipóteses que esp...


In [95]:
leis_original.shape[0]

26959

Com os datasets necessários já carregados, cria-se um novo dataset a partir do dataset contendo todas as leis, incluindo-se a informação das classes contidadas nas leis do dataset de leis classificadas.

In [96]:
leis = leis_original.merge(leis_classificadas_original.filter(["COD_PROCESSO_DOCUMENTO","DES_CLASSE_RAIZ"]), left_on="COD_DOCUMENTO", right_on="COD_PROCESSO_DOCUMENTO", how="left")
leis = leis.merge(classes_raiz, left_on="DES_CLASSE_RAIZ", right_on="DES_CLASSE", how="left")
leis.drop(columns=["COD_PROCESSO_DOCUMENTO", "DES_CLASSE_RAIZ"], inplace=True)
leis.head()

Unnamed: 0,COD_DOCUMENTO,DES_NOME_PREFERIDO,DES_NOMES_ALTERNATIVOS,TXT_EMENTA,COD_CLASSE,DES_CLASSE
0,35345364,Lei nº 14.263 de 22/12/2021,LEI-14263-2021-12-22,Abre ao Orçamento da Seguridade Social da Uniã...,33260515.0,Orçamento Público
1,26247104,Lei nº 13.486 de 03/10/2017,LEI-13486-2017-10-03,"Altera o art. 8º da Lei nº 8.078, de 11 de set...",33808912.0,Política Social
2,27445746,Lei nº 13.701 de 06/08/2018,LEI-13701-2018-08-06,Cria o cargo de natureza especial de Intervent...,33768972.0,Organização do Estado
3,36348502,Lei nº 14.447 de 09/09/2022,LEI-14447-2022-09-09,Altera os limites da Floresta Nacional de Bras...,33685789.0,Administração Pública
4,36348502,Lei nº 14.447 de 09/09/2022,LEI-14447-2022-09-09,Altera os limites da Floresta Nacional de Bras...,33809634.0,Meio Ambiente


In [97]:
leis.shape[0]

27743

Limpa os registros duplicados de leis que possuem mais de uma classe folha, mas que tenham mesma classe raiz e exibe as leis que possuem mais de uma classe folha, mas que tenham classes raiz diferentes.

In [98]:
leis.drop_duplicates(inplace=True)
temp = leis[["COD_DOCUMENTO", "COD_CLASSE", "DES_CLASSE"]].groupby("COD_DOCUMENTO")
temp.filter(lambda x: len(x) > 1)

Unnamed: 0,COD_DOCUMENTO,COD_CLASSE,DES_CLASSE
3,36348502,33685789.0,Administração Pública
4,36348502,33809634.0,Meio Ambiente
5,36348502,33769167.0,Economia e Desenvolvimento
20,36062349,33808912.0,Política Social
21,36062349,33769167.0,Economia e Desenvolvimento
...,...,...,...
27349,36032872,33808912.0,Política Social
27350,35556312,33685789.0,Administração Pública
27351,35556312,33808912.0,Política Social
27359,35396946,33809514.0,"Soberania, Defesa Nacional e Ordem Pública"


Tamanho da base tratada de leis.

In [99]:
leis.shape[0]

27294

Total de classificações feitas em leis.

In [100]:
leis_classificadas = leis.query("not COD_CLASSE.isnull()", engine="python")
quantidade_classificacoes = leis_classificadas.shape[0]
quantidade_classificacoes

17438

Número distinto de leis classificadas.

In [101]:
len(leis_classificadas["COD_DOCUMENTO"].unique())

17103

Quantidade de leis a classificar.

In [102]:
leis_nao_classificadas = leis.query("COD_CLASSE.isnull()", engine="python")
leis_nao_classificadas.shape[0]

9856

Verificação da distribuição das classes (em %).

In [103]:
distribuicao_classes = leis_classificadas[["COD_CLASSE", "DES_CLASSE"]].groupby("DES_CLASSE").count() / quantidade_classificacoes * 100
distribuicao_classes.sort_values(by="COD_CLASSE", ascending=False)

Unnamed: 0_level_0,COD_CLASSE
DES_CLASSE,Unnamed: 1_level_1
Orçamento Público,64.181672
Infraestrutura,14.382383
Política Social,5.029246
Administração Pública,4.490194
Honorífico,3.847918
Economia e Desenvolvimento,3.693084
Jurídico,2.184884
"Soberania, Defesa Nacional e Ordem Pública",0.951944
Organização do Estado,0.745498
Meio Ambiente,0.493176


## 2 - Classifiers
***

In [104]:
def model(law_class):
    c = law_class
    model = {}

    X = leis_classificadas.drop(columns=["COD_CLASSE", "DES_CLASSE"])
    y = leis_classificadas["DES_CLASSE"].apply(lambda label: 1 if label.lower() == c.lower() else 0)
    X_treino, X_teste, y_treino, y_teste = train_test_split(X, y, test_size=0.2, stratify=y, random_state=42)

    vectorizer = TfidfVectorizer(stop_words=stopwords.words('portuguese'), ngram_range = (1,2))
    vectorizer.fit(X_treino['TXT_EMENTA'])
    X_tfidf_treino = vectorizer.transform(X_treino['TXT_EMENTA'])
    X_tfidf_teste = vectorizer.transform(X_teste['TXT_EMENTA'])

    oversample = SMOTE()
    X_smote_treino, y_smote_treino = oversample.fit_resample(X_tfidf_treino, y_treino)

    classificador = LogisticRegression(max_iter=3000)
    classificador.fit(X_smote_treino, y_smote_treino)
    classe_prevista = classificador.predict(X_tfidf_teste)
    acuracia = f1_score(classe_prevista, y_teste)
    print("Acurácia LinearRegressor:",  round(acuracia, 2))
    cr = classification_report(y_teste, classe_prevista)
    model = (c, acuracia, classificador, vectorizer)
    print(cr)

    return model

In [105]:
def warn(*args, **kwargs):
    pass
import warnings
warnings.warn = warn

models = {}
classes = [ "Administração Pública", 
            "Economia e Desenvolvimento", 
            "Honorífico", 
            "Infraestrutura", 
            "Jurídico", 
            "Meio Ambiente", 
            "Organização do Estado", 
            "Orçamento Público", 
            "Política Social", 
            "Soberania, Defesa Nacional e Ordem Pública"]

for idx in range(len(classes)):
    print(classes[idx])
    models[idx] = model(classes[idx])

Administração Pública
Acurácia LinearRegressor: 0.66
              precision    recall  f1-score   support

           0       0.99      0.97      0.98      3331
           1       0.56      0.82      0.66       157

    accuracy                           0.96      3488
   macro avg       0.77      0.89      0.82      3488
weighted avg       0.97      0.96      0.97      3488

Economia e Desenvolvimento
Acurácia LinearRegressor: 0.53
              precision    recall  f1-score   support

           0       0.99      0.96      0.97      3359
           1       0.40      0.78      0.53       129

    accuracy                           0.95      3488
   macro avg       0.70      0.87      0.75      3488
weighted avg       0.97      0.95      0.96      3488

Honorífico
Acurácia LinearRegressor: 0.94
              precision    recall  f1-score   support

           0       1.00      1.00      1.00      3354
           1       0.90      0.98      0.94       134

    accuracy                 

In [106]:
len(classes)

10

In [107]:
def predict(model):
    c = model[0]
    acuracia = model[1]
    classificador = model[2]
    vectorizer = model[3]

    predicted_data = leis_nao_classificadas['TXT_EMENTA'].dropna(how='all')
    predicted_data.reset_index(drop=True, inplace=True)

    result = classificador.predict(vectorizer.transform(predicted_data))
    predicted_data.index.name = 'INDEX'   
    file = Path("predicted_law.csv")

    if file.is_file():
        column_names = ['TXT_EMENTA', 'DES_CLASSE', 'PREDICAO', 'SCORE']
        predicted_law = pd.read_csv("predicted_law.csv", sep='|', encoding='UTF-8', names=column_names, header=0)
    else:
        predicted_law = pd.DataFrame(predicted_data)
        predicted_law.insert(1, 'DES_CLASSE', list(range(0,len(predicted_data))), True)
        predicted_law.insert(2, 'PREDICAO', list(range(0,len(predicted_data))), True)
        predicted_law.insert(3, 'SCORE', list(range(0,len(predicted_data))), True)
        for idx in range(len(result)):
            predicted_law['DES_CLASSE'][idx] = 'Não identificado'
            predicted_law['PREDICAO'][idx] = 'Não'
            predicted_law['SCORE'][idx] = 'N/A'
    
    for idx in range(len(result)):
        if result[idx] == 1 and predicted_law['PREDICAO'][idx] == 'Não':
            predicted_law['DES_CLASSE'][idx] = c
            predicted_law['PREDICAO'][idx] = 'Sim'
            predicted_law['SCORE'][idx] = round(acuracia, 2)
    
    column_names = ['TXT_EMENTA', 'DES_CLASSE', 'PREDICAO', 'SCORE']
    predicted_law.to_csv("predicted_law.csv", sep='|', encoding='UTF-8', header=column_names, index=False)
    print(predicted_law)
      

In [108]:
file = 'predicted_law.csv'
if(os.path.exists(file) and os.path.isfile(file)):
    os.remove(file)
for idx in range(len(classes)):
    print(classes[idx])
    predict(models[idx])

Administração Pública
                                              TXT_EMENTA  \
INDEX                                                      
0      Autoriza o Poder Executivo a abrir ao Ministér...   
1      Dispõe sobre os vencimentos dos Ministros do S...   
2      Dispõe sobre a forma e a apresentação dos Símb...   
3      Reorganiza e dá nova denominação à Procuradori...   
4      Prorroga por doze meses, a contar de 6 (seis) ...   
...                                                  ...   
9845   Dispõe sobre o funccionamento da Camara Munici...   
9846   Concede as subvenções anuais de Cr$ 1.000.000,...   
9847   Institui o Sistema Nacional de Armas - SINARM,...   
9848   Dispõe sobre a renovação de eleições para Pref...   
9849   Determina os casos em que forças estrangeiras ...   

                  DES_CLASSE PREDICAO SCORE  
INDEX                                        
0           Não identificado      Não   N/A  
1      Administração Pública      Sim  0.66  
2           N