In [1]:
import pandas as pd
import re
import sqlalchemy as sa
import nltk
from nltk.corpus import stopwords
import json
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.preprocessing import normalize


In [2]:
df_proposicoes = pd.read_csv("../scripts/df_proposicoes_treino.csv")
df_proposicoes = df_proposicoes.drop(columns=["Unnamed: 0"])

In [3]:
nltk.download('stopwords')
stop_words = set(stopwords.words('portuguese'))
def limpar_keywords(keywords):
    new_keywords = [re.sub(r"\(.*\)", "", x) for x in keywords]
    new_keywords = [" ".join([word for word in x.split() if word not in stop_words]) for x in new_keywords]
    return new_keywords

[nltk_data] Downloading package stopwords to
[nltk_data]     /home/arthurs/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [4]:
connection = sa.create_engine("postgresql://docker:docker@localhost/tcc")
df_keywords_por_proposicao = pd.read_sql(sa.text("""
select p.id, array_agg(pk.keyword) as keywords
from tcc.proposicoes p
join tcc.proposicoes_keywords pk on pk.proposicao_id = p.id
group by p.id;
"""),connection)

In [5]:
def extrair_keywords(row):
    id = row["id_proposicao"]
    res = df_keywords_por_proposicao[df_keywords_por_proposicao["id"] == id].keywords
    if (len(res) == 0):
        return []
    keywords = res.iloc[0]
    return limpar_keywords(keywords)

df_proposicoes["keywords"] = df_proposicoes.apply(extrair_keywords, axis=1)

In [6]:
with open("./clusters_final.json", "r") as f:
    clusters = json.load(f)
    f.close()

In [7]:
clusters_inverse = {}
for key, value in clusters.items():
    for word in value:
        clusters_inverse[word] = key

In [8]:
def encontrar_clusters(row):
    current_clusters = set()
    for keyword in row["keywords"]:
        if keyword in clusters_inverse:
            current_clusters.add(clusters_inverse[keyword])
    return list(current_clusters)

In [9]:
def first_10_keywords(keywords):
    if len(keywords) <= 10:
        return keywords
    else:
        return keywords[:10]

## pegando 10 primeiras keywords de cada proposicao
df_proposicoes = df_proposicoes.assign(keywords = df_proposicoes["keywords"].apply(first_10_keywords))
df_proposicoes = df_proposicoes.assign(proposicoes_clusters = df_proposicoes.apply(encontrar_clusters, axis=1))

## Multi label classification

In [10]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MultiLabelBinarizer

df_proposicoes_com_keywords = df_proposicoes[df_proposicoes["proposicoes_clusters"].apply(lambda x: len(x) > 0)]

X = df_proposicoes_com_keywords["ementa_do_pdf_1pag_limpo"]
y = df_proposicoes_com_keywords["proposicoes_clusters"]

tfidf_vectorizer = TfidfVectorizer()
X_tfidf = tfidf_vectorizer.fit_transform(X)
mlb = MultiLabelBinarizer()
y_encoded = mlb.fit_transform(y)

X_train, X_test, y_train, y_test = train_test_split(X_tfidf, y_encoded, test_size=0.2, random_state=42)

In [11]:
from sklearn.metrics import precision_score, recall_score, f1_score, confusion_matrix


def exibir_metricas(model, X_test, y_test):
    y_pred = model.predict(X_test)
    precision = precision_score(y_test, y_pred, average='micro')
    recall = recall_score(y_test, y_pred, average='micro')
    f1 = f1_score(y_test, y_pred, average='micro')
    # conf_matrix = confusion_matrix(y_test.argmax(axis=1), y_pred.argmax(axis=1))

    print("Precisão:", precision)
    print("Revocação:", recall)
    print("F1-Score:", f1)
    # print("Matriz de Confusão:")
    # print(conf_matrix)

In [12]:
from sklearn.pipeline import Pipeline
from sklearn.multioutput import MultiOutputClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.multioutput import ClassifierChain
from sklearn.ensemble import GradientBoostingClassifier

multi_output_rfc = Pipeline([
    ('MultiOutputClassifier+RandomForestClassifier', MultiOutputClassifier(RandomForestClassifier()))
])

multi_output_gb = Pipeline([
    ('MultiOutputClassifier+GradientBoostingClassifier', MultiOutputClassifier(GradientBoostingClassifier()))
])

classifier_chain_rfc = Pipeline([
    ('ClassifierChain+RandomForestClassifier', ClassifierChain(RandomForestClassifier()))
])

classifier_chain_gb = Pipeline([
    ('ClassifierChain+GradientBoostingClassifier', ClassifierChain(GradientBoostingClassifier()))
])

models = [
    multi_output_rfc,
    # multi_output_gb,
    # classifier_chain_rfc,
    # classifier_chain_gb,
] 

for model in models:
    print(model)
    model.fit(X_train, y_train)
    exibir_metricas(model, X_test, y_test)
    print()

Pipeline(steps=[('MultiOutputClassifier+RandomForestClassifier',
                 MultiOutputClassifier(estimator=RandomForestClassifier()))])
Precisão: 0.7442512619181155
Revocação: 0.6836682122617208
F1-Score: 0.7126745435016111


In [13]:
def exibir_n_proposicoes_com_categorias(n, model):
    df = df_proposicoes_com_keywords.sample(n)
    X = df["ementa_do_pdf_1pag_limpo"]
    y = model.predict(tfidf_vectorizer.transform(X))
    for i in range(n):
        # print("Proposição:", df.iloc[i]["uri_documento"])
        # print("Categorias:", mlb.inverse_transform(y[i].reshape(1, -1)))
        print(X.iloc[i])
        print(y[i])
        print()
    

In [14]:
exibir_n_proposicoes_com_categorias(3, multi_output_rfc)

ee NR Art º Esta lei entra vigor primeiro dia ano seguinte Í publicação A N Art º Esta lei entra vigor primeiro dia ano seguinte É publicação Câmaa Desutados Avexo Gao nete CEP Bras aíDF ta Telefone cepicoo Qiamarna dagbr ES XXIV proventos aposentadoria inatividade reforma invalidez razão cargo integrantes carreiras policiais órgãos tratam º art inciso IV caput art ínciso XIll caput art incisos Vl art quardas municipais trata º art agentes trânsito trata inciso l º art todos Constituição Federal perícia oficial natureza criminal agentes segurança socioeducativos militares Forças Armadas O Congresso Nacional decreta Art º Esta Lei altera Lei nº dezembro conceder isenção imposto renda sobre proventos aposentadoria inatividade reforma invalidez razão cargo servidores militares atuam atividade defesa nacional segurança pública Art º O art º Lei nº dezembro passa vigorar seguinte redação
[1 1 0 0 1 0 1 0 0 0 1 0 1 0 1]

A oftamologia especialidade médica integra atenção ªí especializada Sis

In [15]:
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.metrics import confusion_matrix

y_pred = multi_output_rfc.predict(X_test)
conf_matrix = confusion_matrix(y_test, y_pred)

## TODO: pegar classes
classes = ["Classe 1", "Classe 2", ..., "Classe 16"]

plt.figure(figsize=(10, 8))
sns.heatmap(conf_matrix, annot=True, fmt='d', cmap='Blues', xticklabels=classes, yticklabels=classes)
plt.xlabel('Predicted labels')
plt.ylabel('True labels')
plt.title('Confusion Matrix')
plt.show()

ValueError: multilabel-indicator is not supported