# Classificador de Assuntos

#### Por Ana Carolina Pereira Rocha

Este projeto foi desenvolvido como um entregável de uma dissertação de Mestrado em Computação Aplicada pela Universidade de Brasilia. O código em questão tem o objetivo de testar vários modelos de aprendizagem de máquina para fazer a classificação do assunto principal de processos judiciais trabalhistas de acordo com assuntos da Tabela Processual Unificada de Assuntos do Conselho Nacional de Justiça e Tribunal Superior do Trabalho. São comparados modelos Naive Bayes (NB) , Support Vector Machine (SVM), Random Forest (RF) e Multi-layer Perceptron (MLP). Todos os algoritmos são testados em 10 combinações diferentes de parâmetros, com validação cruzada de 5 folds. Os textos são testados em sua represetanção no formato TF-IDF, BM25 e LSA com 100 e 250 tópicos.

O código em questão executa os seguintes passos:

    Busca em uma pasta os arquivos referentes aos documentos
    Faz o pré processamento dos textos
    Transforma o texto em uma matriz numérica
    Analisa o balanceamento dos dados em função do assunto principal
    Faz um GridSearch para verificar os melhores parâmetros e a melhor forma de se representar os textos nos algoritmos
    Escolhe o melhor modelo de cada algoritmo em função da micro precisão.
    Testa o modelo vencedor de cada algoritmo como as diferentes formas de representação do texto
    Escolhe a combinação vencedora em função da micro precisão




Os modelos de classificação foram treinados para reconhecer os assuntos abaixo, sendo todos assuntos do nível 3 da Tabela Processual Unificada:

    2583 - Abono
    2594 - Adicional
    1663 - Adicional Noturno
    5272 - Administração Pública
    2506 - Ajuda / Tíquete Alimentação
    1806 - Alteração Contratual ou das Condições de Trabalho
    5280 - Bancários
    1767 - Cesta Básica
    1783 - Comissão
    1690 - Contribuição / Taxa Assistencial
    1773 - Contribuição Sindical
    1844 - CTPS
    1888 - Descontos Salariais - Devolução
    1904 - Despedida / Dispensa Imotivada
    2029 - FGTS
    10570 - FGTS
    2055 - Gratificação
    5356 - Grupo Econômico
    2086 - Horas Extras
    1661 - Horas in Itinere
    2021 - Indenização / Dobra / Terço Constitucional
    8808 - Indenização por Dano Material
    1855 - Indenização por Dano Moral
    55220 - Indenização por Dano Moral
    2140 - Intervalo Intrajornada
    1907 - Justa Causa / Falta Grave
    2215 - Multa Prevista em Norma Coletiva
    2554 - Reconhecimento de Relação de Emprego
    2656 - Reintegração / Readmissão ou Indenização
    2435 - Rescisão Indireta
    4437 - Revisão de Sentença Normativa
    2458 - Salário / Diferença Salarial
    2478 - Seguro Desemprego
    2117 - Supressão / Redução de Horas Extras Habituais - Indenização
    2704 - Tomador de Serviços / Terceirização
    2546 - Verbas Rescisórias

PS: O assunto de código 55220 (Indenização por Dano Moral) será agrupado com o assunto 1855 (Indenização por Dano Moral)



#### Pré-requisitos

Para referência, os modelos treinados com este código foram treinados com 180.672 documentos. Como são trabalhados uma grande quantidade de textos por envolver grupos representativos de textos de 35 assuntos diferentes, recomenda-se a utilização mínima de 16 GB de memória RAM e 4 cores. Para cada quatro cores adicionais disponíveis, sugere-se acrescentar mais 16GB de memória.

Os modelos são executados utilizando processamento paralelo, de forma que os modelos de SVM e RF usam 80% dos cores disponíveis, e o NB e MLP usam 35% dos cores (uma vez que tem maior uso de memória RAM) disponíveis.
Entrada

Como entrada, são esperados arquvios csv que contenham as colunas abaixo, na ordem apresentada. Nem todas as informações são utilizadas para a tarefa de classificação, mas foram recuperadas pois são úteis na identificação do documento:

    index: número sequencial de cada linha
    nr_processo: número do processo no formato do CNJ (NNNNNNN-DD.AAAA.JTR.OOOO)
    id_processo_documento: Chave primária da tb_processo_documento
    cd_assunto_nivel_5: Código do nível 5 do assunto principal, se houver. Se não houver, deve ficar vazio
    cd_assunto_nivel_4: Código do nível 4 do assunto principal, se houver. Se não houver, deve ficar vazio
    cd_assunto_nivel_3: Código do nível 3 do assunto principal, se houver. Se não houver, deve ficar vazio
    cd_assunto_nivel_2: Código do nível 2 do assunto principal, se houver. Se não houver, deve ficar vazio
    cd_assunto_nivel_1: Código do nível 1 do assunto principal, se houver. Se não houver, deve ficar vazio
    tx_conteudo_documento: Conteúdo HTML completo do documento
    ds_identificador_unico: Identificador único completo do documento
    ds_identificador_unico_simplificado: 7 últimos dígitos do identificador único do documento (forma de identificação no PJe)
    ds_orgao_julgador: Nome do órgão julgador do processo
    ds_orgao_julgador_colegiado: Nome do órgão julgador colegiado do processo
    dt_juntada: Data da juntada do documento

É esperado um arquivo CSV por cada regional, com o nome no seguinte padrão: TRT_YY_documentosSelecionados.csv

##### Onde:

YY representa a sigla de cada regional, sendo obrigatório 2 dígitos.

##### Exemplos:

TRT_01_documentosSelecionados.csv

TRT_22_documentosSelecionados.csv

O diretório onde se deve buscar os arquivos deve ser passado com o parametro -dd no momento da chamada do código. Embora seja desejável, não é obrigatório ter arquivos de entrada de todos os regionais.
Saída



#### Saída

Como saída deste pipeline, são gravados diversos arquivos. Seguem:

    Balanceamento_Assuntos_XXX_Elementos.png: Imagem que mostra o balancemento dos assuntos no dataset separado para treinamento
    Distribuição_Tamanho_Textos_XXXX.png: Imagens que mostram um boxplot com a distribuição da quantidade de palavras por documento com todos os docuementos e depois removendo-se os documentos com menos de 400 palavras e mais de 10.000 palavras
    Modelo_XXX.p: Modelos que foram gerados, levando da forma de representação do texto e o algortimo utilizado
    Feature.p: Modelo de transformação do texto
    Metricas.csv: Arquivo que guarda todas as métricas escolhidas de todos os modelos testados (para o primeiro GridSearch, usa-se apenas o modelo vencedor)
    predicao_XXX: Arquivo que contém a predição feita por cada combinação XXX de modelo e features, trazendo também o percentual probabilidade de cada um dos assuntos selecionados no escopo do projeto.
    ClassificationReport_XXX.csv: Arquivo que da a métrica individual de cada um dos assuntos selecionados
    MelhorModelo.p: Modelo vencedor
    MelhorModeloFeature.p: Modelo de transformação de features vencedor

## Setup Inicial

#### Pré-requisitos

Para referência, os modelos treinados com este código foram treinados com 180.672 documentos. Como são trabalhados uma grande quantidade de textos por envolver grupos representativos de textos de 35 assuntos diferentes, recomenda-se a utilização mínima de 16 GB de memória RAM e 4 cores. Para cada quatro cores adicionais disponíveis, sugere-se acrescentar mais 16GB de memória.

Os modelos são executados utilizando processamento paralelo, de forma que os modelos de SVM e RF usam 80% dos cores disponíveis, e o NB e MLP usam 35% dos cores (uma vez que tem maior uso de memória RAM) disponíveis.
Entrada

Como entrada, são esperados arquvios csv que contenham as colunas abaixo, na ordem apresentada. Nem todas as informações são utilizadas para a tarefa de classificação, mas foram recuperadas pois são úteis na identificação do documento:

    index: número sequencial de cada linha
    nr_processo: número do processo no formato do CNJ (NNNNNNN-DD.AAAA.JTR.OOOO)
    id_processo_documento: Chave primária da tb_processo_documento
    cd_assunto_nivel_5: Código do nível 5 do assunto principal, se houver. Se não houver, deve ficar vazio
    cd_assunto_nivel_4: Código do nível 4 do assunto principal, se houver. Se não houver, deve ficar vazio
    cd_assunto_nivel_3: Código do nível 3 do assunto principal, se houver. Se não houver, deve ficar vazio
    cd_assunto_nivel_2: Código do nível 2 do assunto principal, se houver. Se não houver, deve ficar vazio
    cd_assunto_nivel_1: Código do nível 1 do assunto principal, se houver. Se não houver, deve ficar vazio
    tx_conteudo_documento: Conteúdo HTML completo do documento
    ds_identificador_unico: Identificador único completo do documento
    ds_identificador_unico_simplificado: 7 últimos dígitos do identificador único do documento (forma de identificação no PJe)
    ds_orgao_julgador: Nome do órgão julgador do processo
    ds_orgao_julgador_colegiado: Nome do órgão julgador colegiado do processo
    dt_juntada: Data da juntada do documento

É esperado um arquivo CSV por cada regional, com o nome no seguinte padrão: TRT_YY_documentosSelecionados.csv

##### Onde:

YY representa a sigla de cada regional, sendo obrigatório 2 dígitos.

##### Exemplos:

TRT_01_documentosSelecionados.csv

TRT_22_documentosSelecionados.csv

O diretório onde se deve buscar os arquivos deve ser passado com o parametro -dd no momento da chamada do código. Embora seja desejável, não é obrigatório ter arquivos de entrada de todos os regionais.
Saída



#### Saída

Como saída deste pipeline, são gravados diversos arquivos. Seguem:

    Balanceamento_Assuntos_XXX_Elementos.png: Imagem que mostra o balancemento dos assuntos no dataset separado para treinamento
    Distribuição_Tamanho_Textos_XXXX.png: Imagens que mostram um boxplot com a distribuição da quantidade de palavras por documento com todos os docuementos e depois removendo-se os documentos com menos de 400 palavras e mais de 10.000 palavras
    Modelo_XXX.p: Modelos que foram gerados, levando da forma de representação do texto e o algortimo utilizado
    Feature.p: Modelo de transformação do texto
    Metricas.csv: Arquivo que guarda todas as métricas escolhidas de todos os modelos testados (para o primeiro GridSearch, usa-se apenas o modelo vencedor)
    predicao_XXX: Arquivo que contém a predição feita por cada combinação XXX de modelo e features, trazendo também o percentual probabilidade de cada um dos assuntos selecionados no escopo do projeto.
    ClassificationReport_XXX.csv: Arquivo que da a métrica individual de cada um dos assuntos selecionados
    MelhorModelo.p: Modelo vencedor
    MelhorModeloFeature.p: Modelo de transformação de features vencedor

## Setup Inicial

In [None]:
from docutils.nodes import header
from sklearn.naive_bayes import MultinomialNB
from sklearn.ensemble import RandomForestClassifier
from sklearn.neural_network import MLPClassifier
from sklearn.svm import SVC,LinearSVC
from datetime import timedelta
import time
import sys
from datetime import datetime
import seaborn as sns
import matplotlib.pyplot as plt
import uuid
import os
from sklearn.calibration import CalibratedClassifierCV
import argparse
import multiprocessing as mp
import numpy as np
import pandas as pd

In [None]:
#!pip --trusted-host=pypi.python.org --trusted-host=pypi.org --trusted-host=files.pythonhosted.org install imbalanced-learn


Verificando o ambiente de execução do conda

In [None]:
import os
print(os.environ['CONDA_DEFAULT_ENV'])

In [None]:
import funcoes as func
from modelo import *

In [None]:
n_cores = mp.cpu_count()
n_cores_grande = round(n_cores * 0.8)
n_cores_pequeno = round(n_cores * 0.35)

#### ATENÇÃO:

A célula abaixo deve ser editada para conter o caminho correto para a pasta onde os dados serão buscados, e a pasta onde serão gravadas as saídas do processamento deste código. O caminho de cada pasta deve ser terminado com a '/' no final.

In [None]:
path_fonte_de_dados = '/home/anarocha/Documents/DocumentosClassificadorAssuntos/'
path_resultados = '/home/anarocha/Documents/DocumentosClassificadorAssuntos/DocsProcessados/'

In [None]:
if not os.path.exists(path_resultados):
    os.makedirs(path_resultados)

In [None]:
float_formatter = lambda x: "%.4f" % x
np.set_printoptions(formatter={'float_kind':float_formatter})

columnsResultados=['id_execucao', 'data', 'nome','feature_type','tempo_processamento','tamanho_conjunto_treinamento','accuracy','balanced_accuracy','micro_precision','micro_recall','micro_fscore','macro_precision','macro_recall','macro_fscore','best_params_','best_estimator_','grid_scores_','grid_cv_results','confusion_matrix','classification_report','num_estimators','max_samples']
df_resultados = pd.DataFrame(columns = columnsResultados)
nome_arquivo_destino = path_resultados + "Metricas.csv"
if  not (os.path.isfile(nome_arquivo_destino)):
    with open(nome_arquivo_destino, 'a') as f:
        df_resultados.to_csv(f, header=True)
nome_classification_reports = path_resultados + 'ClassificationReport'

id_execucao = str(uuid.uuid1())[:7]
data = datetime.now().strftime("%d/%m/%Y %H:%M:%S")

modelos = []

listaAssuntos=[2546,2086,1855,2594,2458,2704,2656,2140,2435,2029,2583,2554,8808,2117,2021,5280,1904,1844,2055,1907,1806,55220,2506,
                        4437,10570,1783,1888,2478,5356,1773,1663,5272,2215,1767,1661,1690]


Definindo modelos que serão usados

In [None]:
classificadorNB = MultinomialNB()
classificadorRF = RandomForestClassifier(random_state=42)
classificadorSVM = CalibratedClassifierCV(LinearSVC(class_weight='balanced', max_iter=10000,random_state=42),method='sigmoid', cv=5)
classificadorMLP = MLPClassifier(early_stopping= True,random_state=42)

nomeAlgoritmoNB='Multinomial Naive Bayes'
nomeAlgoritmoRF='Random Forest'
nomeAlgoritmoSVM='SVM'
nomeAlgoritmoMLP="Multi-Layer Perceptron"

## Pré-processamento dos documentos

In [None]:
path_destino_de_dados = path_fonte_de_dados + 'DocumentosProcessados/'
if not os.path.exists(path_destino_de_dados):
        os.makedirs(path_destino_de_dados)
        
func.processaDocumentos(path_fonte_de_dados,path_destino_de_dados)
print("Todos os documentos disponíveis foram processados")

Recuperando textos

In [None]:
qtdElementosPorAssunto=1000000
df_amostra = func.recupera_amostras_de_todos_regionais(listaAssuntos, qtdElementosPorAssunto, path_destino_de_dados)

Juntando os assuntos 55220 e 1855, ambos Indenização por Dano Moral

In [None]:
df_amostra.loc[df_amostra['cd_assunto_nivel_3'] == 55220, 'cd_assunto_nivel_3'] = 1855
df_amostra.loc[df_amostra['cd_assunto_nivel_2'] == 55218, 'cd_assunto_nivel_3'] = 2567

In [None]:
print('Total de textos recuperados: ' + str(len(df_amostra)))
df_amostra = df_amostra.dropna(subset=['texto_stemizado'])
print('Total de textos recuperados com conteúdo: ' + str(len(df_amostra)))

Analisando tamanho dos textos

In [None]:
df_amostra['quantidade_de_palavras'] = [len(x.split()) for x in df_amostra['texto_processado'].tolist()]
sns.boxplot(df_amostra['quantidade_de_palavras'])
plt.savefig("{0}{1}.png".format(path_resultados, "Distribuicao_Tamanho_Textos_Original"))

df_amostra_f = df_amostra[((df_amostra.quantidade_de_palavras < 400) & (df_amostra.quantidade_de_palavras > 0))]
print('Quantidade de textos entre 0 e 400 palavras: ' + str(len(df_amostra_f)))
df_amostra_f = df_amostra[(df_amostra.quantidade_de_palavras > 10000)]
print('Quantidade de textos com mais de 10.000 palavras: ' + str(len(df_amostra_f)))
df_amostra.shape
df_amostra_f = df_amostra[((df_amostra.quantidade_de_palavras < 10000) & (df_amostra.quantidade_de_palavras > 400))]
df_amostra_f= df_amostra_f.sort_values(by='quantidade_de_palavras', ascending=True)
df_amostra_f.shape
df_amostra = df_amostra_f
plt.clf()
plt.cla()
plt.close()
sns.boxplot(df_amostra['quantidade_de_palavras'])
plt.savefig("{0}{1}.png".format(path_resultados, "Distribuicao_Tamanho_Textos_Depois_Da_Remocao_De_Textos_Com_Mais_De_400_e_Menos_de_10000"))


In [None]:
print('Total de textos utilizados: ' + str(len(df_amostra)))
X_train, X_test, y_train, y_test = func.splitTrainTest(df_amostra)
print("Amostra de teste de " + str(X_test.shape[0]) + " elementos")
print("Amostra de treinamento de " + str(X_train.shape[0]) + " elementos")


In [None]:
title = "Balanceamento de assuntos na amostra de "  + str(X_train.shape[0])
func.mostra_balanceamento_assunto(y_train.value_counts(), title, "Quantidade Elementos", "Código Assunto", path_resultados, y_train.shape[0])

## Criando matrizes

#### TF-IDF

In [None]:
start_time = time.time()
tfidf_transformer,x_tfidf_train, x_tfidf_test = func.extraiFeaturesTFIDF_train_test(df_amostra, X_train['texto_stemizado'], X_test['texto_stemizado'], path_resultados)
total_time = time.time() - start_time
print("Tempo para montar matrizes TF-IDF (features:  "+ str(x_tfidf_train.shape[1]) + ") :" +   str(timedelta(seconds=total_time)))


#### BM25

In [None]:
bm25_transformer,x_bm25_train, x_bm25_test = func.extraiFeaturesBM25(df_amostra, tfidf_transformer, x_tfidf_train, x_tfidf_test, path_resultados)

#### LSI

In [None]:
lsi100_transformer,x_lsi100_train, x_lsi100_test = func.extraiFeaturesLSI(df_amostra, X_train['texto_stemizado'], X_test['texto_stemizado'], 100, path_resultados)
lsi250_transformer,x_lsi250_train, x_lsi250_test = func.extraiFeaturesLSI(df_amostra, X_train['texto_stemizado'], X_test['texto_stemizado'], 250, path_resultados)



## Grid Search
#### Com TF-IDF

Coloque aqui a quantidade de configurações diferentes a serem testadas no GridSearch para cada modelo. 

In [None]:
numero_de_configuracoes_por_modelo=2

#### Multinomial Naïve-Bayes (NB)

In [None]:
param_grid_NB = {
    'estimator__n_estimators': [3,5],
    'estimator__max_samples': [0.8,0.5],
    'estimator__base_estimator__alpha': [0.0001, 0.001, 0.01, 0.1, 0.5, 1]
}
modeloNB = func.chama_treinamento_modelo(x_tfidf_train, y_train, x_tfidf_test,y_test, classificadorNB, nomeAlgoritmoNB , 'TFIDF',param_grid_NB,numero_de_configuracoes_por_modelo,n_cores_grande,id_execucao ,data,path_resultados,df_resultados,nome_arquivo_destino,X_test)
modelos.append([modeloNB.getNome(),modeloNB.getFeatureType(),modeloNB.getMicroPrecision(),modeloNB])

#### SVM

In [None]:
param_grid_SVM = {
    'estimator__n_estimators': [3, 5],
    'estimator__max_samples': [0.8, 0.5],
    'estimator__base_estimator__base_estimator__C': [0.01, 0.1, 1, 10]
}
modeloSVM = func.chama_treinamento_modelo(x_tfidf_train,y_train, x_tfidf_test,y_test, classificadorSVM, nomeAlgoritmoSVM,'TFIDF',param_grid_SVM, numero_de_configuracoes_por_modelo,n_cores_grande,id_execucao ,data,path_resultados,df_resultados,nome_arquivo_destino,X_test)
modelos.append([modeloSVM.getNome(),modeloSVM.getFeatureType(),modeloSVM.getMicroPrecision(),modeloSVM])

#### Random Forest (RF)

In [None]:
param_grid_RF = {
    'estimator__n_estimators': [3,5],
    'estimator__max_samples': [0.8,0.5],
    'estimator__base_estimator__max_depth': [30,50,100],
    'estimator__base_estimator__n_estimators': [100,200,300],
    'estimator__base_estimator__min_samples_leaf': [0.05, 0.1, 0.5],
    'estimator__base_estimator__min_samples_split': [0.05, 0.1, 0.5],
    'estimator__base_estimator__max_features': [0.3, 0.5, 0.8]
}
modeloRF = func.chama_treinamento_modelo(x_tfidf_train,y_train, x_tfidf_test,y_test, classificadorRF, nomeAlgoritmoRF,'TFIDF',param_grid_RF, numero_de_configuracoes_por_modelo,n_cores_grande,id_execucao ,data,path_resultados,df_resultados,nome_arquivo_destino,X_test)
modelos.append([modeloRF.getNome(),modeloRF.getFeatureType(),modeloRF.getMicroPrecision(),modeloRF])

#### Multi-layer Perceptron

In [None]:
param_grid_MLP = {
    'estimator__n_estimators': [3,5],
    'estimator__max_samples': [0.8,0.5],
    'estimator__base_estimator__hidden_layer_sizes': [(10,10),(10,5,10)],
    'estimator__base_estimator__activation': ['identity', 'logistic', 'tanh', 'relu'],
    'estimator__base_estimator__solver': ['sgd', 'adam','lbfgs'],
    'estimator__base_estimator__alpha': [0.001, 0.01, 0.05, 0.1],
    'estimator__base_estimator__learning_rate': ['constant','adaptive','invscaling'],
    'estimator__base_estimator__max_iter': [200,300,400]
}
modeloMLP = func.chama_treinamento_modelo(x_tfidf_train,y_train, x_tfidf_test,y_test, classificadorMLP,nomeAlgoritmoMLP, 'TFIDF',param_grid_MLP, numero_de_configuracoes_por_modelo,n_cores_pequeno,id_execucao ,data,path_resultados,df_resultados,nome_arquivo_destino,X_test)
modelos.append([modeloMLP.getNome(),modeloMLP.getFeatureType(),modeloMLP.getMicroPrecision(),modeloMLP])

#### Criando dicionarios com a melhor configuração de cada modelo

In [None]:
#MNB
param_grid_melhor_NB = {
    'estimator__n_estimators': [modeloNB.getBestParams().get('estimator__n_estimators')],
    'estimator__max_samples': [modeloNB.getBestParams().get('estimator__max_samples')],
    'estimator__base_estimator__alpha': [modeloNB.getBestParams().get('estimator__base_estimator__alpha')]
}

# SVM
param_grid_melhor_SVM = {
    'estimator__n_estimators': [modeloSVM.getBestParams().get('estimator__n_estimators')],
    'estimator__max_samples': [modeloSVM.getBestParams().get('estimator__max_samples')],
    'estimator__base_estimator__base_estimator__C': [modeloSVM.getBestParams().get('estimator__base_estimator__base_estimator__C')]
}

# RF
param_grid_melhor_RF = {
    'estimator__n_estimators': [modeloRF.getBestParams().get('estimator__n_estimators')],
    'estimator__max_samples': [modeloRF.getBestParams().get('estimator__max_samples')],
    'estimator__base_estimator__max_depth': [modeloRF.getBestParams().get('estimator__base_estimator__max_depth')],
    'estimator__base_estimator__n_estimators': [modeloRF.getBestParams().get('estimator__base_estimator__n_estimators')],
    'estimator__base_estimator__min_samples_leaf': [modeloRF.getBestParams().get('estimator__base_estimator__min_samples_leaf')],
    'estimator__base_estimator__min_samples_split': [modeloRF.getBestParams().get('estimator__base_estimator__min_samples_split')],
    'estimator__base_estimator__max_features': [modeloRF.getBestParams().get('estimator__base_estimator__max_features')]
}

# MLP
param_grid_melhor_MLP = {
    'estimator__n_estimators': [modeloMLP.getBestParams().get('estimator__n_estimators')],
    'estimator__max_samples': [modeloMLP.getBestParams().get('estimator__max_samples')],
    'estimator__base_estimator__hidden_layer_sizes': [modeloMLP.getBestParams().get('estimator__base_estimator__hidden_layer_sizes')],
    'estimator__base_estimator__activation': [modeloMLP.getBestParams().get('estimator__base_estimator__activation')],
    'estimator__base_estimator__solver': [modeloMLP.getBestParams().get('estimator__base_estimator__solver')],
    'estimator__base_estimator__alpha': [modeloMLP.getBestParams().get('estimator__base_estimator__alpha')],
    'estimator__base_estimator__learning_rate': [modeloMLP.getBestParams().get('estimator__base_estimator__learning_rate')],
    'estimator__base_estimator__max_iter': [modeloMLP.getBestParams().get('estimator__base_estimator__max_iter')]
}


#### BM25

In [None]:
modeloNB_BM25 = func.chama_treinamento_modelo(x_bm25_train,y_train, x_bm25_test,y_test, classificadorNB, nomeAlgoritmoNB,'BM25',param_grid_melhor_NB, 1,n_cores_grande,id_execucao ,data,path_resultados,df_resultados,nome_arquivo_destino,X_test)
modelos.append([modeloNB_BM25.getNome(),modeloNB_BM25.getFeatureType(),modeloNB_BM25.getMicroPrecision(),modeloNB_BM25])

modeloSVM_BM25 = func.chama_treinamento_modelo(x_bm25_train,y_train, x_bm25_test,y_test, classificadorSVM, nomeAlgoritmoSVM,'BM25',param_grid_melhor_SVM, 1,n_cores_grande,id_execucao ,data,path_resultados,df_resultados,nome_arquivo_destino,X_test)
modelos.append([modeloSVM_BM25.getNome(),modeloSVM_BM25.getFeatureType(),modeloSVM_BM25.getMicroPrecision(),modeloSVM_BM25])

modeloRF_BM25 = func.chama_treinamento_modelo(x_bm25_train,y_train, x_bm25_test,y_test, classificadorRF, nomeAlgoritmoRF,'BM25',param_grid_melhor_RF, 1,n_cores_grande,id_execucao ,data,path_resultados,df_resultados,nome_arquivo_destino,X_test)
modelos.append([modeloRF_BM25.getNome(),modeloRF_BM25.getFeatureType(),modeloRF_BM25.getMicroPrecision(),modeloRF_BM25])

modeloMLP_BM25 = func.chama_treinamento_modelo(x_bm25_train,y_train, x_bm25_test,y_test, classificadorMLP, nomeAlgoritmoMLP,'BM25',param_grid_melhor_MLP, 1,n_cores_pequeno,id_execucao ,data,path_resultados,df_resultados,nome_arquivo_destino,X_test)
modelos.append([modeloMLP_BM25.getNome(),modeloMLP_BM25.getFeatureType(),modeloMLP_BM25.getMicroPrecision(),modeloMLP_BM25])



#### LSI 100

In [None]:
modeloSVM_LSI100 = func.chama_treinamento_modelo(x_lsi100_train,y_train, x_lsi100_test ,y_test, classificadorSVM,nomeAlgoritmoSVM, 'LSI100',param_grid_melhor_SVM, 1,n_cores_grande,id_execucao ,data,path_resultados,df_resultados,nome_arquivo_destino,X_test)
modelos.append([modeloSVM_LSI100.getNome(),modeloSVM_LSI100.getFeatureType(),modeloSVM_LSI100.getMicroPrecision(),modeloSVM_LSI100])

modeloRF_LSI100 = func.chama_treinamento_modelo(x_lsi100_train, y_train,x_lsi100_test ,y_test, classificadorRF,nomeAlgoritmoRF, 'LSI100',param_grid_melhor_RF, 1,n_cores_grande,id_execucao ,data,path_resultados,df_resultados,nome_arquivo_destino,X_test)
modelos.append([modeloRF_LSI100.getNome(),modeloRF_LSI100.getFeatureType(),modeloRF_LSI100.getMicroPrecision(),modeloRF_LSI100])

modeloMLP_LSI100 = func.chama_treinamento_modelo(x_lsi100_train,y_train, x_lsi100_test ,y_test, classificadorMLP, nomeAlgoritmoMLP,'LSI100',param_grid_melhor_MLP, 1,n_cores_pequeno,id_execucao ,data,path_resultados,df_resultados,nome_arquivo_destino,X_test)
modelos.append([modeloMLP_LSI100.getNome(),modeloMLP_LSI100.getFeatureType(),modeloMLP_LSI100.getMicroPrecision(),modeloMLP_LSI100])


#### LSI 250

In [None]:
modeloSVM_LSI250 = func.chama_treinamento_modelo(x_lsi250_train,y_train, x_lsi250_test ,y_test, classificadorSVM,nomeAlgoritmoSVM, 'LSI250',param_grid_melhor_SVM, 1,n_cores_grande,id_execucao ,data,path_resultados,df_resultados,nome_arquivo_destino,X_test)
modelos.append([modeloSVM_LSI250.getNome(),modeloSVM_LSI250.getFeatureType(),modeloSVM_LSI250.getMicroPrecision(),modeloSVM_LSI250])

modeloRF_LSI250 = func.chama_treinamento_modelo(x_lsi250_train, y_train,x_lsi250_test ,y_test, classificadorRF,nomeAlgoritmoRF, 'LSI250',param_grid_melhor_RF, 1,n_cores_grande,id_execucao ,data,path_resultados,df_resultados,nome_arquivo_destino,X_test)
modelos.append([modeloRF_LSI250.getNome(),modeloRF_LSI250.getFeatureType(),modeloRF_LSI250.getMicroPrecision(),modeloRF_LSI250])

modeloMLP_LSI250 = func.chama_treinamento_modelo(x_lsi250_train,y_train, x_lsi250_test ,y_test, classificadorMLP, nomeAlgoritmoMLP,'LSI250',param_grid_melhor_MLP, 1,n_cores_pequeno,id_execucao ,data,path_resultados,df_resultados,nome_arquivo_destino,X_test)
modelos.append([modeloMLP_LSI250.getNome(),modeloMLP_LSI250.getFeatureType(),modeloMLP_LSI250.getMicroPrecision(),modeloMLP_LSI250])


Encontrando o modelo vencedor

In [None]:
modelos_df = pd.DataFrame(modelos, columns=['Nome Modelo','Feature Type','micro_precision','Modelo'])
modelos_df= modelos_df.sort_values(by='micro_precision', ascending=False)
print("O modelo vencedor foi o " + modelos_df.iloc[0]['Nome Modelo'] + ", com " + (str("%.2f" % modelos_df.iloc[0]['micro_precision'])) + " de micro precisão")

modelo_vencedor = modelos_df.iloc[0]['Modelo']

arquivoPickle = open(path_resultados + "MelhorModelo.p", 'wb')
pickle.dump(modelo_vencedor.getBestEstimator(), arquivoPickle)
arquivoPickle.close()

if modelo_vencedor.getFeatureType() == 'LSI100':
    feature_vencedora = open(path_resultados + "MelhorModeloFeature.p", 'wb')
    pickle.dump(lsi100_transformer, feature_vencedora)
    feature_vencedora.close()
elif modelo_vencedor.getFeatureType() == 'LSI250':
    feature_vencedora = open(path_resultados + "MelhorModeloFeature.p", 'wb')
    pickle.dump(lsi250_transformer, feature_vencedora)
    feature_vencedora.close()
elif modelo_vencedor.getFeatureType() == 'TFIDF':
    feature_vencedora = open(path_resultados + "MelhorModeloFeature.p", 'wb')
    pickle.dump(tfidf_transformer, feature_vencedora)
    feature_vencedora.close()
elif modelo_vencedor.getFeatureType() == 'BM25':
    feature_vencedora = open(path_resultados + "MelhorModeloFeature.p", 'wb')
    pickle.dump(bm25_transformer, feature_vencedora)
    feature_vencedora.close()
    
print("O modelo para transformação dos textos pré-processados se encontra no arquivo " + path_resultados + "MelhorModeloFeature.p" + " e o modelo de classificação no arquivo " + path_resultados + "MelhorModelo.p")
