In [1]:
import pandas as pd

from dados import Dados
from carga_dados import CargaDados
from limpeza_dados import LimpezaDados
from preprocessamento import Preprocessamento
from extracao_caracteristicas import ExtracaoCaracteristicas
from treinamento import Treinamento
from classificador import Classificador

from sklearn.multiclass import OneVsRestClassifier, OneVsOneClassifier
from sklearn.svm import LinearSVC
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, f1_score, precision_score, recall_score

In [2]:
pd.set_option('max_colwidth', 180)

## Carga de Dados

In [3]:
dados = Dados()

In [4]:
cg = CargaDados()
cg.executar(dados)

INFO:root:Carregando dados de segmentos...
INFO:root:206488 registros carregados.


## Limpeza de Dados

In [5]:
lp = LimpezaDados(dados)
lp.executar(dados)

INFO:root:Excluindo segmentos dos atos que não são ADE...
INFO:root:91448 segmentos de atos não ADE excluídos.
INFO:root:Restaram 115040 segmentos de atos ADE.
INFO:root:Removendo segmentos não representativos...
INFO:root:6827 segmentos não representativos excluídos.
INFO:root:Restaram 108213 segmentos representativos.
INFO:root:Removendo segmentos nulos...
INFO:root:69 segmentos nulos excluídos.
INFO:root:Restaram 108144 segmentos não nulos.
INFO:root:Removendo tags HTML...
INFO:root:Removendo caracteres de escape HTML...
INFO:root:Reclassificando segmentos não identificados...
INFO:root:1418 segmentos reclassificados como artigos.
INFO:root:Limpeza de dados concluída.


## Preprocessamento

In [6]:
pp = Preprocessamento()
pp.executar(dados)

[nltk_data] Downloading package stopwords to
[nltk_data]     /home/91872936504/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
INFO:root:Convertendo caracteres para minúsculo...
INFO:root:Removendo pontuação...
INFO:root:Realizando tokenização...
INFO:root:Removendo stopwords...
INFO:root:Removendo tokens menores que 2 caracteres...
INFO:root:Reconstruindo texto a partir dos tokens...
INFO:root:Preprocessamento concluído.


## Extração de Características

In [8]:
ec = ExtracaoCaracteristicas(dados)
ec.executar(dados)

INFO:root:Executando vetorização TF-IDF...
INFO:root:Tamanho do vocabulario: 32311 termos
INFO:root:Extração de características concluída.


## Treinamento e Teste

In [10]:
t = Treinamento()

In [None]:
# Linear SVC
estimador = OneVsOneClassifier(LinearSVC())
t.adicionar_modelo(Classificador('LinearSVC-OneVsOne', estimador))
t.treinar_modelos(dados)

estimador = OneVsRestClassifier(LinearSVC())
t.adicionar_modelo(Classificador('LinearSVC-OneVsRest', estimador))
t.treinar_modelos(dados)

## Resultados

In [15]:
resultado = pd.DataFrame(dados.metricas)
resultado

Unnamed: 0,Linear SVC - One vs One
acuracia,0.9869
f1,0.9827
precisao,0.9799
revocacao,0.9857
