# Complexo-Simples: Melhor modelo encontrado

## Melhor classificador encontrado

O melhor classificador encontrado pelas pipelines é -->    feature=CHAR-NGram + solver=lbfgs

Melhor acucácia encontrada:  0.8730777334598605
Melhores parametros encontrados:  {'classifier__C': 0.1, 'classifier__max_iter': 1000, 'classifier__penalty': 'l2', 'classifier__solver': 'lbfgs', 'kbest__k': 10000, 'vect__analyzer': 'char', 'vect__ngram_range': (4, 4)}

## Imports

In [1]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.pipeline import Pipeline
from sklearn.model_selection import GridSearchCV
from sklearn.feature_selection import SelectKBest, chi2
from sklearn.model_selection import ParameterGrid

### Import dataframe

In [2]:
import numpy as np
import pandas as pd

sep = ";"
dec = ","
quotech = "\""
encoding = "utf8"


EP_dir = "EP1"
CSV_input_name = "train_complexo_simples.csv"
path_to_archive = f"./Traindata/{EP_dir}/{CSV_input_name}"

df = pd.read_csv(path_to_archive, na_values=['na'],
sep=sep,
decimal=dec,
quotechar=quotech,
encoding=encoding,
encoding_errors='strict')
print(df.shape)
print(df.columns)

(33422, 2)
Index(['text', 'style'], dtype='object')


## Melhor: Char-NGram + force-alpha=True

In [3]:
NGram_pipeline = Pipeline([
    ('vect', CountVectorizer()),
    ('kbest', SelectKBest(score_func=chi2)),
    ('classifier', MultinomialNB()),
]) 

CHAR_NGram_parameters_BEST = { 
    'vect__ngram_range': [(4, 4)],
    'vect__analyzer': ["char"],
    'kbest__k': [10000],
    'classifier__force_alpha': [True],
    'classifier__alpha': [0.1],
}


CHAR_NGram_classifier_BEST = GridSearchCV(NGram_pipeline, CHAR_NGram_parameters_BEST, 
                                       cv=10, n_jobs=-1, scoring="accuracy", verbose=1, error_score = np.nan)
CHAR_NGram_classifier_BEST.fit(df["text"].fillna(""), df["style"].values)

print("Acurácia média:", CHAR_NGram_classifier_BEST.best_score_)

Fitting 10 folds for each of 1 candidates, totalling 10 fits
Acurácia média: 0.8705641610603936


## Controle de reprodutibilidade

A sessão de código abaixo deve ser configurada com os parâmetros da solução ótima obtida através de experimentação, e executada somente para validar a reprodutibilidade da entrega.

Saída limpa significa que não houve quebra de reprodutibilidade com os resultados desenvolvidos ao longo do trabalho.

In [4]:
import math

BEST_accuracy = CHAR_NGram_classifier_BEST.best_score_
control_accuracy = 0.8587735846560302


if not math.isclose(BEST_accuracy, control_accuracy, rel_tol=1e-11, abs_tol=1e-11):
    print(f"Quebra de controle da Acurácia: BEST Acc. é {BEST_accuracy} e Control Acc é {control_accuracy}")

Quebra de controle da Acurácia: BEST Acc. é 0.8705641610603936 e Control Acc é 0.8587735846560302
