## Framework imports

In [None]:
from noronha.tools.publish import Publisher
from noronha.tools.shortcuts import data_path, tmp_path, require_dataset

## Application imports

In [None]:
from joblib import dump, load
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import Pipeline
from sklearn.model_selection import cross_val_predict
from sklearn import metrics as sk_metrics

## Training parameters

In [None]:
alpha = 0.001

## Load dataset

In [None]:
ds_path = data_path(model='sentiment-clf', file_name='tweets.csv')

In [None]:
dataset = pd.read_csv(ds_path, encoding='utf-8')
dataset.count()

In [None]:
dataset.head()

In [None]:
tweets = dataset["Text"].values
tweets

In [None]:
classes = dataset["Classificacao"].values
classes

## Validation sample

In [None]:
testes = ["Esse governo está no início, vamos ver o que vai dar",
          "Estou muito feliz com o governo de São Paulo esse ano",
          "O estado de Minas Gerais decretou calamidade financeira!!!",
          "A segurança desse país está deixando a desejar",
          "O governador de Minas é do PT",
          "O prefeito de São Paulo está fazendo um ótimo trabalho"]

## Train model

In [None]:
vectorizer = CountVectorizer(ngram_range = (1, 2))
freq_tweets = vectorizer.fit_transform(tweets)

modelo = MultinomialNB(alpha=alpha)
modelo.fit(freq_tweets, classes)

## Validate model

In [None]:
resultados = cross_val_predict(modelo, freq_tweets, classes, cv = 10)
resultados

In [None]:
metrics = {'accuracy': sk_metrics.accuracy_score(classes, resultados)}
metrics

In [None]:
print(sk_metrics.classification_report(classes, resultados))

In [None]:
print(pd.crosstab(classes, resultados, rownames = ["Real"], colnames = ["Predito"], margins = True))

## Model publish

In [None]:
pipe = Pipeline([("vectorizer", vectorizer), ("model", modelo)])
dump(pipe, tmp_path("sentiments.joblib"))

In [None]:
Publisher()(
    src_path=tmp_path(),
    model_name='sentiment-clf',
    details=dict(
        params={'alpha': alpha},
        metrics=metrics,
    )
)