In [None]:
from joblib import dump, load
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import Pipeline
from sklearn.model_selection import cross_val_predict
from sklearn import metrics

In [None]:
dataset = pd.read_csv('../data/tweets.csv',encoding='utf-8')
dataset.count()

In [None]:
dataset.head()

In [None]:
tweets = dataset["Text"].values
tweets

In [None]:
classes = dataset["Classificacao"].values
classes

In [None]:
testes = ["Esse governo está no início, vamos ver o que vai dar",
          "Estou muito feliz com o governo de São Paulo esse ano",
          "O estado de Minas Gerais decretou calamidade financeira!!!",
          "A segurança desse país está deixando a desejar",
          "O governador de Minas é do PT",
          "O prefeito de São Paulo está fazendo um ótimo trabalho"]
sentimentos = ["Positivo", "Negativo", "Neutro"]

In [None]:
vectorizer = CountVectorizer(analyzer = "word")
freq_tweets = vectorizer.fit_transform(tweets)

modelo = MultinomialNB()
modelo.fit(freq_tweets, classes)

In [None]:
freq_testes = vectorizer.transform(testes)
modelo.predict(freq_testes)

In [None]:
resultados = cross_val_predict(modelo, freq_tweets, classes, cv = 10)
resultados

In [None]:
metrics.accuracy_score(classes, resultados)

In [None]:
print(metrics.classification_report(classes, resultados))

In [None]:
print(pd.crosstab(classes, resultados, rownames = ["Real"], colnames=["Predito"], margins=True))

In [None]:
pipe = Pipeline([("vectorizer", vectorizer), ("model", modelo)])
dump(pipe, "sentiments-v1.joblib")

In [None]:
vectorizer = CountVectorizer(ngram_range = (1, 2))
freq_tweets = vectorizer.fit_transform(tweets)

modelo = MultinomialNB()
modelo.fit(freq_tweets, classes)

In [None]:
resultados = cross_val_predict(modelo, freq_tweets, classes, cv = 10)
resultados

In [None]:
metrics.accuracy_score(classes, resultados)

In [None]:
print(metrics.classification_report(classes, resultados))

In [None]:
print(pd.crosstab(classes, resultados, rownames = ["Real"], colnames = ["Predito"], margins = True))

In [None]:
pipe = Pipeline([("vectorizer", vectorizer), ("model", modelo)])
dump(pipe, "sentiments-v2.joblib")