** Análise de Sentimentos – Tweets**

In [10]:
import nltk
import re
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn import metrics
from sklearn.model_selection import cross_val_predict

In [11]:
# 1 Feature
# Read data file
dataset = pd.read_csv('data/portuguese_tweets.csv',encoding='utf-8')

In [1]:
# dataset.count()

In [2]:
# dataset[dataset.Classificacao=='Neutro'].count()

In [3]:
# dataset[dataset.Classificacao=='Positivo'].count()

In [4]:
# dataset[dataset.Classificacao=='Negativo'].count()

In [12]:
# Separate tweets and labels
tweets = dataset['Text'].values
classes = dataset['Classificacao'].values

In [13]:
# Prepare data model
vectorizer = CountVectorizer(analyzer="word")
freq_tweets = vectorizer.fit_transform(tweets)

# 2. Model Training
modelo = MultinomialNB()
modelo.fit(freq_tweets,classes)

MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

In [None]:
# Testing our model

In [29]:
testes = [
    'Esse governo está no início, vamos ver o que vai dar',
    'Estou muito feliz com o governo de Minas esse ano',
    'O estado de Minas Gerais decretou calamidade financeira!!!',
    'A segurança desse país está deixando a desejar',
    'O governador de Minas é do PT',
    'O Brasil está investindo em educação, construindo mais escolas e preparando melhor os professores',
]

In [16]:
freq_testes = vectorizer.transform(testes)

In [None]:
# Fazendo a classificação com o modelo treinado.

In [31]:
modelo.predict(freq_testes)

ValueError: dimension mismatch

** Avaliando o modelo **

In [18]:
# Avaliando o modelo
# Fazendo o cross validation do modelo

In [20]:
resultados = cross_val_predict(modelo, freq_tweets, classes, cv=10)

In [None]:
# Medindo a acurácia média do modelo

In [21]:
metrics.accuracy_score(classes,resultados)

0.8831564824978656

In [None]:
# Medidas de validação do modelo

In [22]:
sentimento=['Positivo','Negativo','Neutro']
print (metrics.classification_report(classes,resultados,sentimento))

             precision    recall  f1-score   support

   Positivo       0.95      0.88      0.91      3300
   Negativo       0.89      0.93      0.91      2446
     Neutro       0.80      0.84      0.82      2453

avg / total       0.89      0.88      0.88      8199



In [None]:
# Matriz de confusão

In [23]:
print (pd.crosstab(classes, resultados, rownames=['Real'], colnames=['Predito'], margins=True))

Predito   Negativo  Neutro  Positivo   All
Real                                      
Negativo      2275     162         9  2446
Neutro         240    2067       146  2453
Positivo        45     356      2899  3300
All           2560    2585      3054  8199


** Melhorando resultados com Bigrams**

In [24]:
vectorizer = CountVectorizer(ngram_range=(1,2))
freq_tweets = vectorizer.fit_transform(tweets)
modelo = MultinomialNB()
modelo.fit(freq_tweets,classes)

MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

In [25]:
resultados = cross_val_predict(modelo, freq_tweets, classes, cv=10)

In [26]:
metrics.accuracy_score(classes,resultados)

0.8954750579338944

In [27]:
sentimento=['Positivo','Negativo','Neutro']
print (metrics.classification_report(classes,resultados,sentimento))

             precision    recall  f1-score   support

   Positivo       0.97      0.88      0.92      3300
   Negativo       0.91      0.93      0.92      2446
     Neutro       0.80      0.89      0.84      2453

avg / total       0.90      0.90      0.90      8199



In [28]:
print (pd.crosstab(classes, resultados, rownames=['Real'], colnames=['Predito'], margins=True))

Predito   Negativo  Neutro  Positivo   All
Real                                      
Negativo      2265     179         2  2446
Neutro         181    2177        95  2453
Positivo        43     357      2900  3300
All           2489    2713      2997  8199
