In [None]:
# Documentação
# https://python-twitter.readthedocs.io/en/latest/twitter.html#module-twitter.api

## Importando bibliotecas

In [None]:
!pip install python-twitter

In [1]:
import twitter
import json

In [2]:
from nltk import word_tokenize
import nltk
import re
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn import svm
from sklearn import metrics
from sklearn.model_selection import cross_val_predict

## Configurando api

In [None]:
# Variaveis de acesso, keys cedidas pela api do twitter
# tokens.json

In [None]:
# Carregando o arquivo de configuração
with open('tokens.json') as f:
    data = json.load(f)

In [None]:
# Carregando a API do Twitter, utilizando os dados do arquivo json
api = twitter.Api(**data)

In [None]:
# Testar se tudo está certo

# Caso tiver alguma credencial errada, o resultado será:
#twitter.error.TwitterError: [{'code': 32, 'message': 'Could not authenticate you.'}]

print(api.VerifyCredentials())

In [None]:
# A API do Twitter permite fazer diversos tipos de consultas. O retorno dessas consultas pode ser acessado facilmente. 

# Função que, a partir de uma lista de status, mostra o nome do usuário e o texto do twitter.

def print_status(status_list):
    for status in status_list:
        print('(' + str(status.created_at) + ') ' + str(status.user.name) + ':' + str(status.text) + '\n')

## Buscando dados do twitter

In [None]:
# Busca por termos

status_list = api.GetSearch(term="mi band 4",
                            lang='pt',
                            count=100)  #,
                            #result_type='mixed')

## Criando lista com os tweets

In [None]:
def cria_tweet_list(status_list):
    tweet_list = []
    
    for tweet in status_list:
        tweet_list.append(tweet.text)
    
    return tweet_list

In [None]:
# Printando elementos
print_status(status_list=status_list)

In [None]:
print(len(status_list))

In [None]:
tweet_list = cria_tweet_list(status_list)

In [None]:
print(tweet_list)

In [None]:
for i in tweet_list:
    print("'" + str(i) + "'")
    print('----------------------------------------------------------------------------------------------------------------')

In [None]:
# criei
# tweet_list
# tweet_list_2
# tweet_list_3

## Remove os tweets duplicados

In [None]:
lista_sem_duplicados = list(set(tweet_list))

In [None]:
print(type(lista_sem_duplicados))

In [None]:
print(len(tweet_list))

In [None]:
print(len(lista_sem_duplicados))

## Coloca os tweets da lista em um arquivo .csv

In [None]:
def cria_arquivo_csv(lista):
    arquivo = open('tweets_mi_band_4.csv', 'w', encoding='utf-8')
    
    for pos_tweet in range(len(lista)):
        arquivo.write('"' + str(lista[pos_tweet]) + '"')
        arquivo.write('\n')
        
    arquivo.close()

In [None]:
cria_arquivo_csv(lista_sem_duplicados)

## Cria um data frame

In [23]:
# Criando data frame
#df = pd.read_csv('tweets_mi_band_4.csv', encoding='utf-8')
df = pd.read_csv('classificado_tweets_mi_band_4.csv', encoding='utf-8')

In [24]:
df.head()

Unnamed: 0,tweets,classes
0,Tive que desativar o negócio do sono da mi ban...,neutro
1,"RT @cachorro_frio: @fernandobentto cara, jura?...",negativo
2,"@FelipeDuarte151 Tenho a mi band 3, mas acho a...",positivo
3,To vendendo minha pulseira mi band 4(relógio)😉,neutro
4,mi band 4 na internet = 160 reais \nmi band 3 ...,neutro


In [25]:
tweets = df['tweets']
classes = df['classes']

## Limpeza dos dados

In [6]:
# Para limpeza dos dados
import nltk
nltk.download('stopwords')
nltk.download('rslp')
nltk.download('punkt')
nltk.download('wordnet')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\MaluF\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package rslp to
[nltk_data]     C:\Users\MaluF\AppData\Roaming\nltk_data...
[nltk_data]   Package rslp is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\MaluF\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\MaluF\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

In [7]:
def Preprocessing(instancia):
    stemmer = nltk.stem.RSLPStemmer()
    instancia = re.sub(r"http\S+", "", instancia).lower().replace('.','').replace(';','').replace('-','').replace(':','').replace(')','')
    stopwords = set(nltk.corpus.stopwords.words('portuguese'))
    stopwords.remove('não')
    palavras = [stemmer.stem(i) for i in instancia.split() if not i in stopwords]
    return (" ".join(palavras))

# Aplica a função em todos os dados:
tweets = [Preprocessing(i) for i in tweets]

In [None]:
Preprocessing('Eu não gosto do partido, e também não votaria novamente nesse governante! http://python.w3.pt/?p=234')

## Tokenização

In [8]:
from nltk.tokenize import TweetTokenizer

In [27]:
tweet_tokenizer = TweetTokenizer()

In [None]:
frase = 'A live do @blogminerando é show! :) :-) ;) =D'

In [None]:
tweet_tokenizer.tokenize(frase)

## Vetorização - Bag of words

In [28]:
# Instancia o objeto que faz a vectorização
vectorizer = CountVectorizer(analyzer="word", tokenizer=tweet_tokenizer.tokenize)

In [29]:
# Aplica o vetorizador nos dados
freq_tweets = vectorizer.fit_transform(tweets)
type(freq_tweets)

scipy.sparse.csr.csr_matrix

In [30]:
# Formato linha, coluna da matriz
freq_tweets.shape

(93, 580)

In [31]:
# Treino do modelo de machine learning
modelo = MultinomialNB()
modelo.fit(freq_tweets,classes)

MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

In [32]:
freq_tweets.A

array([[0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       ...,
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0]], dtype=int64)

## Testando o modelo

In [81]:
# Testando o modelo
testes = ["Eu comprei um mi band 4",
         "Gostei do mi band 4",
         "N gostei do mi band 4",
         "Amei meu mi band 4",
         "Quero muito um mi band 4",
         "Alguem me de um mi band 4 por favorrrrrrrrrrrr",
         "Oi, estou vendendo esse Xiaomi Mi Band 4 novinho, na caixa e uma pulseira extra por apenas R$200 no dinheiro. RT pra ajudar e se estiver interessado é só chamar na DM ❤️",
         "amando meu mi band 4 e tô louca por um airdots pra usar junto",
         "acho q vou comprar o mi band 4",
          "Tem três vias, mercado livre, lojas aqui de Fortaleza que vc encontra no marketplace do facebook, essas duas vendem o dobro do valor se vc importar. Comprei a minha mi band 4 no Aliexpress, chegou em 23 dias foi 118 reais, aqui o pessoal vende de 300."
         ]

In [82]:
# Aplicando a função de pre processamento nos testes
testes = [Preprocessing(i) for i in testes]

In [83]:
# Transforma os dados de teste em vetores de palavras.
freq_testes = vectorizer.transform(testes)

In [84]:
# Fazendo a classificação com o modelo treinado.
for t, c in zip (testes,modelo.predict(freq_testes)):
    print (t +", "+ c)

compr mi band 4, positivo
gost mi band 4, positivo
n gost mi band 4, neutro
ame mi band 4, positivo
quer mi band 4, neutro
algu mi band 4 favorrrrrrrrrrrr, positivo
oi, vend xiaom mi band 4 novinho, caix puls extr apen r$200 dinh rt pra ajud interess cham dm ❤️, neutro
am mi band 4 tô louc airdot pra us junt, positivo
ach q vou compr mi band 4, positivo


In [85]:
# Probabilidades de cada classe
print (modelo.classes_)
modelo.predict_proba(freq_testes).round(2)

['negativo' 'neutro' 'positivo']


array([[0.  , 0.43, 0.57],
       [0.  , 0.43, 0.57],
       [0.01, 0.71, 0.29],
       [0.  , 0.43, 0.57],
       [0.  , 0.55, 0.45],
       [0.  , 0.43, 0.57],
       [0.  , 0.93, 0.07],
       [0.  , 0.15, 0.84],
       [0.  , 0.16, 0.84]])

## Criando modelos com Pipelines

In [86]:
# Pipelines são interessantes para reduzir código e automatizar fluxos
from sklearn.pipeline import Pipeline

In [87]:
pipeline_simples = Pipeline([
  ('counts', CountVectorizer()),
  ('classifier', MultinomialNB())
])

In [88]:
pipeline_simples.fit(tweets,classes)

Pipeline(memory=None,
         steps=[('counts',
                 CountVectorizer(analyzer='word', binary=False,
                                 decode_error='strict',
                                 dtype=<class 'numpy.int64'>, encoding='utf-8',
                                 input='content', lowercase=True, max_df=1.0,
                                 max_features=None, min_df=1,
                                 ngram_range=(1, 1), preprocessor=None,
                                 stop_words=None, strip_accents=None,
                                 token_pattern='(?u)\\b\\w\\w+\\b',
                                 tokenizer=None, vocabulary=None)),
                ('classifier',
                 MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True))],
         verbose=False)

In [89]:
pipeline_simples.steps

[('counts',
  CountVectorizer(analyzer='word', binary=False, decode_error='strict',
                  dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
                  lowercase=True, max_df=1.0, max_features=None, min_df=1,
                  ngram_range=(1, 1), preprocessor=None, stop_words=None,
                  strip_accents=None, token_pattern='(?u)\\b\\w\\w+\\b',
                  tokenizer=None, vocabulary=None)),
 ('classifier', MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True))]

In [90]:
pipeline_svm_simples = Pipeline([
  ('counts', CountVectorizer()),
  ('classifier', svm.SVC(kernel='linear'))
])

## Validando os Modelos com Validação Cruzada

In [91]:
# Fazendo o cross validation do modelo
resultados = cross_val_predict(pipeline_simples, tweets, classes, cv=10)



In [76]:
# Medindo a acurácia média do modelo
metrics.accuracy_score(classes,resultados)

0.6344086021505376

In [77]:
# Medidas de validação do modelo
sentimento=['Positivo','Negativo','Neutro']
print (metrics.classification_report(classes,resultados,sentimento))

              precision    recall  f1-score   support

    Positivo       0.00      0.00      0.00         0
    Negativo       0.00      0.00      0.00         0
      Neutro       0.00      0.00      0.00         0

   micro avg       0.00      0.00      0.00         0
   macro avg       0.00      0.00      0.00         0
weighted avg       0.00      0.00      0.00         0



  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)


In [78]:
# Matriz de confusão
print (pd.crosstab(classes, resultados, rownames=['Real'], colnames=['Predito'], margins=True))

Predito   negativo  neutro  positivo  All
Real                                     
negativo         1       2         3    6
neutro           0      29        19   48
positivo         0      10        29   39
All              1      41        51   93


In [79]:
def Metricas(modelo, tweets, classes):
  resultados = cross_val_predict(modelo, tweets, classes, cv=10)
  return 'Acurácia do modelo: {}'.format(metrics.accuracy_score(classes,resultados))

In [80]:
# svm linear simples
Metricas(pipeline_svm_simples,tweets,classes)



'Acurácia do modelo: 0.6774193548387096'