In [None]:
# Documentação
# https://python-twitter.readthedocs.io/en/latest/twitter.html#module-twitter.api

## Importando bibliotecas

In [None]:
!pip install python-twitter

In [1]:
import twitter
import json

In [241]:
from nltk import word_tokenize
import nltk
import re
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn import svm
from sklearn import metrics
from sklearn.model_selection import cross_val_predict
from sklearn.model_selection import cross_val_score

## Configurando api

In [None]:
# Variaveis de acesso, keys cedidas pela api do twitter
# tokens.json

In [3]:
# Carregando o arquivo de configuração
with open('tokens.json') as f:
    data = json.load(f)

In [4]:
# Carregando a API do Twitter, utilizando os dados do arquivo json
api = twitter.Api(**data)

In [5]:
# Testar se tudo está certo

# Caso tiver alguma credencial errada, o resultado será:
#twitter.error.TwitterError: [{'code': 32, 'message': 'Could not authenticate you.'}]

print(api.VerifyCredentials())

{"created_at": "Tue Jul 26 22:26:37 +0000 2016", "default_profile": true, "default_profile_image": true, "friends_count": 1, "id": 758066017742512128, "id_str": "758066017742512128", "name": "Malu Freitas", "profile_background_color": "F5F8FA", "profile_image_url": "http://abs.twimg.com/sticky/default_profile_images/default_profile_normal.png", "profile_image_url_https": "https://abs.twimg.com/sticky/default_profile_images/default_profile_normal.png", "profile_link_color": "1DA1F2", "profile_sidebar_border_color": "C0DEED", "profile_sidebar_fill_color": "DDEEF6", "profile_text_color": "333333", "profile_use_background_image": true, "screen_name": "MaluMalufrt"}


In [6]:
# A API do Twitter permite fazer diversos tipos de consultas. O retorno dessas consultas pode ser acessado facilmente. 

# Função que, a partir de uma lista de status, mostra o nome do usuário e o texto do twitter.

def print_status(status_list):
    for status in status_list:
        print('(' + str(status.created_at) + ') ' + str(status.user.name) + ':' + str(status.text) + '\n')

## Buscando dados do twitter

In [7]:
# Busca por termos

status_list = api.GetSearch(term="mi band 4",
                            lang='pt',
                            count=100)  #,
                            #result_type='mixed')

## Criando lista com os tweets

In [8]:
def cria_tweet_list(status_list):
    tweet_list = []
    
    for tweet in status_list:
        tweet_list.append(tweet.text)
    
    return tweet_list

In [9]:
# Printando elementos
print_status(status_list=status_list)

(Thu Oct 17 10:29:48 +0000 2019) P-Telemóveis:Xiaomi Mi Band 4 | Unboxing | P-Telemóveis
https://t.co/Nl5GXpB7ZF

(Thu Oct 17 08:34:40 +0000 2019) thomas shelby:que vontade de comprar um mi band 4

(Thu Oct 17 05:44:41 +0000 2019) felipe:@machorrona @igoormateus Esquece a mi Band 4. Tu vai fazer exercícios de caminhada e só vai funcionar se tu tiver com o celular andando tbm

(Thu Oct 17 04:33:52 +0000 2019) Palyson Dinto:Acabei de comprar a mi Band 4. Espero não me arrepender

(Thu Oct 17 04:22:34 +0000 2019) Rick Siqueira 👽:Mal comprei a mi Band 2 e ja tô doido pra ter a 4, xiaomi pq fizeste isso comigo?!

(Thu Oct 17 04:03:06 +0000 2019) Kelly Mansur:Só queria dizer que o mi Band 4 é top demais!!!! Tô parecendo criança 😂😂😂😂😂😂😂😂

(Thu Oct 17 02:57:48 +0000 2019) Mama J ♏️:@filtrbr Faz update da Mi Band pela versão 4

(Thu Oct 17 02:45:20 +0000 2019) Cristiano Almeida:@nicolleferretti  quero uma mi band 4 tchau

(Thu Oct 17 02:25:14 +0000 2019) só no tagadagadá:pensando aqui em compra

In [10]:
print(len(status_list))

100


In [25]:
tweet_list = cria_tweet_list(status_list)

In [26]:
print(tweet_list)

['Xiaomi Mi Band 4 | Unboxing | P-Telemóveis\nhttps://t.co/Nl5GXpB7ZF', 'que vontade de comprar um mi band 4', '@machorrona @igoormateus Esquece a mi Band 4. Tu vai fazer exercícios de caminhada e só vai funcionar se tu tiver com o celular andando tbm', 'Acabei de comprar a mi Band 4. Espero não me arrepender', 'Mal comprei a mi Band 2 e ja tô doido pra ter a 4, xiaomi pq fizeste isso comigo?!', 'Só queria dizer que o mi Band 4 é top demais!!!! Tô parecendo criança 😂😂😂😂😂😂😂😂', '@filtrbr Faz update da Mi Band pela versão 4', '@nicolleferretti  quero uma mi band 4 tchau', 'pensando aqui em comprar\numa mi band 4', 'Minha mi Band 4 não pegou taxa de importação, e como eu estou agora: https://t.co/MOUXInq1DA', 'Depois de 1 mês e 3 dias finalmente meu Xiaomi Mi Band 4 que ganhei de aniver descarregou. \nBateria q dura da #@$%^&amp;', '@julixGiolo_ Vc precisa de uma mi band 4 para melhorar seus problemassss', 'Acho q minha mi band 4 chega amanhã', 'Xiaomi Mi Band 4 Smart Bracelet ( China Vers

In [13]:
for i in tweet_list:
    print("'" + str(i) + "'")
    print('----------------------------------------------------------------------------------------------------------------')

'Xiaomi Mi Band 4 | Unboxing | P-Telemóveis
https://t.co/Nl5GXpB7ZF'
----------------------------------------------------------------------------------------------------------------
'que vontade de comprar um mi band 4'
----------------------------------------------------------------------------------------------------------------
'@machorrona @igoormateus Esquece a mi Band 4. Tu vai fazer exercícios de caminhada e só vai funcionar se tu tiver com o celular andando tbm'
----------------------------------------------------------------------------------------------------------------
'Acabei de comprar a mi Band 4. Espero não me arrepender'
----------------------------------------------------------------------------------------------------------------
'Mal comprei a mi Band 2 e ja tô doido pra ter a 4, xiaomi pq fizeste isso comigo?!'
----------------------------------------------------------------------------------------------------------------
'Só queria dizer que o mi Band 4 é top dema

In [None]:
# criei
# tweet_list
# tweet_list_2
# tweet_list_3

## Remove os tweets duplicados

In [28]:
lista_sem_duplicados = list(set(tweet_list))

In [15]:
print(type(lista_sem_duplicados))

<class 'list'>


In [16]:
print(len(tweet_list))

100


In [17]:
print(len(lista_sem_duplicados))

96


In [29]:
print(lista_sem_duplicados)

['@heyanab Meu mi Band 4 tá no limbo faz um tempão', 'Pensando em pegar a mi band 4\nSou muito xiaomir', '@canalrssv mi band 4 realmente e uma escolha bem interessante...\nvc ainda tem o bip?', 'Peguei uma mi band 4, negócio é dahorinha, mas nada supera o designer de uma Apple Watch hein, vou comprar uma também', 'acho q vou comprar um mi band 4', 'Acho q minha mi band 4 chega amanhã', '@nicolleferretti  quero uma mi band 4 tchau', 'Mi Band 4: pulseira inteligente da Xiaomi chega oficialmente ao Brasil https://t.co/pGIDuWXf0y https://t.co/D5mN568m6r', '@XiaomiBrasil Bom dia , já possuo uma mi band 4 , quando vai estar disponível a Amazfit GTS aqui no Brasil?', 'mano quero comprar a mi band 4 pra ontem, tô apx', '@gustavodefilpo bixo tô namorando com a mi Band 4', 'O auge da tarde: fazendo propaganda da Mi Band 4 para o segurança da UEPB. Mais uma compra influenciada com sucesso', '@lorenarebelo Mi Band 4 são essas smartwatches (vulgo RELOGINHO COM PULSEIRA COLORIDA) que são integrados 

In [27]:
print(tweet_list)

['Xiaomi Mi Band 4 | Unboxing | P-Telemóveis\nhttps://t.co/Nl5GXpB7ZF', 'que vontade de comprar um mi band 4', '@machorrona @igoormateus Esquece a mi Band 4. Tu vai fazer exercícios de caminhada e só vai funcionar se tu tiver com o celular andando tbm', 'Acabei de comprar a mi Band 4. Espero não me arrepender', 'Mal comprei a mi Band 2 e ja tô doido pra ter a 4, xiaomi pq fizeste isso comigo?!', 'Só queria dizer que o mi Band 4 é top demais!!!! Tô parecendo criança 😂😂😂😂😂😂😂😂', '@filtrbr Faz update da Mi Band pela versão 4', '@nicolleferretti  quero uma mi band 4 tchau', 'pensando aqui em comprar\numa mi band 4', 'Minha mi Band 4 não pegou taxa de importação, e como eu estou agora: https://t.co/MOUXInq1DA', 'Depois de 1 mês e 3 dias finalmente meu Xiaomi Mi Band 4 que ganhei de aniver descarregou. \nBateria q dura da #@$%^&amp;', '@julixGiolo_ Vc precisa de uma mi band 4 para melhorar seus problemassss', 'Acho q minha mi band 4 chega amanhã', 'Xiaomi Mi Band 4 Smart Bracelet ( China Vers

## Coloca os tweets da lista em um arquivo .csv

In [18]:
def cria_arquivo_csv(lista):
    arquivo = open('tweets_mi_band_4.csv', 'w', encoding='utf-8')
    
    for pos_tweet in range(len(lista)):
        arquivo.write('"' + str(lista[pos_tweet]) + '"')
        arquivo.write('\n')
        
    arquivo.close()

In [21]:
cria_arquivo_csv(lista_sem_duplicados)

In [30]:
#cria_arquivo_csv(tweet_list)

## Cria um data frame

In [230]:
# Criando data frame
df = pd.read_csv('classificado_tweets_mi_band_4.csv', encoding='utf-8')

In [60]:
#df = pd.read_csv('Tweets_Mg.csv', encoding='utf-8')

In [231]:
df.head()

Unnamed: 0,tweets,classes
0,Tive que desativar o negócio do sono da mi ban...,negativo
1,"RT @cachorro_frio: @fernandobentto cara, jura?...",negativo
2,"@FelipeDuarte151 Tenho a mi band 3, mas acho a...",positivo
3,To vendendo minha pulseira mi band 4(relógio)😉,neutro
4,mi band 4 na internet = 160 reais \nmi band 3 ...,neutro


In [232]:
tweets = df['tweets']
classes = df['classes']

## Limpeza dos dados

In [34]:
# Para limpeza dos dados
import nltk
nltk.download('stopwords')
nltk.download('rslp')
nltk.download('punkt')
nltk.download('wordnet')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\MaluF\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package rslp to
[nltk_data]     C:\Users\MaluF\AppData\Roaming\nltk_data...
[nltk_data]   Package rslp is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\MaluF\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\MaluF\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

In [47]:
def Preprocessing(instancia):
    stemmer = nltk.stem.RSLPStemmer()
    instancia = re.sub(r"http\S+", "", instancia).lower().replace('.','').replace(',','').replace(';','').replace('-','').replace(':','').replace(')','')
    stopwords = set(nltk.corpus.stopwords.words('portuguese'))
    stopwords.remove('não')
    palavras = [stemmer.stem(i) for i in instancia.split() if not i in stopwords]
    return (" ".join(palavras))

# Aplica a função em todos os dados:
tweets = [Preprocessing(i) for i in tweets]

In [48]:
Preprocessing('Eu não gosto do partido, e também não votaria novamente nesse governante! http://python.w3.pt/?p=234')

'não gost part não vot nov ness governante!'

## Tokenização

In [36]:
from nltk.tokenize import TweetTokenizer

In [233]:
tweet_tokenizer = TweetTokenizer()

In [None]:
frase = 'A live do @blogminerando é show! :) :-) ;) =D'

In [None]:
tweet_tokenizer.tokenize(frase)

## Vetorização - Bag of words

In [234]:
# Instancia o objeto que faz a vectorização
vectorizer = CountVectorizer(analyzer="word", tokenizer=tweet_tokenizer.tokenize)

In [235]:
# Aplica o vetorizador nos dados
freq_tweets = vectorizer.fit_transform(tweets)
type(freq_tweets)

scipy.sparse.csr.csr_matrix

In [236]:
# Formato linha, coluna da matriz
freq_tweets.shape

(191, 985)

In [237]:
# Treino do modelo de machine learning
modelo = MultinomialNB()
modelo.fit(freq_tweets,classes)

MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

In [238]:
freq_tweets.A

array([[0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       ...,
       [0, 0, 1, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0]], dtype=int64)

## Testando o modelo

In [129]:
def testando_modelo(tweets, post):
    teste = tweets[pos:pos+1]
    testes = [Preprocessing(i) for i in testes]
    freq_testes = vectorizer.transform(testes)

    for t, c in zip (testes,modelo.predict(freq_testes)):
        print (t +", "+ c)

In [239]:
testes = list(tweets[0:10])
aux = tweets[11:]
aux.drop(labels=0)
execucao = aux

KeyError: '[0] not found in axis'

In [240]:
print(type(testes))

<class 'list'>


In [223]:
print(type(execucao))

<class 'pandas.core.series.Series'>


In [224]:
print(execucao)

11     @buzsheep Ficou muito bom na mi band 4 😍 https...
12     mi band 4 qualquer coisa no mundo&gt;&gt;&gt;&...
13             tô portado de xiaomi, mi band 4 em mãos 🤪
14     Certo, eu admito, estou viciado nos produtos d...
15     @mizanzika Já viu esse site que tem vários tem...
                             ...                        
186              pensando aqui em comprar\numa mi band 4
187    Minha mi Band 4 não pegou taxa de importação, ...
188    Depois de 1 mês e 3 dias finalmente meu Xiaomi...
189    @julixGiolo_ Vc precisa de uma mi band 4 para ...
190                  Acho q minha mi band 4 chega amanhã
Name: tweets, Length: 180, dtype: object


In [210]:
# Aplicando a função de pre processamento nos testes
testes = [Preprocessing(i) for i in testes]

In [211]:
print(testes)

['desativ negóci son mi band 4 bagulh tav deix doid', 'rt @cachorro_fri @fernandobentt car jura? preç compr dav pra ter peg xiaom mi 9 mi band 4 caix jbl ult…', '@felipeduarte151 mi band 3 ach 4 legal cont tel color', 'to vend puls mi band 4(relógio😉', 'mi band 4 internet = 160 real mi band 3 jipar = 260 real kkkkkpi', 'ganh mi band 4 😍 ah deu', 'vontad compr mi band 4 tá gigantesc sort não cart crédit não far beste', '@xiaomibrasil par tent tal mi band 4 ?!?!', 'quer sab mi band 4 boa resist quant arranh tal pq n ach lig nenhum sobr isso…', 'algu xiaom mi band 4 pres']


In [194]:
# Transforma os dados de teste em vetores de palavras.
freq_testes = vectorizer.transform(testes)

In [195]:
print(testes,modelo.predict(freq_testes))

['desativ negóci son mi band 4 bagulh tav deix doid', 'rt @cachorro_fri @fernandobentt car jura? preç compr dav pra ter peg xiaom mi 9 mi band 4 caix jbl ult…', '@felipeduarte151 mi band 3 ach 4 legal cont tel color', 'to vend puls mi band 4(relógio😉', 'mi band 4 internet = 160 real mi band 3 jipar = 260 real kkkkkpi', 'ganh mi band 4 😍 ah deu', 'vontad compr mi band 4 tá gigantesc sort não cart crédit não far beste', '@xiaomibrasil par tent tal mi band 4 ?!?!', 'quer sab mi band 4 boa resist quant arranh tal pq n ach lig nenhum sobr isso…', 'algu xiaom mi band 4 pres'] ['positivo' 'neutro' 'positivo' 'neutro' 'neutro' 'positivo' 'positivo'
 'neutro' 'negativo' 'positivo']


In [196]:
# Fazendo a classificação com o modelo treinado.
for t, c in zip (testes,modelo.predict(freq_testes)):
    print (t +", "+ c)

desativ negóci son mi band 4 bagulh tav deix doid, positivo
rt @cachorro_fri @fernandobentt car jura? preç compr dav pra ter peg xiaom mi 9 mi band 4 caix jbl ult…, neutro
@felipeduarte151 mi band 3 ach 4 legal cont tel color, positivo
to vend puls mi band 4(relógio😉, neutro
mi band 4 internet = 160 real mi band 3 jipar = 260 real kkkkkpi, neutro
ganh mi band 4 😍 ah deu, positivo
vontad compr mi band 4 tá gigantesc sort não cart crédit não far beste, positivo
@xiaomibrasil par tent tal mi band 4 ?!?!, neutro
quer sab mi band 4 boa resist quant arranh tal pq n ach lig nenhum sobr isso…, negativo
algu xiaom mi band 4 pres, positivo


In [197]:
# Probabilidades de cada classe
print (modelo.classes_)
modelo.predict_proba(freq_testes).round(2)

['negativo' 'neutro' 'positivo']


array([[0.03, 0.34, 0.63],
       [0.28, 0.56, 0.16],
       [0.01, 0.19, 0.8 ],
       [0.  , 0.76, 0.24],
       [0.  , 0.98, 0.02],
       [0.01, 0.06, 0.93],
       [0.15, 0.12, 0.74],
       [0.  , 0.81, 0.19],
       [0.93, 0.02, 0.05],
       [0.03, 0.34, 0.63]])

## Criando modelos com Pipelines

In [198]:
# Pipelines são interessantes para reduzir código e automatizar fluxos
from sklearn.pipeline import Pipeline

In [214]:
pipeline_svm_simples = Pipeline([
  ('counts', CountVectorizer()),
  ('classifier', svm.SVC(kernel='linear'))
])

## Validando os Modelos com Validação Cruzada

In [215]:
# Fazendo o cross validation do modelo
resultados = cross_val_predict(pipeline_svm_simples, execucao, classes, cv=10)

ValueError: Found input variables with inconsistent numbers of samples: [180, 191]

In [190]:
# Medindo a acurácia média do modelo
metrics.accuracy_score(classes,resultados)

0.5916230366492147

In [179]:
# Medidas de validação do modelo
sentimento=['positivo','negativo','neutro']
print (metrics.classification_report(classes,resultados,sentimento))

              precision    recall  f1-score   support

    positivo       0.58      0.67      0.62        85
    negativo       0.59      0.36      0.44        28
      neutro       0.61      0.59      0.60        78

    accuracy                           0.59       191
   macro avg       0.59      0.54      0.56       191
weighted avg       0.59      0.59      0.59       191



In [180]:
# Matriz de confusão
print (pd.crosstab(classes, resultados, rownames=['Real'], colnames=['Predito'], margins=True))

Predito   negativo  neutro  positivo  All
Real                                     
negativo        10       6        12   28
neutro           2      46        30   78
positivo         5      23        57   85
All             17      75        99  191


In [181]:
def Metricas(modelo, tweets, classes):
  resultados = cross_val_predict(modelo, tweets, classes, cv=10)
  return 'Acurácia do modelo: {}'.format(metrics.accuracy_score(classes,resultados))

In [182]:
# svm linear simples
Metricas(pipeline_svm_simples,execucao,classes)

'Acurácia do modelo: 0.5916230366492147'

In [258]:
medias = cross_val_score(pipeline_svm_simples, tweets, classes, cv=10)
media = sum(medias) / len(medias)

In [259]:
medias

array([0.6       , 0.7       , 0.4       , 0.65      , 0.6       ,
       0.47368421, 0.68421053, 0.63157895, 0.76470588, 0.41176471])

In [260]:
media

0.5915944272445821