# Introdução:

Para o projeto 2 de ciência dos dados tinhamos que construir um classificador automático de sentimento sobre um produto no Twitter. 

Decidimos então que que fazer uma análise de sentimento do próprio twitter poderia ser algo bastante interessante já que a parcela da população sobre a qual estamos recolhendo dados entende a plataforma em que está mechendo (Twitter) e, já que a usa, presumimos que gosta desta.

Como vimos na disciplina de Co-design de aplicativos, o melhor tipo de feedback é aquele dado por clientes que amam seu produto, porém, estão muito insatisfeitos com algum aspecto dele. Isso porque dentro desse feedback há uma admiração e uma crítica ao produto, assim, podendo observar os aspectos a manter e a mudar em futuras iterações.

Dessa forma, nesse documento discutiremos os desdobramentos da nossa análise sobre a relevância dos tweets sobre o próprio twitter.

<br>


###### Projeto 2 Ciência dos Dados:
###### Gustavo Berger e Rafael dos Santos



In [1]:
#======================================= Imports =======================================
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from scipy import stats
import nltk
nltk.download('rslp')
stemmer = nltk.stem.RSLPStemmer()
dados= pd.read_excel("tweets_certos_3.0.xlsx")
dados_teste= pd.read_excel("tweets_certos_3.0.xlsx",sheet_name=1)

[nltk_data] Downloading package rslp to /Users/Gustavo/nltk_data...
[nltk_data]   Package rslp is already up-to-date!


In [2]:
#======================================= Função para limpar os tweets =======================================
def limpa_tweet(tweet):
    tweet = tweet.replace(" por ", " ")
    tweet = tweet.replace(" do ", " ")
    tweet = tweet.replace(" da ", " ")
    tweet = tweet.replace(" de ", " ")
    tweet = tweet.replace(" '", "")
    tweet = tweet.replace("' ", "")
    tweet = tweet.replace("#", "")
    tweet = tweet.replace(" à ", " ")
    tweet = tweet.replace(" aos ", " ")
    tweet = tweet.replace(" o ", " ")
    tweet = tweet.replace(" a ", " ")
    tweet = tweet.replace(" e ", " ")
    tweet = tweet.replace("!", " ")
    tweet = tweet.replace("?", " ")
    tweet = tweet.replace("(", " ")
    tweet = tweet.replace(")", " ")
    tweet = tweet.replace(" rt ", " ")
    tweet = tweet.replace("rt ", " ")

    tweet = tweet.lower()
    tweet = tweet.split()
    
    for palavra in tweet:
        if '@' in palavra or 'https' in palavra:
            tweet.remove(palavra)

                          
    tweets_stemizados = []
    for palavra in tweet:
        tweets_stemizados.append(stemmer.stem(palavra))

    return tweets_stemizados

In [3]:
#=================================== Contagem da quantidade das classificações  =======================================
total_0 = dados['Treinamento'][dados['rel/irrel'] == 0].count()
total_1 = dados['Treinamento'][dados['rel/irrel'] == 1].count()

total = total_0 + total_1

In [4]:
#======================================= Cálculo das probs. pelas contagens =======================================
p_0 = total_0 / total
p_1 = total_1 / total

print("Probabilidade de Irrelevante: {:.2f}%".format(p_1*100))
print("Probabilidade de Relevante: {:.2f}%".format(p_0*100))

Probabilidade de Irrelevante: 31.79%
Probabilidade de Relevante: 68.21%


In [5]:
#==================================== Criação de listas, dicionários e variáveis =====================================
palavras_relevantes = []
palavras_irrelevantes = []

frequencia_irrelevantes = {}
frequencia_relevantes = {}

n_relevante = 0
n_irrelevante = 0


#============================== loop para limpar os tweets e contar as palavras ============================
i = 0
for avaliacao in dados['rel/irrel']:
    tweet_limpo = limpa_tweet(dados['Treinamento'][i])
    for palavra in tweet_limpo:
        if avaliacao == 1:
            if palavra not in palavras_irrelevantes:
                palavras_irrelevantes.append(palavra)
                frequencia_irrelevantes[palavra] = 1
            else:
                frequencia_irrelevantes[palavra] += 1
            n_irrelevante += 1
            
        else:
            if palavra not in palavras_relevantes:
                palavras_relevantes.append(palavra)
                frequencia_relevantes[palavra] = 1
            else:
                frequencia_relevantes[palavra] += 1
            n_relevante += 1
            
    i += 1
    
n_total = n_relevante + n_irrelevante


In [13]:
#======================================= Função para calcular a probabilidade =======================================
def calc_prob(tweet, dic_palavras, p, n_palavras):
    prob = p
    total = n_palavras
    tweet_limpo = limpa_tweet(tweet)
    for palavra in tweet_limpo:
        ocorrencia = 1
        if palavra in dic_palavras:
            ocorrencia += dic_palavras[palavra]
        prob += np.log(ocorrencia/(total + n_total))
    return prob


In [14]:
#======================================= Função para escolher a classificação =======================================
def comparador_prob(prob_0, prob_1):
    if prob_0 > prob_1:
        return 0
    else:
        return 1


In [15]:
#=========================================== Teste de funcionamento ==============================================
tweet = input('Digite seu tweet de teste: ')
prob_1 = calc_prob(tweet, frequencia_irrelevantes, p_1, n_irrelevante)
prob_0 = calc_prob(tweet, frequencia_relevantes, p_0, n_relevante)
resp = comparador_prob(prob_0, prob_1)
print(limpa_tweet(tweet))
if resp == 1:
    print('irrelevante')
if resp == 0:
    print('relevante')

Digite seu tweet de teste: k
['k']
relevante


In [16]:
#================================= criação da coluna de previsão no datasheet ==================================
coluna_previsao = []
for tweet in dados_teste['Teste']:
    prob_1 = calc_prob(tweet, frequencia_irrelevantes, p_1, n_irrelevante)
    prob_0 = calc_prob(tweet, frequencia_relevantes, p_0, n_relevante)
    coluna_previsao.append(comparador_prob(prob_0, prob_1))
    
dados_teste['Previsão'] = coluna_previsao

In [19]:
#====================================== Cálculo da porcentagem de acerto ===========================================
acertos = 0
i = 0
for avaliacao in dados_teste['rel/irrel']:
    if avaliacao == dados_teste['Previsão'][i]:
        acertos += 1
    i += 1
    
print("Porcentagem de Acerto: {:.2f}%".format(100*acertos/len(dados_teste)))



Porcentagem de Acerto: 71.00%


# Conclusão:


### Sobre o código escrito para o Twitter:

   Por fim, nosso classificador automático de sentimeto tem uma acurácia relaivamente alta (71%), o que se mostra como uma vantagem na hora de análisar os resultados obtidos.
   
   Chegamos à conclusão de que os usuários do twitter não estão satisfeitos com a nova atualização da plataforma, já que o uptade fez o aplicativo ficar muito parecido com o Facebook, característica que os usuários se demonstraram instatisfeitos, com isso, garantimos à empresa twitter um grande feedback sobre possíveis melhorias. Porém o nosso espaço amostral se demonstrou muito reduzido à comentários negativos sobre a nova atualização. Dessa forma, para obter um feedback completo de como melhorar em futuras atualizações seria necessário fazer uma análise mais detalhada de comentários positívos. Assim, observar uma amostra em um tempo diferente seria essencial para garantir uma maior porcentagem de comentários positívos.
   
   Além disso, para aperfeiçoar o nosso trabalho gostariamos de refinar o código considerando sarcasmos e ironias, já que durante nossa classificação, essas informações foram julgadas em seu sentido literal. 
   
  <br>
   
### Sobre o Algorítimo:

   O classificador de Naive-Bayes é um algorítmo extremamente potente, com diversas aplicações em análise de dados. Um exemplo dessas aplicações seria a probabilidade de uma pessoa comprar um computador novo dado a renda média dela. Isso pode ter altos impactos em pesquisas de público alvo para empresas de computação e em possíveis estratégias de marketing.
  
   Porém, apesar de todo seu potencial, como quase todo classificador apresenta algumas limitações de uso, tais como a impossibilidade de alimentar a sua própria base de treinamento automaticamente com o prórpio classificador. Isto ocorre por conta da acumulação do erro do classificador, isto é, realizar esta atividade iria aumentar a porcentagem de erro do classificador a cada nova iteração.