___

## Preparando o ambiente

Instalando a biblioteca *tweepy* para realizar a conexão com o Twitter:

In [3]:
%%capture

#Instalando o tweepy
!pip install tweepy

Importando as Bibliotecas que serão utilizadas. Esteja livre para adicionar outras.

In [4]:
import tweepy
import math
import os.path
import pandas as pd
import json
import nltk
import numpy as np


___
## Autenticando no  Twitter

Para realizar a captura dos dados é necessário ter uma conta cadastrada no twitter:

* Conta: ***@YMartins123***


1. Caso ainda não tenha uma: https://twitter.com/signup
1. Depois é necessário registrar um app para usar a biblioteca: https://apps.twitter.com/
1. Dentro do registro do App, na aba Keys and Access Tokens, anotar os seguintes campos:
    1. Consumer Key (API Key)
    1. Consumer Secret (API Secret)
1. Mais abaixo, gere um Token e anote também:
    1. Access Token
    1. Access Token Secret
    
1. Preencha os valores no arquivo "auth.pass"

**ATENÇÃO**: Nunca divulgue os dados desse arquivo online (GitHub, etc). Ele contém as chaves necessárias para realizar as operações no twitter de forma automática e portanto é equivalente a ser "hackeado". De posse desses dados, pessoas mal intencionadas podem fazer todas as operações manuais (tweetar, seguir, bloquear/desbloquear, listar os seguidores, etc). Para efeito do projeto, esse arquivo não precisa ser entregue!!!

In [5]:
#Dados de autenticação do twitter:

#Coloque aqui o identificador da conta no twitter: @fulano

#leitura do arquivo no formato JSON
with open('auth.pass') as fp:    
    data = json.load(fp)

#Configurando a biblioteca. Não modificar
auth = tweepy.OAuthHandler(data['consumer_key'], data['consumer_secret'])
auth.set_access_token(data['access_token'], data['access_token_secret'])

___
## Coletando Dados

Agora vamos coletar os dados. Tenha em mente que dependendo do produto escolhido, não haverá uma quantidade significativa de mensagens, ou ainda poder haver muitos retweets.<br /><br /> 
Configurando:

In [6]:
#Produto escolhido:
produto = 'Samsung'

#Quantidade mínima de mensagens capturadas:
n = 500
#Quantidade mínima de mensagens para a base de treinamento:
t = 300

#Filtro de língua, escolha uma na tabela ISO 639-1.
lang = 'pt'

Capturando os dados do twitter:

In [None]:
#Cria um objeto para a captura
api = tweepy.API(auth)

#Inicia a captura, para mais detalhes: ver a documentação do tweepy
i = 1
msgs = []
for msg in tweepy.Cursor(api.search, q=produto, lang=lang).items():    
    msgs.append(msg.text.lower())
    i += 1
    if i > n:
        break

#Embaralhando as mensagens para reduzir um possível viés
shuffle(msgs)

Salvando os dados em uma planilha Excel:

In [None]:
#Verifica se o arquivo não existe para não substituir um conjunto pronto
if not os.path.isfile('./{0}.xlsx'.format(produto)):
    
    #Abre o arquivo para escrita
    writer = pd.ExcelWriter('{0}.xlsx'.format(produto))

    #divide o conjunto de mensagens em duas planilhas
    dft = pd.DataFrame({'Treinamento' : pd.Series(msgs[:t])})
    dft.to_excel(excel_writer = writer, sheet_name = 'Treinamento', index = False)

    dfc = pd.DataFrame({'Teste' : pd.Series(msgs[t:])})
    dfc.to_excel(excel_writer = writer, sheet_name = 'Teste', index = False)

    #fecha o arquivo
    writer.save()

___
## Classificando as Mensagens

Agora você deve abrir o arquivo Excel com as mensagens capturadas e classificar na Coluna B se a mensagem é relevante ou não.<br /> 
Não se esqueça de colocar um nome para a coluna na célula **B1**.<br /><br />
Fazer o mesmo na planilha de Controle.

___
## Montando o Classificador Naive-Bayes

Com a base de treinamento montada, comece a desenvolver o classificador. Escreva o seu código abaixo:

Opcionalmente: 
* Limpar as mensagens removendo os caracteres: enter, :, ", ', (, ), etc. Não remover emojis.<br />
* Corrigir separação de espaços entre palavras e/ou emojis.
* Propor outras limpezas/transformações que não afetem a qualidade da informação.



In [9]:
#Limpando as mensagens 

import string
import random
data=pd.read_excel("Samsung.xlsx")
datatest=pd.read_excel("Samsung.xlsx",sheetname="Teste")

def sempontuacao(text):  #função que retira todos os sinais(emocotions continuam)
    for punctuation in string.punctuation:
        text = text.replace(punctuation, ' ')
    return text

data["Treinamento"] = data['Treinamento'].apply(sempontuacao)
datatest["Teste"] = datatest["Teste"].apply(sempontuacao)
data.Treinamento=data.Treinamento.str.replace("  "," ")#retirando espaços vazios
datatest["Teste"] = datatest.Teste.str.replace("  "," ")
data.Treinamento=data.Treinamento.str.replace("\n"," ")#retirando espaços vazios
datatest["Teste"] = datatest.Teste.str.replace("\n"," ")


lista_rel = []
lista_nrel = []
lista_total = []



for i in range(len(data["Treinamento"])): #Preenchendo as listas de frases relevantes e irrelevantes
    if data["Relevancia"][i]=="Relevante":
        lista_rel+=(list(set(data["Treinamento"][i].split())))
        lista_total+=(list(set(data["Treinamento"][i].split())))
    else:
        lista_nrel+=(list(set(data["Treinamento"][i].split())))
        lista_total+=(list(set(data["Treinamento"][i].split())))
        
        
#lista_rel=  list(set(lista_rel))
#lista_nrel = list(set(lista_nrel))

lista_total=list(set(lista_total))

n_rel = len(lista_rel)
n_nrel= len(lista_nrel)




        

        
    


___
## Verificando a performance

Agora você deve testar o seu Classificador com a base de Testes.<br /><br /> 

Você deve extrair as seguintes medidas:
* Porcentagem de positivos falsos (marcados como relevante mas não são relevantes)
* Porcentagem de positivos verdadeiros (marcado como relevante e são relevantes)
* Porcentagem de negativos verdadeiros (marcado como não relevante e não são relevantes)
* Porcentagem de negativos falsos (marcado como não relevante e são relevantes)

Opcionalmente:
* Criar categorias intermediárias de relevância baseado na diferença de probabilidades. Exemplo: muito relevante, relevante, neutro, irrelevante e muito irrelevante.

In [12]:
palavra_prob_relevante=[]
final_relevante=[1]
palavra_prob_nrelevante=[]
final_nrelevante=[1]

for i in range(len(datatest.Teste)): 
    palavra_prob_relevante.append([]) 
    palavra_prob_nrelevante.append([]) 
    for j in range(len(datatest.Teste[i].split())): 
        count=lista_rel.count(datatest.Teste[i].split()[j]) #Contagem de ocorrência da palavra de teste com a lista de relevância
        count2=lista_nrel.count(datatest.Teste[i].split()[j]) #Contagem de ocorrência da palavra de teste com a lista de irrelevância
        
        palavra_prob_relevante[i].append((count+1)/(n_rel+len(lista_total))) #Cálculo da probabilidade de relevância por palavra
        palavra_prob_nrelevante[i].append((count2+1)/(n_nrel+len(lista_total)))      
        
        final_relevante[i]=(final_relevante[i]*palavra_prob_relevante[i][j]) #Cálculo da probabilidade por frase
        final_nrelevante[i]=(final_nrelevante[i]*palavra_prob_nrelevante[i][j])
        
    final_relevante.append(1)
    final_nrelevante.append(1)       
        
        
falso_positivo=0
verdadeiro_positivo=0
falso_negativo=0
verdadeiro_negativo=0

muito_relevante=0 
relevante=0
neutro=0
irrelevante=0
muito_irrelevante=0


prob_rel=[]
prob_nrel=[]

for i in range(len(datatest["Relevancia"])):
   
    if final_relevante[i]<final_nrelevante[i]:
        
        prob_rel.append(final_relevante[i])
        if datatest.Relevancia[i]=="Relevante":
            
            verdadeiro_positivo+=1
        else:
            falso_positivo+=1        
            
            
    else:
        prob_nrel.append(final_nrelevante[i])
        if datatest.Relevancia[i]=="Não Relevante":            
            verdadeiro_negativo+=1
            
        else:            
            falso_negativo+=1
prob_rel.sort()
prob_nrel.sort()

vcentral_relevancia = prob_rel[int(len(prob_rel)/2)]
vcentral_irrelevancia =  prob_nrel[int(len(prob_rel)/2)]



for i in range(len(prob_rel)):
    if final_relevante[i]>=prob_rel[int(len(prob_rel)*0.75)]:
        muito_relevante+=1
    else:
        if final_relevante[i]>=prob_rel[int(len(prob_rel)*0.25)]:
            relevante+=1
        else:
            neutro+=1

for i in range(len(prob_nrel)):
    if final_nrelevante[i]>=prob_nrel[int(len(prob_nrel)*0.75)]:
        muito_irrelevante+=1
    else:
        if final_nrelevante[i]>=prob_nrel[int(len(prob_nrel)*0.25)]:
            irrelevante+=1
        else:
            neutro+=1




p_falso_positivo=falso_positivo/datatest["Teste"].shape[0]
p_verdadeiro_positivo=verdadeiro_positivo/datatest["Teste"].shape[0]
p_falso_negativo=falso_negativo/datatest["Teste"].shape[0]
p_verdadeiro_negativo=verdadeiro_negativo/datatest["Teste"].shape[0]

print("Porcentagem de positivos verdadeiros :{0:.2f}%".format(p_verdadeiro_positivo*100))
print("Porcentagem de negativos verdadeiros: {0:.2f}%".format(p_verdadeiro_negativo*100))
print("Porcentagem de positivos falsos: {0:.2f}%".format(p_falso_positivo*100))
print("Porcentagem de negativos falsos : {0:.2f}%".format(p_falso_negativo*100))
print()
print()

print("Porcentagem de muito relevantes :{0:.2f}%".format((muito_relevante/len(datatest["Relevancia"]))*100))
print("Porcentagem de relevantes: {0:.2f}%".format((relevante/len(datatest["Relevancia"]))*100))
print("Porcentagem de neutros: {0:.2f}%".format((neutro/len(datatest["Relevancia"]))*100))
print("Porcentagem de irrelevantes : {0:.2f}%".format((irrelevante/len(datatest["Relevancia"]))*100))   
print("Porcentagem de muito irrelevantes : {0:.2f}%".format((muito_irrelevante/len(datatest["Relevancia"]))*100))




Porcentagem de positivos verdadeiros :5.00%
Porcentagem de negativos verdadeiros: 34.00%
Porcentagem de positivos falsos: 50.00%
Porcentagem de negativos falsos : 11.00%


Porcentagem de muito relevantes :13.50%
Porcentagem de relevantes: 28.00%
Porcentagem de neutros: 24.50%
Porcentagem de irrelevantes : 24.50%
Porcentagem de muito irrelevantes : 9.50%


___
## Concluindo

Escreva aqui a sua conclusão.<br /> 
Faça um comparativo qualitativo sobre as medidas obtidas.<br />
Explique como são tratadas as mensagens com dupla negação e sarcasmo.<br />
Proponha um plano de expansão. Por que eles devem continuar financiando o seu projeto?<br />

Opcionalmente: 
* Discorrer por que não posso alimentar minha base de Treinamento automaticamente usando o próprio classificador, aplicado a novos tweets.
* Propor diferentes cenários de uso para o classificador Naive-Bayes. Cenários sem intersecção com este projeto.
* Sugerir e explicar melhorias reais no classificador com indicações concretas de como implementar (não é preciso codificar, mas indicar como fazer e material de pesquisa sobre o assunto).


 A partir dos tweets que compuseram a base de treinamento e baseando no classificador Naves-Bayes, montou-se um algoritmo que classifica novas mensagem em Relevantes e Irrelevantes.
   Preparando-se uma lista de mensagem para servir de treinamento, foi avaliado tais tweets como relevantes ou irrelevantes para comparar com o resultado apresentado pelo algoritmo. Após a análise final, viu-se que 39% de todas as mensagem foram avaliadas corretamente. Enquanto que 50% foram avaliadas como Relevantes, mas na verdade, eram irrelevantes e 11% foram avaliadas como Irrelevantes, mas eram relevantes.
   Uma grande dificuldade de se avaliar a partir de tal classificador é que algumas expressões são compostas com dupla negação e sarcasmo. Pelo fato de o metódo Naves-Bayes analisar se a frase é irrelevante ou relevante palavra por palavra, algumas expressões podem ser classificados de um modo falho.
 Entretanto, apesar de algumas deficiências, tal projeto deve ser extendido pois ele representa uma análise de como o mercado avalia o seu produto. Dentro do trabalho, existe sempre um ponto positivo ou uma melhoria na marca que é comentada diversas vezes. Isso expõe para a empresa características que devem ser ajustadas para futuras mercadorias a serem lançadas no mercado a fim de melhorar o modo com que o público-alvo avalia a marca.
   Para a base de Treinamento não se deve usar o classificador para não existir um vício de avaliações erradas. Isto é, caso novos tweets venham com sarcamo ou algo do genêro, o classificador avaliaria de um modo inexato, fazendo com que o erro se prolongasse para futuras mensagens que também possuiriam sarcamos. Por isso é indicado que a base de treinamento seja avaliada manualmente.
   Fora o uso para filtros anti-spam, o classificador Naves-Bayes também pode ser usado em outros tipos de empresas. Por exemplo, uma empresa financeira pode avaliar caso um indivíduo será ou não inadimplente. Basta separar algumas informações dos clientes atuais (renda, estado civil, por exemplo) e usá-las como uma base de treinamento. Após essa ação, tal companhia pode tentar avaliar com mais precisão como será o comportamento de seus consumidores.
    Para tentar aprimorar o classificador cada vez mais, um item compatível com tal situação seria um algoritmo capaz de avaliar  o sentimento da mensagem. Com isso, a empresa saíria ganhando duas vezes, uma vez que isso, além de aumentar a precisão de avaliação das mensagens com  sacarmos e dupla negação, ela também mostraria a qualidade com que o mercado avalia o seu produto. Isto é, caso as mensagens Relevantes viessem com um indice de rancor ou infelicidade muito alto, isso significaria que algum ponto dos produtos de tal marca deve ser revisto para que haja uma melhor reação do público-alvo.
    Atualmente, para se avaliar sentimento, existem dois tipos de análise: os baseados em aprendizado de máquina e os métodos léxicos. O primeiro depende de algumas bases de dados rotulados para treinar classificadores. Já o segundo depende de uma lista de palavras que são associadas a um sentimento específico.
    Por ser uma assunto complexo, segue alguns links que aprofundam mais o metódo de aplicação da análise de sentimento:
    *http://homepages.dcc.ufmg.br/~fabricio/download/webmedia-short-course.pdf
    *https://s3.amazonaws.com/academia.edu.documents/34632156/Twitter_Sentiment_Classification_using_Distant_Supervision.pdf?AWSAccessKeyId=AKIAIWOWYYGZ2Y53UL3A&Expires=1505624068&Signature=1GW%2Fy%2Bq7IuTazTHpfXVhoTYPUoY%3D&response-content-disposition=inline%3B%20filename%3DTwitter_Sentiment_Classification_using_D.pdf
    