# Projeto 2 - Classificador Autom√°tico de Sentimento

Voc√™ foi contratado por uma empresa parar analisar como os clientes est√£o reagindo a um determinado produto no Twitter. A empresa deseja que voc√™ crie um programa que ir√° analisar as mensagens dispon√≠veis e classificar√° como "relevante" ou "irrelevante". Com isso ela deseja que mensagens negativas, que denigrem o nome do produto, ou que mere√ßam destaque, disparem um foco de aten√ß√£o da √°rea de marketing.<br /><br />
Como aluno de Ci√™ncia dos Dados, voc√™ lembrou do Teorema de Bayes, mais especificamente do Classificador Naive-Bayes, que √© largamente utilizado em filtros anti-spam de e-mails. O classificador permite calcular qual a probabilidade de uma mensagem ser relevante dadas as palavras em seu conte√∫do.<br /><br />
Para realizar o MVP (*minimum viable product*) do projeto, voc√™ precisa implementar uma vers√£o do classificador que "aprende" o que √© relevante com uma base de treinamento e compara a performance dos resultados com uma base de testes.<br /><br />
Ap√≥s validado, o seu prot√≥tipo poder√° tamb√©m capturar e classificar automaticamente as mensagens da plataforma.

## Informa√ß√µes do Projeto

Prazo: 13/Set at√© √†s 23:59.<br />
Grupo: 1 ou 2 pessoas.<br /><br />
Entreg√°veis via GitHub: 
* Arquivo notebook com o c√≥digo do classificador, seguindo as orienta√ß√µes abaixo.
* Arquivo Excel com as bases de treinamento e teste totalmente classificado.

**N√ÉO disponibilizar o arquivo com os *access keys/tokens* do Twitter.**


### Check 3: 

At√© o dia 06 de Setembro √†s 23:59, o notebook e o xlsx devem estar no Github com as seguintes evid√™ncias: 
    * Conta no twitter criada.
    * Produto escolhido.
    * Arquivo Excel contendo a base de treinamento e teste j√° classificado.
    

Sugest√£o de leitura:<br />
http://docs.tweepy.org/en/v3.5.0/index.html<br />
https://monkeylearn.com/blog/practical-explanation-naive-bayes-classifier/

___

## Preparando o ambiente

Instalando a biblioteca *tweepy* para realizar a conex√£o com o Twitter:

In [1]:
%%capture

#Instalando o tweepy
!pip install tweepy

Importando as Bibliotecas que ser√£o utilizadas. Esteja livre para adicionar outras.

In [2]:
import tweepy
import math
import os.path
import pandas as pd
import json
from random import shuffle

___
## Autenticando no  Twitter

Para realizar a captura dos dados √© necess√°rio ter uma conta cadastrada no twitter:

* Conta: ***[@pedrohdaher ]***


1. Caso ainda n√£o tenha uma: https://twitter.com/signup
1. Depois √© necess√°rio registrar um app para usar a biblioteca: https://apps.twitter.com/
1. Dentro do registro do App, na aba Keys and Access Tokens, anotar os seguintes campos:
    1. Consumer Key (API Key)
    1. Consumer Secret (API Secret)
1. Mais abaixo, gere um Token e anote tamb√©m:
    1. Access Token
    1. Access Token Secret
    
1. Preencha os valores no arquivo "auth.pass"

**ATEN√á√ÉO**: Nunca divulgue os dados desse arquivo online (GitHub, etc). Ele cont√©m as chaves necess√°rias para realizar as opera√ß√µes no twitter de forma autom√°tica e portanto √© equivalente a ser "hackeado". De posse desses dados, pessoas mal intencionadas podem fazer todas as opera√ß√µes manuais (tweetar, seguir, bloquear/desbloquear, listar os seguidores, etc). Para efeito do projeto, esse arquivo n√£o precisa ser entregue!!!

In [3]:
#Dados de autentica√ß√£o do twitter:

#Coloque aqui o identificador da conta no twitter: @fulano

#leitura do arquivo no formato JSON
with open('auth.pass') as fp:    
    data = json.load(fp)

#Configurando a biblioteca. N√£o modificar
auth = tweepy.OAuthHandler(data['consumer_key'], data['consumer_secret'])
auth.set_access_token(data['access_token'], data['access_token_secret'])

___
## Coletando Dados

Agora vamos coletar os dados. Tenha em mente que dependendo do produto escolhido, n√£o haver√° uma quantidade significativa de mensagens, ou ainda poder haver muitos retweets.<br /><br /> 
Configurando:

In [4]:
#Produto escolhido:
produto = 'bradesco'

#Quantidade m√≠nima de mensagens capturadas:
n = 500
#Quantidade m√≠nima de mensagens para a base de treinamento:
t = 300

#Filtro de l√≠ngua, escolha uma na tabela ISO 639-1.
lang = 'pt'

Capturando os dados do twitter:

In [5]:
#Cria um objeto para a captura
api = tweepy.API(auth)

#Inicia a captura, para mais detalhes: ver a documenta√ß√£o do tweepy
i = 1
msgs = []
for msg in tweepy.Cursor(api.search, q=produto, lang=lang).items():    
    msgs.append(msg.text.lower())
    i += 1
    if i > n:
        break

#Embaralhando as mensagens para reduzir um poss√≠vel vi√©s
shuffle(msgs)

TweepError: Twitter error response: status code = 401

Salvando os dados em uma planilha Excel:

In [6]:
#Verifica se o arquivo n√£o existe para n√£o substituir um conjunto pronto
if not os.path.isfile('./{0}.xlsx'.format(produto)):
    
    #Abre o arquivo para escrita
    writer = pd.ExcelWriter('{0}.xlsx'.format(produto))

    #divide o conjunto de mensagens em duas planilhas
    dft = pd.DataFrame({'Treinamento' : pd.Series(msgs[:t])})
    dft.to_excel(excel_writer = writer, sheet_name = 'Treinamento', index = False)

    dfc = pd.DataFrame({'Teste' : pd.Series(msgs[t:])})
    dfc.to_excel(excel_writer = writer, sheet_name = 'Teste', index = False)

    #fecha o arquivo
    writer.save()

___
## Classificando as Mensagens

Agora voc√™ deve abrir o arquivo Excel com as mensagens capturadas e classificar na Coluna B se a mensagem √© relevante ou n√£o.<br /> 
N√£o se esque√ßa de colocar um nome para a coluna na c√©lula **B1**.<br /><br />
Fazer o mesmo na planilha de Controle.

___
## Montando o Classificador Naive-Bayes

Com a base de treinamento montada, comece a desenvolver o classificador. Escreva o seu c√≥digo abaixo:

Opcionalmente: 
* Limpar as mensagens removendo os caracteres: enter, :, ", ', (, ), etc. N√£o remover emojis.<br />
* Corrigir separa√ß√£o de espa√ßos entre palavras e/ou emojis.
* Propor outras limpezas/transforma√ß√µes que n√£o afetem a qualidade da informa√ß√£o.



In [7]:
import tweepy
import math
import os.path
import pandas as pd
import json
from random import shuffle

print('Esperamos trabalhar no diret√≥rio')
print(os.getcwd())
dados= pd.read_excel('bradesco.xlsx',sep=',')
dados.head()

Esperamos trabalhar no diret√≥rio
C:\Users\Pedro Daher\Downloads


Unnamed: 0,Treinamento,Relevante
0,rt @bradesco: a hist√≥ria de orgulho dos ga√∫cho...,N
1,i'm at ag√™ncia bradesco in s√£o paulo w/ @livka...,N
2,@renatin_pereira bradesco?,N
3,@bradesco √© \nre_marques94@hotmail.com üòä,N
4,uns meses atr√°s eu reparei que o quando eu vou...,S


In [33]:
#Lista de palavras e sinais que n√£o vamos utilizar:

limpa = ['@','1','2','3','4','5','6','7','8','9','0',' de ', ' do ',' dos ', ' para ', ' pra ',' e ',' que ', ',', '"', '(', ')','&','[',']','.',',', '#','*','%','-','_','=','/','\\','\n']

#Extraindo o arquivo que iremos utilizar

empresa = pd.read_excel('bradesco.xlsx',sep=',')

#For para fazer a limpeza, ir√° remover todas as stop words

for carac in limpa: 
    empresa['Treinamento'] = empresa['Treinamento'].str.replace(carac, ' ')  

    
#Leitura da Coluna de Classifica√ß√£o (frequencia de relativos e nao relativos)

Freq = (empresa['Relevante'].value_counts(sort=False, normalize=True)*100).round(decimals=1)  

#S√£o as probabilidades de serem relevantes e de serem n√£o relevantes (pr e pn)

ProbR = Freq['S'] 
ProbN = Freq['N'] 


#Frequencia absoluta de cada palavra
Abs = empresa.Treinamento.apply(lambda x: pd.value_counts(x.split(" "))).sum(axis = 0) 

#Frequencia absoluta de cada palavra relevante
AbsR = empresa.Treinamento[company.Relevante == 'S'].apply(lambda x: pd.value_counts(x.split(" "))).sum(axis = 0) 

#Frequencia absoluta de cada palavra n√£o relevante
AbsN = empresa.Treinamento[company.Relevante == 'N'].apply(lambda x: pd.value_counts(x.split(" "))).sum(axis = 0) 

#Relevantes e n√£o relevantes (Total)

nr = tr[0]  
nn = tn[0]

#Palavras sem repeti√ß√µes

n = len(t)

nr = nr.item()
nn = nn.item()

nr = int(nr)
nn = int(nn)

freqr = pd.DataFrame(tr)
freqn = pd.DataFrame(tn)

#Lista de frequencia de cada palavra em cada categoria
lf = []  

ln = [] 


for i in range(len(freqr)):
    x = (((freqr.iat[i,0])+1)/(nr+n))*pr
    lf.append(x)
    
for i in range(len(freqn)):
    x = (((freqn.iat[i,0])+1)/(nn+n))*pn
    ln.append(x)
    
#Lista de palavras
lr = freqr.index.tolist() 

#Lista de palavras
l = freqn.index.tolist() 
dr = {}
dn = {}

for i in range(len(freqr)):
    dr[lr[i]] = lf[i]
    
for i in range(len(freqn)):
    dn[l[i]] = ln[i]

teste2 = pd.read_excel('bradesco.xlsx',sep=',', sheetname="Teste")

#Vari√°veis necessarias(pr, pn, dn, dr)

teste = pd.read_excel('bradesco.xlsx',sep=',', sheetname="Teste")
ui = 0
for index, row in teste.iterrows():
    y1 = 1
    y2 = 1
#Tweet
    p = row['Teste'] 

#Lista com as palavras do tweet    
    l = p.split() 
    for i in l:
        if i in dr:
            y1 *= (dr[i])
        if i in dn:
            y2 *= (dn[i])
    if y1>y2:
        teste.set_value(index, 'Relevante', 'S')
        ui = ui+1        
        
    else:
        teste.set_value(index, 'Relevante', 'N')

# Create a Pandas Excel writer using XlsxWriter as the engine.
writer = pd.ExcelWriter('resultado.xlsx', engine='xlsxwriter')

# Convert the dataframe to an XlsxWriter Excel object.
teste.to_excel(writer, sheet_name='Testado')

# Close the Pandas Excel writer and output the Excel file.
writer.save()
teste.head()

Unnamed: 0,Teste,Relevante
0,odeio o bradesco com todas as minhas for√ßas.,N
1,trabalhadores assinam acordos espec√≠ficos com ...,S
2,13 minutos esperando um atendimento do bradesc...,N
3,ex-banc√°rios do bec assinam acordo com o brade...,N
4,rt @umvesgo: e at√© quem me v√™ na fila do brade...,N


___
## Verificando a performance

Agora voc√™ deve testar o seu Classificador com a base de Testes.<br /><br /> 

Voc√™ deve extrair as seguintes medidas:
* Porcentagem de positivos falsos (marcados como relevante mas n√£o s√£o relevantes)
* Porcentagem de positivos verdadeiros (marcado como relevante e s√£o relevantes)
* Porcentagem de negativos verdadeiros (marcado como n√£o relevante e n√£o s√£o relevantes)
* Porcentagem de negativos falsos (marcado como n√£o relevante e s√£o relevantes)

Opcionalmente:
* Criar categorias intermedi√°rias de relev√¢ncia baseado na diferen√ßa de probabilidades. Exemplo: muito relevante, relevante, neutro, irrelevante e muito irrelevante.

In [34]:
certo1 = 0
certo2 = 0 
errado1 = 0
errado2 = 0



for w in range(0,len(teste)):
    if teste2['Relevante'][w] == 'S' and teste['Relevante'][w] == 'N':
        certo1 += 1
    if teste2['Relevante'][w] == 'S' and teste['Relevante'][w] == 'S':
        certo2 += 1
    if teste2['Relevante'][w] == 'N' and teste['Relevante'][w] == 'S':
        errado1 += 1
    if teste2['Relevante'][w] == 'N' and teste['Relevante'][w] == 'N':
        errado2 += 1
        
        
#Porcentagens

PC1 = (certo1/200)*100
PC2 = (certo2/200)*100
PC3 = (errado1/200)*100
PC4 = (errado2/200)*100

print(PC1,PC2,PC3,PC4)
print("Porcentagem de positivos falsos (marcados como relevante mas n√£o s√£o relevantes):{0}".format(PC1))
print("Porcentagem de positivos verdadeiros (marcados como relevante e s√£o relevantes):{0}".format(PC2))
print("Porcentagem de negativos verdadeiros (marcado como n√£o relevante e n√£o s√£o relevantes):{0}".format(PC3))
print("Porcentagem de negativos falsos (marcados como irrelevante mas s√£o relevantes):{0}".format(PC4))
print(len(teste2))

23.5 1.0 15.5 60.0
Porcentagem de positivos falsos (marcados como relevante mas n√£o s√£o relevantes):23.5
Porcentagem de positivos verdadeiros (marcados como relevante e s√£o relevantes):1.0
Porcentagem de negativos verdadeiros (marcado como n√£o relevante e n√£o s√£o relevantes):15.5
Porcentagem de negativos falsos (marcados como irrelevante mas s√£o relevantes):60.0
200


___
## Concluindo

Escreva aqui a sua conclus√£o.<br /> 
Fa√ßa um comparativo qualitativo sobre as medidas obtidas.<br />
Explique como s√£o tratadas as mensagens com dupla nega√ß√£o e sarcasmo.<br />
Proponha um plano de expans√£o. Por que eles devem continuar financiando o seu projeto?<br />

Opcionalmente: 
* Discorrer por que n√£o posso alimentar minha base de Treinamento automaticamente usando o pr√≥prio classificador, aplicado a novos tweets.
* Propor diferentes cen√°rios de uso para o classificador Naive-Bayes. Cen√°rios sem intersec√ß√£o com este projeto.
* Sugerir e explicar melhorias reais no classificador com indica√ß√µes concretas de como implementar (n√£o √© preciso codificar, mas indicar como fazer e material de pesquisa sobre o assunto).


## Conclus√£o

As m√≠dias sociais hoje funcionam como um grande espa√ßo de feedback dos clientes para empresas. Diversas delas j√° utilizam Twitter e Facebook como plataformas de SAC (Servi√ßo de Atendimento ao Cliente), sendo assim, eles podem atender os clientes de modo r√°pido e din√¢mico. Al√©m dos mesmos responderem qualquer Tweet ou Post que se refira a algum problema encontrado com qualquer servi√ßo da empresa, as redes sociais podem funcionar como um grande term√¥metro da reputa√ß√£o da empresa diante do p√∫blico.

Sendo assim, ao construir o classificador de mensagens relevantes ou n√£o √© um primeiro passo nessa grande analise de toda informa√ß√£o criada e constru√≠da sobre a empresa. Posts falando mal de servi√ßos, ou parabenizando algum servi√ßo da empresa reunidos em um software que l√™ tudo e classifica para voc√™ usando como base o algoritimo j√° conhecido de Naive-Bayes foi o objetivo desse projeto. 

O algoritimo quebra as palvras e baseado em um banco de dados anterior, lhe diz a probabilidade de cada palavra ser relevante ou n√£o, a combina√ß√£o de palavras (o tweet em si) ter√° uma probabilidade X de pertencer √† categoria de relevantes e uma probabilidade Y de pertencer √† categoria de irrelevantes, devido ao produto das probabilidades de cada palvra do tweet.

Baseado nisso, nosso programa corta certas palavras e, principalmente, caracteres que consideramos irrelevantes para avalia√ß√£o das probabilidades antes ditas. Sendo assim, a empresa que avaliamos foi o Bradesco, e os produtos mais citados foram ag√™ncia banc√°ria e uma pequena parte o Internet Banking, o que j√° nos seleciona parte do p√∫blico que comenta frequentemente sobre o banco. Problemas em ag√™ncia foram fortemente citados pelos clientes do Twitter mas ao mesmo tempo as mensagens agressivas s√£o complicadas de se avaliar devido aos diferentes modos de usar palavras para compor um tweet negativo em rela√ß√£o aos tweets positivos. Nesse sentido, nosso programa teve imenso problema ao avaliar a relev√¢ncia de tweets para alertar o banco, apenas 1% bateu com a nossa pr√©via feita √† m√£o. Ao mesmo tempo, em rela√ß√£o a discartar tweets que n√£o tem relev√¢ncia nosso programa obteve certa efetividade ao acertar em 60% com a nossa base anterior.

Mensagens com piadas, ironia e sarcasmo s√£o definitivamente o problema para um software. Estes trabalham com vari√°veis, com equa√ß√µes, √© muito complicado ensinar interpreta√ß√£o de texto para um computador, e ainda mais considerando o vasto territ√≥rio nacional e as varia√ß√µes linguisticas, al√©m √© claro, de erros ortogr√°ficos dos mais diversos que necessitam avalia√ß√£o tamb√©m.

O objetivo final √© ter um programa com 100% de acerto em rela√ß√£o √† nossa interpreta√ß√£o e a interpreta√ß√£o do programa, para isso √© necessario um machine learning que n√£o √© r√°pido e nem √† curto prazo, devido a varia√ß√£o da lingua em um curto intervalo de tempo. Para expandir, precisamos analisar mais dados em menos tempo e cada vez mais obter um programa que tenha um acerto maior, emojis s√£o lan√ßados quase todo m√™s e necessitam de adapta√ß√†o ao nosso software.