___
# Ciência dos Dados - Projeto 2: Tinder#
___

### _Gabriela Caruso e Mayra Peter - 2C_ ###
___

## Contexto: _Classificador Automático de Sentimento_ ##

_Você foi contratado por uma empresa parar analisar como os clientes estão reagindo a um determinado produto no Twitter. A empresa deseja que você crie um programa que irá analisar as mensagens disponíveis e classificará como "relevante" ou "irrelevante". Com isso ela deseja que mensagens negativas, que denigrem o nome do produto, ou que mereçam destaque, disparem um foco de atenção da área de marketing._

_Como aluno de Ciência dos Dados, você lembrou do Teorema de Bayes, mais especificamente do Classificador Naive-Bayes, que é largamente utilizado em filtros anti-spam de e-mails. O classificador permite calcular qual a probabilidade de uma mensagem ser relevante dadas as palavras em seu conteúdo._

_Para realizar o MVP (*minimum viable product*) do projeto, você precisa implementar uma versão do classificador que "aprende" o que é relevante com uma base de treinamento e compara a performance dos resultados com uma base de testes.<br /><br />
Após validado, o seu protótipo poderá também capturar e classificar automaticamente as mensagens da plataforma._

___

## Introdução ##

O Tinder foi escolhido como produto a ser analizado devido a sua popularidade em redes sociais e a divergência de opiniões a seu respeito.
___

## Objetivo ##

Visando analisar o conteúdo de _tweets_ mencionando o Tinder e retornar se eles são ou não relevantes, foi criado um programa que percorre uma planilha de dados coletando informações e, por fim, retorna a  relevância dos dados a partir de suas respectivas probabilidades de ocorrência.
___

In [96]:
%matplotlib inline
%reset -f
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import math
import seaborn as sns
from emoji import UNICODE_EMOJI

## Coleta e seleção de dados ##

Foi criado um _dataframe_ contendo 500 _tweets_ mensionando o Tinder. Posteriormente foi classificado manualmente a relevância de cada um, sendo 0 (zero) não relevante e 1 (um) relevante.

Para essa classificação consideramos opiniões favoráveis e desfavoráveis a respeito do produto e mensões que indicassem a eficiência do aplicativo quanto a proximidade dos usuários.

Na célula abaixo está sendo importado o _dataframe_ inicial e separado em "Treinamento" (300 _tweets_), a partir do qual serão coletadas as probabilidades, e em "Teste" (200 _tweets_), no qual o programa analisará os dados coletados em "Treinamento" para calcular a relevância desses 200 _tweets_.
___

In [67]:
data = pd.ExcelFile('tweets_Tinder_201809041724.xlsx')
data_treinamento = pd.read_excel(data, 'Treinamento')
data_teste = pd.read_excel(data, 'Teste')

## Limpeza dos dados ##

Para que o programa não analise partes desnecessárias dos _tweets_, os dados foram filtrados, retirando pontuações e simbolos não relevantes e arrumando espaçamentos incorretos (incluindo entre _emojis_).

___

In [68]:
data_treinamento.Treinamento = data_treinamento.Treinamento.str.replace(',', '')
data_treinamento.Treinamento = data_treinamento.Treinamento.str.replace('.', '')
data_treinamento.Treinamento = data_treinamento.Treinamento.str.replace(':', '')
data_treinamento.Treinamento = data_treinamento.Treinamento.str.replace('/', ' ')
data_treinamento.Treinamento = data_treinamento.Treinamento.str.replace('#', '')
data_treinamento.Treinamento = data_treinamento.Treinamento.str.replace('@', '')
data_treinamento.Treinamento = data_treinamento.Treinamento.str.replace('?', '')
data_treinamento.Treinamento = data_treinamento.Treinamento.str.replace('\n', '')
data_treinamento.Treinamento = data_treinamento.Treinamento.str.replace('rt', '')
data_treinamento.Treinamento = data_treinamento.Treinamento.str.replace('(', '')
data_treinamento.Treinamento = data_treinamento.Treinamento.str.replace(')', '')
data_treinamento.Treinamento = data_treinamento.Treinamento.str.replace('*', '')
data_treinamento.Treinamento = data_treinamento.Treinamento.str.replace('“', '')
data_treinamento.Treinamento = data_treinamento.Treinamento.str.replace('”', '')
data_treinamento.Treinamento = data_treinamento.Treinamento.str.replace('_', '')
data_treinamento.Treinamento = data_treinamento.Treinamento.str.replace('&', '')
data_treinamento.Treinamento = data_treinamento.Treinamento.str.replace(';', '')
data_treinamento.Treinamento = data_treinamento.Treinamento.str.replace('%', '')
data_treinamento.Treinamento = data_treinamento.Treinamento.str.replace("'", '')
data_treinamento.Treinamento = data_treinamento.Treinamento.str.replace('-', '')
data_treinamento.Treinamento = data_treinamento.Treinamento.str.replace('+', '')
data_treinamento.Treinamento = data_treinamento.Treinamento.str.replace("=", '')
data_treinamento.Treinamento = data_treinamento.Treinamento.str.replace('"', '')

data_teste.Teste = data_teste.Teste.str.replace(',', '')
data_teste.Teste = data_teste.Teste.str.replace('.', '')
data_teste.Teste = data_teste.Teste.str.replace(':', '')
data_teste.Teste = data_teste.Teste.str.replace('/', ' ')
data_teste.Teste = data_teste.Teste.str.replace('#', '')
data_teste.Teste = data_teste.Teste.str.replace('@', '')
data_teste.Teste = data_teste.Teste.str.replace('?', '')
data_teste.Teste = data_teste.Teste.str.replace('rt', '')
data_teste.Teste = data_teste.Teste.str.replace('\n', '')
data_teste.Teste = data_teste.Teste.str.replace('(', '')
data_teste.Teste = data_teste.Teste.str.replace(')', '')
data_teste.Teste = data_teste.Teste.str.replace('*', '')
data_teste.Teste = data_teste.Teste.str.replace('“', ' ')
data_teste.Teste = data_teste.Teste.str.replace('”', '')
data_teste.Teste = data_teste.Teste.str.replace('_', '')
data_teste.Teste = data_teste.Teste.str.replace('&', '')
data_teste.Teste = data_teste.Teste.str.replace(';', '')
data_teste.Teste = data_teste.Teste.str.replace('%', '')
data_teste.Teste = data_teste.Teste.str.replace("'", '')
data_teste.Teste = data_teste.Teste.str.replace('-', '')
data_teste.Teste = data_teste.Teste.str.replace('+', '')
data_teste.Teste = data_teste.Teste.str.replace('=', ' ')
data_teste.Teste = data_teste.Teste.str.replace('"', '')

lista_espaco = []
for each in data_treinamento['Treinamento']:
    e = ''
    for word in each:
        if word in UNICODE_EMOJI:
            e += " " + word + ' '
        else:
            e += word
    lista_espaco.append(e)
    
data_treinamento['Treinamento'] = lista_espaco

lista_espaco2 = []
for each in data_teste['Teste']:
    e = ''
    for word in each:
        if word in UNICODE_EMOJI:
            e += " " + word + ' '
        else:
            e += word
    lista_espaco2.append(e)
    
data_teste['Teste'] = lista_espaco2

## Separação dos dados ##

Para facilitar o cálculo das probabilidades, a partir da planilha de treinamento, foram criadas duas novas planilhas, uma contendo os _tweets_ relevantes e outra os irrelevantes.

___

In [69]:
data_treinamento_relevantes = data_treinamento[(data_treinamento['Relevância'] == 1)]
data_treinamento_irrelevantes = data_treinamento[(data_treinamento['Relevância'] == 0)]

In [70]:
data_treinamento_relevantes.head()

Unnamed: 0,Treinamento,Relevância
2,terceira vez que dou match com a mesma pessoa ...,1
5,eduaaarda eu n sei pq ainda insisto em instal...,1
6,tal qual o ubero tinder tinha que ter uma área...,1
12,karlasnotsorry gente eu criei um tinder da no...,1
13,karlasnotsorry gente eu criei um tinder da no...,1


In [71]:
data_treinamento_irrelevantes.head()

Unnamed: 0,Treinamento,Relevância
0,o cara do tinder ficou brabo cmg pq eu disse q...,0
1,fica a questão tinder https tco iq7iyzucdd,0
3,meta pra 2018 deletar o tinder ainda esse ano ...,0
4,para todos os matches do tinder que eu não man...,0
7,to muito confuso hoje to tipo gente que namora...,0


## Criando listas ##

Para separar as palavras, foram criadas três listas. A primeira contendo todas as palavras,  uma segunda contendo as palavras relevantes e outra com as irrelevantes.

___

In [84]:
tweets = []
relevante = []
irrelevante = []
    
for each in data_treinamento_relevantes['Treinamento']:
    relevante.append(each.split())
    
for each in data_treinamento_irrelevantes['Treinamento']:
    irrelevante.append(each.split())

for each in data_treinamento['Treinamento']:
    tweets.append(each.split())

## Contando palavras ##

Para cada uma das listas foi criada uma variável que conta o numero de palavras nela presente.
___

In [73]:
n_irrelevantes = data_treinamento.Relevância[data_treinamento.Relevância == 0].count()
n_relevantes = data_treinamento.Relevância[data_treinamento.Relevância == 1].count()
total = n_relevantes + n_irrelevantes

## Porcentagem: palavras relevantes ##

Foi calculada a porcentagem das palavras relevantes e das irrelevantes.
___

In [74]:
prob_irrelevante = n_irrelevantes/ total
prob_relevante = n_relevantes/ total

## Dicionário ##

Foram criados três dicionários e três novas listas. As novas listas servem para usar apenas as palavras das antigas, que estavam subdivididas em listas. Os dicionários criados (um para as palavras relevantes, um para as irrelevantes, e outro para todas as palavras) contém as palavras e um valor atrubuído à cada uma delas, referente ao número de aparições de cada palavra em cada categoria (relevante, irrelevante ou todas).
___

In [89]:
dicionario_rel = {}
dicionario_irrel = {}
dicionario_todos = {}

lista_nova_rel = []
lista_nova_irrel = []
todos = []

for lista in relevante:
    for word in lista:
        lista_nova_rel.append(word)
        dicionario_rel[word] = lista_nova_rel.count(word)

for lista in irrelevante:
    for word in lista:
        lista_nova_irrel.append(word)
        dicionario_irrel[word] = lista_nova_irrel.count(word)

for lista in tweets:
    for word in lista:
        todos.append(word)
        dicionario_todos[word] = todos.count(word)

## Filtrando ##

Para o teorema de Bayes, é necessário saber quantas palavras aparecem no total, sem repetições. Para isso foi criada a lista abaixo.

____

In [90]:
a = list(set(todos))

## Probabilidade##

Na célula abaixo, são criados dois dicionários. Em um deles, foi utilizado o teorema de Bayes (já usando o Laplace Smoothing) para calcular a probabilidade de uma palavra ser relevante, e no outro, o mesmo teorema foi utilizado para calcular a probabilidade de uma palavra ser irrelevante. Ambos dicionários contém palavras relacionadas a valores, que representam as devidas probabilidades.

____

In [91]:
p_r = {}
p_ir = {}

for word in lista_nova_rel:
    p_r[word] = (dicionario_rel[word] + 1)/ (len(a) + len(lista_nova_rel))

for word in lista_nova_irrel:
    p_ir[word] = (dicionario_irrel[word] + 1)/ (len(a) + len(lista_nova_irrel))

## Aplicação ##

Após a probabilidade de cada palavra ser calculada, já é possível usar o teorema de Bayes para analisar a relevância dos _tweets_ da planilha de teste.

___

In [92]:
relevancia = []

for frase in data_teste['Teste']:
    
#para cada frase, reiniciando a probabilidade de ser relevante ou não.

    p_fraser = 1
    p_fraseir = 1
    palavra_frase2 = []
    palavra_frase2.append(frase.split())
    for lista in palavra_frase2:
        for word in lista:
            palavra_frase = []
            palavra_frase.append(word)
            
#criando uma lista que contém uma palavra a cada loop.

            for palavra in palavra_frase:
        
#zerando a probabilidade da palavra ser relevante ou não.

                p_pal_ir = 0
                p_pal_r = 0
        
#determinando que, se a palavra estiver no dicionário de probabilidade das palavras relevantes, a probabilidade da frase ser relevante é multiplicada por esse valor. 

                if palavra in p_r:
                    p_pal_r = p_r[palavra]
                    p_fraser *= p_pal_r
                
#determinando que, se a palavra estiver no dicionário de probabilidade das palavras irrelevantes, a probabilidade da frase ser irrelevante é multiplicada por esse valor.
                
                elif palavra in p_ir:
                    p_pal_ir = p_ir[palavra]
                    p_fraseir *= p_pal_ir
                    
#determinando que, se a palavra não se encontrar em nenhum dos dicionários, a probabilidade dela ser relevante ou irrelevante é calculada pelo teorema de Bayes usando o Laplace Smoothing, e, a probabilidade da frase ser relevante ou irrelevante é multiplacada por esses valores, respectivamente.

                else:
                    p_pal_ir = 1/(len(lista_nova_irrel) + len(a))
                    p_pal_r = 1/(len(lista_nova_rel) + len(a))
                    p_fraser *= p_pal_r
                    p_fraseir *= p_pal_ir
                    
#comparando a probabilidade da frase ser relevante com a probabilidade da mesma ser irrelevante. 
                    
    if p_fraser > p_fraseir:
        
#se a probabilidade de ser relevante for maior, é adicionado para uma lista o valor 1.
        
        relevancia.append(1)
    else:
        
#caso contrário, é adicionado para a mesma lista o valor 0.
        
        relevancia.append(0)

## Inserção de coluna ##

Com os valores de relevância já calculados, é criada uma coluna no _dataframe_ de teste e inseridos tais valores.
____

In [93]:
data_teste['Chute'] = relevancia

## Cálculo da acertos e erros do programa ##

Analisando a coerência entre a coluna classificada manualmente e a classificada pelo programa, pode-se calcular o número de positivos verdadeiros, negativos verdadeiros, positivos falsos e negativos falsos.

____

In [94]:
vp = 0
vn = 0
fp = 0
fn = 0

for i in range(len(data_teste)):
    if data_teste['Chute'][i] == 1 and data_teste['Relevância'][i] == 1:
        vp += 1
    elif data_teste['Chute'][i] == 0 and data_teste['Relevância'][i] == 1:
        fn += 1
    elif data_teste['Chute'][i] == 0 and data_teste['Relevância'][i] == 0:
        vn += 1
    else:
        fp += 1

## Cálculo da porcentagem de acertos e erros ##

___

In [95]:
print('A porcentagem de positivos verdadeiros é:', vp/2,'%')
print('A porcentagem de negativos verdadeiros é:', vn/2,'%')
print('A porcentagem de positivos falsos é:', fp/2,'%')
print('A porcentagem de negativos falsos é:', fn/2,'%')

A porcentagem de positivos verdadeiros é: 4.5 %
A porcentagem de negativos verdadeiros é: 55.5 %
A porcentagem de positivos falsos é: 11.0 %
A porcentagem de negativos falsos é: 29.0 %


## Conclusão: ##

___

O cálculo de porcentagem de acertos e erros indica que 60% do das previsões estão corretas e 40% erradas. Dentre as erradas, 29% foram negativos falsos, o que indica que essas informações eram relevantes e foram perdidas e 11% foram positivos falsos, o que indica que essas informações não eram relevantes e foram levadas em consideração.

A partir desses resultados é possível concluir que o programa não foi capaz de classificar veridicamente os dados selecionados.

Primeiramente, a quantidade de dados que foram selecionados para a análise é insuficiente para gerar um resultado aproximado da realidade. Outra falha do programa é a leitura de palavras como independentes dentro de uma frase, o que leva a incapacidade de interpretação sintática, como em casos de dupla negação e sarcásmo, resultando em erros de classifição. Além disso, a alta frequência de _retweets_ impede uma analise mais apurada. Isso ocorre pois, devido a repetição das frases, a probabilidade de ocorrência das palavras que as compõe aumenta, e a quantidade de dados a serem analisados fica ainda mais restrita.

Apesar desses defeitos, o projeto mantém uma base eficiente que, com alguns ajustes, como o aumento da quantidade de dados selecionados, a filtração de _retweets_ e a capacidade de interpretação sintática, pode se tornar útil para o Tinder, por diminuir a quantidade de _tweets_ a serem analisados sobre o mesmo, reduzindo tempo e custo a ser nisso investido.