# PROJETO 1 - CLASSIFICADOR DE SENTIMENTO DO FILME JOKER
__________________________________________________________________________________________________________________

### Alunos:

Nome: Beatriz Cabral Fernandes 

Nome: Eduardo Ancona Mateus 


## 1. INTRODUÇÃO 

A proposta desse projeto é desenvolver um classificador que irá analisar como o público está reagindo ao premiado filme ***Joker***, do diretor *Todd Phillips*. Para isso, será utilizado como método o famoso algoritmo de Naive-Bayes.

## 2. DESENVOLVIMENTO E METODOLOGIA

A fim de simplificar a explicação do processo de desenvolvimento do projeto, ele será dividido em X etapas

### ETAPA 1 - Preparando o ambiente no Jupyter

Nessa etapa, serão baixadas e importadas todas as bibliotecas relevantes para o código, bem como implementadas todas as funções a serem utilizadas

In [8]:
%%capture

#Instalando o tweepy
!pip install tweepy

#Importando as bibliotecas
import tweepy
import math
import os.path
import pandas as pd
import json
from random import shuffle
from IPython.display import Image
import re

#criando funcao de limpeza de caracteres
def cleanup(text):
    """
        Função de limpeza muito simples que troca alguns sinais básicos por espaços
    """
    #import string
    punctuation = '[!-.:?;]' # Note que os sinais [] são delimitadores de um conjunto.
    pattern = re.compile(punctuation)
    text_subbed = re.sub(pattern, ' ', text)
    return text_subbed

# Fazendo a leitura da planilha de treinamento
excel = pd.read_excel('Joker.xlsx', sheet_name='Treinamento').set_index('Etiquetas')
# excel_teste = pd.read_excel('Joker.xlsx', sheet_name='Teste')


### ETAPA 2 - Autenticando no Twitter

Conta: `@datascience_dudle`


Aqui será feita a autenticação no twitter, a partir de um código obtido no próprio site. Apenas o detentor das chaves de acesso da conta no Twitter consegue rodar o cógigo, e por isso ele encontra-se comentado.

In [2]:
#leitura do arquivo no formato JSON
#with open('auth.pass') as fp:    
    
    #data = json.load(fp)

#Configurando a biblioteca. Não modificar
#auth = tweepy.OAuthHandler(data['consumer_key'], data['consumer_secret'])
#auth.set_access_token(data['access_token'], data['access_token_secret'])

____________

### ETAPA 3 - Escolha de um produto e coleta das mensagens

No arquivo `Projeto1_Obtenção_dos_tweets.ipynb` foram coletados tweets relacionados ao filme ***Joker***. Ao coletar os tweets com essa keyword, obtivemos 601 tweets para treinamento e 600 para teste. Feita a coleta, esses tweets foram salvos em uma planilha no excel.

### ETAPA 4 - Classificação manual dos tweets

Vale ressaltar que o foco desse estudo é analisar o sentimento dos tweets relacionados ao premiado filme ***Joker***.
Desta forma, foram previamente estabelecidas 4 categorias para a classificação das mensagens:

* `1` - ***Crítica positiva*** – se a mensagem transmitida é uma crítica positiva;
* `2` - ***Crítica negativa*** – se a mensagem transmitida é uma crítica negativa;
* `3` - ***Irrelevante*** – se a mensagem transmitida estiver no contexto proposto, mas não for relevante para análise;
* `4` - ***Reação*** - se a mensagem transmitida trata-se de uma reação ou emoção em relação ao filme ou a uma cena;
* `5` - ***Fora do contexto*** - se a mensagem transmitida esta fora do contexto proposto.


Estabelecidas as categorias e selecionados os tweets, foi utilizada a base de treinamento, na qual as mensagens foram qualificadas manualmente no excel de acordo com a categoria mais adequada. Conforme mostra a tabela a seguir:

In [3]:
excel.head()

Unnamed: 0_level_0,Treinamento
Etiquetas,Unnamed: 1_level_1
5,mortos pelo regime genocida da china 100.000.0...
5,"@thiago_joker tempos de quarentena, sei lá né ..."
5,se o governador do rio de janeiro candidatar p...
5,@jillajeeva332 @yutheesh0011 @joker_rowdy @pok...
3,galera só pra relembrar os filmes da dc de mai...


### ETAPA 5 - Montando o Classificador Naive-Bayes

### *Naive Bayes*
O algoritmo de *Naive Bayes* é um classificador probabilístico baseado no teorema de Bayes, utilizado no processo de machine learning. O algoritmo supõe que uma característica independe da outra para acontecer, ou seja, mesmo na presença de uma característica particular em uma classe, isso não afeta na probabilidade de qualquer característica ocorrer. O teorema de bayes é escrito da seguinte forma:

![title](img/bayes.png)

* ***`P(A)`*** - Probabilidade a priori
* ***`P(B)`*** - Probilidade Total
* ***`P(A|B)`*** - posteriori
* ***`P(B|A)`*** - verossimilhanca


Esse método será utilizado no projeto, uma vez que permite calcular a probabilidade de uma mensagem receber diferentes classificações, por exemplo, dada as palavras utilizadas, assumindo que as palavras em um tweet não tem nenhuma relação entre elas.

A partir do nosso modelo, poderíamos reescrever o teorema de bayes da seguinte forma:

![title](img/bayes1.png)

A variável C é a classe variável que representa a categoria de um tweet, a partir das condições estabelecidas (probabilidade de ocorrência de uma palavra dada as condições). A variável P representa as palavras ocorridas nos tweets.


P pode ser:

![title](img/bayes2.png)

Substituindo P por cada uma das possíveis palavras, temos:

![title](img/bayes3.png)

Para implementar esse algoritmo, uma nova tabela deve ser criada com as palavras e suas respectivas frequências relativas em cada uma das categorias. Porém antes disso, deverá ser feita uma limpeza das mensagens, removendo pontuações e caracteres que não convém a análise.

In [15]:
excel.Treinamento['Etiquetas'==1].value_counts()

KeyError: False

In [12]:
# Juntando todos os tweets da base de treinamento
texto_completo = cleanup(' '.join(excel.Treinamento)).split()
texto_completo


['mortos',
 'pelo',
 'regime',
 'genocida',
 'da',
 'china',
 '100',
 '000',
 '000',
 'de',
 'pessoas',
 'mortos',
 'pelo',
 'regime',
 'genocida',
 'do',
 'bolsonaro',
 '0',
 'vão',
 'pentear',
 'macaco',
 'esquerdista',
 'tem',
 'retardo',
 'mental',
 '@thiago_joker',
 'tempos',
 'de',
 'quarentena',
 'sei',
 'lá',
 'né',
 'hahahahhahaha',
 'se',
 'o',
 'governador',
 'do',
 'rio',
 'de',
 'janeiro',
 'candidatar',
 'para',
 'presidente',
 'eu',
 'faço',
 'campanha',
 'até',
 'o',
 'cara',
 'foi',
 'o',
 'único',
 'até',
 'agora',
 'que',
 'detonou',
 'ao',
 'vivo',
 'o',
 'presidente',
 'que',
 'só',
 'faz',
 'política',
 'nesse',
 'momento',
 'e',
 'não',
 'resolve',
 'nada',
 '@jillajeeva332',
 '@yutheesh0011',
 '@joker_rowdy',
 '@pokkiri_gvan',
 '@tsuriya16',
 '@saranveriyan',
 '@gmfarook1',
 '@karthikbigil',
 '@teamthalapathy1',
 '@itz_pokkiri7',
 'atha',
 'maranthuta',
 'namba',
 'galera',
 'só',
 'pra',
 'relembrar',
 'os',
 'filmes',
 'da',
 'dc',
 'de',
 'maior',
 'bilheteri

In [24]:
def cat(n):
    p = cleanup(' '.join(excel[excel.Etiquetas==cat].Treinamento)).split()
    return p

In [25]:
cat(1)

AttributeError: 'DataFrame' object has no attribute 'Etiquetas'