# Projeto 1 - Classificador Naive-Bayes com Tweets


## Objetivo

* Você foi contratado por uma empresa parar analisar como os clientes estão reagindo a um determinado produto no Twitter. A empresa deseja que você crie um programa selecionealgumas mensagens disponíveis no Twitter que mencionam esse produto e classifique-as como"relevante" ou "irrelevante".

* Com isso, essa empresa deseja que mensagens relevantes, que denigrem o nome do produto, ou que mereçam destaque, disparem um foco de atenção da área de marketing.

* Como aluno de Ciência dos Dados, você lembrou do Teorema de Bayes, mais especificamentedo Classificador Naive-Bayes, que é largamente utilizado em filtros anti-spam de e-mails, porexemplo. Esse classificador permite calcular qual a probabilidade de uma mensagem ser relevante dada as palavras em seu conteúdo.

* Para realizar o MVP (minimum viable product) do projeto, você precisa implementar umaversão do classificador que "aprende" o que é relevante com uma base de treinamento e compara a performance dos resultados com uma base de testes.

* Após validado, o seu protótipo poderá também capturar e classificar automaticamente as mensagens da plataforma.

## Integrantes do Projeto

**Nome:** Wilgner Lopes Araujo

**Nome:** Fabricio Neri Lima

## Informações relevantes

* Esse arquivo representa a ultima etapa do projeto onde haverá todas as etapas de cleaning da base de dados e implantação do algoritmo de classificação

* O arquivo que pesquisa os tweets esta na pasta Arquivo Jupyter/Projeto1_Obtenção_dos_tweets nessa mesma raiz do repositório

* A base de dados se encontra na pasta dados/Valorant.xlsx

* A conta utiliza no twitter para obtenção de dados é @AnalyticsInsper

* O produto escolhido para o projeto é : **Valorant**

* Os criterios para a classificação dos tweets na primeira etapa do projeto foram: Os tweets que falavam de alguma forma positiva ou negativa sobre o jogo ou até mesmo que relacionavam o jogo a alguma emoção, foram classificados como relevantes. Os demais foram classificados como Irrelevantes.


# Começando

## Declarando as bibliotecas

In [1]:
import math
import numpy as np
import pandas as pd
import re

## Abrindo a base de dados e visualizando os primeiros 5 termos

In [2]:
dados = pd.read_excel('../dados/Valorant.xlsx')
dados.head()

Unnamed: 0,Treinamento,Etiquetas,Classificado
0,@caos__0 eu no valorant :v\nfon,2,Irrelevante
1,o cara q pra mim é o melhor player de valorant...,2,Irrelevante
2,mano algm upa meu passe no valorant na humildade,2,Irrelevante
3,"deletei o valorant, agora meu pc volta a ligar...",1,Relevante
4,quem tiver pc baixa valorant nessa porr que eu...,1,Relevante


## Informações do DataFrame

In [3]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 3 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   Treinamento   500 non-null    object
 1   Etiquetas     500 non-null    int64 
 2   Classificado  500 non-null    object
dtypes: int64(1), object(2)
memory usage: 11.8+ KB


## Classificando 

* A coluna Treinamento e Classificado são categoricas, pois ambas são variaveis qualitativas nominais

In [4]:
dados['Treinamento'] = dados['Treinamento'].astype('category')
dados['Classificado'] = dados['Classificado'].astype('category')

## Iniciando as coletas de probabilidades

### Analisando frequencia de Relevante e Irrelevante na base de dados

In [5]:
Probabilidade_total = dados.Classificado.value_counts(True)
Probabilidade_total

Irrelevante    0.542
Relevante      0.458
Name: Classificado, dtype: float64

## Declarando as variaveis de probabilidade

* Considere P(R) para probabilidade de ser Relevante
* Considere P(R_c) para probabilidade de ser Irrelevante

In [6]:
P_R_c = Probabilidade_total[0]
P_R = Probabilidade_total[1]

## Antes de prosseguir vamos limpar o codigo

* Será removido os seguintes simbolos: \n, :, ", ', (,), ., ;, :, ?, !, <, >, 

In [7]:
def limpa_texto(text):
    
    #import string
    punctuation = '[!-.:?;@_,<>/\)(#%$|\n]' # Note que os sinais [] são delimitadores de um conjunto.
    pattern = re.compile(punctuation)
    text_subbed = re.sub(pattern, '', text)
    return text_subbed

## Aplicando a função de limpeza na base de dados

In [8]:
dados['Treinamento'] = dados['Treinamento'].apply(limpa_texto)


In [9]:
# Checando se funcionou e se os emojis ainda funcionam
pd.set_option('max_colwidth', -1)
dados.head()

  


Unnamed: 0,Treinamento,Etiquetas,Classificado
0,caos0 eu no valorant vfon,2,Irrelevante
1,o cara q pra mim é o melhor player de valorant do mundo joga osu,2,Irrelevante
2,mano algm upa meu passe no valorant na humildade,2,Irrelevante
3,deletei o valorant agora meu pc volta a ligar em 3 segundos,1,Relevante
4,quem tiver pc baixa valorant nessa porr que eu tô no ódio e vai ser o dia todo só isso,1,Relevante


## Separando a base de dados em Relevantes e Irrelevantes

In [10]:
filtro_relevante = dados.Classificado == 'Relevante'
filtro_irrelevante = dados.Classificado == 'Irrelevante'

dados_relevantes = dados.loc[filtro_relevante,:]
dados_irrelevantes = dados.loc[filtro_irrelevante,:]

In [11]:
dados_relevantes.tail(15)

Unnamed: 0,Treinamento,Etiquetas,Classificado
460,eu to fechando e abrindo o valorant pq simplesmente sem nada p fazer,1,Relevante
461,que toda tristeza seja convertida em skill de valorant amém,1,Relevante
462,quero alguém p jogar valorant cmg nesse caraleo,1,Relevante
464,2 dia sem jogar valorant e eu já fico completamente horrível meu deus,1,Relevante
465,crianças jogando valorant 120 da manha ai eu pergunto onde ta a mae,1,Relevante
466,jogar valorant é dar bala em radiante e imortal e não conseguir sair do platina pq jogo solo,1,Relevante
467,fds among fdp eu vou pegar diamante no valorant se fuder porra😐,1,Relevante
474,eu era apaixonada em ver as pessoas jogarem valorant mas agora não consigo nem olhar a tela do jogo aberta,1,Relevante
476,sempre q eu jogo normal gamezin no valorant sempre tem um cara mt baludo no outro time,1,Relevante
477,rt diogogmachadof valorant é um jogo de corno,1,Relevante


In [12]:
frase = 0
frase_quebrada = []

for i in range(len(dados_relevantes)):
    frase = dados_relevantes.iloc[i,0]
    frase_quebrada += frase.split()

palavras_quebradas_relevantes = pd.Series(frase_quebrada)

'''frase_quebrada_total = []
for i in range(len(dados_relevantes)):
    frase = dados_relevantes.iloc[i,0]
    frase_quebrada_total += frase.split()

palavras_quebradas_total = pd.Series(frase_quebrada_total)'''

palavras_quebradas_relevantes_relativa = palavras_quebradas_relevantes.value_counts(True)
palavras_quebradas_relevantes_relativa

valorant     0.072638
de           0.030945
eu           0.023453
no           0.022476
o            0.019870
               ...   
onde         0.000326
carreguei    0.000326
granada      0.000326
valerem      0.000326
brinquei     0.000326
Length: 1079, dtype: float64

In [13]:
frase = 0
frase_quebrada = list()

for i in range(len(dados_relevantes)):
    frase = dados_relevantes.iloc[i,0]
    frase_quebrada.append(frase)
    
lista_de_lista_de_tweets = list()

for palavra in range(len(frase_quebrada)):
    palavra = frase_quebrada[palavra].split()
    lista_de_lista_de_tweets.append(palavra)
    

prob_tweet_dado_relevante = 1
lista_proba = list()

for trecho in range(len(lista_de_lista_de_tweets)):
#         print(trecho)
    
    for palavra in lista_de_lista_de_tweets[trecho]:
#         print(lista_de_lista_de_tweets[trecho])
#         print(palavra)
#         print(palavras_quebradas_relevantes_relativa[palavra])
        prob_tweet_dado_relevante *= palavras_quebradas_relevantes_relativa[palavra]
#         print(prob_tweet_dado_relevante)
        
#     print('CORTA')
    lista_proba.append(prob_tweet_dado_relevante)
    prob_tweet_dado_relevante = 1
    
    
    
lista_proba;

In [14]:
data_frame = pd.DataFrame(lista_proba, columns=['P_tweet_dado_relevante'])

data_frame['P_tweet_dado_relevante * P_R'] = data_frame['P_tweet_dado_relevante']*P_R
data_frame.head()

Unnamed: 0,P_tweet_dado_relevante,P_tweet_dado_relevante * P_R
0,2.397861e-31,1.09822e-31
1,2.001759e-49,9.168057e-50
2,1.513488e-24,6.9317760000000005e-25
3,3.200942e-17,1.466032e-17
4,1.2595240000000001e-52,5.768622e-53


## 
