# Projeto 1 - Classificador Naive-Bayes com Tweets


## Objetivo

* Voc√™ foi contratado por uma empresa parar analisar como os clientes est√£o reagindo a um determinado produto no Twitter. A empresa deseja que voc√™ crie um programa selecionealgumas mensagens dispon√≠veis no Twitter que mencionam esse produto e classifique-as como"relevante" ou "irrelevante".

* Com isso, essa empresa deseja que mensagens relevantes, que denigrem o nome do produto, ou que mere√ßam destaque, disparem um foco de aten√ß√£o da √°rea de marketing.

* Como aluno de Ci√™ncia dos Dados, voc√™ lembrou do Teorema de Bayes, mais especificamentedo Classificador Naive-Bayes, que √© largamente utilizado em filtros anti-spam de e-mails, porexemplo. Esse classificador permite calcular qual a probabilidade de uma mensagem ser relevante dada as palavras em seu conte√∫do.

* Para realizar o MVP (minimum viable product) do projeto, voc√™ precisa implementar umavers√£o do classificador que "aprende" o que √© relevante com uma base de treinamento e compara a performance dos resultados com uma base de testes.

* Ap√≥s validado, o seu prot√≥tipo poder√° tamb√©m capturar e classificar automaticamente as mensagens da plataforma.

## Integrantes do Projeto

**Nome:** Wilgner Lopes Araujo

**Nome:** Fabricio Neri Lima

## Informa√ß√µes relevantes

* Esse arquivo representa a ultima etapa do projeto onde haver√° todas as etapas de cleaning da base de dados e implanta√ß√£o do algoritmo de classifica√ß√£o

* O arquivo que pesquisa os tweets esta na pasta Arquivo Jupyter/Projeto1_Obten√ß√£o_dos_tweets nessa mesma raiz do reposit√≥rio

* A base de dados se encontra na pasta dados/Valorant.xlsx

* A conta utiliza no twitter para obten√ß√£o de dados √© @AnalyticsInsper

* O produto escolhido para o projeto √© : **Valorant**

* Os criterios para a classifica√ß√£o dos tweets na primeira etapa do projeto foram: Os tweets que falavam de alguma forma positiva ou negativa sobre o jogo ou at√© mesmo que relacionavam o jogo a alguma emo√ß√£o, foram classificados como relevantes. Os demais foram classificados como Irrelevantes.


# Come√ßando

## Declarando as bibliotecas

In [1]:
#importando cada uma das bibliotecas que ser√£o usadas
import math
import numpy as np
import pandas as pd
import re
import functools
import operator
import emoji

## Abrindo a base de dados e visualizando os primeiros 5 termos

In [2]:
#abrindo o arquivo de treino
dados = pd.read_excel('../dados/Valorant.xlsx')
dados.head()

Unnamed: 0,Treinamento,Etiquetas,Classificado
0,@caos__0 eu no valorant :v\nfon,2,Irrelevante
1,o cara q pra mim √© o melhor player de valorant...,2,Irrelevante
2,mano algm upa meu passe no valorant na humildade,2,Irrelevante
3,"deletei o valorant, agora meu pc volta a ligar...",1,Relevante
4,quem tiver pc baixa valorant nessa porr que eu...,1,Relevante


## Informa√ß√µes do DataFrame

In [3]:
#lendo as informa√ß√µes da base de treino
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 3 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   Treinamento   500 non-null    object
 1   Etiquetas     500 non-null    int64 
 2   Classificado  500 non-null    object
dtypes: int64(1), object(2)
memory usage: 11.8+ KB


## Classificando 

* A coluna Treinamento e Classificado s√£o categoricas, pois ambas s√£o variaveis qualitativas nominais

In [4]:
#definindo como tipo como vari√°veis categ√≥ricas
dados['Treinamento'] = dados['Treinamento'].astype('category')
dados['Classificado'] = dados['Classificado'].astype('category')

## Iniciando as coletas de probabilidades

### Analisando frequencia de Relevante e Irrelevante na base de dados

In [5]:
#identificando as probabilidades de Relevante P(R) e probabilidade de Irrelevante P(R_c)
Probabilidade_total = dados.Classificado.value_counts(True)
Probabilidade_total

Irrelevante    0.542
Relevante      0.458
Name: Classificado, dtype: float64

## Declarando as variaveis de probabilidade

* Considere P(R) para probabilidade de ser Relevante
* Considere P(R_c) para probabilidade de ser Irrelevante

In [6]:
#Probabilidade de Irrelevantes
P_R_c = Probabilidade_total[0]
#Probabilidade de relevantes
P_R = Probabilidade_total[1]

## Antes de prosseguir vamos limpar o codigo

* Ser√° removido os seguintes simbolos: ! - . : ? ; _ , < > / \ ) ( # % $ | \n

In [7]:
#Fun√ß√£o utilizada para realizar a limpeza no Dataframe
def limpa_texto(text):
    
    #import string
    punctuation = '[!-.:?;_,<>/\)(#%$|\n]' # Note que os sinais [] s√£o delimitadores de um conjunto.
    pattern = re.compile(punctuation)
    text_subbed = re.sub(pattern, ' ', text)
    return text_subbed

## Alem disso vamos espa√ßar os emojis entre si

* O codigo utilizado foi extraido e modificado do seguinte site: https://stackoverflow.com/questions/49921720/how-to-split-emoji-from-each-other-python

* O codigo utiliza a biblioteca emoji, functools, operator para atingir o objetivo de separar os emojis

In [8]:
def separa_emoji(text):
    frase = text
    frase_split_emoji = emoji.get_emoji_regexp().split(frase)
    frase_split_com_espa√ßo_em_branco = [substr.split() for substr in frase_split_emoji]
    frase_split = functools.reduce(operator.concat, frase_split_com_espa√ßo_em_branco)
    frase_espacada = ' '.join(frase_split)
    return frase_espacada

## Aplicando a fun√ß√£o de limpeza na base de dados

In [9]:
#Aplicando as fun√ß√µes no dataframe
dados['Treinamento'] = dados['Treinamento'].apply(limpa_texto)
dados['Treinamento'] = dados['Treinamento'].apply(separa_emoji)

In [10]:
# Checando se funcionou e se os emojis ainda funcionam
pd.set_option('max_colwidth', None)
dados.tail(10)

Unnamed: 0,Treinamento,Etiquetas,Classificado
490,vou dormir um pouco se vazar skin nova do valorant espero que meus amigos lindos me mandem,2,Irrelevante
491,@gabrielzurmely @thaliciaa me da skin no valorant que te ajudo com ela,2,Irrelevante
492,caraio eu fui jogar um valorant hj e foi so arrependimento n joguei porra nenhuma e pqp como eu to possesso de raiva,2,Irrelevante
493,@andre1tv player oldschool com disciplina e garra na mesma pegada joga muito e √© dedicado como poucos qualquer time de valorant s√≥ tem a ganhar com ele quando ele tiver em time top br n√£o vem reclamar depois t√° bom dia https t co xbypqekvyu,2,Irrelevante
494,ontem subi a prata 1 no valorant e hj j√° subi pra prata 2 gra√ßas ao meu perfeito namorado ‚ù§Ô∏è,1,Relevante
495,rt @patochovsk üí• sorteio de valorant points üí• haver√° 2 ganhadores ganhador 1 5550 valorant points ganhador 2 5550 valorant points üí• quanto‚Ä¶,2,Irrelevante
496,@girafodott valorant tbm,2,Irrelevante
497,jogador de lol foi jogar valorant veja o que rolou,2,Irrelevante
498,al√¥ valorant encontro partida nunca 20 minutos na fila kkkk,1,Relevante
499,quem vai jogar um valorant cmg hj,1,Relevante


## Prepara√ß√£o para fazer o smoothing

* Primeiro passo: Verificar a contagem de cada palavra no grupo de DataFrame Relevante e Irrelevante

In [11]:
# Separando o dataFrame em duas Strings com todas as palavras do grupo de Relevante e Irrelevante
dados_relevantes = dados[dados.Classificado == 'Relevante']
dados_irrelevantes = dados[dados.Classificado == 'Irrelevante']

# Transformando colunas em listas de palavras
palavras_relevantes = str(dados_relevantes.Treinamento.to_list()).split()
palavras_irrelevantes = str(dados_irrelevantes.Treinamento.to_list()).split()

# Contando apari√ß√£o total das palavras
contagem_relevantes = pd.Series(palavras_relevantes).value_counts()
contagem_irrelevante = pd.Series(palavras_irrelevantes).value_counts()

# Somando total de contagens
N_relevante = contagem_relevantes.sum()
N_irrelevante = contagem_irrelevante.sum()




* Segundo passo: Aplicar o alfa nas contagem das palavras e o alfa x V no total de palavras 

In [12]:
#criando um alpha para realizar a t√©cnica de smoothing
alfa = 1
#Criando um V para estimar o total de palavras da lingua 
V = 10e6

# Contagem + alfa
contagem_relevantes_com_alfa = contagem_relevantes + alfa
contagem_irrelevantes_com_alfa = contagem_irrelevante + alfa

# Total + alfaV
N_relevante_com_alfaV = N_relevante+alfa*V
N_irrelevante_com_alfaV = N_irrelevante+alfa*V


* Calculando probabilidade de cada palavra dada que √© relevante e irrelevante



In [13]:
P_palavra_dado_relevante = contagem_relevantes_com_alfa/N_relevante_com_alfaV
P_palavra_dado_irrelevante = contagem_irrelevantes_com_alfa/N_irrelevante_com_alfaV

## O teorema de bayes requer as seguintes probabilidades

$P(Relevante|tweet)$:

$$P(Relevante|tweet) = \frac{P(tweet|Relevante) \cdot P(Relevante)}{P(tweet)}$$

Ou seja, precisamos de: 
- $P(tweet|Relevante)$: probabilidade de encontrar o tweet dado que ele √© relevante;
- $P(tweet|Irrelevante)$: probabilidade de encontrar o tweet dado que ele √© relevante;
- $P(Relevante)$:  probabilidade do tweet ser relevante;
- $P(Irrelevante)$: probabilidade do tweet ser irrelevante;
- $P(tweet)$: probabilidade de um tweet ocorrer na lingua portuguesa.


Para encontrar a probabilidade de $P(tweet|Relevante)$, temos que fazer:

$P(tweet | Relevante) = P(Palavra_1 | Relevante) \cdot P(Palavra_2 | Relevante) \cdot P(Palavra_3 | Relevante) \cdot ... P(Palavra_n | Relevante)$

Contudo, como as probabilidades s√£o muito pequenas, basta fazer a soma dos expoentes. Logo, basta aplicar logaritmo:

$log(P(tweet | Relevante)) = 
log(P(Palavra_1 | Relevante)) + log(P(Palavra_2 | Relevante)) + ... log(P(Palavra_n | Relevante))$

Dessa forma, aplicando o log, temos que: 

$log(P(Relevante|tweet)) = \frac{log(P(Relevante|palavra_1)) + log(P(Relevante|palavra_2)) + log(P(Relevante|palavra_3)) + log(P(Relevante|palavra_4)) + log(P(Relevante))}{P(tweet)}$

Como iremos realizar a compara√ß√£o entre $P(Relevante|Tweet)$ e $P(Irrelevante|Tweet)$, n√£o √© necess√°rio se preocupar com a divis√£o ou a subtra√ß√£o pelo $P(Tweet)$, se aplicarmos $log$, pois esse termo se cancelar√°.

## Calculando a coluna de probabilidade relevante

In [33]:
#valor inicial
frase = 0

tabela_relevante = dict()

probabilidade_da_frase = 0

#para cada um dos √≠ndices da tabela de tweets
for indice in range(len(dados)):
    
    frase = dados.iloc[indice,0]
    #divide o tweet em uma lista de palavras que comp√µem o tweet
    palavras_da_frase = frase.split()
    
    for palavra in palavras_da_frase:
    #faz o c√°lculo da probabilidade de CADA palavra    
        
        if palavra in palavras_relevantes:
        #se for uma palavra conhecida entre as palavras presentes nos tweets relevantes

            probabilidade_da_palavra = P_palavra_dado_relevante[palavra]
            #como estamos apenas pegando os expoentes, estamos somando
            probabilidade_da_frase += abs(math.log10(probabilidade_da_palavra))
            
        else:
        #se for uma palavra desconhecida entre a lista das palavras presentes nos tweets relevantes
        
            probabilidade_da_palavra = alfa/N_relevante_com_alfaV
            #como estamos apenas pegando os expoentes, estamos somando
            probabilidade_da_frase += abs(math.log10(probabilidade_da_palavra))
    
    #adiciona a um dicionario em que a chave √© o tweet e o item √© a probabilidade dele
    tabela_relevante[frase] = (probabilidade_da_frase)
    probabilidade_da_frase = 0
    
df = pd.DataFrame.from_dict(data = tabela_relevante, orient='index').reset_index()
df.columns = ['Tweet', 'Probabilidade dado que √© relevante']
df.head()

Unnamed: 0,Tweet,Probabilidade dado que √© relevante
0,@caos 0 eu no valorant v fon,43.076253
1,o cara q pra mim √© o melhor player de valorant do mundo joga osu,87.415776
2,mano algm upa meu passe no valorant na humildade,55.37389
3,deletei o valorant agora meu pc volta a ligar em 3 segundos,72.071868
4,quem tiver pc baixa valorant nessa porr que eu t√¥ no √≥dio e vai ser o dia todo s√≥ isso,118.716192


## Calculando a coluna de probabilidade irrelevante

In [15]:
frase = 0
tabela_irrelevante = dict()
probabilidade_da_frase = 0
for indice in range(len(dados)):
    frase = dados.iloc[indice,0]
    palavras_da_frase = frase.split()

    for palavra in palavras_da_frase:
        
        
        if palavra in palavras_irrelevantes:

            probabilidade_da_palavra = P_palavra_dado_irrelevante[palavra]
            probabilidade_da_frase += abs(math.log10(probabilidade_da_palavra))
            
        else:
            
            probabilidade_da_palavra = alfa/N_irrelevante_com_alfaV
            probabilidade_da_frase += abs(math.log10(probabilidade_da_palavra))
           
    tabela_irrelevante[frase] = (probabilidade_da_frase)
    probabilidade_da_frase = 0
    
df1 = pd.DataFrame.from_dict(data = tabela_irrelevante, orient='index').reset_index()
df1.columns = ['Tweet', 'Probabilidade dado que √© irrelevante']
df1.head()

Unnamed: 0,Tweet,Probabilidade dado que √© irrelevante
0,@caos 0 eu no valorant v fon,41.436916
1,o cara q pra mim √© o melhor player de valorant do mundo joga osu,84.870098
2,mano algm upa meu passe no valorant na humildade,54.36537
3,deletei o valorant agora meu pc volta a ligar em 3 segundos,72.956548
4,quem tiver pc baixa valorant nessa porr que eu t√¥ no √≥dio e vai ser o dia todo s√≥ isso,119.731469


## Juntando resultados

In [16]:
novodf = pd.concat([dados, df['Probabilidade dado que √© relevante'], df1['Probabilidade dado que √© irrelevante']], axis=1)

In [17]:
novodf.head()

Unnamed: 0,Treinamento,Etiquetas,Classificado,Probabilidade dado que √© relevante,Probabilidade dado que √© irrelevante
0,@caos 0 eu no valorant v fon,2,Irrelevante,43.076253,41.436916
1,o cara q pra mim √© o melhor player de valorant do mundo joga osu,2,Irrelevante,87.415776,84.870098
2,mano algm upa meu passe no valorant na humildade,2,Irrelevante,55.37389,54.36537
3,deletei o valorant agora meu pc volta a ligar em 3 segundos,1,Relevante,72.071868,72.956548
4,quem tiver pc baixa valorant nessa porr que eu t√¥ no √≥dio e vai ser o dia todo s√≥ isso,1,Relevante,118.716192,119.731469


## Aplicando calculo final 

In [18]:
novodf['Probabilidade dado relevante x Probabilidade de Relevante'] = novodf['Probabilidade dado que √© relevante']+math.log10(P_R)
novodf['Probabilidade dado irrelevante x Probabilidade de Irelevante'] = novodf['Probabilidade dado que √© irrelevante']+math.log10(P_R_c)

In [19]:
novodf.head(10)

Unnamed: 0,Treinamento,Etiquetas,Classificado,Probabilidade dado que √© relevante,Probabilidade dado que √© irrelevante,Probabilidade dado relevante x Probabilidade de Relevante,Probabilidade dado irrelevante x Probabilidade de Irelevante
0,@caos 0 eu no valorant v fon,2,Irrelevante,43.076253,41.436916,42.737119,41.170915
1,o cara q pra mim √© o melhor player de valorant do mundo joga osu,2,Irrelevante,87.415776,84.870098,87.076642,84.604098
2,mano algm upa meu passe no valorant na humildade,2,Irrelevante,55.37389,54.36537,55.034755,54.099369
3,deletei o valorant agora meu pc volta a ligar em 3 segundos,1,Relevante,72.071868,72.956548,71.732734,72.690547
4,quem tiver pc baixa valorant nessa porr que eu t√¥ no √≥dio e vai ser o dia todo s√≥ isso,1,Relevante,118.716192,119.731469,118.377058,119.465468
5,voltei a jogar valorant so por causa do mata mata,1,Relevante,58.94268,59.773108,58.603545,59.507107
6,viciei em valorant esse √© o tweet,1,Relevante,41.53917,40.44492,41.200036,40.178919
7,@zncabral free fire fez mais sucesso que o valorant s√≥ no brasil no resto do mundo quase ngm joga isso,1,Relevante,121.148123,121.552353,120.808988,121.286352
8,alguem me explica o motivo das 12 do valorant menos a shorty atirar t√£o bem de longe tipo comparando com cs e fortnite n√£o faz sentido os cara vai de bucky atacando vai se fuder,1,Relevante,213.539203,213.133537,213.200069,212.867536
9,rt @leozjn o matchmaking do valorant n faz o minimo sentido,1,Relevante,66.497866,66.064682,66.158731,65.798682


## Aplicando:

Se $P(Relevante|tweet) < P(Irrelevante|tweet)$, classificaremos o tweet como Relevante (Como estamos verificando o expoente das probabilidades e eles s√£o n√∫meros muito pequenos (expoente negativo), queremos o expoente mais pr√≥ximo de 0), sen√£o, classificaremos como Irrelevante.

In [20]:
novodf['Navy Bayes'] = np.where(novodf['Probabilidade dado que √© relevante'] < novodf['Probabilidade dado que √© irrelevante'], 'Relevante', 'Irrelevante')
novodf.head()

Unnamed: 0,Treinamento,Etiquetas,Classificado,Probabilidade dado que √© relevante,Probabilidade dado que √© irrelevante,Probabilidade dado relevante x Probabilidade de Relevante,Probabilidade dado irrelevante x Probabilidade de Irelevante,Navy Bayes
0,@caos 0 eu no valorant v fon,2,Irrelevante,43.076253,41.436916,42.737119,41.170915,Irrelevante
1,o cara q pra mim √© o melhor player de valorant do mundo joga osu,2,Irrelevante,87.415776,84.870098,87.076642,84.604098,Irrelevante
2,mano algm upa meu passe no valorant na humildade,2,Irrelevante,55.37389,54.36537,55.034755,54.099369,Irrelevante
3,deletei o valorant agora meu pc volta a ligar em 3 segundos,1,Relevante,72.071868,72.956548,71.732734,72.690547,Relevante
4,quem tiver pc baixa valorant nessa porr que eu t√¥ no √≥dio e vai ser o dia todo s√≥ isso,1,Relevante,118.716192,119.731469,118.377058,119.465468,Relevante


In [21]:
tabela = pd.crosstab(novodf.Classificado, novodf['Navy Bayes'], normalize=True)
tabela

Navy Bayes,Irrelevante,Relevante
Classificado,Unnamed: 1_level_1,Unnamed: 2_level_1
Irrelevante,0.538,0.004
Relevante,0.174,0.284


In [22]:
precisao = tabela.iloc[0,0] + tabela.iloc[1,1]
precisao

0.8220000000000001

# Teste

In [23]:
teste = pd.read_excel('../dados/Valorant.xlsx', sheet_name = 'Teste')
teste.head()

Unnamed: 0,Teste,Etiquetas,Classificado
0,"mt silverio abandona a carreira como dj e vira pro player de valorant, em breve nos cinemas",2,Irrelevante
1,"definitivamente o valorant n quer mais me ver jogar, √© cada bronze com jogatina de imortal q pelamor",1,Relevante
2,eu jogando valorant com meus amigos // eu jogando valorant sozinho https://t.co/esjhdslejb,2,Irrelevante
3,eu sei que a minha equipa no valorant √© m√° quando sou eu a top fragger,2,Irrelevante
4,baixei valorant.. esse foi o erro da noite kkk,1,Relevante


### Checa relevante

In [24]:
frase = 0
tabela_relevante = dict()
probabilidade_da_frase = 0
for indice in range(len(teste)):
    frase = teste.iloc[indice,0]
    palavras_da_frase = frase.split()

    for palavra in palavras_da_frase:
        
        
        if palavra in palavras_relevantes:

            probabilidade_da_palavra = P_palavra_dado_relevante[palavra]
            probabilidade_da_frase += abs(math.log10(probabilidade_da_palavra))
            
        else:
            
            probabilidade_da_palavra = alfa/N_relevante_com_alfaV
            probabilidade_da_frase += abs(math.log10(probabilidade_da_palavra))
     
    tabela_relevante[frase] = (probabilidade_da_frase)
    probabilidade_da_frase = 0
    
df = pd.DataFrame.from_dict(data = tabela_relevante, orient='index').reset_index()
df.columns = ['Tweet', 'Probabilidade dado que √© relevante']
df.head()

Unnamed: 0,Tweet,Probabilidade dado que √© relevante
0,"mt silverio abandona a carreira como dj e vira pro player de valorant, em breve nos cinemas",107.851813
1,"definitivamente o valorant n quer mais me ver jogar, √© cada bronze com jogatina de imortal q pelamor",109.700044
2,eu jogando valorant com meus amigos // eu jogando valorant sozinho https://t.co/esjhdslejb,70.892549
3,eu sei que a minha equipa no valorant √© m√° quando sou eu a top fragger,93.703128
4,baixei valorant.. esse foi o erro da noite kkk,57.298812


### Checa Irrelevante

In [25]:
frase = 0
tabela_irrelevante = dict()
probabilidade_da_frase = 0
for indice in range(len(teste)):
    frase = teste.iloc[indice,0]
    palavras_da_frase = frase.split()

    for palavra in palavras_da_frase:
        
        
        if palavra in palavras_irrelevantes:

            probabilidade_da_palavra = P_palavra_dado_irrelevante[palavra]
            probabilidade_da_frase += abs(math.log10(probabilidade_da_palavra))
            
        else:
            
            probabilidade_da_palavra = alfa/N_irrelevante_com_alfaV
            probabilidade_da_frase += abs(math.log10(probabilidade_da_palavra))
           
    tabela_irrelevante[frase] = (probabilidade_da_frase)
    probabilidade_da_frase = 0
    
df1 = pd.DataFrame.from_dict(data = tabela_irrelevante, orient='index').reset_index()
df1.columns = ['Tweet', 'Probabilidade dado que √© irrelevante']
df1.head()

Unnamed: 0,Tweet,Probabilidade dado que √© irrelevante
0,"mt silverio abandona a carreira como dj e vira pro player de valorant, em breve nos cinemas",105.361818
1,"definitivamente o valorant n quer mais me ver jogar, √© cada bronze com jogatina de imortal q pelamor",108.597595
2,eu jogando valorant com meus amigos // eu jogando valorant sozinho https://t.co/esjhdslejb,70.352071
3,eu sei que a minha equipa no valorant √© m√° quando sou eu a top fragger,93.007725
4,baixei valorant.. esse foi o erro da noite kkk,57.061789


### Junta resultados

In [26]:
novodf = pd.concat([dados, df['Probabilidade dado que √© relevante'], df1['Probabilidade dado que √© irrelevante']], axis=1)
novodf.head()

Unnamed: 0,Treinamento,Etiquetas,Classificado,Probabilidade dado que √© relevante,Probabilidade dado que √© irrelevante
0,@caos 0 eu no valorant v fon,2,Irrelevante,107.851813,105.361818
1,o cara q pra mim √© o melhor player de valorant do mundo joga osu,2,Irrelevante,109.700044,108.597595
2,mano algm upa meu passe no valorant na humildade,2,Irrelevante,70.892549,70.352071
3,deletei o valorant agora meu pc volta a ligar em 3 segundos,1,Relevante,93.703128,93.007725
4,quem tiver pc baixa valorant nessa porr que eu t√¥ no √≥dio e vai ser o dia todo s√≥ isso,1,Relevante,57.298812,57.061789


### Gera coluna final para analise

In [27]:
novodf['Probabilidade dado relevante x Probabilidade de Relevante'] = novodf['Probabilidade dado que √© relevante']+math.log10(P_R)
novodf['Probabilidade dado irrelevante x Probabilidade de Irelevante'] = novodf['Probabilidade dado que √© irrelevante']+math.log10(P_R_c)
novodf.head()

Unnamed: 0,Treinamento,Etiquetas,Classificado,Probabilidade dado que √© relevante,Probabilidade dado que √© irrelevante,Probabilidade dado relevante x Probabilidade de Relevante,Probabilidade dado irrelevante x Probabilidade de Irelevante
0,@caos 0 eu no valorant v fon,2,Irrelevante,107.851813,105.361818,107.512678,105.095817
1,o cara q pra mim √© o melhor player de valorant do mundo joga osu,2,Irrelevante,109.700044,108.597595,109.360909,108.331594
2,mano algm upa meu passe no valorant na humildade,2,Irrelevante,70.892549,70.352071,70.553414,70.08607
3,deletei o valorant agora meu pc volta a ligar em 3 segundos,1,Relevante,93.703128,93.007725,93.363994,92.741724
4,quem tiver pc baixa valorant nessa porr que eu t√¥ no √≥dio e vai ser o dia todo s√≥ isso,1,Relevante,57.298812,57.061789,56.959678,56.795788


### Aplica Navy-Bayes

In [28]:
novodf['Navy Bayes'] = np.where(novodf['Probabilidade dado que √© relevante'] < novodf['Probabilidade dado que √© irrelevante'], 'Relevante', 'Irrelevante')
novodf.head()

Unnamed: 0,Treinamento,Etiquetas,Classificado,Probabilidade dado que √© relevante,Probabilidade dado que √© irrelevante,Probabilidade dado relevante x Probabilidade de Relevante,Probabilidade dado irrelevante x Probabilidade de Irelevante,Navy Bayes
0,@caos 0 eu no valorant v fon,2,Irrelevante,107.851813,105.361818,107.512678,105.095817,Irrelevante
1,o cara q pra mim √© o melhor player de valorant do mundo joga osu,2,Irrelevante,109.700044,108.597595,109.360909,108.331594,Irrelevante
2,mano algm upa meu passe no valorant na humildade,2,Irrelevante,70.892549,70.352071,70.553414,70.08607,Irrelevante
3,deletei o valorant agora meu pc volta a ligar em 3 segundos,1,Relevante,93.703128,93.007725,93.363994,92.741724,Irrelevante
4,quem tiver pc baixa valorant nessa porr que eu t√¥ no √≥dio e vai ser o dia todo s√≥ isso,1,Relevante,57.298812,57.061789,56.959678,56.795788,Irrelevante


In [29]:
tabela = pd.crosstab(novodf.Classificado, novodf['Navy Bayes'], normalize=True)
tabela

Navy Bayes,Irrelevante,Relevante
Classificado,Unnamed: 1_level_1,Unnamed: 2_level_1
Irrelevante,0.536,0.006
Relevante,0.45,0.008


In [30]:
precisao = tabela.iloc[0,0] + tabela.iloc[1,1]
precisao

0.544