# Classificador naive bayes para a marca Supreme

Este projeto consiste na criação de uma mini inteligência artificial que classifica Tweets de acordo com opiniões relacionadas à uma determinada marca, no caso, a Supreme. Este classificador separará as opiniões dadas à marca, em cinco blocos diferentes quanto à positividade: Muito negativo, negativo, neutro, positivo e muito positivo. Isso pode ser aplicado à realidade mercadológica, uma vez que, para a empresa cuja marca representa é fundamental saber a opinião pública para a melhoria de seus serviços e produtos.

In [9]:
import pandas as pd

Primeiro, importamos os dados do excel de treinamento

In [10]:
dados = pd.read_excel('tweets_supreme_treinamento.xlsx')

dados.head()

Unnamed: 0,Treinamento,Relação Marca,Positividade
0,rt @lugabriel_: eae vei quem achou uma carteir...,0,
1,"rt @renata1255_: essa semana só foi bolsonaro,...",1,1.0
2,"rt @michaugusto: supreme fuck the president, g...",0,
3,rt @vishmidia: coleman lança oficialmente para...,1,3.0
4,"@berreccaa ebay for girls , supreme , dafiti t...",1,3.0


Após isso, removemos os tweets que não possuem relação com a marca

In [11]:
dad_na=dados.dropna()

dad_na.head()

Unnamed: 0,Treinamento,Relação Marca,Positividade
1,"rt @renata1255_: essa semana só foi bolsonaro,...",1,1.0
3,rt @vishmidia: coleman lança oficialmente para...,1,3.0
4,"@berreccaa ebay for girls , supreme , dafiti t...",1,3.0
6,eu só queria mata a chute quem usa roupa da su...,1,0.0
9,"seis acha que nós é crime não me julgue, quero...",1,3.0


Depois disso, criamos uma função que transforma o dataframe em um dicionário

In [12]:
#função que transforma um dataframe em um dicionário
def data_dici(data,string):
    
    #separa o dataframe em todas as categorias
    
    mneg=data[data.Positividade==0.0]
    neg=data[data.Positividade==1.0]
    neu=data[data.Positividade==2.0]
    pos=data[data.Positividade==3.0]
    mpos=data[data.Positividade==4.0]
    
    #cria um dicionário em que em cada chave há uma lista com todos os tweets de um tipo
    dici={0:[],1:[],2:[],3:[],4:[]}
    
    for i in mneg[string].keys():
        dici[0].append(mneg[string][i])

    for i in neg[string].keys():
        dici[1].append(neg[string][i])
        
    for i in neu[string].keys():
        dici[2].append(neu[string][i])

    for i in pos[string].keys():
        dici[3].append(pos[string][i])
        
    for i in mpos[string].keys():
        dici[4].append(mpos[string][i])

    return dici
dici_tre=data_dici(dad_na,'Treinamento')
print(dici_tre)

{0: ['eu só queria mata a chute quem usa roupa da supreme', 'rt @matinauov_69: @fckingwilson já vi tijolos da supreme 😂😂😂😂😂\n\nl minúsculo se não tiverem xailes', 'o supreme insiste em querer conversa, ba o cara e mt chato kkkk', '@singelasso se a supreme faz peita do scarface\nacho que é kkkk', 'só tenho 5$ pra entrar na supreme será q eles deixa', 'meu tt só da supreme, não aguento mais', 'as loja da bape e supreme são as loja mais hypada vlho na moral, vir um vídeo na gringa e as filas são grande pra crlh', 'já fizeram uma camisa fake da supreme escrito "supera"?\n\né bom pra dar pra amiga, pros amigo, pra irmã, pro irmão, sempre se conhece alguém que pode usar esse conselho em forma de estampa', 'cachorro da supreme', '@victoralmeida_s moletom 30k, barba da supreme 2k, cabelo do justin bieber 15k, calça 1k, iphone x 10k', '@aryyeleyb ele q fica abrindo a boca pra dizer q ama a burberry e supreme kkk. pelo menos deram uma camisa da burlon e uma da d&amp;g q acho linda', 'rt @portuga

## Fase de Remoção

Também criamos uma função que separa emojis de emojis e emojis de strings

In [15]:
#função que separa emojis
import functools
import operator
import re
import emoji # Para o funcionamento, deve-se instalar essa biblioteca em sua máquina


def emo(string):
    em_split_emoji = emoji.get_emoji_regexp().split(string)
    em_split_whitespace = [substr.split() for substr in em_split_emoji]
    em_split = functools.reduce(operator.concat, em_split_whitespace)
    
    return em_split

print(emo('nāo aguento mais ver gente com roupas da gucci e da supreme mds\nparece uniforme de escola todo mundo tem kkk🤦🏾\u200d♂️😂'))    

['nāo', 'aguento', 'mais', 'ver', 'gente', 'com', 'roupas', 'da', 'gucci', 'e', 'da', 'supreme', 'mds', 'parece', 'uniforme', 'de', 'escola', 'todo', 'mundo', 'tem', 'kkk', '🤦🏾\u200d♂️', '😂']


Depois criamos uma função que pega um tweet e retorna uma lista de todas as strings componentes.

In [16]:
def separacao(frase):
    #apaga os caracteres indesejáveis
    lista = re.split('\||\n|@| |,|\t;',frase)
    
    #apaga os links
    i = len(lista)-1
    while i >= 0:
        if lista[i].startswith("https") or lista[i]=='':
            lista.remove(lista[i])
        i-=1
    #apaga o resto dos caracteres indesejáveis
    new_lista=[]
    for e in lista:
        new_e=re.split('_|:|\$|0|1|2|3|4|5|6|7|8|9|/|\.',e)
        new_lista+=new_e
    #separa os emojis
    final_lista=[]
    for e in new_lista:
        final_e=emo(e)
        final_lista+=final_e
    
        
    return final_lista

print(separacao('nāo aguento mais ver gente com roupas da gucci e da supreme mds\nparece uniforme de escola todo mundo tem kkk🤦🏾\u200d♂️😂,,..$23'))

['nāo', 'aguento', 'mais', 'ver', 'gente', 'com', 'roupas', 'da', 'gucci', 'e', 'da', 'supreme', 'mds', 'parece', 'uniforme', 'de', 'escola', 'todo', 'mundo', 'tem', 'kkk', '🤦🏾\u200d♂️', '😂']


Após isso, criamos um novo dicionário que recebe todas as palavras dos tweets, com a quantidade de aparições por categoria

In [17]:
new_dici={}

for k in dici_tre:
    v=dici_tre[k]
    lista=[]
    
    for s in v:
        lista+=separacao(s)
        
    #cria um novo dicionario com cada palavra e sua ocorrencia em cada categoria
    for p in lista:
        if p in new_dici:
            new_dici[p][k] = new_dici[p][k]+1
            
        else:
            new_dici[p] = [0,0,0,0,0]
            new_dici[p][k] = 1 

print(new_dici['supreme'])

[39, 73, 63, 88, 10]


Depois, criamos uma função que calcula a probabilidade de uma palavra dada sua categoria, utilizando o método "Laplace Smothing". Essa função tem como argumento a palavra e a categoria que se deseja.

In [18]:
#numero de palavras de cada categoria
n_mneg=0
n_neg=0
n_neu=0
n_pos=0
n_mpos=0


for st in new_dici:
    n_mneg+=new_dici[st][0]
    n_neg+=new_dici[st][1]
    n_neu+=new_dici[st][2]
    n_pos+=new_dici[st][3]
    n_mpos+=new_dici[st][4]
    

#função que calcula a probabilidade de uma certa palavra, dada a categoria
def prob(palavra, sent):
    
    fell=[n_mneg,n_neg,n_neu,n_pos,n_mpos]
    
    if palavra in new_dici:
    
        
        return (new_dici[palavra][sent]+1)/(len(new_dici)+fell[sent])
        
    else:
        return 1/(len(new_dici)+fell[sent])
    
    
print(prob('supreme', 0),prob('supreme', 1),prob('supreme', 2),prob('supreme', 3),prob('supreme', 4))

0.022650056625141562 0.031841652323580036 0.0315893385982231 0.040253279059249206 0.008283132530120483


Para terminar, criamos uma função que pega uma frase e calcula em qual categoria ela tem mais chance de se encaixar.

In [19]:

total_tweets=n_mneg+n_neg+n_neu+n_pos+n_mpos

#Probabilidade de cada uma das categorias
probabilidade_mneg = n_mneg/total_tweets
probabilidade_neg = n_neg/total_tweets
probabilidade_neu = n_neu/total_tweets
probabilidade_pos = n_pos/total_tweets
probabilidade_mpos = n_mpos/total_tweets


def classificacao(tweet):
    
    
    #calcular as prob de cada categoria e pegar a maior usando o Laplace Smothing
    mnegativo = probabilidade_mneg
    negativo = probabilidade_neg
    neutro = probabilidade_neu
    positivo = probabilidade_pos
    mpositivo = probabilidade_mpos
    
    l_palavras=separacao(tweet)
    
    for p in l_palavras:

        mnegativo *= prob(p,0)
        negativo *= prob(p,1)
        neutro *= prob(p,2)
        positivo *= prob(p,3)
        mpositivo *= prob(p,4)

        
    dici_cada_prob={'Muito positivo':mpositivo,
                    'Positivo':positivo,
                    'Neutro':neutro,
                    'Negativo':negativo,
                    'Muito negativo':mnegativo}

    dici_correlacao={'Muito positivo':4,'Positivo':3,'Neutro':2,'Negativo':1,'Muito negativo':0}
    
    maior=0
    categoria=''
    for c in dici_cada_prob:
        if dici_cada_prob[c]>maior:
            maior=dici_cada_prob[c]
            categoria=c
            
    cat=categoria
    num=dici_correlacao[categoria]
        

    return cat,num
print(classificacao(' a supreme é muito ruim')[1])

1


Esta função necessita de um dicionário em que todos os tweets de uma certa categoria fiquem no índice correspondente a ele, retornando três dicionários: 

O dicionário resultado, que mostra, para cada categoria, a porcentagem de tweets daquele tipo, segundo a categorização do naive bayes;
{'Muito positivo': 2.57, 'Positivo': 34.93, 'Neutro': 24.26, 'Negativo': 26.1, 'Muito negativo': 12.13}


O dicionário Comparação, que mostra, para cada categoria, no índice 0 a porcentagem daquela categoria que foram verdadeiros e no índice 1 a porcentagem daquela categoria que foram falsos;
{'Muito positivo': [2.57, 0], 'Positivo': [30.15, 4.78], 'Neutro': [21.69, 2.57], 'Negativo': [23.9, 2.21], 'Muito negativo': [11.4, 0.74]}


O dicionário Graus, que mostra a porcentagem de acertos total, a porcentagem de erro em uma categoria de "distância",duas categorias, três categorias e quatro categorias.
{'Acertos': 89.71, 'Erro tipo 1': 4.04, 'Erro tipo 2': 5.51, 'Erro tipo 3': 0.37, 'Erro tipo 4': 0.37}

In [20]:
def analise_completa(dicionario):
    
    total= len(dicionario[0])+len(dicionario[1])+len(dicionario[2])+len(dicionario[3])+len(dicionario[4])
    
    resultado={'Muito positivo':0,'Positivo':0,'Neutro':0,'Negativo':0,'Muito negativo':0}
    comparacao={'Muito positivo':[0,0],'Positivo':[0,0],'Neutro':[0,0],'Negativo':[0,0],'Muito negativo':[0,0]}
    graus={'Acertos':0,'Erro tipo 1':0,'Erro tipo 2':0,'Erro tipo 3':0,'Erro tipo 4':0}
    
    for k in dicionario:
        for frase in dicionario[k]:
            clas_c,clas_n = classificacao(frase)
            resultado[clas_c]+=(100/total)
            if clas_n==k:
                comparacao[clas_c][0]+=(100/total)
                graus['Acertos']+=(100/total)
            else:
                comparacao[clas_c][1]+=(100/total)
                if abs(clas_n-k)==1:
                    graus['Erro tipo 1']+=(100/total)
                elif abs(clas_n-k)==2:
                    graus['Erro tipo 2']+=(100/total)
                elif abs(clas_n-k)==3:
                    graus['Erro tipo 3']+=(100/total)
                elif abs(clas_n-k)==4:
                    graus['Erro tipo 4']+=(100/total)
    for k in resultado:
        resultado[k]=round(resultado[k],2)
    for k in comparacao:
        comparacao[k][0]=round(comparacao[k][0],2)
        comparacao[k][1]=round(comparacao[k][1],2)
    for k in graus:
        graus[k]=round(graus[k],2)


    return resultado,comparacao,graus

print(analise_completa(dici_tre)[0])
print('\n')
print(analise_completa(dici_tre)[1])
print('\n')
print(analise_completa(dici_tre)[2])

{'Muito positivo': 2.57, 'Positivo': 34.93, 'Neutro': 24.26, 'Negativo': 26.1, 'Muito negativo': 12.13}


{'Muito positivo': [2.57, 0], 'Positivo': [30.15, 4.78], 'Neutro': [21.69, 2.57], 'Negativo': [23.9, 2.21], 'Muito negativo': [11.4, 0.74]}


{'Acertos': 89.71, 'Erro tipo 1': 4.04, 'Erro tipo 2': 5.51, 'Erro tipo 3': 0.37, 'Erro tipo 4': 0.37}


Para podermos usar a função anterior no teste, precisamos antes fazê-la virar um dicionário no formato aceito

In [21]:
teste = pd.read_excel('tweets_supreme_teste.xlsx').dropna()
teste.head()

Unnamed: 0,Teste,Relação Marca,Positividade
0,ela é supreme eu smp preferi all star,1.0,1.0
3,"sou fã desse cara\nmeu avô no ""quanto custa o ...",1.0,3.0
5,@imstilllaura quanto custou esse violão da sup...,1.0,2.0
6,"as luzes da zona sul, restaurantes no leblon\n...",1.0,1.0
8,"@foxscattergood ela é rica beu abor, a casa de...",1.0,1.0


In [22]:
dici_teste=data_dici(teste,'Teste')
print(dici_teste)
print(len(dici_teste[0]),len(dici_teste[1]))

{0: ['rt @portugalkg7: lucas paz ta com a pochete da minha avó, se ele colar alguma etiqueta da supreme na porra da correia eu vou ficar muito pu…', 'eu queria entender oq q passa na cabeça dos designers da supreme', '@jmoraesx nem réplica é kkkk é um pano c supreme estampado', 'não aguento mais ver blusa escrito supreme', 'aparentemente a camisa ranço da supreme tem proporções maiores q eu pensava e inclusive já está em níveis alarmantes de uso', 'lucas paz ta com a pochete da minha avó, se ele colar alguma etiqueta da supreme na porra da correia eu vou ficar muito puto com ele'], 1: ['ela é supreme eu smp preferi all star', 'as luzes da zona sul, restaurantes no leblon\njordans, supreme, lebrons\nmão no volante cigarro entre o dedo', '@foxscattergood ela é rica beu abor, a casa dela é feita de tijolo da supreme', 'ele não me convence com essas conversas, os cara é tipo supreme eu sou tipo converse.', 'rt @badgxrlmari: oq adianta supreme e bape se tu nao eh will smith???? fe', 'rt @re

In [23]:
print(analise_completa(dici_teste)[2])

{'Acertos': 38.55, 'Erro tipo 1': 39.76, 'Erro tipo 2': 16.87, 'Erro tipo 3': 4.82, 'Erro tipo 4': 0}


## Análise sobre o classificador

O classificador teve um índice de acerto de 38.55% o que por si só pode ser visto como um índice alto de ineficácia, já que ele errou mais do que acertou, porém, vendo também em quais ele teve erro do tipo 1, que são erros considerados baixos, o seu índice de acertos ou erros "baixos" cresce para  78.31%,

## É possível usar o classificador para gerar novos dados de treinamento?

Vendo e analisando o nosso sistema implementado, pode ser dito que não podemos usar o classificador para fazer uma nova base de treinamento, pois uma vez programado, o classificador ficará preso aquilo que já foi classificado, criando  um ciclo vicioso, no qual o classificador classifica informações novas sem conter essas informações, ou seja, será totalmente tendencioso. É impossível criar algo novo a partir do que já está classificado.

## Quais seriam possiveis melhorias do classificador?

A melhora dos resultados depende imensamente do número de tweets analisados. Para obter um resultado com maior confiabilidade, seria necessário um número maior de tweets, com técnicas mais avançadas, como a formação e análise de pares de palavras que adquirem um significado próprio. Sem a implantação de uma base maior de Tweets, a utilização de técnicas como a retirada de algumas palavras que não adquirem significancia no processo de classificação, como artigos e conjunções, dando mais ênfase aos substantivos e principalmente aos adjetivos (que caracterizam diretamente uma opinião). Assim, o classificador terá mais confiabilidade.

## Em quais outros ambientes poderia ser usado um sistema Naive Bayes?

Uma vez com maior confiabilidade, nosso sistema (e o Naïve Bayes em si) pode ser usado em diversos outros meios, fora o de opiniões mercadológicas, como por exemplo o influenciamento digital, fazendo uma análise geral de escolhas em perfis de redes sociais como Twitter e Facebook, criando redes com pessoas de mesmo interesse. Da mesma forma, esse sistema pode ser útil criando matches em redes sociais cujo principal intuito é criar relacionamentos, fazendo análise de dados comuns entre perfis, e em quais perfis mais pessoas "semelhantes" ao esperado são visitantes. Também é possível fazer análise de perfis 'falsos' e 'automáticos' em redes sociais, impedindo assim, o influenciamento digital negativo.

## Conclusão final

Assim, podemos concluir que utilizando dos métodos certos, podemos criar fontes de informações que podem mapear opiniões em diversas áreas do mercado, algo que pode ser bastante utilizado para o aumento da qualidade dos proodutos e serviços, e consequentemente uma roda econômica, aumentando a renda e o lucro.