In [1]:
from textblob.classifiers import NaiveBayesClassifier
from textblob import TextBlob
import pandas as pd

# https://github.com/EvertonTomalok/preprocessingtext/blob/master/README.md
from preprocessingtext import CleanSentences


pre_processing = CleanSentences()

## DataSet de treino

In [2]:
#  1 = Good
# -1 = Bad

data_set_treino = [
    ('Eu amo muito tudo isso', 1),
    ('Eu odeio isso', -1),
    ('Eu gostei bastante desse comentário', 1),
    ('Por favor, não me ligue mais', -1),
    ('Eu gosto de sair com meus amigos', 1),
    ('O Bolsonaro é um cara escroto', -1),
    ('Programar em python é bom demais', 1),
    ('Não existe um candidato para se votar', 1),
    ('Você não deveria fazer isso', -1),
    ('Deveriamos fazer isso mais vezes', 1),
    ('Isso não foi legal', -1),
    ('Eu amo esse saunduice', 1),
    ('Estou cansado deste trabalho', -1),
    ('Que lugar incrível', 1),
    ('Essa cerveja parece boa', 1),
    ('Não quero ir nesse restarurante', -1),
    ('Esse lugar é meu favorito', 1),
    ("Não consigo lidar com isso", -1),
    ('Que cara chato', -1),
    ('Meu chefe é horrível', -1),
    ('A cerveja esta boa', 1),
    ('Não gosto do meu trabalho', -1),
    ("Me sinto incrível hoje", 1),
    ("Não quero ir hoje", -1),
    ('Ele é meu melhor amigo', 1),
    ("Não acredito que estou fazendo isso", -1)
    
]

# Efetuando o pre-processamento do texto removendo stop words, pontuação e normalizando acentuação

In [3]:
train_set_pos_processing = []

for element, sentimento in data_set_treino:
    new_elemento = pre_processing.stem_sentence(element, remove_stop_words=True)
    train_set_pos_processing.append((new_elemento, sentimento))


## Visualizando antes e depois do processamento

In [4]:
data = dict()
antes = [x for x, _ in data_set_treino]
depois = list(x for x, _ in train_set_pos_processing)
sentimento = [x for _, x in data_set_treino]

data = {
    'antes': antes,
    'depois': depois,
    'sentimento': sentimento
}

df = pd.DataFrame(data)
df

Unnamed: 0,antes,depois,sentimento
0,Eu amo muito tudo isso,amo tud,1
1,Eu odeio isso,odei,-1
2,Eu gostei bastante desse comentário,gost bast dess comentari,1
3,"Por favor, não me ligue mais",favor nao lig,-1
4,Eu gosto de sair com meus amigos,gost sair amig,1
5,O Bolsonaro é um cara escroto,bolsonar car escrot,-1
6,Programar em python é bom demais,program python bom demal,1
7,Não existe um candidato para se votar,nao exist candidat vot,1
8,Você não deveria fazer isso,voc nao dev faz,-1
9,Deveriamos fazer isso mais vezes,deveri faz vez,1


## Delimitando o tamanho do data sete em 70% para treino, e 30% para teste

In [5]:
treino = int(len(train_set_pos_processing)*0.7)


treino
# 25 * 0.7 = 17.5 => Arrendondando = 18

18

## Treinando o modelo com base no teorema de Naive Bayes

In [6]:
classificador_sem_stop_words = NaiveBayesClassifier(train_set_pos_processing[:treino])

## Medindo a acurácia do modelo removendo stop words

In [7]:
accuracy = classificador_sem_stop_words.accuracy(train_set_pos_processing[treino:])
accuracy = accuracy * 100
print('Precisão da previsão: {}%'.format(accuracy))

Precisão da previsão: 87.5%


## Visualizando as features

In [8]:
classificador_sem_stop_words.show_informative_features()  

Most Informative Features
           contains(nao) = True               -1 : 1      =      4.5 : 1.0
           contains(nao) = False               1 : -1     =      2.2 : 1.0
           contains(faz) = True               -1 : 1      =      1.2 : 1.0
           contains(lug) = False              -1 : 1      =      1.2 : 1.0
          contains(gost) = False              -1 : 1      =      1.2 : 1.0
           contains(amo) = False              -1 : 1      =      1.2 : 1.0
      contains(bolsonar) = False               1 : -1     =      1.1 : 1.0
          contains(ness) = False               1 : -1     =      1.1 : 1.0
         contains(legal) = False               1 : -1     =      1.1 : 1.0
          contains(odei) = False               1 : -1     =      1.1 : 1.0


<br><br><br>
# Modelo sem remoção de stop words

In [9]:
train_set_pos_processing = []

for element, sentimento in data_set_treino:
    new_elemento = pre_processing.stem_sentence(element, remove_stop_words=False)
    train_set_pos_processing.append((new_elemento, sentimento))


## Analisando o novo data_set

In [10]:
data = dict()
antes = [x for x, _ in data_set_treino]
depois = list(x for x, _ in train_set_pos_processing)
sentimento = [x for _, x in data_set_treino]

data = {
    'antes': antes,
    'depois': depois,
    'sentimento': sentimento
}

df = pd.DataFrame(data)
df

Unnamed: 0,antes,depois,sentimento
0,Eu amo muito tudo isso,eu amo muit tud iss,1
1,Eu odeio isso,eu odei iss,-1
2,Eu gostei bastante desse comentário,eu gost bast dess comentari,1
3,"Por favor, não me ligue mais",por favor nao me lig mais,-1
4,Eu gosto de sair com meus amigos,eu gost de sair com meu amig,1
5,O Bolsonaro é um cara escroto,o bolsonar e um car escrot,-1
6,Programar em python é bom demais,program em python e bom demal,1
7,Não existe um candidato para se votar,nao exist um candidat par se vot,1
8,Você não deveria fazer isso,voc nao dev faz iss,-1
9,Deveriamos fazer isso mais vezes,deveri faz iss mais vez,1


## Delimitando 70% e treinando o modelo

In [11]:
treino = int(len(train_set_pos_processing)*0.7)

classificador_com_stop_words = NaiveBayesClassifier(train_set_pos_processing[:treino])

## Medindo a acurácia deste modelo

In [12]:
## Neste modelo, mantendo as stop words, a acurácia do modelo caiu consideravelmente

accuracy = classificador_com_stop_words.accuracy(train_set_pos_processing[treino:])
accuracy = accuracy * 100
print('Precisão da previsão: {}%'.format(accuracy))

Precisão da previsão: 62.5%


<br><br><br><br>

# Utilizando os modelos

In [13]:
# stop_word= True (manter)
# stop_word= False (remover)

def sentimento(text, stop_word=True):
    
    bkp_text = text
    text = pre_processing.stem_sentence(text, remove_stop_words= not stop_word)
    
    
    # Definindo o classificador conforme o paramentro recebido
    if stop_word:
        classificador = classificador_com_stop_words
    else:
        classificador = classificador_sem_stop_words

    # Transformando o texto recebido em um objeto TextBlob
    blob = TextBlob(text, classifier=classificador)
    result = blob.classify()

    if result == 1:
        to_print = '\033[1;30;42m POS \033[m'
    elif result == -1:
        to_print = '\033[1;30;41m NEG \033[m'
    
    print('========================================')
    print('Frase analisada: ', bkp_text)
    print('\nEsta frase é de caráter: {}\n'.format(to_print))
    print('========================================')
    
    del(bkp_text)
    del(to_print)


<br><br>
# Utilizando o modelo retirando stop_words

In [14]:
sentimento('Eu adorei essa noite', stop_word=False)
print()
sentimento('Eu não gostei do que você falou', stop_word=False)
print()

sentimento('Eu gostei de hoje', stop_word=False)

Frase analisada:  Eu adorei essa noite

Esta frase é de caráter: [1;30;42m POS [m


Frase analisada:  Eu não gostei do que você falou

Esta frase é de caráter: [1;30;41m NEG [m


Frase analisada:  Eu gostei de hoje

Esta frase é de caráter: [1;30;42m POS [m



<br><br>
# Utilizando o modelo NÃO retirando stop_words

In [15]:
sentimento('Eu adorei essa noite', stop_word=True)
print()
sentimento('Eu não gostei do que você falou', stop_word=True)
# previsão falso positiva

Frase analisada:  Eu adorei essa noite

Esta frase é de caráter: [1;30;42m POS [m


Frase analisada:  Eu não gostei do que você falou

Esta frase é de caráter: [1;30;42m POS [m

