# Análise de Sentimetos em frases

In [51]:
import nltk 
from nltk.stem import RSLPStemmer


#Função para realizar o processo de 'tokenazien' nas palavras da frase

In [52]:
def Tokenize(sentence):
    sentence = sentence.lower()
    sentence = nltk.word_tokenize(sentence)
    return sentence

#Função para reduzir as palavras

In [53]:
def Stemming(sentence):
    stemmer = RSLPStemmer()
    phrase = []
    for word in sentence:
        phrase.append(stemmer.stem(word.lower()))
    return phrase

#Stopwords padrões 

In [54]:
stopwords = nltk.corpus.stopwords.words('portuguese')
print(stopwords)

['de', 'a', 'o', 'que', 'e', 'do', 'da', 'em', 'um', 'para', 'com', 'não', 'uma', 'os', 'no', 'se', 'na', 'por', 'mais', 'as', 'dos', 'como', 'mas', 'ao', 'ele', 'das', 'à', 'seu', 'sua', 'ou', 'quando', 'muito', 'nos', 'já', 'eu', 'também', 'só', 'pelo', 'pela', 'até', 'isso', 'ela', 'entre', 'depois', 'sem', 'mesmo', 'aos', 'seus', 'quem', 'nas', 'me', 'esse', 'eles', 'você', 'essa', 'num', 'nem', 'suas', 'meu', 'às', 'minha', 'numa', 'pelos', 'elas', 'qual', 'nós', 'lhe', 'deles', 'essas', 'esses', 'pelas', 'este', 'dele', 'tu', 'te', 'vocês', 'vos', 'lhes', 'meus', 'minhas', 'teu', 'tua', 'teus', 'tuas', 'nosso', 'nossa', 'nossos', 'nossas', 'dela', 'delas', 'esta', 'estes', 'estas', 'aquele', 'aquela', 'aqueles', 'aquelas', 'isto', 'aquilo', 'estou', 'está', 'estamos', 'estão', 'estive', 'esteve', 'estivemos', 'estiveram', 'estava', 'estávamos', 'estavam', 'estivera', 'estivéramos', 'esteja', 'estejamos', 'estejam', 'estivesse', 'estivéssemos', 'estivessem', 'estiver', 'estivermos

#Removeremos palavras que não são essenciais - Stop Words

In [55]:
def RemoveStopWords(sentence):
    stopwords = nltk.corpus.stopwords.words('portuguese')
    phrase = []
    for word in sentence:
        if word not in stopwords:
            phrase.append(word)
    return phrase


#Vamos treinar nosso modelo
Criamos nosso dataset

In [56]:
def Train():
    training_data = []
    training_data.append({"classe":"felicidade", "frase":"Estou muito feliz"})
    training_data.append({"classe":"felicidade", "frase":"Isso me deixa alegre"})
    training_data.append({"classe":"felicidade", "frase":"Isso me faz feliz"})
    training_data.append({"classe":"tristeza", "frase":"Estou triste"})
    training_data.append({"classe":"tristeza", "frase":"Isso foi muito triste"})
    training_data.append({"classe":"tristeza", "frase":"Estou chateada"})

    print("%s frases incluidas" % len(training_data))
    return training_data



In [57]:
dados = Train()

6 frases incluidas


In [58]:
def Learning(training_data):
    corpus_words = {}
    for data in training_data:
        frase = data['frase']
        frase = Tokenize(frase)
        frase = Stemming(frase)
        frase = RemoveStopWords(frase)
        class_name = data['classe']
        if class_name not in list(corpus_words.keys()):
            corpus_words[class_name] = {}
        for word in frase:
            if word not in list(corpus_words[class_name].keys()):
                corpus_words[class_name][word] = 1
            else:
                corpus_words[class_name][word] += 1
    return corpus_words



In [59]:
#Observamos que nesse momento podemos ver as palavras que mais aparecem em cada classe, e cada palavra tem um peso
#o peso é igual a frequencia que a palavra aparece nos nossos dados de treino 

In [60]:
dados = Learning(dados)
print(dados)

{'felicidade': {'est': 1, 'muit': 1, 'feliz': 2, 'iss': 2, 'deix': 1, 'alegr': 1, 'faz': 1}, 'tristeza': {'est': 2, 'trist': 2, 'iss': 1, 'muit': 1, 'chate': 1}}


In [61]:
#Função para calcular o score das nossas frases

In [62]:
def calculate_class_score(sentence,class_name):
    score = 0 
    sentence = Tokenize(sentence)
    sentence = Stemming(sentence)
    for word in sentence:
        if word in dados[class_name]:
            score += dados[class_name][word]
    return score


In [63]:
score = calculate_class_score("fiquei feliz", "tristeza")
print(str(score))

0


In [64]:
def calculate_score(sentence):
    high_score = 0
    classname = 'default'
    for classe in dados.keys():
        pontos = 0
        pontos = calculate_class_score(sentence,classe)
        if pontos > high_score:
            high_score = pontos
            classname = classe
    return classname,high_score


In [65]:
print (calculate_score('eu fiquei triste naquela casa'))


('tristeza', 2)
