# Algoritimo de classificação de texto 

In [41]:
import nltk 
from nltk.stem import RSLPStemmer


#Função para 'tokenizar'as palavras da frase

In [42]:
def Tokenize(sentence):
    sentence = sentence.lower()
    sentence = nltk.word_tokenize(sentence)
    return sentence

In [45]:
ex1 = "Você comprou o livro que eu te falei, Maria?"
ex2 = "Eu comprei o livro que eu te falei, Maria?"
ex1 = Tokenize(ex1)
ex2 = Tokenize(ex2)
print(ex1)
print(ex2)


['você', 'comprou', 'o', 'livro', 'que', 'eu', 'te', 'falei', ',', 'maria', '?']
['eu', 'comprei', 'o', 'livro', 'que', 'eu', 'te', 'falei', ',', 'maria', '?']


#Função para reduzir as palavras

In [9]:
def Stemming(sentence):
    stemmer = RSLPStemmer()
    phrase = []
    for word in sentence:
        phrase.append(stemmer.stem(word.lower()))
    return phrase

In [46]:
ex1 = Stemming(ex1)
ex2 = Stemming(ex2)
print(ex1)
print(ex2)

['voc', 'compr', 'o', 'livr', 'que', 'eu', 'te', 'fal', ',', 'mar', '?']
['eu', 'compr', 'o', 'livr', 'que', 'eu', 'te', 'fal', ',', 'mar', '?']


#Removeremos palavras que não são essenciais 

In [11]:
def RemoveStopWords(sentence):
    stopwords = nltk.corpus.stopwords.words('portuguese')
    phrase = []
    for word in sentence:
        if word not in stopwords:
            phrase.append(word)
    return phrase


In [47]:
ex1 = RemoveStopWords(ex1)
ex2 = RemoveStopWords(ex2)
print(ex1)
print(ex2)

['voc', 'compr', 'livr', 'fal', ',', 'mar', '?']
['compr', 'livr', 'fal', ',', 'mar', '?']


#Stopwords padrões 

In [48]:
stopwords = nltk.corpus.stopwords.words('portuguese')
print(stopwords)

['de', 'a', 'o', 'que', 'e', 'do', 'da', 'em', 'um', 'para', 'com', 'não', 'uma', 'os', 'no', 'se', 'na', 'por', 'mais', 'as', 'dos', 'como', 'mas', 'ao', 'ele', 'das', 'à', 'seu', 'sua', 'ou', 'quando', 'muito', 'nos', 'já', 'eu', 'também', 'só', 'pelo', 'pela', 'até', 'isso', 'ela', 'entre', 'depois', 'sem', 'mesmo', 'aos', 'seus', 'quem', 'nas', 'me', 'esse', 'eles', 'você', 'essa', 'num', 'nem', 'suas', 'meu', 'às', 'minha', 'numa', 'pelos', 'elas', 'qual', 'nós', 'lhe', 'deles', 'essas', 'esses', 'pelas', 'este', 'dele', 'tu', 'te', 'vocês', 'vos', 'lhes', 'meus', 'minhas', 'teu', 'tua', 'teus', 'tuas', 'nosso', 'nossa', 'nossos', 'nossas', 'dela', 'delas', 'esta', 'estes', 'estas', 'aquele', 'aquela', 'aqueles', 'aquelas', 'isto', 'aquilo', 'estou', 'está', 'estamos', 'estão', 'estive', 'esteve', 'estivemos', 'estiveram', 'estava', 'estávamos', 'estavam', 'estivera', 'estivéramos', 'esteja', 'estejamos', 'estejam', 'estivesse', 'estivéssemos', 'estivessem', 'estiver', 'estivermos

#Vamos treinar nosso modelo
Criamos nosso dataset

In [33]:
def Train():
    training_data = []
    training_data.append({"classe":"amor", "frase":"Eu te amo"})
    training_data.append({"classe":"amor", "frase":"Você é o amor da minha vida"})
    training_data.append({"classe":"medo", "frase":"estou com medo"})
    training_data.append({"classe":"medo", "frase":"estou com medo"})
    training_data.append({"classe":"medo", "frase":"estou assustada"})
    print("%s frases incluidas" % len(training_data))
    return training_data



In [34]:
dados = Train()

5 frases incluidas


In [35]:
def Learning(training_data):
    corpus_words = {}
    for data in training_data:
        frase = data['frase']
        frase = Tokenize(frase)
        frase = Stemming(frase)
        frase = RemoveStopWords(frase)
        class_name = data['classe']
        if class_name not in list(corpus_words.keys()):
            corpus_words[class_name] = {}
        for word in frase:
            if word not in list(corpus_words[class_name].keys()):
                corpus_words[class_name][word] = 1
            else:
                corpus_words[class_name][word] += 1
    return corpus_words



In [None]:
#Observamos que nesse momento podemos ver as palavras que mais aparecem em cada classe, e cada palavra tem um peso

In [36]:
dados = Learning(dados)
print(dados)

{'amor': {'amo': 1, 'voc': 1, 'é': 1, 'am': 1, 'minh': 1, 'vid': 1}, 'medo': {'est': 3, 'med': 2, 'assust': 1}}


In [None]:
#Função para calcular o score das nossas frases

In [49]:
def calculate_class_score(sentence,class_name):
    score = 0 
    sentence = Tokenize(sentence)
    sentence = Stemming(sentence)
    for word in sentence:
        if word in dados[class_name]:
            score += dados[class_name][word]
    return score


In [51]:
score = calculate_class_score("tenho medo de baratas", "amor")
print(str(score))

0


In [52]:
def calculate_score(sentence):
    high_score = 0
    classname = 'default'
    for classe in dados.keys():
        pontos = 0
        pontos = calculate_class_score(sentence,classe)
        if pontos > high_score:
            high_score = pontos
            classname = classe
    return classname,high_score


In [53]:
print (calculate_score('eu me assusto com aquela casa.'))


('medo', 1)
