In [1]:
import nltk
from nltk.corpus import stopwords
from nltk.stem import RSLPStemmer

nltk.download('stopwords')
nltk.download('rslp')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\diham\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package rslp to
[nltk_data]     C:\Users\diham\AppData\Roaming\nltk_data...
[nltk_data]   Package rslp is already up-to-date!


True

In [2]:
frases_exemplo = [('eu sou admirada por muitos','alegria'),
        ('me sinto completamente amado','alegria'),
        ('amar e maravilhoso','alegria'),
        ('estou me sentindo muito animado novamente','alegria'),
        ('eu estou muito bem hoje','alegria'),
        ('que belo dia para dirigir um carro novo','alegria'),
        ('o dia está muito bonito','alegria'),
        ('estou contente com o resultado do teste que fiz no dia de ontem','alegria'),
        ('o amor e lindo','alegria'),
        ('nossa amizade e amor vai durar para sempre', 'alegria'),
        ('estou amedrontado', 'medo'),
        ('ele esta me ameacando a dias', 'medo'),
        ('isso me deixa apavorada', 'medo'),
        ('este lugar e apavorante', 'medo'),
        ('se perdermos outro jogo seremos eliminados e isso me deixa com pavor', 'medo'),
        ('tome cuidado com o lobisomem', 'medo'),
        ('se eles descobrirem estamos encrencados', 'medo'),
        ('estou tremendo de medo', 'medo'),
        ('eu tenho muito medo dele', 'medo'),
        ('estou com medo do resultado dos meus testes', 'medo')]

In [3]:
stop_words = nltk.corpus.stopwords.words('portuguese')

In [4]:
def remove_stopwords(texto):
    """
  Remove as stopwords de um texto.

  Args:
    texto: O texto a ser processado.

  Returns:
    O texto sem as stopwords.
  """
    frases = []
    for (palavras, emocao) in texto:
        sem_stops = [p for p in palavras.split() if p not in stop_words]
        frases.append((sem_stops, emocao))
    return frases

In [5]:
sem_stops = remove_stopwords(frases_exemplo)

In [104]:
def aplica_stemmer(texto):
    """
    Aplica o stemmer PorterStemmer à lista de frases fornecida.

    Args:
      frases: A lista de frases a ser processada.

    Returns:
      A lista de frases com as palavras stemmitizadas.
    """
    stemmer = nltk.stem.RSLPStemmer()
    frases_stemming = []
    for (palavras, emocao) in texto:
        com_stemming = [str(stemmer.stem(p)) for p in palavras.split() if p not in stop_words]
        frases_stemming.append((com_stemming, emocao))
    return frases_stemming

In [96]:
frases_com_stremming = aplica_stemmer(frases_exemplo)

In [8]:
def busca_palavras(frases):
    """
  Busca todas as palavras de uma lista de frases.

  Args:
    frases: A lista de frases a ser processada.

  Returns:
    Uma lista de todas as palavras encontradas.
  """
    todas_palavras = []
    for (palavras, emocao) in frases:
        todas_palavras.extend(palavras)
    return list(todas_palavras)

In [9]:
palavras = busca_palavras(frases_com_stremming)

In [10]:
def busca_frequencia(palavras):
  """
  Calcula a frequência de cada palavra em uma lista de palavras.

  Args:
    palavras: A lista de palavras a ser processada.

  Returns:
    Uma distribuição de frequência das palavras.
  """

  frequencia = nltk.FreqDist(palavras)

  return frequencia

In [11]:
frequencia = busca_frequencia(palavras)

In [12]:
def busca_palavras_unicas(frequencia):
  """
  Busca as palavras únicas em uma distribuição de frequência.

  Args:
    frequencia: A distribuição de frequência a ser processada.

  Returns:
    Uma lista de palavras únicas.
  """

  freq = frequencia.keys()

  return freq

In [13]:
palavras_unicas = busca_palavras_unicas(frequencia)

In [40]:
def extrator_palavras(documento):
    doc = set(documento)
    caracteristicas = {}
    for palavra in palavras_unicas:
        caracteristicas['%s' % palavra] = (palavra in doc)
    return caracteristicas

In [41]:
base_completa = nltk.classify.apply_features(extrator_palavras,frases_com_stremming)

In [42]:
model = nltk.NaiveBayesClassifier.train(base_completa)

In [43]:
model.labels()

['alegria', 'medo']

In [47]:
model.show_most_informative_features(8)

Most Informative Features
                     dia = True           alegri : medo   =      2.3 : 1.0
                      am = False            medo : alegri =      1.6 : 1.0
                     med = False          alegri : medo   =      1.4 : 1.0
                     dia = False            medo : alegri =      1.3 : 1.0
                  apavor = False          alegri : medo   =      1.2 : 1.0
                    deix = False          alegri : medo   =      1.2 : 1.0
                     nov = False            medo : alegri =      1.2 : 1.0
                   admir = False            medo : alegri =      1.1 : 1.0


In [126]:
def extrator_caracteristicas(documento):
    doc = set(documento)
    caracteristicas = {}
    for palavra in palavras_unicas:
        caracteristicas['%s' % palavra] = (palavra in doc)
    return caracteristicas

stemmer = nltk.stem.RSLPStemmer()

In [127]:
def apli_stemmer(texto):
    return [str(stemmer.stem(p)) for p in texto if p not in stop_words]

In [170]:
frase_teste = "Bom dia amor"

In [171]:
palavras_teste = apli_stemmer(frase_teste.split())
caracteristicas_teste = extrator_caracteristicas(palavras_teste)

In [172]:
sentimento = model.classify(caracteristicas_teste)
sentimento

'alegria'

In [173]:
distribuicao = model.prob_classify(caracteristicas_teste)
for classe in distribuicao.samples():
    print("%s: %f" % (classe, distribuicao.prob(classe)))

alegria: 0.947436
medo: 0.052564
