In [1]:
import nltk
import pandas as pd
import csv
from collections import OrderedDict, defaultdict, Counter
from urllib import request
nltk.download('punkt')

[nltk_data] Downloading package punkt to /home/ellen/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [2]:
# URL de Ubirajara no Project Gutenberg
url = 'http://www.gutenberg.org/cache/epub/38496/pg38496.txt'

In [3]:
response = request.urlopen(url)

In [4]:
raw = response.read().decode('utf8')

In [5]:
# Tokenização
tokens = nltk.word_tokenize(raw)

In [6]:
# Remove o header e o footer do documento
del tokens[0:280]
del tokens[25677:42803]

In [7]:
# Converte os tokens para lowercase
words = [w.lower() for w in tokens]

In [8]:
# Remove os stopwords
nltk.download('stopwords')
stopwords = nltk.corpus.stopwords.words('portuguese')
tokens = [w for w in words if w not in stopwords]

[nltk_data] Downloading package stopwords to /home/ellen/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [9]:
# Remove pontuações e números
tokens = [t for t in tokens if t.isalpha()]

In [10]:
wordList = defaultdict(list)
emotionList = defaultdict(list)

In [11]:
# Importa o léxico e salva em listas
with open('teste.csv', 'r') as f:
    reader = csv.DictReader(f)
    for row in reader:
        if int(row['present']) == 1:
            wordList[row['word']].append(row['emotion'])
            emotionList[row['emotion']].append(row['word'])

In [12]:
# Contabiliza as emoções no documento
def generate_emotion_count(tokens):
    emoCount = Counter()
    for t in tokens:
        if len(wordList[t]) > 0:
            emoCount += Counter(wordList[t])
    return emoCount

In [13]:
emotionCounts = generate_emotion_count(tokens)

In [14]:
emotionCounts

Counter({'negativo': 1274,
         'antecipação': 445,
         'medo': 1158,
         'tristeza': 530,
         'raiva': 1017,
         'nojo': 277,
         'positivo': 1545,
         'alegria': 448,
         'confiança': 749,
         'surpresa': 249})

In [15]:
# Lista só com as palavras presentes no documento
emoList = defaultdict(list)
for t in tokens:
    for e in emotionList:
        for w in emotionList[e]:
            if w == t:
                emoList[e].append(w)

In [16]:
# Contabiliza as palavras relacionadas a emoção
def generate_word_count(tokens):
    emoCount = Counter()
    for e in emoList:
        emoCount += Counter(emoList[e])
    return emoCount

In [17]:
wordCounts = generate_word_count(tokens)

In [18]:
wordCounts

Counter({'caçador': 160,
         'morte': 250,
         'lança': 148,
         'montanha': 7,
         'escondido': 5,
         'ardente': 6,
         'alegria': 110,
         'sombrio': 45,
         'feliz': 33,
         'possuir': 8,
         'estrela': 80,
         'merecer': 36,
         'trabalho': 28,
         'fé': 8,
         'longo': 3,
         'busca': 6,
         'fraco': 6,
         'sorte': 4,
         'chegar': 4,
         'tempo': 12,
         'festa': 153,
         'cantar': 5,
         'triunfo': 42,
         'aumentar': 7,
         'vingança': 63,
         'conselho': 60,
         'paz': 76,
         'juventude': 6,
         'esforço': 9,
         'doce': 55,
         'felicidade': 14,
         'começou': 5,
         'campeão': 8,
         'respeito': 8,
         'tempestade': 11,
         'canto': 95,
         'noiva': 80,
         'manhã': 4,
         'noivo': 12,
         'ponto': 8,
         'brilhante': 12,
         'esperando': 1,
         'saudade': 4,
      

In [19]:
for w in wordCounts:
    print(w)
    print(wordList[w])
    print('------------------------------------')

caçador
['negativo', 'antecipação', 'medo', 'tristeza']
------------------------------------
morte
['negativo', 'raiva', 'antecipação', 'nojo', 'medo', 'tristeza', 'surpresa', 'negativo', 'medo', 'tristeza']
------------------------------------
lança
['negativo', 'raiva', 'antecipação', 'medo']
------------------------------------
montanha
['antecipação']
------------------------------------
escondido
['negativo', 'antecipação', 'medo', 'surpresa', 'negativo']
------------------------------------
ardente
['positivo', 'antecipação', 'alegria']
------------------------------------
alegria
['positivo', 'antecipação', 'alegria', 'surpresa', 'confiança']
------------------------------------
sombrio
['negativo', 'tristeza', 'tristeza', 'negativo', 'tristeza', 'negativo', 'raiva', 'antecipação', 'nojo', 'medo', 'tristeza', 'negativo', 'medo', 'negativo', 'tristeza']
------------------------------------
feliz
['positivo', 'alegria', 'positivo', 'antecipação', 'alegria', 'positivo', 'antecipaçã