In [1]:
import nltk
import spacy
import os
from utils.lexical import normalizador



In [2]:
corpora_path = '../data/corpora/'
corpora_dirs = os.listdir(corpora_path)
normalizer = normalizador.Normalizador()

corpora = {}
for corpus in corpora_dirs:
    #print(corpus)
    files = [os.path.join(corpora_path + corpus, f)
             for f in os.listdir(corpora_path + corpus)
             if os.path.isfile(os.path.join(corpora_path + corpus, f))]
    corpora[corpus] = {'raw' : [],'s_tokenized' : [], 'w_tokenized' : []}
    for file in files:
        with open(file, 'r', encoding='utf-8') as txt_file:
            text = txt_file.readlines()
            text = [normalizer.normalization_pipeline(line, True, True, True) for line in text]
            corpora[corpus]['raw'].extend(text)

In [3]:
corpora['esporte']['raw'][0]

'pesquisar este blog apos goleada jornal argentino detona selecao faltam tres messis argentina e espanha se enfrentaram na tarde da ultima tercafeira em um amistoso precopa do mundo e o placar foi um inusitado 6 a 1 para os espanhois o jornal argentino ole nao deixou o pessimo resultado para la e demonstrou preocupacao com o mundial que se aproxima na capa uma foto de messi com olhar assustado e os dizeres faltam tres messis fizeram referencia ao pouco tempo para a competicao tres meses e que toda a esperanca foi colocada no camisa 10 que tambem nao atuou em amistoso contra a italia alem de estampar a capa ha uma materia do jornalista diego macias dizendo que falta muito para que a argentina forme de fato uma equipe espero que o sonho se realize e a equipe apareca mas diante desse panorama sombrio as chances da selecao primeiro de tudo parecem cada vez mais restritas ao que messi pode fazer em seu site o ole divulgou um artigo de outro jornalista sergio maffei que detona a atuacao do t

In [4]:
#Removing trash read from the sports blog
import re
remove_pattern = "^pesquisar este blog "
for i in range(len(corpora['esporte']['raw'])):
    text = corpora['esporte']['raw'][i]
    corpora['esporte']['raw'][i] = re.sub(remove_pattern, '', text)

In [5]:
corpora['esporte']['raw'][0]

'apos goleada jornal argentino detona selecao faltam tres messis argentina e espanha se enfrentaram na tarde da ultima tercafeira em um amistoso precopa do mundo e o placar foi um inusitado 6 a 1 para os espanhois o jornal argentino ole nao deixou o pessimo resultado para la e demonstrou preocupacao com o mundial que se aproxima na capa uma foto de messi com olhar assustado e os dizeres faltam tres messis fizeram referencia ao pouco tempo para a competicao tres meses e que toda a esperanca foi colocada no camisa 10 que tambem nao atuou em amistoso contra a italia alem de estampar a capa ha uma materia do jornalista diego macias dizendo que falta muito para que a argentina forme de fato uma equipe espero que o sonho se realize e a equipe apareca mas diante desse panorama sombrio as chances da selecao primeiro de tudo parecem cada vez mais restritas ao que messi pode fazer em seu site o ole divulgou um artigo de outro jornalista sergio maffei que detona a atuacao do tecnico sampaoli e ta

# Tokenizing by sentences and words

In [6]:
sent_tokenizer = nltk.data.load('tokenizers/punkt/portuguese.pickle')
word_tokenize = nltk.tokenize.word_tokenize

for corpus in corpora:
    for text in corpora[corpus]['raw']:
        sentences = sent_tokenizer.tokenize(text)
        words = word_tokenize(text)
        corpora[corpus]['s_tokenized'].append(sentences)
        corpora[corpus]['w_tokenized'].append(words)

# Aplying normalizations(tranforming to lower case, removing accents and punctuation)

# Counting word frequencies

In [7]:
stopwords = nltk.corpus.stopwords.words('portuguese')
word_frequencies = {} # elements are like corpus: {word : frquence}
for corpus in corpora:
    word_frequencies[corpus] = {}
    for tokens_list in corpora[corpus]['w_tokenized']:
        words = [token for token in tokens_list if token not in stopwords]
        for w in words:
            if w not in word_frequencies[corpus]:
                word_frequencies[corpus][w] = 1
            else:
                word_frequencies[corpus][w] += 1         

In [8]:
print(word_frequencies['esporte'])

{'apos': 334, 'goleada': 23, 'jornal': 34, 'argentino': 65, 'detona': 4, 'selecao': 188, 'faltam': 8, 'tres': 248, 'messis': 4, 'argentina': 60, 'espanha': 18, 'enfrentaram': 8, 'tarde': 59, 'ultima': 147, 'tercafeira': 73, 'amistoso': 36, 'precopa': 2, 'mundo': 192, 'placar': 129, 'inusitado': 2, '6': 57, '1': 337, 'espanhois': 6, 'ole': 4, 'nao': 1421, 'deixou': 63, 'pessimo': 6, 'resultado': 124, 'la': 50, 'demonstrou': 7, 'preocupacao': 10, 'mundial': 221, 'aproxima': 4, 'capa': 4, 'foto': 6, 'messi': 28, 'olhar': 7, 'assustado': 4, 'dizeres': 4, 'fizeram': 30, 'referencia': 10, 'pouco': 90, 'tempo': 326, 'competicao': 190, 'meses': 66, 'toda': 47, 'esperanca': 6, 'colocada': 2, 'camisa': 103, '10': 114, 'tambem': 364, 'atuou': 12, 'contra': 423, 'italia': 45, 'alem': 175, 'estampar': 2, 'ha': 134, 'materia': 2, 'jornalista': 8, 'diego': 46, 'macias': 2, 'dizendo': 8, 'falta': 106, 'forme': 2, 'fato': 43, 'equipe': 451, 'espero': 23, 'sonho': 27, 'realize': 2, 'apareca': 2, 'diante

In [9]:
print(word_frequencies['tecnologia'])

{'plantas': 9, 'geram': 10, 'eletricidade': 235, 'acender': 2, '100': 116, 'leds': 5, 'planta': 9, 'hibrida': 8, 'feita': 31, 'folhas': 56, 'naturais': 53, 'artificiais': 45, 'gerando': 29, 'vento': 25, 'movimenta': 3, 'imagem': 647, 'iitistituto': 1, 'italiano': 2, 'di': 1, 'tecnologia': 269, 'equipe': 561, 'interdisciplinar': 1, 'pesquisadores': 263, 'instituto': 72, 'afirma': 49, 'ter': 121, 'comprovado': 1, 'vivas': 6, 'sao': 647, 'literalmente': 2, 'fonte': 108, 'energia': 780, 'verde': 9, 'ser': 815, 'explorada': 1, 'mesma': 66, 'ja': 396, 'havia': 39, 'inovado': 1, 'robotica': 4, 'robo': 31, 'cresce': 2, 'agora': 335, 'fabian': 2, 'meder': 3, 'colegas': 130, 'demonstraram': 28, 'podem': 350, 'gerar': 88, 'tocadas': 2, 'material': 424, 'adequado': 15, 'segundo': 150, 'experimentos': 34, 'unica': 56, 'folha': 27, 'pode': 569, '150': 4, 'volts': 11, 'suficiente': 149, 'alimentar': 85, 'simultaneamente': 31, 'lampadas': 1, 'led': 127, 'assim': 121, 'objetivo': 50, 'passou': 35, 'con

# The 20 most frequent words

In [28]:
import operator
import math

increasing_freqs = {}
for corpus in word_frequencies:
    decreasing_freqs = sorted(word_frequencies[corpus].items(), key=operator.itemgetter(1), reverse=True)
    increasing_freqs[corpus] = sorted(word_frequencies[corpus].items(), key=operator.itemgetter(1))
    print('\n' + corpus + ":")
    for word, freq in decreasing_freqs[:20]:
        print("\t\t{} => {}".format(word, freq) )  


tecnologia:
		nao => 907
		ser => 815
		energia => 780
		imagem => 647
		sao => 647
		pode => 569
		equipe => 561
		forma => 454
		dados => 453
		material => 424
		disse => 422
		litio => 415
		tambem => 412
		universidade => 412
		luz => 404
		agua => 397
		ja => 396
		calor => 390
		ainda => 385
		madeira => 377

esporte:
		nao => 1421
		ja => 503
		time => 478
		sao => 457
		jogo => 453
		equipe => 451
		contra => 423
		copa => 390
		ser => 368
		dois => 368
		final => 365
		tambem => 364
		brasileiro => 362
		brasil => 355
		partida => 344
		ainda => 342
		1 => 337
		apos => 334
		tempo => 326
		gol => 326


# The 20 least frequent words

In [29]:
for corpus in increasing_freqs:
    print('\n' + corpus + ':')
    for word, freq in increasing_freqs[corpus][0:20]:
        print("\t\t{} => {}".format(word, freq))
        


tecnologia:
		iitistituto => 1
		di => 1
		interdisciplinar => 1
		comprovado => 1
		explorada => 1
		inovado => 1
		lampadas => 1
		roboarvore => 1
		arvorerobo => 1
		convertendo => 1
		acumular => 1
		transmitidas => 1
		microfarad => 1
		tocando => 1
		cm2 => 1
		rhododendron => 1
		microwatts => 1
		acenderem => 1
		101002adfm201806689 => 1
		robosplantas => 1

esporte:
		hornets => 1
		fecharam => 1
		contaram => 1
		chauncey => 1
		billups => 1
		distribuir => 1
		converter => 1
		seattle => 1
		supersonics => 1
		dallas => 1
		retrospecto => 1
		esp => 1
		oferecidos => 1
		recebidos => 1
		gaspar => 1
		espanhola => 1
		convencelos => 1
		liberalo => 1
		liberacao => 1
		causada => 1
