# Prova de PLN

In [1]:
from nlputils import lexical
from gensim.models import Word2Vec, Doc2Vec
from gensim.models.doc2vec import TaggedDocument
import os



In [2]:
#definição do diretorio dos corpus e criacao de uma lista com os nomes de cada arquivo dentro do diretorio
corpora_path = '../data/corpora/'
files_corpora = os.listdir(corpora_path)
files_corpora = [d for d in files_corpora if d not in '.DS_Store']

### Criação	de	uma	biblioteca	de	PLN,	com	rotinas	de	normalização	textual	do	nível	lexical:
- remoção	de	pontuação
- remoção	de	acentos
- remoção	de	stopwords
- lowercase
- stemming
- tokenizar	texto	em	sentenças
- tokenizer	texto	em	palavras

In [3]:
#chamada da bibioteca de preprocessamento
normalizer = lexical.Preprocessing()

### Cada	córpus	deve	estar	em	um	diretório	específico e	conter,	pelo	menos	500 textos	cada

In [4]:
#criacao de um dicionario que ira armazenar cada corpus em uma chave
sentences_dic = {}
all_files = []
for corpus in files_corpora:
    files = [os.path.join(corpora_path + corpus, f) \
             for f in os.listdir(corpora_path + corpus) \
             if os.path.isfile(os.path.join(corpora_path + corpus, f))]
    #cada corpus tera mais 3 chaves para armazenar informacoes de trabalho
    sentences_dic[corpus] = {'sentencas': [], 'tokens': [], 'tamanho': []}
    
    #adiciona todos os arquivos em uma unica lista independentemente do corpus
    print(len(files))
    all_files.extend(files)
    
    #para cada arquivo em um corpus sera extraido suas frases e armazenadas em cada linha de uma lista
    for file in files:
        with open(file, 'r', encoding='utf-8') as text_file:
            lines = text_file.readlines()
            for line in lines:
                if line != '\n':
                    #armazenamento das sentencas do arquivo como escritas originalmente
                    sentences_dic[corpus]['sentencas'].append(line)

                    #toda a sentenca sera escrita em letras minusculas
                    line = normalizer.lowercase(line) 
                    #tokeniza as sentencas
                    sentences = normalizer.tokenize_sentences(line)
                    
                    #remove as pontuacoes
                    sentences = normalizer.remove_punctuation(sentences)
                    
                    #tokeniza as palavras de cada sentenca
                    sentences = [normalizer.tokenize_words(sent) for sent in sentences]
                    #remove os stopwords
                    sentences = normalizer.remove_stopwords(sentences)
                    
                    #armazena cada sentenca em forma de tokens
                    sentences_dic[corpus]['tokens'].append(sentences[0])
                    #armazena o tamanho, em numero de palavras, de cada sentenca
                    sentences_dic[corpus]['tamanho'].append(len(sentences[0]))

538
664


In [5]:
sentences_dic.keys()

dict_keys(['animais', 'games'])

In [6]:
#utilizacao do Pandas para visualizao dos dados em forma de tabelas
import pandas as pd

#cracao de um dicionario que ira armazenar cada corpus em suas respectivas keys.
dataframes_dic = {}
for key in sentences_dic.keys():
    #os corpus armazenados aqui estara em formato de DataFrame onde cada key sera uma coluna da tabela
    dataframes_dic[key] = pd.DataFrame(sentences_dic[key], columns=['sentencas','tokens','tamanho'])

In [7]:
dataframes_dic['animais'].head(n=10)

Unnamed: 0,sentencas,tokens,tamanho
0,Dizem que fomos criados para amar e sermos ama...,"[dizem, que, fomos, criados, para, amar, e, se...",14
1,E mais uma vez nosso cachorro nos vê com a toa...,"[e, mais, uma, vez, nosso, cachorro, nos, vê, ...",19
2,"Mudanças climáticas, a caça predatória, o desm...","[mudanças, climáticas, a, caça, predatória, o,...",16
3,"Mudanças climáticas, a caça predatória, o desm...","[mudanças, climáticas, a, caça, predatória, o,...",16
4,10 comportamentos típicos dos gatosSe você tem...,"[10, comportamentos, típicos, dos, gatosse, vo...",35
5,10 curiosidades sobre nossos amigos coelhosHoj...,"[10, curiosidades, sobre, nossos, amigos, coel...",12
6,Os cães estiveram próximos ao homem durante sé...,"[os, cães, estiveram, próximos, ao, homem, dur...",12
7,3 perigos de humanizar um cãoUma tendência bas...,"[3, perigos, de, humanizar, um, cãouma, tendên...",17
8,3 propriedades do óleo de coco para cãesOs gra...,"[3, propriedades, do, óleo, de, coco, para, cã...",25
9,Uma das maiores aves do planeta é pouco conhec...,"[uma, das, maiores, aves, do, planeta, é, pouc...",9


In [8]:
dataframes_dic['games'].head(n=10)

Unnamed: 0,sentencas,tokens,tamanho
0,Historiador carioca que trabalha como Redator ...,"[historiador, carioca, que, trabalha, como, re...",11
1,Apesar de escrever sobre todo tipo de coisa pa...,"[apesar, de, escrever, sobre, todo, tipo, de, ...",29
2,"Battle Royale de Battlefield 5, Firestorm rece...","[battle, royale, de, battlefield, 5, firestorm...",51
3,Borderlands 3 vem aí; veja trailer de gameplay...,"[borderlands, 3, vem, aí, veja, trailer, de, g...",27
4,Cinco programas para limpar o PC e deixar seu ...,"[cinco, programas, para, limpar, o, pc, e, dei...",17
5,Cinco programas para ouvir música grátis no co...,"[cinco, programas, para, ouvir, música, grátis...",42
6,Clash Royale: cinco coisas que você nunca deve...,"[clash, royale, cinco, coisas, que, você, nunc...",21
7,Clash Royale recebe balanceamento de março; ve...,"[clash, royale, recebe, balanceamento, de, mar...",50
8,Mais de 100 mil jogadores já foram banidos do ...,"[mais, de, 100, mil, jogadores, já, foram, ban...",49
9,"Angry Birds, Candy Crush e mais; 10 jogos clás...","[angry, birds, candy, crush, e, mais, 10, jogo...",65


In [9]:
#criacao de uma "bag" de palavras dos tokens para cada corpus
dic_words = {}
for key in sentences_dic.keys():
    words_corpus = []
    for sentence in sentences_dic[key]['tokens']:
        no_stopwords_sentence = normalizer.remove_stopwords(sentence)
        words_corpus.extend(no_stopwords_sentence)
    #adiciona ao dicionario de palavras o corpus de tokens
    dic_words[key] = words_corpus

In [10]:
#utilização do sklearn para facilitar a contagem de palavras com auxilio da bibioteca CountVectorizer
from sklearn.feature_extraction.text import CountVectorizer

#função que realiza a contagem das palavras e retona 3 lista:
# - Lista de frenquencia de palavras(words_freq)
# - Lista das 20 palavras mais frequentes(most_freq_words)
# - Lista das 20 palavras menos frequentes(less_freq_words)
def words_frequency(token_corpus):
    vec = CountVectorizer().fit(token_corpus)

    #Here we get a Bag of Word model that has cleaned the text, removing non-aphanumeric characters and stop words.
    bag_of_words = vec.transform(token_corpus)

    #sum_words is a vector that contains the sum of each word occurrence in all texts in the corpus. 
    #In other words, we are adding the elements for each column of bag_of_words matrix.
    sum_words = bag_of_words.sum(axis=0)

    words_freq = [(word, sum_words[0, idx]) for word, idx in vec.vocabulary_.items()]
    most_freq_words = sorted(words_freq, key = lambda x: x[1], reverse=True)
    less_freq_words = sorted(words_freq, key = lambda x: x[1])
    
    return words_freq, most_freq_words[:20], less_freq_words[:20]

In [11]:
#dicionario que ira armazenar as inforções das palavras em cada corpus
word_analysis = {}

#dicionario de dataFrame das palavras listadas no dicionario word_analysis
word_df = {}

for key in dic_words.keys():
    #as listas retornadas pela função words_frequency é uma lista de lista que indica a palavra juntamente com sua
    #contagem de aparição no texto
    words_freq, most_freq_words, less_freq_words = words_frequency(dic_words[key])
    
    word_analysis[key] = {'Palavra': [],'Quantidade': [], 'Tamanho': []}
    
    #por palavra retornada da lista armazeno no dicionario separadamente a palavra, sua quantidade e seu tamanho
    for wd_qt in words_freq:
        word_analysis[key]['Palavra'].append(wd_qt[0])
        word_analysis[key]['Quantidade'].append(wd_qt[1])
        word_analysis[key]['Tamanho'].append(len(wd_qt[0]))

    word_df[key] = pd.DataFrame(word_analysis[key], columns=['Palavra','Quantidade','Tamanho'])

In [12]:
word_df['animais'].head(n=10)

Unnamed: 0,Palavra,Quantidade,Tamanho
0,dizem,3,5
1,fomos,1,5
2,criados,2,7
3,amar,1,4
4,sermos,1,6
5,amados,1,6
6,tanto,5,5
7,como,7,4
8,animais,189,7
9,mais,30,4


In [13]:
word_df['games'].head(n=10)

Unnamed: 0,Palavra,Quantidade,Tamanho
0,historiador,1,11
1,carioca,3,7
2,trabalha,1,8
3,redator,1,7
4,editor,3,6
5,vários,7,6
6,anos,25,4
7,apesar,5,6
8,escrever,1,8
9,sobre,22,5


### As	seguintes	estatísticas	devem ser	apresentadas, por	córpus:
- 20	palavras	mais	frequentes
- 20	palavras	menos	frequentes
- Tamanho	médio	das	palavras
- Tamanho	médio	das	sentenças,	em	número	de	palavras
- Outras	duas	estatísticas	que	achar	interessante

In [14]:
#dicionario para armazenar as estatisticas sobre os corpus
corpus_analysis = {}

#dicionario que servirá para armazenar dataframes de estatisticas de cada corpus
analysis_df = {}
for corpus in sentences_dic.keys():
    #as listas retornadas pela função words_frequency é uma lista de lista que indica a palavra juntamente com sua
    #contagem de aparição no texto
    words_freq, mfw, lfw = words_frequency(dic_words[corpus])
    
    #dicionario de dicionario, onde cada corpus terá suas proprioas estatisticas armazenadas
    corpus_analysis[corpus] = {'Palavras Mais Frequentes(20)': [], 'Palavras Menos Frequentes(20)': [], 
                               'Tamanho medio das Palavras': [], 'Numero de sentencas': [], 
                               'Tamanho medio das sentencas': [], 'Word2Vec': []}
    
    #separa da lista de lista somente as palavra, armazena um vetor e salva no dicionario
    most_freq_words = []
    for w in mfw:
        most_freq_words.append(w[0])
    corpus_analysis[corpus]['Palavras Mais Frequentes(20)'].append(most_freq_words)
    
    #separa da lista de lista somente as palavra, armazena um vetor e salva no dicionario
    less_freq_words = []
    for w in lfw:
        less_freq_words.append(w[0])
    corpus_analysis[corpus]['Palavras Menos Frequentes(20)'].append(less_freq_words)
    
    #com uso do dataframe word_df é calculada a media do tamanho de todas as palavras do corpus adicionado ao
    #dicionario de estatistica
    words_mean = word_df[corpus]['Tamanho'].mean()
    corpus_analysis[corpus]['Tamanho medio das Palavras'].append(words_mean)
    
    #adiciona o numero de sentencas ao dicionario de estatisticas
    corpus_analysis[corpus]['Numero de sentencas'].append(len(sentences_dic[corpus]['sentencas']))
    
    #com uso do dataframe word_df é calculada a media do tamanho de todas as sentencas do corpus adicionado ao
    #dicionario de estatistica
    sentences_mean = dataframes_dic[corpus]['tamanho'].mean()
    corpus_analysis[corpus]['Tamanho medio das sentencas'].append(sentences_mean)
    
    #criacao do dataframe com os dados estatisticos adicinados ao dicinario corpus_analysis
    analysis_df[corpus] = pd.DataFrame(corpus_analysis[corpus], columns=['Palavras Mais Frequentes(20)',
                                                                        'Palavras Menos Frequentes(20)',
                                                                       'Tamanho medio das Palavras',
                                                                       'Numero de sentencas',
                                                                       'Tamanho medio das sentencas'])

In [15]:
#exibe as estatisticas para todos os corpus
for corpus in corpus_analysis.keys():
    print("\nEstátisticas do corpus", corpus)
    print("20 palavras mais frequentes: \n", corpus_analysis[corpus]['Palavras Mais Frequentes(20)'])
    print("20 palavras menos frequentes: \n", corpus_analysis[corpus]['Palavras Menos Frequentes(20)'])
    print("Tamanho medio das Palavras: ", corpus_analysis[corpus]['Tamanho medio das Palavras'])
    print("Numero de sentencas: ", corpus_analysis[corpus]['Numero de sentencas'])
    print("Tamanho medio das sentencas: ", corpus_analysis[corpus]['Tamanho medio das sentencas'])
    


Estátisticas do corpus animais
20 palavras mais frequentes: 
 [['animais', 'que', 'os', 'estimação', 'cães', 'animal', 'um', 'seu', 'gatos', 'ser', 'uma', 'cão', 'se', 'sobre', 'espécies', 'podem', 'sua', 'espécie', 'não', 'têm']]
20 palavras menos frequentes: 
 [['fomos', 'amar', 'sermos', 'amados', 'típicos', 'gatosse', 'observou', 'estranhas', 'preocupe', 'achando', 'louco', 'coelhoshoje', 'oryctolagus', 'cuniculus', 'servindo', 'cãouma', 'tendência', 'difundida', 'propriedades', 'ligados']]
Tamanho medio das Palavras:  [7.699177438307873]
Numero de sentencas:  [528]
Tamanho medio das sentencas:  [27.40530303030303]

Estátisticas do corpus games
20 palavras mais frequentes: 
 [['2019', 'atualizado', 'jogo', '04', '2018', 'of', 'game', 'jogos', 'xbox', 'pc', 'android', 'one', 'ps4', 'novo', '2017', 'royale', 'um', 'ios', 'the', 'iphone']]
20 palavras menos frequentes: 
 [['historiador', 'trabalha', 'redator', 'escrever', 'predileção', 'temas', 'ligados', 'literatura', 'trailerconteú

In [16]:
#exibe o dataframe de estatisticas para os corpus
analysis_df['animais'].head()

Unnamed: 0,Palavras Mais Frequentes(20),Palavras Menos Frequentes(20),Tamanho medio das Palavras,Numero de sentencas,Tamanho medio das sentencas
0,"[animais, que, os, estimação, cães, animal, um...","[fomos, amar, sermos, amados, típicos, gatosse...",7.699177,528,27.405303


In [17]:
analysis_df['games'].head()

Unnamed: 0,Palavras Mais Frequentes(20),Palavras Menos Frequentes(20),Tamanho medio das Palavras,Numero de sentencas,Tamanho medio das sentencas
0,"[2019, atualizado, jogo, 04, 2018, of, game, j...","[historiador, trabalha, redator, escrever, pre...",8.146819,664,40.496988


### Normalização	dos	corpora,	com	vistas	à	criação	de	dois	modelos,	a	saber,	Word2Vec	e	Doc2Vec.
- Para	cada	córpus, será criado	um	modelo	Word2Vec
- Para	todos	os	corpora,	apenas	um	modelo	Doc2Vec	será criado

#### Para	cada	córpus, será criado	um	modelo	Word2Vec

In [18]:
#importacao das bibiotecas w2vec e d2vec
from gensim.models import Word2Vec, Doc2Vec

In [19]:
#para cada corpus é adicionado em seu dicionario um modelo de word2vec 
for corpus in corpus_analysis.keys():
    sentence_tokens = sentences_dic[corpus]['tokens']
    w2vmodel = Word2Vec(sentences=sentence_tokens, size=300,min_count=5, workers=4, window=2)
    corpus_analysis[corpus]['Word2Vec'] = w2vmodel

#### Para todos os corpora, apenas um modelo Doc2Vec será criado

- preparação dos documentos em uma lista

In [20]:
#lista que recebera cada documentos de todos os corpora em cada uma de suas posicoes
all_documents = []
for file in all_files:
    with open(file, 'r', encoding='utf-8') as text_file:
        document = ' '.join(text_file.readlines())
        document = normalizer.lowercase(document)
        document_tokens = normalizer.tokenize_words(document)
        all_documents.append(document_tokens)
print("Number of documents: {}".format(len(all_documents)))

#enumera os documentos taggeando-os e salvando-os em tagged_documents
tagged_documents = [TaggedDocument(words=d, tags=[str(i)]) for i, d in enumerate(all_documents)]

Number of documents: 1202


- treino do modelo de doc2vec para todos os arquivos do corpora

In [21]:
#treina um modelo de doc2vec apartir da lista de documentos tageados
d2vmodel = Doc2Vec(tagged_documents, vector_size=20, window=2, min_count=1, workers=4)

### Uso	dos	modelos	gerados

- Uso	do	Word2Vec

#### Dada	uma	palavra w1 de	um	córpus,	quais	as	10	palavras	mais	similares a	w1?
1. Exemplifique	 com	 três	 palavras

In [32]:
#define a quantidade de palavras similares deseja buscar
n_words = 10

#palavras para encontrar similaridade de acordo com os modelos treinados com o word2vec
test_word = [['água', 'alimentação', 'cuidados'],['jogos', 'jogadores', 'online']]

cont = 0
for corpus in corpus_analysis:
    print("\nCorpus", corpus)
    print("\nAs ", n_words, " palavras mais similares a ", test_word[cont][0], "sao:")
    print(corpus_analysis[corpus]['Word2Vec'].wv.most_similar(test_word[cont][0], topn=n_words))
    print("\nAs ", n_words, " palavras mais similares a ", test_word[cont][1], "sao:")
    print(corpus_analysis[corpus]['Word2Vec'].wv.most_similar(test_word[cont][1], topn=n_words))
    print("\nAs ", n_words, " palavras mais similares a ", test_word[cont][2], "sao:")
    print(corpus_analysis[corpus]['Word2Vec'].wv.most_similar(test_word[cont][2], topn=n_words))
    cont = cont+1


Corpus animais

As  10  palavras mais similares a  água sao:
[('é', 0.6974412202835083), ('animais', 0.6717917919158936), ('que', 0.6712997555732727), ('ter', 0.6628237962722778), ('cães', 0.6588107347488403), ('se', 0.6579687595367432), ('ser', 0.6571846008300781), ('um', 0.6555092334747314), ('os', 0.6506297588348389), ('pessoas', 0.6484097838401794)]

As  10  palavras mais similares a  alimentação sao:
[('é', 0.6502914428710938), ('que', 0.6354523301124573), ('estimação', 0.6247636675834656), ('os', 0.6142265796661377), ('animais', 0.613961398601532), ('cães', 0.6133837699890137), ('ter', 0.598894476890564), ('têm', 0.5968915820121765), ('o', 0.5956196784973145), ('ser', 0.584426999092102)]

As  10  palavras mais similares a  cuidados sao:
[('é', 0.6932001113891602), ('os', 0.6896755695343018), ('animais', 0.6867575645446777), ('seu', 0.6654595136642456), ('estimação', 0.6654074192047119), ('têm', 0.6653927564620972), ('espécies', 0.6635383367538452), ('espécie', 0.6598745584487915

1. discuta	 como	 poderia	melhorar	 os	resultados.	Pense	no	nível	da	morfologia	ou	outro	do	PLN.

Para melhorar o resultado do word2vec é utilizar um corpus maior, com mais palavras, outros meios tambem é melhorar a normatização dos dados removendo stopwords, colocar as palavras em minusculas e utiliar uma boa fonte para extração dos corpus.

2. Tentar	alguma	abordagem	para	comparar	dois	documentos	diferentes	utilizando	os	vetores	do	Word2Vec

- Uso	do	Doc2Vec

#### Dados	os	documentos	(textos) de	corporas	diferentes,	utilize	os	vetores	para encontrar	os	documentos	mais	similares

1. Exemplifique	com	três	documentos	e	discuta	os resultados.	Ao	ser	ver, foram	bons?	Os	documentos	realmente	são	parecidos?	O	que	poderia	 ser	feito	para	melhorar os	resultados?

In [34]:
#numero de documentos similares que deseja procurar
n_similar = 5

#posicao do documento na lista all_documentos que deseja procurar documentos similares
n_doc = 50
n_doc1 = 950
n_doc2 = 498

print("\ndocumentos similares ao documento: ", all_files[n_doc])
similar_docs = d2vmodel.docvecs.most_similar(n_doc, topn=n_similar)
for doc_num in similar_docs:
    num_doc = int(doc_num[0])
    print(all_files[num_doc])
    
print("\ndocumentos similares ao documento: ", all_files[n_doc1])
similar_docs = d2vmodel.docvecs.most_similar(n_doc1, topn=n_similar)
for doc_num in similar_docs:
    num_doc = int(doc_num[0])
    print(all_files[num_doc])

print("\ndocumentos similares ao documento: ", all_files[n_doc2])
similar_docs = d2vmodel.docvecs.most_similar(n_doc2, topn=n_similar)
for doc_num in similar_docs:
    num_doc = int(doc_num[0])
    print(all_files[num_doc])


documentos similares ao documento:  ../data/corpora/animais/https:--meusanimais_com_br-o-que-o-rabo-do-gato-esta-dizendo-.txt
../data/corpora/animais/https:--meusanimais_com_br-o-sonho-dos-caes-voce-ja-parou-para-observar-como-os-cachorros-dormem-.txt
../data/corpora/animais/https:--meusanimais_com_br-como-educar-o-seu-cao-para-morder-os-brinquedos-dele-e-nao-os-outros-objetos-da-casa-.txt
../data/corpora/animais/https:--meusanimais_com_br-4-dicas-para-construir-uma-casinha-de-cachorro-no-jardim-.txt
../data/corpora/animais/https:--meusanimais_com_br-outono-aproveite-para-brincar-com-seu-cao-nas-folhas-.txt
../data/corpora/animais/https:--meusanimais_com_br-dicas-para-brincar-com-seu-coelho-.txt

documentos similares ao documento:  ../data/corpora/games/https:--www_techtudo_com_br-listas-2019-04-farming-simulator-veja-evolucao-do-jogo-de-fazenda-que-e-sucesso_ghtml.txt
../data/corpora/games/https:--www_techtudo_com_br-tudo-sobre-assassins-creed-2_html.txt
../data/corpora/games/https:-