## NILC

Conforme vimos no último notebook, as crônicas, contos e romances de Clarice Lispector tinham um problema fundamental: o pequeno tamanho da amostra, que gerava resultados pouco satisfatórios. Pensando nisso, vamos usar arquivos do repositório do Núcleo Interinstitucional de Linguística Computacional (NILC), mais especificamente o *Continuous Bag of Words* para 50 e 300 dimensões (a ideia inicial era testar também com 1000 dimensões, mas a falta de espaço de armazenamento do meu computador não permitiu).

A ideia, então, é repetir os processos usados no primeiro notebook, comparar os resultados obtidos no NILC com aqueles obtidos no córpus de textos de Lispector, e, por fim, discutir as diferenças no uso de 50 e 300 dimensões.

### Parte 1: importação de bibliotecas e abertura de arquivos 

In [13]:
import pandas as pd
import gensim
import numpy as np

In [14]:
from gensim.models import KeyedVectors
model_50 = KeyedVectors.load_word2vec_format('cbow_s50.txt')

In [15]:
model_300 = KeyedVectors.load_word2vec_format('cbow_s300.txt')

### Parte 2: Similaridade de duas palavras 

In [24]:
model_50.similarity("mulher", "pessoa")

0.82511467

In [25]:
model_300.similarity("mulher", "pessoa")

0.535594

**Conclusão Parte 2:** tanto o modelo com 50 dimensões quanto o modelo com 300 dimensões apresentaram similaridade entre "mulher" e "pessoa" menor do que aquela encontrada no córpus de textos de Lispector, o que é positivo, já que, apesar de terem semelhanças (uma mulher é uma pessoa), as palavras não são extremamente próximas, dado que a mulher não é o único tipo de pessoa. Sendo assim, o modelo com 300 dimensões parece ser o mais adequado nesse caso específico.

### Parte 3: Top10 Palavras mais similares 

In [16]:
model_50.most_similar(positive="moço")

[('pajem', 0.893057107925415),
 ('sacristão', 0.8862901329994202),
 ('mancebo', 0.8632415533065796),
 ('velhinho', 0.8508946895599365),
 ('vendeiro', 0.8465736508369446),
 ('lavrador', 0.8447821736335754),
 ('guarda-livros', 0.8393514752388),
 ('cavalheiro', 0.837705671787262),
 ('barbeiro', 0.8346974849700928),
 ('tratante', 0.8326072692871094)]

In [17]:
model_300.most_similar(positive="moço")

[('mancebo', 0.7390948534011841),
 ('cavalheiro', 0.6541756987571716),
 ('pajem', 0.6214371919631958),
 ('barrolo', 0.6020280122756958),
 ('desgraçado', 0.6006842255592346),
 ('rapazola', 0.5986061096191406),
 ('rapazinho', 0.5898251533508301),
 ('rapaz', 0.5894635319709778),
 ('vendeiro', 0.578624427318573),
 ('cocheiro', 0.5681120753288269)]

In [18]:
model_50.most_similar(positive="história")

[('hitória', 0.9151827692985535),
 ('trama', 0.884054958820343),
 ('historia', 0.8835107684135437),
 ('obra', 0.8813790082931519),
 ('recriação', 0.873521625995636),
 ('trilogia', 0.8733588457107544),
 ('epopéia', 0.8704574704170227),
 ('contemporaneidade', 0.8695754408836365),
 ('banda-sonora', 0.8661443591117859),
 ('literalidade', 0.8648191690444946)]

In [19]:
model_300.most_similar(positive="história")

[('historia', 0.723188042640686),
 ('estória', 0.6907320022583008),
 ('his-tória', 0.6329914927482605),
 ('narrativa', 0.6301185488700867),
 ('trama', 0.6181331276893616),
 ('hitória', 0.6140969395637512),
 ('civilisação', 0.5994098782539368),
 ('histã³ria', 0.59772789478302),
 ('literalidade', 0.5941398739814758),
 ('fábula', 0.5935908555984497)]

**Conclusão Parte 3:** para o termo "moço", o modelo com 50 dimensões é menos genérico que o modelo do córpus de Clarice, mas ainda assim é falho, dado que apresenta profissões típicas de moços ao invés de sinônimos da palavra, como ocorre no modelo de 300 dimensões, com termos como "rapazola", "rapazinho" e "rapaz". Já o termo "história" apresenta palvras bastante similares e adequadas em ambos os modelos, como "narrativa", "trama" e "obra", representando um avanço em relação ao resultado do primeiro notebook. Todavia, há alguns erros gramaticais e de formatação na palavra "história" que aparecem como sinônimos do termo, como "historia", "his-tória" e "hitória".

### Parte 4: Patinho Feio 

In [20]:
model_50.doesnt_match(['cabeça', 'olho', 'cama'])

'olho'

In [21]:
model_300.doesnt_match(['cabeça', 'olho', 'cama'])

'olho'

In [22]:
model_50.doesnt_match(['dinheiro', 'poder', 'pé'])

'pé'

In [23]:
model_300.doesnt_match(['dinheiro', 'poder', 'pé'])

'pé'

**Conclusão Parte 4:** na parte 4, os dois modelos fizeram julgamentos idênticos: que "cama" e "cabeça" são mais próximos do que "cabeça" e "olho", o que é questionável, dado que o olho está na cabeça e ambos são partes do corpo humano, e que "pé" é o patinho feio em relação a "dinheiro" e "poder", o que era o resultado esperado.

### Parte 5: Positivo x Negativo 

In [26]:
model_50.most_similar(positive = ["rei", "rainha"], negative = ["príncipe"])

[('czarina', 0.8199825286865234),
 ('princesa', 0.8150826692581177),
 ('imperatriz', 0.7842182517051697),
 ('infanta', 0.7797107100486755),
 ('deusa', 0.7794512510299683),
 ('raínha', 0.7770389318466187),
 ('grã-duquesa', 0.7733810544013977),
 ('arquiduquesa', 0.7628461718559265),
 ('imperatriz-mãe', 0.7618402242660522),
 ('matriarca', 0.7592216730117798)]

In [36]:
model_300.most_similar(positive = ["rei", "rainha"], negative = ["príncipe"])

[('infanta', 0.5017511248588562),
 ('ex-rainha', 0.4902370572090149),
 ('raínha', 0.4754871129989624),
 ('rainha-mãe', 0.4736950993537903),
 ('princesa', 0.4433686137199402),
 ('rainha-consorte', 0.4423251450061798),
 ('imperatriz', 0.4362345039844513),
 ('czarina', 0.4306214451789856),
 ('condessa', 0.4092569947242737),
 ('rainha-viúva', 0.40874388813972473)]

**Conclusão Parte 5:** a parte 5, específica dos modelos do NILC (não está presente no modelo de Lispector), apresenta resultados satisfatórios - como os valores positivos eram "rei" e "rainha" e o negativo "príncipe", o esperado era que "princesa" e sinônimos dessa palavra ocupassem as primeiras posições do ranking, o que ocorre com a presença de termos como "infanta" e "condessa". Porém, alguns termos que dizem respeito a "rainha" também se fazem presentes, como "imperatriz", "rainha-viúva", "czarina", "rainha-mãe", etc.

### Conclusão Word Embeddings 

Conforme vimos neste notebook, boa parte dos problemas do modelo que usou o córpus dos textos de Lispector foi solucionada, com o nível de precisão aumentando para números de dimensões maiores (e consequentemente arquivos de tamanhos maiores).

## Sentence Embedding

Como não há especificação do dataset a ser utilizado, optei por criar um doc com uma lista de frases famosas ditas por ex-presidentes do Brasil e compará-las com uma frase de Mandela acerca de respeito, preconceitos e democracia.

In [46]:
#Bibliotecas
import nltk
from gensim.models.doc2vec import Doc2Vec, TaggedDocument
from nltk.tokenize import word_tokenize

#Dataset
doc = ["Lamento a campanha absolutamente difamatória que fazem contra mim, dizendo que estou utilizando o nome de Cristo para falar que nem ele me derrotava na eleição. Eu acho isso um absurdo, uma calúnia e uma vilania contra mim. Como vocês sabem que sou cristã, eu jamais usaria o nome de Cristo em vão!",
        "A esquerda é boa para duas coisas: organizar manifestações de rua e desorganizar a economia",
        "No Maranhão, depois dos 50 anos, não se pergunta a alguém como está de saúde. Pergunta-se onde é que dói. Realmente, estamos importando alimentos, mas isso é ótimo, porque significa que quem não comia está comendo.",
        "Isso é outra coisa que precisa acabar no Brasil, essa mentalidade atrasada de que o presidente vai passear. Tenha paciência.",
        "Uma coisa que nunca entendi é porque todo artista, esse tal de Caetano Veloso por exemplo, tem de ser dessa tal de esquerda.",
        "Sou apenas um menino do Maranhão que o destino disse: vai José, ser Presidente!",
        "Quando acontece alguma coisa errada no meu governo, eu fico triste.",
        "A única solução é dar um tiro no coco. (Quando perguntado sobre o que faria se recebesse um salário mínimo).",
        "O presidente Lula me deixou um legado, que é cuidar do povo brasileiro. Eu vou ser a mãe do povo brasileiro.",
        "Saio da vida para entrar na história."
        "Mais que curso de doutor, as pessoas precisam fazer curso de inteligência e de sensibilidade para poderem dirigir seus países.",
        "Creio na vitória final e inexorável do Brasil, como nação.",
        "Eu não tenho a mesma posição histórica do presidente Collor. Agora, se ele quiser apoiar minha candidatura, é um problema da liberdade democrática...",
        "Precisamos vencer a fome, a miséria e a exclusão social. Nossa guerra não é para matar ninguém - é para salvar vidas!",
        "Não aceito propaganda de opções sexuais",
        "Estou de saco cheio de ver companheiro acusado, humilhado, e depois não se provar nada contra ele.",
        "Na primeira vez que me perguntaram se eu era comunista, respondi: 'Sou torneiro mecânico'.",
        "Não tenho nenhuma outra expectativa a não ser terminar meu mandato, poder andar pelas ruas deste país afora, e que as pessoas digam: 'Lá vai o Collor, ele fez um bom governo.'",
        "Cada um tem que inventar sua resposta. Dar sentido a sua vida. A vida, em si, não tem sentido. Cada um tem que construir o seu sentido. E vai sofrer para encontrar.",
        "O meu primeiro ato como presidente será mandar para a cadeia um bocado de corruptos.",
        "É muita pretensão do homem inventar que Deus o criou à sua imagem e semelhança. Será possível que Deus seja tão ruim assim? Eu sou um sujeito profundamente democrático.",
        "Questionam o meu otimismo, mas sou católico, brasileiro, corintiano e ainda sou presidente do meu país, como poderia deixar de ser otimista.",
        "Um governo forte se faz perdoando."
        "Quanto menos alguém entende, mais quer discordar...",
        "Não é a moeda forte que faz o país. O país é que faz a moeda forte!"]

# Tokenização
tokenized_doc = []
for d in doc:
    tokenized_doc.append(word_tokenize(d.lower()))

### Definição dos parâmetros e criação do modelo 

In [71]:
tagged_data = [TaggedDocument(d, [i]) for i, d in enumerate(tokenized_doc)]
model = Doc2Vec(tagged_data, vector_size=20, window=2, min_count=2, workers=4, epochs = 30)

In [72]:
model.save("test_doc2vec.model")
model= Doc2Vec.load("test_doc2vec.model")

### Teste do Modelo 

In [73]:
test_doc = word_tokenize("Ninguém nasce odiando outra pessoa pela cor de sua pele, por sua origem ou ainda por sua religião. Para odiar, as pessoas precisam aprender, e se podem aprender a odiar, elas podem ser ensinadas a amar.".lower())
model.docvecs.most_similar(positive=[model.infer_vector(test_doc)],topn=5)

  model.docvecs.most_similar(positive=[model.infer_vector(test_doc)],topn=5)


[(0, 0.8816112875938416),
 (17, 0.8649958968162537),
 (11, 0.8280543684959412),
 (16, 0.818700909614563),
 (19, 0.7940447926521301)]

**Autora da frase 0:** Dilma

In [74]:
print(tagged_data[0])

TaggedDocument<['lamento', 'a', 'campanha', 'absolutamente', 'difamatória', 'que', 'fazem', 'contra', 'mim', ',', 'dizendo', 'que', 'estou', 'utilizando', 'o', 'nome', 'de', 'cristo', 'para', 'falar', 'que', 'nem', 'ele', 'me', 'derrotava', 'na', 'eleição', '.', 'eu', 'acho', 'isso', 'um', 'absurdo', ',', 'uma', 'calúnia', 'e', 'uma', 'vilania', 'contra', 'mim', '.', 'como', 'vocês', 'sabem', 'que', 'sou', 'cristã', ',', 'eu', 'jamais', 'usaria', 'o', 'nome', 'de', 'cristo', 'em', 'vão', '!'], [0]>


**Autor da frase 17:** FHC

In [75]:
print(tagged_data[17])

TaggedDocument<['cada', 'um', 'tem', 'que', 'inventar', 'sua', 'resposta', '.', 'dar', 'sentido', 'a', 'sua', 'vida', '.', 'a', 'vida', ',', 'em', 'si', ',', 'não', 'tem', 'sentido', '.', 'cada', 'um', 'tem', 'que', 'construir', 'o', 'seu', 'sentido', '.', 'e', 'vai', 'sofrer', 'para', 'encontrar', '.'], [17]>


**Autora da frase 11:** Dilma 

In [76]:
print(tagged_data[11])

TaggedDocument<['eu', 'não', 'tenho', 'a', 'mesma', 'posição', 'histórica', 'do', 'presidente', 'collor', '.', 'agora', ',', 'se', 'ele', 'quiser', 'apoiar', 'minha', 'candidatura', ',', 'é', 'um', 'problema', 'da', 'liberdade', 'democrática', '...'], [11]>


**Conclusões acerca do modelo**: a frase de Mandela tem como principal mensagem a superação de preconceitos. Sendo assim, é natural que as três frases mais similares à de Mandela sejam frases que abordem temas como a liberdade democrática, o sentido da vida e o preconceito religioso.