<img src="https://raw.githubusercontent.com/alan-barzilay/NLPortugues/master/imagens/logo_nlportugues.png"   width="150" align="right">

# Lista 4 - Word2Vec

______________

Nessa lista nós exploraremos o espaço vetorial gerado pelo algoritmo Word2Vec e algumas de suas propriedades mais interessantes. Veremos como palavras similares se organizam nesse espaço e as relações de palavras com seus sinônimos e antônimos. Também veremos algumas analogias interessantes que o algoritmo é capaz de fazer ao capturar um pouco do nosso uso da língua portuguesa.


In [20]:
from gensim.models import KeyedVectors

# Carregando dados


Para esta lista nós utilizaremos vetores de palavras, também conhecidos como *embeddings*, para lingua portuguesa fornecidos pelo [NILC](http://www.nilc.icmc.usp.br/nilc/index.php). Nós utilizaremos o embedding de 50 dimensões treinado com o algoritmo Word2Vec (Continous Bag of Words) que pode ser encontrado [aqui](http://www.nilc.icmc.usp.br/embeddings) sob a licença [CC BY 4.0](https://creativecommons.org/licenses/by/4.0/). Para evitar problemas de mémoria utilizaremos apenas as 200 mil palavras mais comum.

In [21]:
!curl  https://raw.githubusercontent.com/alan-barzilay/NLPortugues/master/Semana%2004/data/word2vec_200k.txt --output 'word2vec_200k.txt'

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100 92.0M  100 92.0M    0     0  1374k      0  0:01:08  0:01:08 --:--:-- 21.5M


In [22]:
# Carrega word2vec
model = KeyedVectors.load_word2vec_format("word2vec_200k.txt")

# Similaridade e Distância Cosseno

Como comentamos em sala de aula, podemos considerar as palavras como pontos num espaço n-dimensional e podemos examinar a proximidade delas através da similaridade cosseno:
$$s = \frac{u \cdot v}{||u|| ||v||}, \textrm{ onde } s \in [-1, 1] $$


## <font color='blue'>Questão 1 </font>
Palavras [polissemicas](https://pt.wikipedia.org/wiki/Polissemia) e [homônimas](https://pt.wikipedia.org/wiki/Hom%C3%B3nimo) são palavras que possuem mais de um significado.


Utilizando a função `model.most_similar()`, encontre uma palavra que possua múltiplos significados e que na sua lista de 10 palavras mais similares existam palavras relacionadas a mais de um dos seus significados, lembre-se de consultar sua [documentação](https://radimrehurek.com/gensim/models/keyedvectors.html#gensim.models.keyedvectors.FastTextKeyedVectors.most_similar).

Por exemplo, a palavra "manga" possui na sua lista de 10 palavras mais similares as palavras "gola" e "lapela" (que estão relacionadas ao significado de manga de uma camiseta) e a palavra "maçã" (que está relacionada ao significado da fruta manga).



In [575]:
# Seu código aqui
model.most_similar('tocar')

[('cantar', 0.909256637096405),
 ('dançar', 0.8524582386016846),
 ('filmar', 0.8430111408233643),
 ('namorar', 0.8334317803382874),
 ('fotografar', 0.8212646842002869),
 ('aparecer', 0.8181331753730774),
 ('experimentar', 0.8166038990020752),
 ('brilhar', 0.8126950860023499),
 ('ensaiar', 0.8113200664520264),
 ('trabalhar', 0.810289204120636)]


**<font color='red'> Sua resposta aqui </font>**


"tocar" - significados:

1. cantar, dançar, filmar, ensaiar -> relacionado a "tocar um instrumento"
2. namorar, experimentar -> relacionado a "encostar", "por a mão"
3. trabalhar -> talvez relacionado ao sentido de "tocar um negócio/empresa"

# Sinônimos e Antônimos


As vezes é mais intuitivo trabalhar com uma medida de distancia ao invés da similaridade cosseno, para isso vamos utilizar a distancia cosseno que é simplesmente 1 - Similaridade Cosseno.

## <font color='blue'>Questão 2 </font>


Usando a função [`model.distance(palavra1,palavra2)`](https://radimrehurek.com/gensim/models/keyedvectors.html#gensim.models.keyedvectors.FastTextKeyedVectors.distance), encontre 3 palavras onde as palavras p1 e p2 são sinônimas e p1 e p3 são antônimas mas `distance(p1,p3)` < `distance(p1,p2)`.

Proponha uma explicação do porque esse resultado contraintuitivo acontece.






In [574]:
# Seu código aqui
print('p1 = "iniciar"')
print('p2 = "começar"')
print('p3 = "encerrar"')

print()
print("sinônimos (p1, p2): ", model.distance("iniciar", "começar"))
print("antônimos (p1, p3): ", model.distance("iniciar", "encerrar"))

p1 = "iniciar"
p2 = "começar"
p3 = "encerrar"

sinônimos (p1, p2):  0.2515414357185364
antônimos (p1, p3):  0.10052013397216797



**<font color='red'> Sua resposta aqui </font>**

Como os embeddings são montados de acordo com a ocorrência das palavras nos textos do córpus, é provável que as palavras "iniciar" e "encerrar" apareçam em contextos mais similares do que ocorre com as palavras "iniciar" e "começar", assim os vetores que representam os ântônimos acabam ficando mais similares do que os vetores que representam os sinônimos neste caso.

# Analogias

Existem algumas analogias famosas realizadas por vetores de palavras. O exemplo mais famoso é provavelmente "man : king :: woman : x", onde x é *queen*.

Para formular analogias vamos utilizar a função `most_similar()` que busca as palavras mais similares as listas em  `positive` e mais dissimilares as listadas em  `negative`. Para mais detalhes recomendamos consultar a sua [documentação](https://radimrehurek.com/gensim/models/keyedvectors.html#gensim.models.keyedvectors.FastTextKeyedVectors.most_similar).




In [260]:
model.most_similar(positive=['mulher', 'engenheiro'], negative=['homem']) # homem:engenheiro :: mulher:x -> x = engenheira

[('engenheira', 0.7883446216583252),
 ('investigadora', 0.7415961623191833),
 ('ex-funcionária', 0.7373332977294922),
 ('enfermeira', 0.7346670627593994),
 ('funcionária', 0.7172971367835999),
 ('bibliotecária', 0.7110162377357483),
 ('arquiteta', 0.7099220156669617),
 ('empresária', 0.7055575847625732),
 ('ex-diretora', 0.7055395841598511),
 ('professora', 0.697813868522644)]

## <font color='blue'>Questão 3 </font>
Encontre analogias que funcionam, ou seja, que a palavra esperada está no topo da lista.

Descreva sua analogia na seguinte forma:
x:y :: a:b



In [361]:
# Seu código aqui
print(model.most_similar(positive=['mulher', 'amigo'], negative=['homem'])[0])
print(model.most_similar(positive=['mulher', 'professor'], negative=['homem'])[0])
print(model.most_similar(positive=['vegetal', 'carnívoro'], negative=['carne'])[0])
print(model.most_similar(positive=['grêmio', 'palmeirense'], negative=['palmeiras'])[0])


('amiga', 0.8684101104736328)
('professora', 0.7869903445243835)
('herbívoro', 0.6485663652420044)
('gremista', 0.9042074680328369)



**<font color='red'> Sua resposta aqui </font>**

---

homem:amigo :: mulher:x -> amiga

homem:professor :: mulher:x -> professora

carne:carnívoro :: vegetal:x -> herbívoro

palmeirense:palmeiras :: gremista:x -> grêmio





## <font color='blue'>Questão 4 </font>
Encontre analogias que **Não** funcionam.

Descreva o resultado esperado da sua analogia na seguinte forma:
x:y :: a:b

E indique o valor errado de b encontrado



In [510]:
# Seu código aqui
print(model.most_similar(positive=['mulher', 'médico'], negative=['homem'])[0])
print(model.most_similar(positive=['mulher', 'doutor'], negative=['homem'])[0])
print(model.most_similar(positive=['corinthians', 'palmeirense'], negative=['palmeiras'])[0])


('funcionária', 0.7913923859596252)
('diarista', 0.683979868888855)
('gremista', 0.9147422909736633)



**<font color='red'> Sua resposta aqui </font>**

---

homem:médico :: mulher:x -> esperado "médica", mas retornou "funcionária"

homem:médico :: mulher:x -> esperado "doutora", mas retornou "diarista"

palmeirense:palmeiras :: corinthians:x -> esperado "coritiano", mas retornou "gremista"



# Viés e preconceito adquirido

Como estes vetores são aprendidos a partir de documentos produzidos dentro do nosso contexto social, eles podem capturar viéses, preconceitos e desigualdades presentes na nossa sociedade.

Quando esses tipos de modelos começaram a ser treinados, cientistas ficaram surpresos com o fato de que tais viéses fossem aprendidos pelos modelos, mesmo quando os dados não continham textos específicos que defendiam posições preconceituosas ou que usassem linguagem explicitamente preconceituosa. Modelos treinados com textos a priori neutros e bastante revisados, ainda apresentam tais viéses, porque usualmente os viéses observados são fruto de preconceitos estruturais que perpassam toda a produção de uma sociedade, inclusive sua emissão linguística. Esses viéses, muitas vezes, não são objetivamente detectáveis em nível de texto individual, mas se manifestam nas correlações das palavras de forma transversal à qualquer grande volume de textos.

É importante estar ciente desse tipo de viés dos modelos treinados e dos seus perigos. Aplicações que utilizam esses modelos podem perpetuar e até exarcebar desigualdades sociais, retro-alimentando as estruturas que os originaram.

Para um exemplo mais concreto, vide a seguinte analogia preconceituosa capturada:



In [511]:
model.most_similar(positive=['negro', 'rico'], negative=['pobre'])

[('branco', 0.663209080696106),
 ('alegre/rs', 0.6620162725448608),
 ('braga-fc', 0.6464027762413025),
 ('sporting-fc', 0.6254758238792419),
 ('côvo', 0.6254613995552063),
 ('alegre-rs', 0.6199708580970764),
 ('vermelho', 0.612277090549469),
 ('covo', 0.604120671749115),
 ('cirílicos', 0.6022458672523499),
 ('benfica-fc', 0.5965930819511414)]

Note também como diferem as palavras mais semelhantes a homem e mulher:

In [363]:
model.most_similar("homem")

[('monstro', 0.9085395932197571),
 ('bebé', 0.9072304368019104),
 ('indivíduo', 0.9050756096839905),
 ('rapaz', 0.9036115407943726),
 ('mendigo', 0.9007540345191956),
 ('rapazola', 0.8992964029312134),
 ('novelo', 0.8938027620315552),
 ('pássaro', 0.8897998929023743),
 ('cão', 0.8882535099983215),
 ('cãozinho', 0.8869855403900146)]

In [364]:
model.most_similar("mulher")

[('menina', 0.911119282245636),
 ('amiga', 0.9089193344116211),
 ('cadela', 0.9035040140151978),
 ('rapariga', 0.899989902973175),
 ('enfermeira', 0.8974366784095764),
 ('namorada', 0.8954240083694458),
 ('cafetina', 0.8932163119316101),
 ('prostituta', 0.8917951583862305),
 ('garota', 0.8906298279762268),
 ('cadelinha', 0.8902611136436462)]

## <font color='blue'>Questão 5 </font>

Utiliza a função `most_similar()` para encontrar um outro caso de viés adquirido pelos vetores e explique brevemente o tipo de viés encontrado.



In [570]:
# Seu código aqui
print(model.most_similar('amante'))
print(model.most_similar('bala'))

[('confidente', 0.8713893294334412), ('ex-amante', 0.8611692786216736), ('sobrinha', 0.8388965129852295), ('neta', 0.8151741027832031), ('filha', 0.810907781124115), ('serviçal', 0.8079167604446411), ('viúva', 0.8032019138336182), ('sobrinha-neta', 0.7977979779243469), ('discípula', 0.7934637665748596), ('meia-irmã', 0.7928621768951416)]
[('faca', 0.8725667595863342), ('lamparina', 0.8645756244659424), ('espingarda', 0.8556493520736694), ('arma', 0.850627601146698), ('navalha', 0.8492265939712524), ('bomba', 0.8482476472854614), ('baioneta', 0.8426659107208252), ('pancada', 0.8423606157302856), ('lâmina', 0.8406084179878235), ('corda', 0.8389527201652527)]



**<font color='red'> Sua resposta aqui </font>**

A palavra "amante", embora não tenha gênero definido, está muito mais associada ao gênero feminino ("sobrinha", "neta", "filha", "viúva", "meia-irmã") - o que demonstra um viés sexista da base de dados.

No segundo exemplo, a palavra "bala" está muito mais associada a munição de armas do que ao doce. Embora não seja exatamente um viés da sociedade ou preconceito, demonstra que há um viés no córpus utilizado para gerar os embeddings.

## <font color='blue'>Questão 6 </font>

Qual é a possivel origem desses vieses? Tente explicar como eles podem ter sido capturados pelos vetores de palavras.


**<font color='red'> Sua resposta aqui </font>**

Provavelmente os textos com a palavra "amante" estão associando a palavra ao gênero feminino, por exemplo: "Ele tem uma amante", "Fulana é a amante dele".

Semelhantemente, no segundo caso, é provável que a grande maioria dos textos contendo a palavra "bala", esteja se referindo a armas.