<img src="https://raw.githubusercontent.com/alan-barzilay/NLPortugues/master/imagens/logo_nlportugues.png"   width="150" align="right">

# Lista 4 - Word2Vec 

______________

Nessa lista nós exploraremos o espaço vetorial gerado pelo algoritmo Word2Vec e algumas de suas propriedades mais interessantes. Veremos como palavras similares se organizam nesse espaço e as relações de palavras com seus sinônimos e antônimos. Também veremos algumas analogias interessantes que o algoritmo é capaz de fazer ao capturar um pouco do nosso uso da língua portuguesa.


In [15]:
from gensim.models import KeyedVectors

# Carregando dados


Para esta lista nós utilizaremos vetores de palavras, também conhecidos como *embeddings*, para lingua portuguesa fornecidos pelo [NILC](http://www.nilc.icmc.usp.br/nilc/index.php). Nós utilizaremos o embedding de 50 dimensões treinado com o algoritmo Word2Vec (Continous Bag of Words) que pode ser encontrado [aqui](http://www.nilc.icmc.usp.br/embeddings) sob a licensa [CC BY 4.0](https://creativecommons.org/licenses/by/4.0/). Para evitar problemas de mémoria utilizaremos apenas as 200 mil palavras mais comum.

In [16]:
!curl  https://raw.githubusercontent.com/alan-barzilay/NLPortugues/master/Semana%2004/data/word2vec_200k.txt --output 'word2vec_200k.txt'

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed

  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0
  1 92.0M    1 1424k    0     0  1304k      0  0:01:12  0:00:01  0:01:11 1308k
 47 92.0M   47 44.0M    0     0  21.0M      0  0:00:04  0:00:02  0:00:02 21.0M
100 92.0M  100 92.0M    0     0  33.1M      0  0:00:02  0:00:02 --:--:-- 33.2M


In [17]:
# Carrega word2vec
model = KeyedVectors.load_word2vec_format("word2vec_200k.txt")

# Similaridade e Distância Cosseno 

Como comentamos em sala de aula, podemos considerar as palavras como pontos num espaço n-dimensional e podemos examinar a proximidade delas através da similaridade cosseno:
$$s = \frac{u \cdot v}{||u|| ||v||}, \textrm{ onde } s \in [-1, 1] $$ 


## <font color='blue'>Questão 1 </font>
Palavras [polissemicas](https://pt.wikipedia.org/wiki/Polissemia) e [homônimas](https://pt.wikipedia.org/wiki/Hom%C3%B3nimo) são palavras que possuem mais de um significado. 


Utilizando a função `model.most_similar(positive = palavra1)`, que retorna uma lista das palavras mais similares à palavra1, encontre uma palavra que possua múltiplos significados. Observe que na sua lista de 10 palavras mais similares existam palavras relacionadas a mais de um dos seus significados, lembre-se de consultar sua [documentação](https://radimrehurek.com/gensim/models/keyedvectors.html#gensim.models.keyedvectors.FastTextKeyedVectors.most_similar). 

Por exemplo, a palavra "manga" possui na sua lista de 10 palavras mais similares as palavras "gola" e "lapela" (que estão relacionadas ao significado de manga de uma camiseta) e a palavra "maçã" (que está relacionada ao significado da fruta manga).



In [18]:
# (codigo completo em (modulo4/q1.py))
# EXEMPLO FEITO COM A PALAVRA MANGA

model.most_similar(positive = "manga")

[('lapela', 0.7861751914024353),
 ('gola', 0.7740796804428101),
 ('cola', 0.7732387781143188),
 ('maça', 0.7641578912734985),
 ('serapilheira', 0.7618493437767029),
 ('aréola', 0.7610149383544922),
 ('cachaça', 0.7603256702423096),
 ('pantera', 0.7558174729347229),
 ('cuia', 0.7498409748077393),
 ('canela', 0.741802990436554)]

In [19]:
# (codigo completo em (modulo4/q1.py))
# EXEMPLO FEITO COM A PALAVRA MAÇA

model.most_similar(positive = "maça")

[('maçã', 0.9109430313110352),
 ('sombrinha', 0.8988646864891052),
 ('máscara', 0.8968290686607361),
 ('argola', 0.8952800631523132),
 ('chupeta', 0.8921788334846497),
 ('mortalha', 0.8916767835617065),
 ('cabaça', 0.8912543654441833),
 ('cuia', 0.8907310366630554),
 ('estola', 0.8845382928848267),
 ('espada', 0.8800477981567383)]

# Sinônimos e Antônimos


As vezes é mais intuitivo trabalhar com uma medida de distancia ao invés da similaridade cosseno, para isso vamos utilizar a distancia cosseno que é simplesmente 1 - Similaridade Cosseno.

## <font color='blue'>Questão 2 </font>


Usando a função [`model.distance(palavra1,palavra2)`](https://radimrehurek.com/gensim/models/keyedvectors.html#gensim.models.keyedvectors.FastTextKeyedVectors.distance), encontre 3 palavras onde as palavras p1 e p2 são sinônimas e p1 e p3 são antônimas mas `distance(p1,p3)` < `distance(p1,p2)`.

Proponha uma explicação do porque esse resultado contraintuitivo acontece.






In [20]:
# Função para encontrar palavras similares
def encontrar_similares(palavra):
    try:
        similares = model.most_similar(positive=[palavra])      # pega a palavra escolhida
        print(f"Palavras similares a '{palavra}': {[sim[0] for sim in similares]}")
        return [sim[0] for sim in similares]
    except KeyError:
        print(f"A palavra '{palavra}' não está no vocabulário.")        # checa por erros
        return []

# Função para calcular distância entre palavras
def calcular_distancia(palavra1, palavra2):
    try:
        distancia = model.distance(palavra1, palavra2)      # pega as duas palavras
        print(f"Distância entre '{palavra1}' e '{palavra2}': {distancia}")
        return distancia
    except KeyError:
        print(f"Uma das palavras '{palavra1}' ou '{palavra2}' não está no vocabulário.")        # checa por erros
        return float('inf')

palavras_teste = ["manga", "maça", "feliz"]     # palavras escolhidas

resultado = []

# Encontrar sinônimos e antônimos para cada palavra de teste
for palavra in palavras_teste:
    print(f"\nAnalisando a palavra: {palavra}")
    similares = encontrar_similares(palavra)
    if similares:
        sinonimo = similares[0]
        for ant in similares[1:]:
            dist_sin = calcular_distancia(palavra, sinonimo)
            dist_ant = calcular_distancia(palavra, ant)
            if dist_ant < dist_sin:
                resultado.append((palavra, sinonimo, ant, dist_sin, dist_ant))

# RESULTADOS
for res in resultado:
    print(f"\nPalavra: {res[0]}")
    print(f"Sinônimo: {res[1]} (Distância: {res[3]})")
    print(f"Antônimo: {res[2]} (Distância: {res[4]})")

if not resultado:
    print("Nenhum resultado encontrado que satisfaça a condição.")      # caso não seja encontrado nenhum resultado final



Analisando a palavra: manga
Palavras similares a 'manga': ['lapela', 'gola', 'cola', 'maça', 'serapilheira', 'aréola', 'cachaça', 'pantera', 'cuia', 'canela']
Distância entre 'manga' e 'lapela': 0.21382474899291992
Distância entre 'manga' e 'gola': 0.2259204387664795
Distância entre 'manga' e 'lapela': 0.21382474899291992
Distância entre 'manga' e 'cola': 0.22676128149032593
Distância entre 'manga' e 'lapela': 0.21382474899291992
Distância entre 'manga' e 'maça': 0.23584216833114624
Distância entre 'manga' e 'lapela': 0.21382474899291992
Distância entre 'manga' e 'serapilheira': 0.23815059661865234
Distância entre 'manga' e 'lapela': 0.21382474899291992
Distância entre 'manga' e 'aréola': 0.2389851212501526
Distância entre 'manga' e 'lapela': 0.21382474899291992
Distância entre 'manga' e 'cachaça': 0.23967427015304565
Distância entre 'manga' e 'lapela': 0.21382474899291992
Distância entre 'manga' e 'pantera': 0.24418246746063232
Distância entre 'manga' e 'lapela': 0.21382474899291992


# Analogias

Existem algumas analogias famosas realizadas por vetores de palavras. O exemplo mais famoso é provavelmente "man : king :: woman : x", onde x é *queen*.

Para formular analogias vamos utilizar a função `most_similar()` que busca as palavras mais similares as listas em  `positive` e mais dissimilares as listadas em  `negative`. Para mais detalhes recomendamos consultar a sua [documentação](https://radimrehurek.com/gensim/models/keyedvectors.html#gensim.models.keyedvectors.FastTextKeyedVectors.most_similar).




In [21]:
model.most_similar(positive=['mulher', 'engenheiro'], negative=['homem'])

[('engenheira', 0.7883446216583252),
 ('investigadora', 0.7415961623191833),
 ('ex-funcionária', 0.7373332977294922),
 ('enfermeira', 0.7346670627593994),
 ('funcionária', 0.7172971367835999),
 ('bibliotecária', 0.7110162377357483),
 ('arquiteta', 0.7099220156669617),
 ('empresária', 0.7055575847625732),
 ('ex-diretora', 0.7055395841598511),
 ('professora', 0.697813868522644)]

## <font color='blue'>Questão 3 </font>
Encontre analogias que funcionam, ou seja, que a palavra esperada está no topo da lista.

Descreva sua analogia na seguinte forma: 
x:y :: a:b



In [22]:
'''
ANALOGIAS PARA TESTE:
homem : mulher :: rainha : x
rei : homem :: mulher : x
paris : frança :: berlim : x
alemão : alemanha :: inglês : x
Brasil : Alemanha :: Berlim : x
'''
# Lista com exemplos de analogias
analogias = [
    (["homem", "rainha"], ["mulher"]),          # homem : mulher :: rainha : x
    (["rei", "mulher"], ["homem"]),             # rei : homem :: mulher : x
    (["paris", "alemanha"], ["frança"]),        # paris : frança :: berlim : x
    (["alemão", "inglaterra"], ["alemanha"])    # alemão : alemanha :: inglês : x
]

# Função para encontrar a palavra análoga
def encontrar_analogia(positivas, negativas):
    try:
        similar = model.most_similar(positive=positivas, negative=negativas, topn=1)
        return similar[0][0]
    except KeyError as e:
        print(f"Palavra não encontrada no vocabulário: {e}")
        return None

# Testar cada analogia
for pos, neg in analogias:
    resultado = encontrar_analogia(pos, neg)
    if resultado:
        print(f"{pos[0]} : {neg[0]} :: {pos[1]} : {resultado}")

# mais analogias para teste
mais_analogias = [
    (["brasil", "berlim"], ["alemanha"]),       # Brasil : Alemanha :: Berlim : x
]

for pos, neg in mais_analogias:
    resultado = encontrar_analogia(pos, neg)
    if resultado:
        print(f"{pos[0]} : {neg[0]} :: {pos[1]} : {resultado}")


homem : mulher :: rainha : novelo
rei : homem :: mulher : esposa
paris : frança :: alemanha : berlim
alemão : alemanha :: inglaterra : francês
brasil : alemanha :: berlim : soweto


## <font color='blue'>Questão 4 </font>
Encontre analogias que **Não** funcionam.

Descreva o resultado esperado da sua analogia na seguinte forma: 
x:y :: a:b

E indique o valor errado de b encontrado



In [23]:
# USANDO AS MESMAS ANALOGIAS PARA TESTE, AQUI ESTÃO OS RESULTADOS
# Lista de analogias para testar, incluindo o resultado esperado
analogias = [
    (["homem", "rainha"], ["mulher"], "rei"),      # homem : mulher :: rainha : rei
    (["rei", "mulher"], ["homem"], "rainha"),      # rei : homem :: mulher : rainha
    (["paris", "alemanha"], ["frança"], "berlim"), # paris : frança :: alemanha : berlim
    (["alemão", "inglaterra"], ["alemanha"], "inglês") # alemão : alemanha :: inglaterra : inglês
]

# Função para encontrar a palavra análoga
def encontrar_analogia(positivas, negativas):
    try:
        similar = model.most_similar(positive=positivas, negative=negativas, topn=1)
        return similar[0][0]
    except KeyError as e:
        print(f"Palavra não encontrada no vocabulário: {e}")
        return None

# Testar cada analogia
for pos, neg, esperado in analogias:
    resultado = encontrar_analogia(pos, neg)
    if resultado and resultado != esperado:
        print(f"{pos[0]} : {neg[0]} :: {pos[1]} : {esperado} (Esperado)")
        print(f"Valor errado encontrado: {resultado}\n")

# Adicionar suas próprias analogias para testar
# exemplo: analogia customizada com resultado esperado
custom_analogias = [
    (["brasil", "berlim"], ["alemanha"], "brasilia"), # Brasil : Alemanha :: Berlim : Brasilia
]

for pos, neg, esperado in custom_analogias:
    resultado = encontrar_analogia(pos, neg)
    if resultado and resultado != esperado:
        print(f"{pos[0]} : {neg[0]} :: {pos[1]} : {esperado} (Esperado)")
        print(f"Valor errado encontrado: {resultado}\n")


homem : mulher :: rainha : rei (Esperado)
Valor errado encontrado: novelo

rei : homem :: mulher : rainha (Esperado)
Valor errado encontrado: esposa

alemão : alemanha :: inglaterra : inglês (Esperado)
Valor errado encontrado: francês

brasil : alemanha :: berlim : brasilia (Esperado)
Valor errado encontrado: soweto



# Viés e preconceito adquirido

Como estes vetores são aprendidos a partir de documentos produzidos pela nossa sociedade, ele pode vir a capturar alguns preconceitos e desigualdades presentes na nossa sociedade. É importante estar ciente desse viés de nossos vetores e dos seus perigos, aplicações que utilizam esses modelos podem acabar perpetuando e até mesmo exacerbando desigualdades sociais.

Por exemplo, uma analogia problemática capturada:



In [24]:
model.most_similar(positive=['negro', 'rico'], negative=['pobre'])

[('branco', 0.663209080696106),
 ('alegre/rs', 0.6620162725448608),
 ('braga-fc', 0.6464027762413025),
 ('sporting-fc', 0.6254758238792419),
 ('côvo', 0.6254613995552063),
 ('alegre-rs', 0.6199708580970764),
 ('vermelho', 0.612277090549469),
 ('covo', 0.604120671749115),
 ('cirílicos', 0.6022458672523499),
 ('benfica-fc', 0.5965930819511414)]

Note também como diferem as palavras mais semelhantes a homem e mulher:

In [25]:
model.most_similar("homem")

[('monstro', 0.9085395932197571),
 ('bebé', 0.9072304368019104),
 ('indivíduo', 0.9050756096839905),
 ('rapaz', 0.9036115407943726),
 ('mendigo', 0.9007540345191956),
 ('rapazola', 0.8992964029312134),
 ('novelo', 0.8938027620315552),
 ('pássaro', 0.8897998929023743),
 ('cão', 0.8882535099983215),
 ('cãozinho', 0.8869855403900146)]

In [26]:
model.most_similar("mulher")

[('menina', 0.911119282245636),
 ('amiga', 0.9089193344116211),
 ('cadela', 0.9035040140151978),
 ('rapariga', 0.899989902973175),
 ('enfermeira', 0.8974366784095764),
 ('namorada', 0.8954240083694458),
 ('cafetina', 0.8932163119316101),
 ('prostituta', 0.8917951583862305),
 ('garota', 0.8906298279762268),
 ('cadelinha', 0.8902611136436462)]

## <font color='blue'>Questão 5 </font>

Utiliza a função `most_similar()` para encontrar um outro caso de viés adquirido pelos vetores e explique brevemente o tipo de viés encontrado.



In [28]:
# Seu código aqui
vies = model.most_similar("idoso")
print(vies)

[('menino', 0.888033390045166), ('casal', 0.8774283528327942), ('taxista', 0.8716806173324585), ('carcereiro', 0.8708066940307617), ('rapaz', 0.8702239990234375), ('reeducando', 0.8644770979881287), ('fazendeiro', 0.8624474406242371), ('caminhoneiro', 0.8587703108787537), ('porteiro', 0.8562619686126709), ('faroleiro', 0.8533437848091125)]



**<font color='green'>Resposta:</font>**

No código acima, foi utilizada a palavra "idoso" para tentar extrair algum viés adquirido pelos vetores, seja positivo ou negativo, e pelas respostas, concluimos que o vetor tende a pensar que certas profissões são relacionadas a palavra "idoso", profissões como: taxista, carcereiro, fazendeiro, caminhoneiro, porteiro e faroleiro.

## <font color='blue'>Questão 6 </font>

Qual é a possivel origem desses vieses? Tente explicar como eles podem ter sido capturados pelos vetores de palavras.


**<font color='green'>Resposta:</font>**

Os vieses em modelos de vetores surgem, basicamente, dos dados de treinamento que refletem preconceitos sociais. Por exemplo, associações como "mulher" com "dona-de-casa" e "negro" com "pobre" são aprendidas a partir de textos que provavelmente reforçam estes estereótipos. Esses modelos capturam padrões linguísticos que refletem desigualdades, influenciando como palavras são relacionadas nos resultados. Logo, o modelo apenas está aprendendo o que está sendo passado para ele.





