# 3_A_solve_analogies
- author: Eu-Bin KIM
- 17th of August 2021

## 목표
1. 사전훈련된 Word2Vec 모델을 활용하여 비유문제를 푸는 함수, `solve_analogy()` 함수를 구현하는 것이 이번 숙제의 주된 목표입니다.
2. 재밌는 비유를 찾아보세요! (e.g. `밤:낮::달:X`)
3. 편향(bias) 문제에 대해서도 고민해볼 것입니다. (e.g. 사회에서 남자와 여자의 역할을 모델은 어떻게 판단할까?)


In [18]:
# 이번에는 gensim 라이브러리를 사용해보겠습니다.
# https://radimrehurek.com/gensim/auto_examples/index.html
!pip3 install gensim  
from typing import List, Tuple
from gensim.models import KeyedVectors
import gensim.downloader as api
import numpy as np

# 모델의 다운로드 현황을 확인하기 위해서 로깅 레벨을 수정합니다.
from sys import stdout
import logging
logging.basicConfig(stream=stdout, level=logging.INFO)



In [19]:
# --- 전역 상수 및 변수 설정 --- #
TOP_N = 20
# 차원의 크기 = 200으로 설정하여 학습을 진행한 Word2Vec (정확히는 Glove라는 모델)를 로드해보려고 합니다.
WORD2VEC_MODEL = "glove-wiki-gigaword-200"
# 사전훈련된 모델을 다운로드 (252.MB) 정도되는 모델.
# 모델의 가중치 ("projection weights")를 로드하는데 시간이 좀 걸릴 겁니다.
# 다운로드 가능한 다른 모델 리스트는 https://github.com/RaRe-Technologies/gensim-data#available-data
# 여기에서 확인해볼 수 있습니다.
wv: KeyedVectors = api.load(WORD2VEC_MODEL)

INFO:gensim.models.keyedvectors:loading projection weights from C:\Users\JH/gensim-data\glove-wiki-gigaword-200\glove-wiki-gigaword-200.gz
INFO:gensim.utils:KeyedVectors lifecycle event {'msg': 'loaded (400000, 200) matrix of type float32 from C:\\Users\\JH/gensim-data\\glove-wiki-gigaword-200\\glove-wiki-gigaword-200.gz', 'binary': False, 'encoding': 'utf8', 'datetime': '2021-08-18T21:21:23.487227', 'gensim': '4.0.1', 'python': '3.8.10 (default, May 19 2021, 13:12:57) [MSC v.1916 64 bit (AMD64)]', 'platform': 'Windows-10-10.0.19042-SP0', 'event': 'load_word2vec_format'}


**Q: `KeyedVectors` 로는 무엇을 할 수 있나요?**
> A: 어휘에 존재하는 단어의 임베딩 벡터를 불러올 수 있고 [(`wv.get_vector()`](https://radimrehurek.com/gensim/models/keyedvectors.html#gensim.models.keyedvectors.KeyedVectors.get_vector), 주어진 단어 혹은 단어 벡터와 유사한 단어를 확인할 수 있는 [(`wv.similar_by_word()`](https://radimrehurek.com/gensim/models/keyedvectors.html#gensim.models.keyedvectors.KeyedVectors.similar_by_word) , [`wv.similar_by_vector()`](https://radimrehurek.com/gensim/models/keyedvectors.html#gensim.models.keyedvectors.KeyedVectors.similar_by_vector) 멤버 함수를 지원하는 객체입니다.
  


In [21]:
# --- wv 사용예시 --- # 
# wv.get_vector(단어)를 사용하여, 어휘에 존재하는 특정 단어의 임베딩 벡터를 넘파이 배열로 불러올 수 있습니다.
car_vec: np.ndarray = wv.get_vector("car")
# Word2Vec 모델은 예측 기반 모델이므로, 벡터가 희소하지 않으며 밀도가 높습니다. 
print(car_vec)
# 벡터의 크기를 200으로 설정한 후 학습한 모델이니, 당연히 벡터의 차원은 200일 것입니다.
print(car_vec.shape)
# similar_by_word로 어휘에 존재하는 단어로 유사어를 구해볼 수 있습니다.
for word, score in wv.similar_by_word("car", topn=TOP_N):
  print(word, score)
print("-----")
# similar_by_vector로는 임베딩 벡터로 유사어를 구해볼 수 있습니다.
for word, score in wv.similar_by_vector(car_vec, topn=TOP_N):
  print(word, score)

# ----------------- #

[ 1.5682e-02  1.9355e-01 -5.5093e-01 -7.0453e-02 -6.5923e-01  2.5597e-01
 -3.4435e-01 -1.7964e-01  6.3907e-01 -4.1880e-01  3.1996e-01  3.3546e-01
  2.1122e-01  4.1592e-01  2.8599e-01 -2.5777e-01 -1.3341e-01 -2.5731e-01
  2.7712e-01 -3.2695e-01  1.1008e-01  2.7322e+00  4.6684e-01 -7.3542e-01
  1.1934e-01 -6.0756e-01  1.8882e-01  1.6739e-01  7.1712e-02 -6.5601e-01
 -5.1485e-01  7.6970e-01 -1.6761e-02 -1.9893e-01  2.7478e-01  1.5767e-01
  3.0154e-03 -3.5170e-01  1.3830e-01  6.0107e-01  1.9442e-01 -1.1802e-01
 -7.5983e-01  6.8567e-01  3.1139e-01  2.6280e-01  3.9558e-01 -6.9782e-01
 -2.1649e-01 -2.9196e-01  2.5405e-02  2.3887e-01  7.7817e-01 -4.7592e-02
 -2.3215e-01  6.1213e-02 -4.8265e-02 -2.0152e-01  3.2679e-01 -3.4759e-01
  9.9897e-02 -5.1759e-01 -5.9987e-01  1.3594e-01  9.4825e-03 -9.0824e-01
 -1.3166e-01 -3.7136e-01 -9.6381e-02 -4.3759e-01 -1.5774e-01  3.3517e-01
  1.3741e-01  8.2091e-02 -3.2295e-01  2.4789e-01 -7.3261e-03  2.5045e-03
 -1.0734e-01  3.8338e-01 -4.6347e-01 -1.7817e-01  2

TypeError: isinstance() arg 2 must be a type or tuple of types

**Q: 벡터의 연산으로 `A:B::C:X`를 만족하는 가장 적절한 X를 어떻게 구할 수 있을까요?**

`A:B::C:X` 를 풀어서 생각을 해보면,

`관계(A,B)` ~= `관계(C, X)`를 만족하는 가장 적절한 `X`를 찾는 과정이라고 생각해볼 수 있습니다.

그럼 두 `관계`가 동일하다는 것은 어떻게 수학적으로 정의할 수 있을까요? 

만약 두 벡터 사이의 차(Difference)가 유사하다면, 같은 `관계`에 있다고 볼 수 있을 것입니다, 즉 위 식을 `A - B = C - X`로 나타낼 수 있습니다.

예를 들어,
- `king:man::queen:x`
-  = `관계(king,man) ~= 관계(queen,X)`
-  = `king - man ~= queen - x`
-  =  `x ~= queen - king + man`
-  =  `x` ~= woman, girl, etc





In [None]:
def solve_analogy(a: str, b: str, c: str):
    """
    :param wv: a pre-trained word2vec model
    :param a: word a
    :param b: word b
    :param c: word c
    """
    global TOP_N, RESTRICT_VOCAB, wv
    # ---- TODO 1 -------
    # Write your implementation here.
    # get a continuous & distributed vector representation of a, b and c, using wv.
    # use vector arithmetics to get a vector representation of x, such that a is to b as in c is to x.
    sims: List[Tuple[str, float]] = ...  
    # ------------------
    print("### {} : {} = {} : X ###".format(a, b, c))
    for word, score in sims:
        print(word, score)

In [None]:
# 한번 비유문제를 풀어봅시다!
solve_analogy("king", "man", "queen")  # 왕:남자::여왕:X
solve_analogy("have", "had", "get")  # have:had::get:X
solve_analogy("korea", "seoul", "england")  # 한국:서울::영국:X
solve_analogy("night", "noon", "moon")  # 밤:낮::달:X
solve_analogy("korea", "kimchi", "england")  # 한국:김치::영국:X?
solve_analogy("us", "trump", "korea")  # 미국:트럼프::한국:X?

다음과 같은 결과가 나와야 합니다:
```
### king : man = queen : X ###
woman 0.7018729448318481
man 0.6981476545333862
girl 0.5718171000480652
she 0.5551059246063232
her 0.546249508857727
mother 0.5334489345550537
queen 0.5116901397705078
beautiful 0.509249210357666
teenager 0.5078386664390564
person 0.5015807151794434
### have : had = get : X ###
got 0.8583781123161316
get 0.8212234973907471
getting 0.7435371279716492
had 0.7194944024085999
him 0.713526725769043
'd 0.7016146183013916
when 0.7001579999923706
just 0.6940717101097107
out 0.6917241811752319
then 0.6907411813735962
### korea : seoul = england : X ###
england 0.7255815267562866
london 0.6356680989265442
birmingham 0.589836835861206
surrey 0.5772858262062073
manchester 0.5481588840484619
oxford 0.529553234577179
melbourne 0.5265653133392334
liverpool 0.5259275436401367
nottingham 0.5229343175888062
perth 0.5212391018867493
### night : noon = moon : X ###
moon 0.7155050039291382
noon 0.539372444152832
lunar 0.4896060824394226
enceladus 0.46816378831863403
ki 0.45321711897850037
mullican 0.4399142861366272
gibbous 0.4230325222015381
mid-autumn 0.4199249744415283
earth 0.41744324564933777
sun 0.41505134105682373
### korea : kimchi = england : X ###
surrey 0.4262450635433197
warwickshire 0.42526546120643616
sussex 0.4186975955963135
england 0.41754770278930664
lancashire 0.4137398898601532
alastair 0.41208115220069885
atherton 0.4097963273525238
worcestershire 0.4054810702800751
chowder 0.3995121419429779
botham 0.3986336588859558
### us : trump = korea : X ###
trump 0.5992231369018555
korea 0.5070021152496338
pyongyang 0.41019734740257263
incheon 0.3933596611022949
kathie 0.3807404041290283
knauss 0.3795280456542969
kang 0.36351221799850464
ivanka 0.361664354801178
koreas 0.36132609844207764
dprk 0.3603391647338867
```

In [None]:
# --- TODO 2 --- # 
# 더 재밌는 비유의 예시를 찾아보세요!


# -------------- #


앞선 수업에서, Distributional Semantics 가정을 기반으로 데이터로부터 임베딩 벡터를 얻는 방법은, 편향(bias)을 고려하지 않는 실수를 범하기 쉽다고 했었습니다. 편향관리를 실패한 대표적인 예시로 [이루다 서비스](https://media.scatterlab.co.kr/1-11-media)를 예시로 들기도 했었구요. 

비단 우리가 지금 사용하고 있는 Word2Vec 모델도 편향된 부분이 있을 것입니다. 우리가 구현한 `solve_analogy()` 함수를 활용해 학습한 편향을 찾아보도록 하겠습니다. 

## TODO 3
> 밑의 코드를 실행하고, 결과를 비교해보세요. 어떤 문제를 발견할 수 있나요?


In [None]:
# 남자의 역할이 노동자라면, 여자의 역할은 무엇인가?
solve_analogy("man", "worker", "woman")  
# 여자의 역할이 노동자라면, 남자의 역할은 무엇인가?
solve_analogy("woman", "worker", "man") 