## Word2vec : CBOW
### 어떤 단어를 문맥 안의 여러 주변 단어들을 통해 예측하는 방법  

주변(window 사이즈) 통해서 나오는 값을 예측한다.  

실제 문장이 : 이제 예측 방법에 대해 조사해보자 일때  
'방법'이 나오는 경우는(window 사이즈가 1로 고정) '예측'이 나오면 '방법'이 나온다. '대해'가 나오면 '방법'이 나온다  

target 이 '방법' 입력 값이 '예측'과 '대해'가 된다

#### 참고 자료
https://ronxin.github.io/wevi/

### word2vec 은 컴퓨터가 주변 단어와 비슷한 정도를 matrix 를 만들어준다

In [1]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer

In [2]:
sent = ("휴일 인 오늘 도 서쪽 을 중심 으로 폭염 이 이어졌는데요, 내일 은 반가운 비 소식 이 있습니다.", 
        "폭염 을 피해서 휴일 에 놀러왔다가 갑작스런 비 로 인해 망연자실 하고 있습니다.")

In [3]:
tfidf_vectorizer = TfidfVectorizer()
tfidf_vectorizer.fit(sent)

TDM = tfidf_vectorizer.transform(sent).toarray()

In [5]:
tfidf_vectorizer.vocabulary_

{'휴일': 16,
 '오늘': 7,
 '서쪽': 5,
 '중심': 12,
 '으로': 8,
 '폭염': 13,
 '이어졌는데요': 9,
 '내일': 1,
 '반가운': 4,
 '소식': 6,
 '있습니다': 11,
 '피해서': 14,
 '놀러왔다가': 2,
 '갑작스런': 0,
 '인해': 10,
 '망연자실': 3,
 '하고': 15}

In [4]:
TDM

array([[0.        , 0.32412345, 0.        , 0.        , 0.32412345,
        0.32412345, 0.32412345, 0.32412345, 0.32412345, 0.32412345,
        0.        , 0.2306165 , 0.32412345, 0.2306165 , 0.        ,
        0.        , 0.2306165 ],
       [0.36469323, 0.        , 0.36469323, 0.36469323, 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.36469323, 0.25948224, 0.        , 0.25948224, 0.36469323,
        0.36469323, 0.25948224]])

## TDM 매칭 확인

In [7]:
print(dict(zip(tfidf_vectorizer.get_feature_names(), tfidf_vectorizer.idf_)))

{'갑작스런': 1.4054651081081644, '내일': 1.4054651081081644, '놀러왔다가': 1.4054651081081644, '망연자실': 1.4054651081081644, '반가운': 1.4054651081081644, '서쪽': 1.4054651081081644, '소식': 1.4054651081081644, '오늘': 1.4054651081081644, '으로': 1.4054651081081644, '이어졌는데요': 1.4054651081081644, '인해': 1.4054651081081644, '있습니다': 1.0, '중심': 1.4054651081081644, '폭염': 1.0, '피해서': 1.4054651081081644, '하고': 1.4054651081081644, '휴일': 1.0}


## 유사도

In [16]:
# 유사도 모듈 선언
from sklearn.metrics import jaccard_score
from sklearn.metrics.pairwise import cosine_similarity, euclidean_distances, manhattan_distances

In [10]:
import numpy as np

### jaccard_score
두 문장의 길이가 다르더라도 가능하다

In [13]:
jaccard_score(np.array([1,1,0,0]), np.array([1,1,0,2]), average = None)[0]

0.5

### cosine_similarity 결과값이 크면 클수록 유사하다
문장의 길이가 동일해야 하는 문제점이 있다.  

문장의 길이가 다를때 평균을 구해서 유사도를 구한다 -> sent 버트

In [17]:
cosine_similarity(TDM[0:1], TDM[1:2])

array([[0.17952266]])

### euclidean_distances

In [18]:
euclidean_distances(TDM[0:1], TDM[1:2])

array([[1.28099753]])

### manhattan_distances

In [19]:
manhattan_distances(TDM[0:1], TDM[1:2])

array([[4.86774417]])

### 백터 전체에 관해서 normalization 진행
각각의 백터의 대해서 normalization 을 하는것이 정확하다  

tfidf_sum_1 = np.sum(TDM[0])  

tfidf_norm_1 = TDM[0] / tfidf_sum_1

In [20]:
tfidf_sum = np.sum(TDM)
tfidf_norm = TDM / tfidf_sum

euclidean_distances(tfidf_norm[0 : 1], tfidf_norm[1 : 2])

array([[0.20491229]])

# baBI dataset 
https://research.facebook.com/downloads/babi

# SQuAD dataset
https://rajpurkar.github.io/SQuAD-explorer