# Chap3. word2vec
## 3.3. 학습 데이터 준비

이번에도 지금까지와 마찬가지로 "You say goodbye and I say hello.' 한 문장 말뭉치를 사용할 것이다.

🏷 *Meno*<br>
한 Chapter가 끝날때 마다 리뷰를 하고, 내가 무엇을 배웠는지, 어떤 점이 중요한지 기록하고 리마인드 하는 시간을 가져보면 어떨까?🤔  -20.03.25.Wed-

하나하나 지식을 쌓아가는 과정은 즐겁지만 지식이 계속해서 쌓여가면서 연결이 안되는 것 같은 느낌을 받을 때가 있다.
계속해서 정리를 하고, 기존의 지식과 연결하는 과정이 필요하다고 생각한다.

* word2vec의 입력과 출력
    * word2vec의 입력과 출력은 어떻게 될까?
    * word2vec에서 이용하는 신경망의 입력은 <code>'맥락'</code>이다.
    * 그리고 정답 레이블은 맥락에 둘러싸인 중앙의 단어, 즉 <code>'타겟'</code>이다.
    * 다시말해 신경망에 '맥락'을 입력했을 때 '타킷'이 출현할 확률을 높이는 것이 <code>학습의 목표</code>이다.

말뭉치로부터 목표로 하는 단어를 '타겟'으로, 그 주변의 단어를 '맥락'으로 뽑아낸다.<br>
이러한 작업을 말뭉치 안에 양 끝 단어는 제외한 모든 단어에 대해 수행한다. (처음과 끝 단어는 제외한다)<br>
이렇게 만들어진 맥락의 각 행은 신경망의 입력으로 사용되고, 타깃의 각 행은 신경망의 정답 레이블(예측해야 하는 단어)이 된다. <br>
참고로, 각 샘플 데이터에서 맥락의 수는 여러개가 될 수 있으나 타겟의 수는 반드시 하나여야 한다.

In [1]:
# 우선 말뭉치에서 텍스트를 단어 ID로 변환해야 한다.

import sys
sys.path.append('..')
from common.util import preprocess

text = 'You say goodbye and I say hello.'
corpus, word_to_id, id_to_word = preprocess(text)  # 앞서 util에 구현해 놓은 preprocess 함수를 통해 다음의 값을 리턴
                                                   # corpus: 단어의 ID 배열
                                                   # word_to_id: 단어와 단어의 ID에 대한 딕셔러니
                                                   # id_to_word: 단어의 ID와 단어에 대한 딕셔너리
print(corpus)

[0 1 2 3 4 1 5 6]


In [2]:
print(id_to_word)

{0: 'you', 1: 'say', 2: 'goodbye', 3: 'and', 4: 'i', 5: 'hello', 6: '.'}


다음으로 corpus로 부터 맥락과 타겟을 만들어낸다

* copurs로부터 만든 맥락과 타겟
    * 맥락은 2차원 배열이다.
    * 맥락의 0번째 차원에는 각 맥락 데이터가 저장된다.
    * 정확하게 말하면, context[0]에는 0번째 맥락이 저장되고, context[1]에는 1번째 맥락이 저장된다.

**맥락과 타겟을 구하는 함수 구현**

In [3]:
import numpy as np

def create_contexts_target(corpus, window_size=1):
    target = corpus[window_size:-window_size]  # 재미있는 인덱싱 표현이다.
    contexts = []
    
    for idx in range(window_size, len(corpus)-window_size):
        cs = [] # cs?
        for t in range(-window_size, window_size + 1):
            if t == 0:
                continue
            cs.append(corpus[idx + t])
        contexts.append(cs)
        
    return np.array(contexts), np.array(target)
        

In [4]:
contexts, target = create_contexts_target(corpus, window_size=1)

print('context: ', contexts)
print('target: ', target)

context:  [[0 2]
 [1 3]
 [2 4]
 [3 1]
 [4 5]
 [1 6]]
target:  [1 2 3 4 1 5]


이것으로 말뭉치로부터 맥락과 타겟을 만들었다. 나중에 이를 CBOW모델에 넘겨주면 된다.

📌 &lt;To-do&gt;
common/util.py create_contexts_target(corpus, window_size=1)함수 구현

** util create_contexts_target()함수 불러서 실험해보기 **

In [6]:
import sys
sys.path.append('..')
from common.util import preprocess, create_contexts_target
import numpy as np


text = 'You say goodbye and I say hello.'
corpus, word_to_id, id_to_word = preprocess(text)

contexts, target = create_contexts_target(corpus)
print('contexts: ', contexts)
print('target: ', target)

contexts:  [[0 2]
 [1 3]
 [2 4]
 [3 1]
 [4 5]
 [1 6]]
target:  [1 2 3 4 1 5]


---
연구실에서 이어서 합시다...! 20.03.25.tue am 9:35

조금은 납득이 안가는 부분이 있다...<br>
context에 [3 1], [4 5], [1 6]은 무엇인가??

In [33]:
# 수정

import numpy as np

def create_contexts_target(corpus, window_size=1):
    target = corpus[window_size:-window_size]  # 재미있는 인덱싱 표현이다.
    contexts = []
    
    for idx in range(window_size, len(corpus)-window_size): ## 수정 len(corpus) - window_size => len(corpus)
                                                            # len(corpus)까지 할 경우, 15 line의 corpus인덱스 번호가 넘어간다.
        cs = [] # cs?
        for t in range(-window_size, window_size + 1): 
            if t == 0:
                continue
            cs.append(corpus[idx + t])
#         print(idx)
        contexts.append(cs)
        
    return np.array(contexts), np.array(target)
        

In [34]:
contexts, target = create_contexts_target(corpus, window_size=1)

print('context: ', contexts)
print('target: ', target)

context:  [[0 2]
 [1 3]
 [2 4]
 [3 1]
 [4 5]
 [1 6]]
target:  [1 2 3 4 1 5]


### 3.3.2 원핫 표현으로 변환 

계속해서 맥라과 타깃을 원핫 표현으로 바꿔보자<br>
맥락과 타깃 단어 ID에서 원핫 표현으로 변환하면 된다.<br>
이 때 다시 한번 각각의 다차원 배열의 형상에 주목해야 한다.

In [35]:
print('context.shape: ', contexts.shape)
print('target.shape: ', target.shape)

context.shape:  (6, 2)


AttributeError: 'numpy.ndarray' object has no attribute 'shaep'

코드를 다시 한 번 봐야겠다...!

이번장을 끝나고 나서 내가 할 일...

word2vec란 무엇인가?<br>
word2vec에 대해 내가 아는 모든 것을 정리한 문서!<br>

📌 &lt;To-do&gt;
* word2vec에 대한 모든것(내가 아는 선에서)

In [20]:
a = [1, 2, 3, 4, 5]
b = 1
a[b:-b]

[2, 3, 4]

In [18]:
for i in range(1, 5):
    print(i)

1
2
3
4


In [21]:
for i in range(1, len(a)):
    print(i)

1
2
3
4


In [9]:
for i in range(-1, 3):
    print(i)  # [-1, 0, 1, 2]

-1
0
1
2
