## 3.1.1 통계 기반 기법의 문제점

- 통계 기반 기법 : 주변 단어의 빈도를 기초로 단어를 표현
    - 단어의 동시 발생 행렬을 만들고 그 행렬에 SVD(차원 감소를 위한 특잇값 분해)를 적용하여 밀집벡터(단어의 분산 표현)을 얻었다.
- **그러나** 대규모 말뭉치를 다룰때는 데이터가 커져서 문제가 생긴다.

추론 기반 기법에서는...
- 신경망을 이용하는 경우 미니배치로 학습한다.
- 나눠 학습하기 때문에 학습 속도를 높일 수 있다.

## 3.1.2 추론 기반 기법 개요
맥락을 입력하면 모델은 각 단어의 출현 확률을 출력한다.  
이 틀 안에서 말뭉치를 사용해 모델이 올바른 추측을 내놓도록 학습시킨다. 

## 3.1.3. 신경망에서의 단어 처리
먼저 단어를 '고정 길이의 벡터'로 변환시켜야 하는데, 이 방법이 **'원핫 벡터'** 로 변환하는 것이다. 'You ___ goodbye and I say hello'에서 입력층의 뉴런은 총 7개이고, 각 해당되는 단어의 자리에 1을 부여한다.

| 단어(텍스트) | 단어 ID | one-hot vector        |
| ------------ | ------- | --------------------- |
| you          | 0       | [1, 0, 0, 0, 0, 0, 0] |
| goodbye      | 2       | [0, 0, 1, 0, 0, 0, 0] |

이 신경망은 완전연결계층이므로 각각의 노드가 이웃 층의 모든 노드와 연결되어 있다. 이 사이에는 weight가 존재하여, 입력층 뉴런과의 **가중합**이 **hidden layer**가 된다.

In [4]:
import numpy as np

c=np.array([[1,0,0,0,0,0,0]]) #입력층 (one-hot)
W=np.random.randn(7,3)        #가중치 (랜덤한 값) 7x3크기의 행렬
h=np.matmul(c,W)              #은닉층 노드
print(h)

[[ 0.35603717  1.10040293 -1.18645808]]


완전연결계층의 계산은 행렬 곱으로 수행할 수 있고, 행렬 곱은 넘파이의 np.matmul()이 해결해준다.  
위의 코드에서 c는 원핫 표현이며, 단어 ID에 대응하는 원소만 1이고 그 외에는 0인 벡터이다.  
따라서, c와 W의 행렬곱은 가중치 W의 행벡터 하나를 뽑아낸 것과 같다.

![image-2.png](attachment:image-2.png)

# 3.2 단순한 word2vec
## 3.2.1. CBOW 모델의 추론 처리
- **CBOW(Continuous Bag-Of-Words)** 모델은 맥락(context, 주변 단어)로부터 타깃(target, 중심 단어)을 추측하는 신경망이다.
- 따라서 입력은 맥락이다. ("say"양 옆으로 있는 "you", "goodbye")

![image.png](attachment:image.png)
- 입력층이 2개있고, 은닉층을 거쳐 출력층에 도달한다. 
    - *입력층이 2개인 이유*는 맥락으로 고려할 단어를 2개("you","goodbye")로 정했기 때문이다. 즉, 맥락에 포함시킬 단어가 N개 라면 입력층도 N개이다.
- **은닉층**의 뉴런은 입력층의 완전연결계층에 의해 변환된 값이 되는데, 입력층이 여러개이면 전체를 '평균'한다.
    - ex) 완전연결계층에 의한 첫번째 입력층이 h1으로 변환되고, 두번째 입력층이 h2로 변환되었다고 하면, 은닉층의 뉴런은 1/2(h1+h2)가 되는 것이다.
- **출력층**의 뉴런은 총 7개인데, 해당 단어의 수(vocab_size)과 같고, 이 뉴런 하나하나가 각각의 단어에 대응한다. 
    - 출력층의 뉴런은 각 단어의 점수를 뜻하며, 점수가 높을수록 대응 단어의 출현 확률도 높아진다. softmax 함수를 적용해서 확률을 얻을 수 있다.
- Win의 각 행과 Wout의 각 열이 바로 단어의 분산 표현이 된다.
- 따라서 학습을 진행할수록 맥락에서 출현하는 단어를 잘 추측하는 방향으로 이 분산 표현들이 갱신된다. 또한 이곳에는 '단어의 의미'도 잘 녹아들어 있다!!

### CBOW 모델의 추론 처리

In [5]:
import sys

In [8]:
print(sys.path)

['/Users/minjikim/GitHub/NLP-studies', '/Users/minjikim/opt/anaconda3/lib/python39.zip', '/Users/minjikim/opt/anaconda3/lib/python3.9', '/Users/minjikim/opt/anaconda3/lib/python3.9/lib-dynload', '', '/Users/minjikim/opt/anaconda3/lib/python3.9/site-packages', '/Users/minjikim/opt/anaconda3/lib/python3.9/site-packages/aeosa', '..']


In [28]:
sys.path.append('ch03/cbow_predict.py')

In [29]:
from common.layers import MatMul

ImportError: cannot import name 'MatMul' from 'common.layers' (unknown location)

In [4]:
print(os)

<module 'os' from '/Users/minjikim/opt/anaconda3/lib/python3.9/os.py'>


In [15]:
sys.path

['/Users/minjikim/GitHub/NLP-studies',
 '/Users/minjikim/opt/anaconda3/lib/python39.zip',
 '/Users/minjikim/opt/anaconda3/lib/python3.9',
 '/Users/minjikim/opt/anaconda3/lib/python3.9/lib-dynload',
 '',
 '/Users/minjikim/opt/anaconda3/lib/python3.9/site-packages',
 '/Users/minjikim/opt/anaconda3/lib/python3.9/site-packages/aeosa',
 '..']

In [25]:
from common import *

In [26]:
import sys
import numpy as np
from common.layers import MatMul

ImportError: cannot import name 'MatMul' from 'common.layers' (unknown location)

In [27]:
import sys
from common.util import preprocess

ModuleNotFoundError: No module named 'common.util'