## NLP04
- 노드17 워드 임베딩

### 노드17 워드 임베딩

#### 17-02 벡터화
- Bag of words
- DTM(Document-Term Matrix)
- TF-IDF
- 원-핫 인코딩(one-hot encoding)
  - 고양이 [0,0,0,1..], 강아지 [1,0,0,0..] 같이 0과 1의 벡터로 표현

#### 17-03 벡터화-실습
- One-hot encoding 구현

##### Step 1. 패키지 설치하기
- LMS 환경에서는 설치되어 있음
- pip install konlpy 명령어

In [1]:
import re
from konlpy.tag import Okt
from collections import Counter
print("임포트 완료")

임포트 완료


In [2]:
text = "임금님 귀는 당나귀 귀! 임금님 귀는 당나귀 귀! 실컷~ 소리치고 나니 속이 확 뚫려 살 것 같았어."
text

'임금님 귀는 당나귀 귀! 임금님 귀는 당나귀 귀! 실컷~ 소리치고 나니 속이 확 뚫려 살 것 같았어.'

##### Step 2. 전처리
- 정규 표현식을 사용하여 특수문자들을 제거
  - 참고문서 : https://www.unicode.org/charts/PDF/U3130.pdf
  - 참고문서2 : https://www.unicode.org/charts/PDF/UAC00.pdf
- 한글, 공백을 제외한 모든 문자를 표현하는 regex : [^ㄱ-ㅎㅏ-ㅣ가-힣 ]

In [3]:
reg = re.compile("[^ㄱ-ㅎㅏ-ㅣ가-힣 ]")
text = reg.sub('', text)
print(text)

임금님 귀는 당나귀 귀 임금님 귀는 당나귀 귀 실컷 소리치고 나니 속이 확 뚫려 살 것 같았어


##### Step 3. 토큰화 이야기
- 참고(Okt) : https://konlpy.org/en/latest/api/konlpy.tag/#okt-class

In [4]:
okt=Okt()
tokens = okt.morphs(text)
print(tokens)

['임금님', '귀', '는', '당나귀', '귀', '임금님', '귀', '는', '당나귀', '귀', '실컷', '소리', '치고', '나니', '속이', '확', '뚫려', '살', '것', '같았어']


##### Step4. 단어장 만들기
- 빈도수가 높은 단어일수록 낮은 정수를 부여
- 파이썬의 Counter 서브클래스를 사용
  - Collections.Counter


In [5]:
vocab = Counter(tokens)
print(vocab)

Counter({'귀': 4, '임금님': 2, '는': 2, '당나귀': 2, '실컷': 1, '소리': 1, '치고': 1, '나니': 1, '속이': 1, '확': 1, '뚫려': 1, '살': 1, '것': 1, '같았어': 1})


In [6]:
vocab['임금님']

2

In [7]:
vocab_size = 5
vocab = vocab.most_common(vocab_size) # 등장 빈도수가 높은 상위 5개의 단어만 저장
print(vocab)

[('귀', 4), ('임금님', 2), ('는', 2), ('당나귀', 2), ('실컷', 1)]


In [8]:
word2idx={word[0] : index+1 for index, word in enumerate(vocab)}
print(word2idx)

{'귀': 1, '임금님': 2, '는': 3, '당나귀': 4, '실컷': 5}


##### Step 5: 원-핫 벡터 만들기

In [9]:
def one_hot_encoding(word, word2index):
       one_hot_vector = [0]*(len(word2index))
       index = word2index[word]
       one_hot_vector[index-1] = 1
       return one_hot_vector
print("슝=3")

슝=3


In [10]:
one_hot_encoding("임금님", word2idx)

[0, 1, 0, 0, 0]

##### 케라스를 통한 원-핫 인코딩(one-hot encoding)

In [11]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical
print("임포트 완료")

E0000 00:00:1750135130.488384     137 cuda_dnn.cc:8579] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
E0000 00:00:1750135130.502442     137 cuda_blas.cc:1407] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
W0000 00:00:1750135130.552904     137 computation_placer.cc:177] computation placer already registered. Please check linkage and avoid linking the same target more than once.
W0000 00:00:1750135130.552946     137 computation_placer.cc:177] computation placer already registered. Please check linkage and avoid linking the same target more than once.
W0000 00:00:1750135130.552949     137 computation_placer.cc:177] computation placer already registered. Please check linkage and avoid linking the same target more than once.
W0000 00:00:1750135130.552952     137 computation_placer.cc:177] computation placer already registered. Please check linka

임포트 완료


In [12]:
text = [['강아지', '고양이', '강아지'],['애교', '고양이'], ['컴퓨터', '노트북']]
text

[['강아지', '고양이', '강아지'], ['애교', '고양이'], ['컴퓨터', '노트북']]

In [13]:
t = Tokenizer()
t.fit_on_texts(text)
print(t.word_index) # 각 단어에 대한 인코딩 결과 출력.

{'강아지': 1, '고양이': 2, '애교': 3, '컴퓨터': 4, '노트북': 5}


In [14]:
vocab_size = len(t.word_index) + 1
print("슝=3")

슝=3


In [15]:
sub_text = ['강아지', '고양이', '강아지', '컴퓨터']
encoded = t.texts_to_sequences([sub_text])
print(encoded)

[[1, 2, 1, 4]]


In [16]:
one_hot = to_categorical(encoded, num_classes = vocab_size)
print(one_hot)

[[[0. 1. 0. 0. 0. 0.]
  [0. 0. 1. 0. 0. 0.]
  [0. 1. 0. 0. 0. 0.]
  [0. 0. 0. 0. 1. 0.]]]


#### 17-04 워드 임베딩


##### 희소 벡터(Sparse Vector)의 문제점
- DTM, TF-IDF, 원-핫 벡터는 단어장의 크기에 영향을 받는 희소 벡터(sparse vector) 라는 특징
- 차원의 저주(Curse of Dimensionality)
- 기계가 단어 벡터 간 유사도를 구할 수 없다는 점은 오랫동안 자연어 처리의 걸림

##### 워드 임베딩(Word Embedding)
- 단어를 벡터로 바꾸지만, 벡터 길이를 일정하게 정해줌
- 일반적으로 단어 길이 대비 벡터의 길이 매우 작으므로 dense하게 됨
- 워드 임베딩은 2003년 요슈아 벤지오(Yoshua Bengio) 교수가 NPLM(Neural Probabilistic Language Model) 이란 모델
- 2013년 구글은 NPLM을 개선하여 정밀도와 속도를 향상시킨 Word2Vec 을 제안
- Word2Vec 이후로 FastText 나 GloVe 등과 같은 임베딩 방법이 추가로 제안

#### 17-05 Word2Vec (1) 분포 가설
- Word2Vec의 핵심 아이디어는 분포 가설(distributional hypothesis) 을 따름
- 이 가설은 언어학자 존 루퍼트 퍼스(John Rupert Firth)의 다음 인용 참고
  - You shall know a word by the company it keeps (곁에 오는 단어들을 보면 그 단어를 알 수 있다)
- 분포 가설 :‘비슷한 문맥에서 같이 등장하는 경향이 있는 단어들은 비슷한 의미를 가진다.’
.

#### 17-06 Word2Vec (2) CBoW
- CBoW는 주변에 있는 단어들을 통해 중간에 있는 단어들을 예측하는 방법
- Skip-Gram은 중간에 있는 단어로 주변 단어들을 예측하는 방법

##### CBoW(Continuous Bag of words)
- 예문 : "I like natural language processing."
  - 이때 예측해야 하는 단어 "natural"을 중심 단어(center word) 라고 하고, 예측에 사용되는 단어들을 주변 단어(context word) 
  - 중심 단어를 예측하기 위해 앞, 뒤로 몇 개의 단어를 볼지를 결정를 결정했다면, 그 범위를 윈도우(window) 
  - 윈도우 크기를 정했다면, 윈도우를 계속 움직여서 주변 단어와 중심 단어를 바꿔가며 학습을 위한 데이터 셋을 만들 수 있는데,    
    이 방법을 슬라이딩 윈도우(sliding window) 
  - 이렇게 선택된 데이터셋에서 단어 각각은 원-핫 인코딩되어 원-핫 벡터가 되고, 원-핫 벡터가 CBoW나 Skip-gram의 입력
-  Word2Vec은 은닉층이 1개라서 딥 러닝이라기보다는 얕은 신경망(Shallow Neural Network) 을 학습
  - CBoW에서는 이 벡터들을 모두 합하거나, 평균을 구한 값 을 최종 은닉층의 결과
  - Word2Vec에서는 은닉층에서 활성화 함수나 편향(bias)을 더하는 연산을 하지 않음
  - Word2Vec에서의 은닉층은 활성화 함수가 존재하지 않고, 단순히 가중치 행렬과의 곱셈만을 수행하기에   
    기존 신경망의 은닉층과 구분 지어 투사층(projection layer)라고도 부름

#### 17-07. Word2Vec (3) Skip-gram
- Skip-gram과 Netative sampling

##### Skip-gram
- 주변 단어로 중심 단어를 예측하는 것이 아니라, 중심 단어로부터 주변 단어를 예측
- 데이터셋의 형식은 (중심 단어, 주변 단어)임을 가정

##### 네거티브 샘플링(negative sampling)
- Word2Vec를 사용할 때는 SGNS(Skip-Gram with Negative Sampling) 을 사용
- Word2Vec의 구조는 연산량이 지나치게 많아 실제로 사용하기 어려움
  - skipgram의 학습 과정은, 출력층에서 softmax함수를 통과한 V차원 벡터와 레이블 V차원 주변 단어의   
    원-핫 벡터와의 오차를 구하고, 역전파를 통해 모든 단어에 대한 임베딩 벡터을 조정
- 네거티브 샘플링은 연산량을 줄이기 위해서 소프트맥스 함수를 사용한 V개 중 1개를 고르는    
  다중 클래스 분류 문제 를 시그모이드 함수를 사용한 이진 분류 문제 로 바꾸는 것

#### 17-08. Word2Vec (4)
- 영어 Word2Vec 실습과 OOV 문제

##### 영어 Word2Vec 실습
- cloud(LMS)에는 이미 설치되었으니 명령어만 참고
  - pip install nltk
  - pip install gensim
- 참고(파라미터 의미)
  - vector size = 학습 후 임베딩 벡터의 차원
  - window = 컨텍스트 윈도우 크기
  - min_count = 단어 최소 빈도수 제한 (빈도가 적은 단어들은 학습하지 않아요.)
  - workers = 학습을 위한 프로세스 수
  - sg = 0은 CBoW, 1은 Skip-gram.

In [17]:
import nltk
nltk.download('abc')
nltk.download('punkt')

[nltk_data] Downloading package abc to /aiffel/nltk_data...
[nltk_data]   Package abc is already up-to-date!
[nltk_data] Downloading package punkt to /aiffel/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [18]:
from nltk.corpus import abc
corpus = abc.sents()
print("슝~")

슝~


In [19]:
print(corpus[:3])

[['PM', 'denies', 'knowledge', 'of', 'AWB', 'kickbacks', 'The', 'Prime', 'Minister', 'has', 'denied', 'he', 'knew', 'AWB', 'was', 'paying', 'kickbacks', 'to', 'Iraq', 'despite', 'writing', 'to', 'the', 'wheat', 'exporter', 'asking', 'to', 'be', 'kept', 'fully', 'informed', 'on', 'Iraq', 'wheat', 'sales', '.'], ['Letters', 'from', 'John', 'Howard', 'and', 'Deputy', 'Prime', 'Minister', 'Mark', 'Vaile', 'to', 'AWB', 'have', 'been', 'released', 'by', 'the', 'Cole', 'inquiry', 'into', 'the', 'oil', 'for', 'food', 'program', '.'], ['In', 'one', 'of', 'the', 'letters', 'Mr', 'Howard', 'asks', 'AWB', 'managing', 'director', 'Andrew', 'Lindberg', 'to', 'remain', 'in', 'close', 'contact', 'with', 'the', 'Government', 'on', 'Iraq', 'wheat', 'sales', '.']]


In [20]:
print('코퍼스의 크기 :',len(corpus))

코퍼스의 크기 : 29059


In [21]:
from gensim.models import Word2Vec

model = Word2Vec(sentences = corpus, vector_size = 100, window = 5, min_count = 5, workers = 4, sg = 0)
print("모델 학습 완료!")

모델 학습 완료!


In [22]:
model_result = model.wv.most_similar("man")
print(model_result)

[('woman', 0.9233262538909912), ('skull', 0.9110112190246582), ('Bang', 0.9056515097618103), ('asteroid', 0.9051857590675354), ('third', 0.9020100235939026), ('baby', 0.8994172811508179), ('dog', 0.8985921740531921), ('bought', 0.8975201845169067), ('rally', 0.8912350535392761), ('disc', 0.8889064192771912)]


In [23]:
from gensim.models import KeyedVectors

model.wv.save_word2vec_format('~/aiffel/word_embedding/w2v') 
loaded_model = KeyedVectors.load_word2vec_format("~/aiffel/word_embedding/w2v")
print("모델  load 완료!")

모델  load 완료!


In [24]:
model_result = loaded_model.most_similar("man")
print(model_result)

[('woman', 0.9233262538909912), ('skull', 0.9110112190246582), ('Bang', 0.9056515097618103), ('asteroid', 0.9051857590675354), ('third', 0.9020100235939026), ('baby', 0.8994172811508179), ('dog', 0.8985921740531921), ('bought', 0.8975201845169067), ('rally', 0.8912350535392761), ('disc', 0.8889064192771912)]


##### Word2Vec의 OOV 문제
- 사전에 없는 단어에 대해서 Word2Vec은 임베딩 벡터값을 얻을 수 없음
  - 해당 단어가 존재하지 않는 경우
  - 오타를 낸 경우

#### 17-09. 임베딩 벡터의 시각화
- 구글이 공개한 임베딩 벡터의 시각화 오픈소스인 임베딩 프로젝터(embedding projector) 를 사용
- 임베딩 프로젝터를 통해서 어떤 임베딩 벡터들이 가까운 거리에 군집이 되어 있고,  
  특정 임베딩 벡터와 유클리드 거리나 코사인 유사도가 높은지 확인
- 참고 사이트
  - https://radimrehurek.com/gensim/models/word2vec.html

##### 임베딩 프로젝터에 tsv 파일 업로드하기
- 참고 사이트
  - https://projector.tensorflow.org/
- 진행과정
  - Step1에는 각각의 벡터값이 저장된 tsv 파일을 업로드
  - Step2에는 메타 데이터의 tsv 파일을 업로드

#### 17-10 FastText
- 페이스북에서 개발한 FastText는 Word2Vec 이후에 등장한 워드 임베딩 방법
- 문자 단위 n-gram(character-level n-gram) 표현을 학습한다
- FastText는 단어 내부의 내부 단어(subwords)들을 학습한다는 아이디어

##### FastText의 학습 방법
- FastText도 Word2Vec과 마찬가지로 네거티브 샘플링을 사용하여 학습
- "(중심 단어, 주변 단어)"의 쌍을 가지고 이 쌍이 포지티브인지 네거티브인지 예측을 진행
- Word2Vec과 다른 점은 학습 과정에서 중심 단어에 속한 문자 단위 n-gram 단어 벡터들을 모두 업데이트

##### OOV와 오타에 대한 대응
- FastText는 Word2Vec과 달리 OOV와 오타에 강건하다(robust) 는 특징
- 이는 단어장에 없는 단어라도, 해당 단어의 n-gram이 다른 단어에 존재하면 이로부터 벡터값을 얻는다는 원리

In [25]:
from gensim.models import FastText
fasttext_model = FastText(corpus, window=5, min_count=5, workers=4, sg=1)
print("FastText 학습 완료!")

FastText 학습 완료!


In [26]:
fasttext_model.wv.most_similar('overacting')

[('resolving', 0.9407715201377869),
 ('fluctuating', 0.9389446973800659),
 ('emptying', 0.9341438412666321),
 ('malting', 0.9323472380638123),
 ('shooting', 0.9312872290611267),
 ('extracting', 0.9308481216430664),
 ('overwhelming', 0.9308262467384338),
 ('mounting', 0.9300415515899658),
 ('debilitating', 0.9286931157112122),
 ('declining', 0.9267855882644653)]

In [27]:
fasttext_model.wv.most_similar('memoryy')

[('memory', 0.9458794593811035),
 ('mechanisms', 0.8634454011917114),
 ('musical', 0.8620406985282898),
 ('mechanism', 0.860693097114563),
 ('basic', 0.8561760187149048),
 ('mechanical', 0.8556269407272339),
 ('imagine', 0.8453862071037292),
 ('technical', 0.8452961444854736),
 ('visual', 0.8408808708190918),
 ('intelligence', 0.839508056640625)]

##### 한국어에서의 FastText
- 음절 단위 FastText
- 자소 단위 FastText
  - 단어에 대해서 초성, 중성, 종성을 분리한다고 하고, 종성이 존재하지 않는 경우에는 _라는 토큰을 대신 사용
  - (참고) https://brunch.co.kr/@learning/8

#### 17-11. GloVe
- 글로브(Global Vectors for Word Representation, GloVe) 는 2014년에 미국 스탠포드 대학에서 개발한 워드 임베딩 방법론
- 워드 임베딩의 두 가지 접근 방법인 카운트 기반과 예측 기반 두 가지 방법을 모두 사용

##### 잠재 의미 분석(LSA, Latent Semantic Analysis)
- LSA를 요약하면 DTM에 특잇값 분해를 사용하여 잠재된 의미를 이끌어내는 방법론
  - 차원 축소의 특성으로 인해 새로운 단어가 추가되면 다시 DTM을 만들어 새로 차원 축소를 해야 한다.
  - 단어 벡터간 유사도를 계산하는 측면에서 Word2Vec보다 성능이 떨어진다.
- Word2Vec은 인공 신경망이 예측한 값으로부터 실제 레이블과의 오차를 구하고, 손실 함수를 통해서 인공 신경망을 학습
  - Glove 연구진은 Word2Vec의 경우에는 LSA보다 단어 벡터 간 유사도를 구하는 능력은 뛰어나지만,    
    LSA처럼 코퍼스의 전체적인 통계 정보를 활용하지는 못한다는 점을 한계로 지적함

##### 윈도우 기반 동시 등장 행렬(Window based Co-occurrence Matrix)
- 윈도우 기반 동시 등장 행렬은 행과 열을 전체 단어장(vocabulary)의 단어들로 구성
- 어떤 i 단어의 윈도우 크기(window Size) 내에서 k 단어가 등장한 횟수를 i행 k열에 기재한 행렬
- 이러한 동시 등장 행렬은 전치(transpose)해도 동일한 행렬이 된다는 특징

##### 동시 등장 확률(Co-occurrence Probability)
- 동시 등장 확률 P(k∣i)는 동시 등장 행렬로부터 특정 단어 i의 전체 등장 횟수를 카운트하고,   
  특정 단어 i가 등장했을 때 어떤 단어 k가 등장한 횟수를 카운트하여 계산한 조건부 확률
- i를 중심 단어(center word), k를 주변 단어(context word)

##### GloVe의 손실 함수 설계하기
- GloVe는 동시 등장 행렬로부터 계산된 동시 등장 확률을 이용해 손실 함수를 설명
- 동시 등장 행렬을 사용하고 있으니 코퍼스의 전체적인 통계 정보를 활용하는 '카운트 기반'의 방법론이면서,   
  손실 함수를 통해 모델을 학습시키므로 '예측 기반'의 방법론
  - (요약) 중심 단어 벡터와 주변 단어 벡터의 내적이 전체 코퍼스에서의 동시 등장 빈도의 로그값이 되도록 만드는 것
- 손실 함수를 이해하기 위해서 GloVe의 변수들을 다음과 같이 정의
  - ${X}$ : 동시 등장 행렬 (Co-occurrence Matrix) 
  - $X_i = \sum_j X_{ij}$: 동시 등장 행렬에서 $i$행의 값을 모두 더한 값  
  - $X_i = \sum_j X_{ij}$: 동시 등장 행렬에서 $i$행의 값을 모두 더한 값  
  - $P_{ik} = P(k \mid i) = \frac{X_{ik}}{X_i}$: 중심 단어 $i$가 등장했을 때 주변 단어 $k$가 등장할 확률  
    - 예: $P(\text{solid} \mid \text{ice})$: 단어 "ice"가 등장했을 때 "solid"가 등장할 확률  
  - $\frac{P_{ik}}{P_{jk}}$: 확률비 (likelihood ratio)  
    - 예: $\frac{P(\text{solid} \mid \text{ice})}{P(\text{solid} \mid \text{steam})} = 8.9$  
  - $\mathbf{w}_i$: 중심 단어 $i$의 임베딩 벡터  
  - $\tilde{\mathbf{w}}_k$: 주변 단어 $k$의 임베딩 벡터  
  - $b_i$, $\tilde{b}_j$: 중심/주변 단어의 편향 (bias) 값  
  - $f(X_{ij})$: 등장 빈도에 따른 가중치 함수  
    - 일반적으로 $f(x) = \left( \frac{x}{x_{\max}} \right)^\alpha$ if $x < x_{\max}$, else $1$  
    - 하이퍼파라미터: $\alpha \in (0,1)$, 예: $\alpha = 0.75$, $x_{\max} = 100$  

$$
J = \sum_{i,j=1}^{V} f(X_{ij}) \left( \mathbf{w}_i^\top \tilde{\mathbf{w}}_j + b_i + \tilde{b}_j - \log X_{ij} \right)^2
$$

##### pre-trained GloVe 모델 실습
- GloVe는 2014년에 개발되었고, 2015년에 1.2 버전이 나온 이후로는 관리되지 않고 있기 때문에    
  최신 버전의 python에서는 GloVe를 설치하는 것이 불가능
- GloVe는 Word2Vec과 같이 OOV 문제를 가지고 있어서 'memoryy'라는 단어는 인식하지 못함.   
  또한 pre-trained GloVe 모델은 한글이나 알파벳 대문자가 포함된 데이터셋으로 학습하지 않았기 때문에    
  알파벳 소문자만 인식한다는 사실에 유의!

In [32]:
import gensim.downloader as api
glove_model = api.load("glove-wiki-gigaword-50")  # glove vectors 다운로드
glove_model.most_similar("dog")  # 'dog'과 비슷한 단어 찾기

[('cat', 0.9218004941940308),
 ('dogs', 0.8513158559799194),
 ('horse', 0.7907583713531494),
 ('puppy', 0.7754920721054077),
 ('pet', 0.7724708318710327),
 ('rabbit', 0.7720814347267151),
 ('pig', 0.7490062117576599),
 ('snake', 0.7399188876152039),
 ('baby', 0.7395570278167725),
 ('bite', 0.7387937307357788)]

In [33]:
glove_model.most_similar('overacting')

[('impudence', 0.7842012047767639),
 ('puerile', 0.7816032767295837),
 ('winningly', 0.7644237875938416),
 ('grossness', 0.7576098442077637),
 ('deconstructions', 0.748936653137207),
 ('over-the-top', 0.7460805773735046),
 ('buffoonery', 0.746045708656311),
 ('impetuosity', 0.7415392398834229),
 ('sophomoric', 0.736961841583252),
 ('zaniness', 0.7353197336196899)]

In [36]:
# glove_model.most_similar('memoryy')
# Glove모델도 오타는 해결 못함