# 17-3. 벡터화 실습: 원-핫 인코딩 구현해보기

In [1]:
import re
from konlpy.tag import Okt
from collections import Counter
print("임포트 완료")

임포트 완료


In [2]:
text = "임금님 귀는 당나귀 귀! 임금님 귀는 당나귀 귀! 실컷~ 소리치고 나니 속이 확 뚫려 살 것 같았어."
text

'임금님 귀는 당나귀 귀! 임금님 귀는 당나귀 귀! 실컷~ 소리치고 나니 속이 확 뚫려 살 것 같았어.'

## 전처리
정규 표현식을 사용하여 특수문자들을 제거

https://www.unicode.org/charts/PDF/U3130.pdf

https://www.unicode.org/charts/PDF/UAC00.pdf

* 한글, 공백을 제외한 모든 문자를 표현하는 regex : [^ㄱ-ㅎㅏ-ㅣ가-힣 ]

In [3]:
reg = re.compile("[^ㄱ-ㅎㅏ-ㅣ가-힣 ]")
text = reg.sub('', text)
print(text)

임금님 귀는 당나귀 귀 임금님 귀는 당나귀 귀 실컷 소리치고 나니 속이 확 뚫려 살 것 같았어


## 토큰화 
* 단어장을 구성하기 위해서는 단어장의 원소인 토큰(token)이라는 단위를 정해야 함.
* 한국어는 주로 형태소 분석기를 통해서 토큰 단위를 나눠줍니다. 
* KoNLPy에 내장된 Okt 형태소 분석기를 사용해보겠습니다.

https://konlpy.org/en/latest/api/konlpy.tag/#okt-class

In [4]:
okt=Okt()
tokens = okt.morphs(text)
print(tokens)

['임금님', '귀', '는', '당나귀', '귀', '임금님', '귀', '는', '당나귀', '귀', '실컷', '소리', '치고', '나니', '속이', '확', '뚫려', '살', '것', '같았어']


##  단어장 만들기

* 빈도수가 높은 단어일수록 낮은 정수를 부여하려고 합니다. 
* 빈도수가 높은 순서대로 낮은 정수를 부여하기 위해서 각 단어의 빈도수를 카운트
* 파이썬의 Counter 서브클래스를 사용해서 단어의 빈도를 카운트해 보겠습니다.

https://docs.python.org/3/library/collections.html#collections.Counter

In [5]:
vocab = Counter(tokens)
print(vocab)

Counter({'귀': 4, '임금님': 2, '는': 2, '당나귀': 2, '실컷': 1, '소리': 1, '치고': 1, '나니': 1, '속이': 1, '확': 1, '뚫려': 1, '살': 1, '것': 1, '같았어': 1})


* 단어가 키(key)로, 단어에 대한 빈도수가 값(value)으로 저장되어 있음. 
* vocab에 단어를 입력하면 빈도수를 리턴합니다. 
* '임금님'이 몇 번 등장했는지 빈도수를 출력해 볼까요?

In [6]:
vocab['임금님']

2

* most_common()는 상위 빈도수를 가진 단어를 주어진 수만큼 리턴
* 등장 빈도수가 높은 단어들을 원하는 개수만큼 얻을 수 있음
* 등장 빈도 수 상위 5개의 단어만 단어장으로 저장해 보기

In [7]:
vocab_size = 5
vocab = vocab.most_common(vocab_size) # 등장 빈도수가 높은 상위 5개의 단어만 저장
print(vocab)

[('귀', 4), ('임금님', 2), ('는', 2), ('당나귀', 2), ('실컷', 1)]


* 높은 빈도수를 가진 단어일수록 낮은 정수 인덱스를 부여

In [8]:
word2idx={word[0] : index+1 for index, word in enumerate(vocab)}
print(word2idx)

{'귀': 1, '임금님': 2, '는': 3, '당나귀': 4, '실컷': 5}


* 최종 단어장 - word2idx를 최종 단어장으로 사용

## 원-핫 벡터 만들기
* 원-핫 인코딩을 하는 함수 생성
* 특정 단어와 단어장을 입력하면 해당 단어의 원-핫 벡터를 리턴

In [9]:
def one_hot_encoding(word, word2index):
       one_hot_vector = [0]*(len(word2index))
       index = word2index[word]
       one_hot_vector[index-1] = 1
       return one_hot_vector
print("슝=3")

슝=3


'임금님'이라는 단어의 원-핫 벡터 얻어보기

In [10]:
one_hot_encoding("임금님", word2idx)

[0, 1, 0, 0, 0]

## 케라스를 통한 원-핫 인코딩(one-hot encoding)
* 단어장을 만드는 역할을 해주는 케라스 Tokenizer와 원-핫 인코딩을 위한 도구인 to_categorical을 사용

In [11]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical
print("임포트 완료")

임포트 완료


 예로 들었던 3개의 문서를 text에 저장

In [12]:
text = [['강아지', '고양이', '강아지'],['애교', '고양이'], ['컴퓨터', '노트북']]
text

[['강아지', '고양이', '강아지'], ['애교', '고양이'], ['컴퓨터', '노트북']]

* 케라스 토크나이저를 사용하여, 주어진 텍스트로부터 단어장을 만듦.
* 단어장의 각 단어에 고유한 정수를 맵핑

In [13]:
t = Tokenizer()
t.fit_on_texts(text)
print(t.word_index) # 각 단어에 대한 인코딩 결과 출력.

{'강아지': 1, '고양이': 2, '애교': 3, '컴퓨터': 4, '노트북': 5}


위의 결과는 각 단어에 고유한 정수가 맵핑되었음을 보여줍니다. 이제 단어장의 크기를 vocab_size라는 변수에 저장해두겠습니다.

In [14]:
vocab_size = len(t.word_index) + 1
print("슝=3")

슝=3


* vocab_size를 구할 때 1을 더해주는 이유는, 실제로 자연어 처리를 할 때는 0번 단어가 특별 토큰으로 단어장에 추가되는 경우가 많기 때문
* 주로 0번은 패딩(padding) 작업을 위한 패딩 토큰으로 사용되는데, 여기서는 0번 단어도 고려해주는 것이 좋다
* word_index에 1을 더해서 단어장의 크기를 저장하

* 이제 vocab_size는 6이 되었습니다.

케라스 토크나이저에 단어장이 저장되었으므로, 단어장에 속한 단어들로 구성된 텍스트 시퀀스는 케라스 토크나이저를 통해 정수 시퀀스로 변환할 수 있습니다.






In [15]:
sub_text = ['강아지', '고양이', '강아지', '컴퓨터']
encoded = t.texts_to_sequences([sub_text])
print(encoded)

[[1, 2, 1, 4]]


위의 결과는 텍스트 시퀀스가 정수 시퀀스로 변환되는 것을 보여줍니다. 앞에서 강아지는 1번, 고양이는 2번, 컴퓨터는 4번으로 정수가 부여되었습니다. 이렇게 변환된 정수 시퀀스는 to_categorical()을 사용해 원-핫 벡터의 시퀀스로 변환할 수 있습니다.

In [16]:
one_hot = to_categorical(encoded, num_classes = vocab_size)
print(one_hot)

[[[0. 1. 0. 0. 0. 0.]
  [0. 0. 1. 0. 0. 0.]
  [0. 1. 0. 0. 0. 0.]
  [0. 0. 0. 0. 1. 0.]]]


# 17-4. 워드 임베딩
* 원-핫 벡터를 통해서는 단어 벡터 간 유사도를 구할 수 없음
* 기계가 단어장 크기보다 적은 차원의 밀집 벡터(dense vector)를 학습'하는 워드 임베딩(word embedding) 이 제안되었습니다. 이를 통해 얻는 밀집 벡터는 각 차원이 0과 1이 아닌 다양한 실숫값을 가지며, 이 밀집 벡터를 임베딩 벡터(embedding vector) 라고 합니다.

## 워드 임베딩(Word Embedding)
* 워드 임베딩에서도 한 단어를 벡터로 바꿈.
* but 그 벡터의 길이를 일정하게 정해wna
* 더 많은 단어가 있다고 해서 벡터의 길이가 길어지지 않dma
* 일반적으로 벡터의 길이가 단어장 크기보다 매우 작기 때문에 각 벡터 값에 정보가 축약되어야 하고 결국 밀집 벡터(dense vector) 가 됨.

밀집 벡터는 희소 벡터가 가진 특성을 반대로 표현하고 싶어서 만들어진 말인데요. 대부분 값이 0인 희소 벡터와는 반대로 밀집 벡터에서는 대부분 값이 0이 아닙니다. 또 희소 벡터에서는 각 벡터 값의 의미가 True/False나 갯수처럼 단순했다면 밀집 벡터에서는 각 벡터 값의 의미가 파악하기 어려울 정도로 많은 의미를 함축하고 있죠.

![image.png](attachment:image.png)


* 워드 임베딩에서는, 단어가 갖는 특성을 계산할 수 있는 방법이 제안 됨.
* 단어 사이의 관계나 문장에서 단어가 갖는 특징을 수식으로 나타내고 계산해서 정확한 숫자로 나타내도록 함
* 이 값이 클수록(또는 작을 수록) 적합한 표현이라고 객관적으로 판단할 수 있음

예) 비슷한 의미를 가진 두 단어의 내적이 클수록 잘 변환된 벡터라고 판단하는 거죠. 그러면 비슷한 단어의 내적은 커지고 반대되는 단어의 내적은 작아지도록 만드는 식을 통해 벡터를 계산해 낼 수 있습니다. 이렇게 알아보기 쉬운 단순한 방법을 쓰면 좋겠지만 안타깝게도 실제로 벡터 변환에 이용되는 방법들은 주로 통계학에 기반을 둔 복잡한 식을 활용합니다.

또, 시간이 흘러 이제는 인공 신경망을 이용한 방법이 많이 사용되는데요. 인공 신경망을 학습해가는 과정을 이용해 벡터의 값을 조정해 가는 방법입니다. 우선 무작정 단어의 적합성이나 유사도를 계산해 보고 그 값이 커져야 하는지 작아져야 하는지 따져봅니다. 그런 후 단어 벡터의 값을 조금씩 바꿔 갑니다. 마치 딥러닝에서 손실 값을 이용해 가중치를 바꿔 가듯이 단어 벡터의 값을 조금씩 바꿔 가는 거죠. 이렇게 반복해 학습이 끝나면 단어가 들어가야 할 위치나 의미에 맞게 단어 벡터의 값이 결정됩니다.

![image-2.png](attachment:image-2.png)

# 17-5. Word2Vec
## (1) 분포 가설
Word2Vec은 앞서 말했듯이 단어를 벡터로 표현하는 방법의 일종으로 저차원으로 이루어져 있고, 단어의 의미를 여러 차원에 분산하여 표현한 벡터입니다.

Word2Vec의 핵심 아이디어는 분포 가설(distributional hypothesis) 을 따릅니다. 이 가설은 언어학자 존 루퍼트 퍼스(John Rupert Firth)의 다음 인용으로 설명됩니다.

You shall know a word by the company it keeps (곁에 오는 단어들을 보면 그 단어를 알 수 있다).

이 인용은 어떤 단어들의 의미를 보려면 주변 단어들을 보라는 의미를 내포하고 있습니다. 그렇다면 분포 가설은 어떤 가설인가요?

분포 가설 : ‘비슷한 문맥에서 같이 등장하는 경향이 있는 단어들은 비슷한 의미를 가진다.’

분포 가설에 따르는 Word2Vec은 같이 등장하는 경향이 적은 단어들에 비해 '강아지', '애교, '귀여운'과 같은 단어들을 상대적으로 유사도가 높은 벡터로 만듭니다.


Word2Vec에는 크게 
* CBoW - 주변에 있는 단어들을 통해 중간에 있는 단어들을 예측
* Skip-gram - 위와는 반대로,중간에 있는 단어로 주변 단어들을 예측

두 가지 방법이 있습니다.

## (2) CBoW (Continuous Bag of words)
![image-2.png](attachment:image-2.png)
![image-3.png](attachment:image-3.png)
![image-4.png](attachment:image-4.png)
위의 그림은 원-핫 벡터로 변환된 다수의 주변 단어를 이용해 원-핫 벡터로 변환된 중심 단어를 예측할 때의 CBoW의 동작 메커니즘을 보여주고 있습니다. 윈도우 크기가 m이라면 2m개의 주변 단어를 이용해 1개의 중심 단어를 예측하는 과정에서 두 개의 가중치 행렬(matrix)을 학습하는 것이 목적이죠.

그림에서 주황색 사각형이 첫 번째 가중치 행렬 
W
W, 초록색 사각형이 두 번째 가중치 행렬 
W
′
W 
′
 입니다. 두 개의 가중치 행렬이 있다는 것을 인공 신경망 구조에서 보면 CBoW는 입력층, 은닉층, 출력층 이렇게 3개의 층으로만 구성된 인공 신경망이라는 의미입니다. 사실 Word2Vec은 은닉층이 1개라서 딥 러닝이라기보다는 얕은 신경망(Shallow Neural Network) 을 학습한다고 볼 수 있겠네요!

CBoW 신경망 구조에서 주변 단어 각각의 원-핫 벡터는 입력층에 위치하고 중심 단어의 원-핫 벡터가 위치한 곳은 출력층이라고 볼 수 있습니다. CBoW에서 사실 입력층과 출력층의 크기는 단어 집합의 크기인 
V
V로 이미 고정되어 있습니다. (원-핫 벡터로 표현되었기 때문이겠죠?) 하지만 은닉층의 크기는 사용자가 정의해주는 하이퍼파라미터인데요. 여기서는 은닉층의 크기를 
N
N이라고 해보겠습니다.

우선 입력층에서 은닉층으로 가는 과정을 볼까요?

![image-5.png](attachment:image-5.png)
![image-6.png](attachment:image-6.png)
![image-7.png](attachment:image-7.png)
룩업 테이블을 거쳐서 생긴 2m개의 주변 단어 벡터들은 각각 N의 크기를 가집니다. CBoW에서는 이 벡터들을 모두 합하거나, 평균을 구한 값 을 최종 은닉층의 결과로 합니다. 그러면 최종 은닉층의 결과도 N차원의 벡터가 되겠죠. 이게 은닉층 연산의 전부입니다. Word2Vec에서는 은닉층에서 활성화 함수나 편향(bias)을 더하는 연산을 하지 않습니다.

Word2Vec에서의 은닉층은 활성화 함수가 존재하지 않고, 단순히 가중치 행렬과의 곱셈만을 수행하기에 기존 신경망의 은닉층과 구분 지어 투사층(projection layer) 이라고도 합니다.

이제 은닉층에서 출력층으로 가는 과정과 출력층의 연산을 보겠습니다.

![image-8.png](attachment:image-8.png)
![image-9.png](attachment:image-9.png)

## (3) Skip-gram과 Negative Sampling
![image-10.png](attachment:image-10.png)
앞서 살펴봤던 그림을 다시 보겠습니다. CBoW의 경우 위 그림에서 슬라이딩 윈도우 방식으로 얻을 수 있는 샘플 수는 5개였습니다. 그런데 Skip-gram은 데이터셋 구성부터 다릅니다. 중심 단어로부터 주변 단어 각각을 예측하기 때문입니다. 위 그림으로부터 얻을 수 있는 Skip-gram의 데이터셋은 아래와 같습니다.

아래 데이터셋의 형식은 (중심 단어, 주변 단어)임을 가정합니다.
(i, like) (like, I), (like, natural), (natural, like), (natural, language), (language, natural), (language, processing), (processing, language)
Skip-gram을 시각화한 그림은 다음과 같습니다.

![image-11.png](attachment:image-11.png)

![image-12.png](attachment:image-12.png)

![image-13.png](attachment:image-13.png)

![image-14.png](attachment:image-14.png)

중심 단어와 주변 단어를 입력값으로 받아 이 두 단어가 정말로 이웃 관계면(실제로 중심 단어와 주변 단어의 관계면) 1을 또는 0을 출력하는 문제로 바꾸는 것지요. 즉, 기존의 다중 분류 문제에서 이진 분류 문제로 바뀐 것입니다. 아직 어떤 말인지 아리송하죠? 괜찮습니다! 좀 더 자세히 알아볼게요.

기존에 skip-gram이 데이터셋을 만드는 방식을 복습해 볼게요. 아래의 예문을 볼까요?

예문 : Thou shalt not make a machine in the likeness of a human mind
윈도우 크기가 2일 때, 위 예문으로부터 슬라이딩 윈도우를 통해서 만들어지는 skip-gram의 데이터셋은 아래의 그림과 같습니다. Skip-gram 방식이기에 input word는 중심 단어, target word는 주변 단어를 의미합니다.

![image-15.png](attachment:image-15.png)

![image-16.png](attachment:image-16.png)

![image-17.png](attachment:image-17.png)

##  (4) 영어 Word2Vec 실습과 OOV 문제
영어 데이터를 다운로드받아 직접 Word2Vec을 훈련시켜보겠습니다. Word2Vec을 별도로 구현할 필요없이 파이썬의 gensim 패키지를 통해 이미 구현된 Word2Vec 모델을 사용할 수 있습니다. 여기서 사용할 훈련 데이터는 NLTK에서 제공하는 코퍼스이며, gensim 패키지는 토픽 모델링을 위한 NLP 패키지입니다.

In [3]:
# $ pip install nltk
# $ pip install gensim

NLTK에 내장된 코퍼스를 다운로드합니다. NLTK 코퍼스는 다른 프로젝트에서도 사용할 수 있으므로 프로젝트 디렉토리가 아닌, 기본 디렉토리에 설치하겠습니다.

In [4]:
import nltk
nltk.download('abc')
nltk.download('punkt')

[nltk_data] Downloading package abc to /aiffel/nltk_data...
[nltk_data]   Package abc is already up-to-date!
[nltk_data] Downloading package punkt to /aiffel/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [5]:
from nltk.corpus import abc
corpus = abc.sents()
print("슝~")

슝~


In [6]:
print(corpus[:3])

[['PM', 'denies', 'knowledge', 'of', 'AWB', 'kickbacks', 'The', 'Prime', 'Minister', 'has', 'denied', 'he', 'knew', 'AWB', 'was', 'paying', 'kickbacks', 'to', 'Iraq', 'despite', 'writing', 'to', 'the', 'wheat', 'exporter', 'asking', 'to', 'be', 'kept', 'fully', 'informed', 'on', 'Iraq', 'wheat', 'sales', '.'], ['Letters', 'from', 'John', 'Howard', 'and', 'Deputy', 'Prime', 'Minister', 'Mark', 'Vaile', 'to', 'AWB', 'have', 'been', 'released', 'by', 'the', 'Cole', 'inquiry', 'into', 'the', 'oil', 'for', 'food', 'program', '.'], ['In', 'one', 'of', 'the', 'letters', 'Mr', 'Howard', 'asks', 'AWB', 'managing', 'director', 'Andrew', 'Lindberg', 'to', 'remain', 'in', 'close', 'contact', 'with', 'the', 'Government', 'on', 'Iraq', 'wheat', 'sales', '.']]


In [7]:
print('코퍼스의 크기 :',len(corpus))

코퍼스의 크기 : 29059


Word2Vec을 훈련

In [8]:
from gensim.models import Word2Vec

model = Word2Vec(sentences = corpus, vector_size = 100, window = 5, min_count = 5, workers = 4, sg = 0)
print("모델 학습 완료!")

모델 학습 완료!


파라미터 설명

* vector size = 학습 후 임베딩 벡터의 차원
* window = 컨텍스트 윈도우 크기
* min_count = 단어 최소 빈도수 제한 (빈도가 적은 단어들은 학습하지 않아요.)
* workers = 학습을 위한 프로세스 수
* sg = 0은 CBoW, 1은 Skip-gram.


유사도 출력
* model.wv.most_similar 함수 : 입력한 단어에 대해서 가장 코사인 유사도가 높은 단어들을 출력

In [9]:
model_result = model.wv.most_similar("man")
print(model_result)

[('woman', 0.9233373999595642), ('skull', 0.911032497882843), ('Bang', 0.9056490063667297), ('asteroid', 0.9051957130432129), ('third', 0.9020178318023682), ('baby', 0.8993921279907227), ('dog', 0.8985978364944458), ('bought', 0.8975234031677246), ('rally', 0.8912491798400879), ('disc', 0.8888981342315674)]


### 모델 저장 / 로드

In [10]:
from gensim.models import KeyedVectors

model.wv.save_word2vec_format('~/aiffel/word_embedding/w2v') 
loaded_model = KeyedVectors.load_word2vec_format("~/aiffel/word_embedding/w2v")
print("모델  load 완료!")

모델  load 완료!


로드한 모델이 이전과 동일한 결과를 출력하는지 테스트

In [11]:
model_result = loaded_model.most_similar("man")
print(model_result)

[('woman', 0.9233373999595642), ('skull', 0.911032497882843), ('Bang', 0.9056490063667297), ('asteroid', 0.9051957130432129), ('third', 0.9020178318023682), ('baby', 0.8993921279907227), ('dog', 0.8985978364944458), ('bought', 0.8975234031677246), ('rally', 0.8912491798400879), ('disc', 0.8888981342315674)]


### Word2Vec의 OOV 문제
* 사전에 없는 단어(Out Of Vocabuary) 문제를 그대로 가지고 있음.
* Word2Vec은 임베딩 벡터값을 얻을 수 없음

In [14]:
# 단어장에 없는 단어 테스트
# loaded_model.most_similar('overacting')
# loaded_model.most_similar('memorry')

# 17-9. 임베딩 벡터의 시각화
## 임베딩 프로젝터(embedding projector)  활용
* 구글이 발표한 오픈소스
* 어떤 임베딩 벡터들이 가까운 거리에 군집이 되어 있고, 특정 임베딩 벡터와 유클리드 거리나 코사인 유사도가 높은지 확인할 수 있음.

### 필요한 파일 만들기
'w2v'란 이름으로 모델을 저장했었죠? 아래 커맨드를 실행

In [None]:
#!python -m gensim.scripts.word2vec2tensor --input ~/aiffel/word_embedding/w2v --output ~/aiffel/word_embedding/w2v

In [None]:
#ls ~/aiffel/word_embedding/

* w2v_metadata.tsv와 w2v_tensor.tsv 파일 생성 확인
* 이 두 개의 파일을 인터넷 환경에 업로드 준비

### 임베딩 프로젝터에 tsv 파일 업로드하기
* 링크로 이동
https://projector.tensorflow.org/

임베딩 프로젝터 사이트는 좌측 상단을 통해 데이터를 업로드하고, 시각화 결과를 중앙에서 볼 수 있으며, 우측에서 거리나 유사도에 대한 파라미터를 조작할 수 있는 구조입니다.


# 17-10. FastText
* 페이스북에서 개발
* 메커니즘은 Word2Vec을 그대로 따르고 있지만, 문자 단위 n-gram(character-level n-gram) 표현을 학습한다
* Word2Vec은 단어를 더 이상 깨질 수 없는 단위로 구분하는 반면, FastText는 단어 내부의 내부 단어(subwords)들을 학습한다

FastText의 n-gram에서 n은 단어들이 얼마나 분리되는지 결정하는 하이퍼파라미터입니다. n을 3으로 잡은 트라이그램(tri-gram)의 경우, 단어 "partial"은 'par', 'art', 'rti', 'tia', 'ial'로 분리하고 이들을 벡터로 만듭니다. 더 정확히는 시작과 끝을 의미하는 <, >를 도입하여 <pa, par, art, rti, tia, ial, al>라는 7개의 내부 단어(subword) 토큰을 벡터로 만듭니다. 여기에 추가적으로 하나를 더 벡터화하는데, 기존 단어에 <, 와 >를 붙인 토큰 <partial>입니다.
    
![image.png](attachment:image.png)
    
### FastText의 학습 방법
* FastText도 Word2Vec과 마찬가지로 네거티브 샘플링을 사용하여 학습
* "(중심 단어, 주변 단어)"의 쌍을 가지고 이 쌍이 포지티브인지 네거티브인지 예측을 진행
* Word2Vec과 다른 점은 학습 과정에서 중심 단어에 속한 문자 단위, n-gram 단어 벡터들을 모두 업데이트한다
    
### OOV와 오타에 대한 대응
* Word2Vec과 달리 OOV와 오타에 강건하다(robust)
* 단어장에 없는 단어라도, 해당 단어의 n-gram이 다른 단어에 존재하면 이로부터 벡터값을 얻는다

In [15]:
from gensim.models import FastText
    
fasttext_model = FastText(corpus, window=5, min_count=5, workers=4, sg=1)
print("FastText 학습 완료!")

FastText 학습 완료!


Word2Vec에서 에러가 발생했던 단어들을 FastText 모델에 입력 해 보기.

In [16]:
fasttext_model.wv.most_similar('overacting')

[('extracting', 0.9411718845367432),
 ('attracting', 0.9342512488365173),
 ('losing', 0.9314019083976746),
 ('malting', 0.9291653633117676),
 ('mixing', 0.9267258644104004),
 ('lifting', 0.926324725151062),
 ('emptying', 0.9260534644126892),
 ('fabricating', 0.9256841540336609),
 ('debilitating', 0.9243665337562561),
 ('fluctuating', 0.923443615436554)]

In [17]:
fasttext_model.wv.most_similar('memoryy')

[('memory', 0.9442393779754639),
 ('intelligence', 0.8707774877548218),
 ('musical', 0.8583602905273438),
 ('duplicate', 0.8495875000953674),
 ('mechanisms', 0.8466172814369202),
 ('flexibility', 0.8464388251304626),
 ('mess', 0.8451944589614868),
 ('essence', 0.8446823358535767),
 ('basic', 0.8366603851318359),
 ('visual', 0.8360203504562378)]

### 한국어에서의 FastText
![image.png](attachment:image.png)
https://brunch.co.kr/@learning/8

이 논문은 한국어의 고유한 언어 구조에 대한 지식을 활용하여 한국어를 위한 분산 단어 표현을 개선하는 방법을 제시합니다.  특히, 한국어 단어를 자모 수준(글자보다 더 작은 단위)으로 분해하여 하위 단어 정보를 체계적으로 사용합니다.

핵심 내용:

한국어 단어의 자모 수준 분해: 한국어 단어를 자음과 모음으로 이루어진 자모 단위로 분해하여, 기존의 단어 또는 글자 수준보다 더 세분화된 정보를 활용합니다. 이를 통해 한국어의 형태소 분석에 유용한 정보를 담은 벡터 표현을 얻을 수 있습니다.
하위 단어 정보 활용: 자모 수준과 글자 수준의 n-gram(연속된 문자열)을 추출하여 단어 벡터를 학습합니다. 이는 Skip-gram 모델을 사용하여 수행됩니다.
한국어 평가 데이터셋 공개: 단어 유사도와 유추 작업을 위한 한국어 테스트 세트를 개발하여 공개합니다. 이는 WS-353 (영단어 유사도 데이터셋)을 한국어로 번역하고, 추가적으로 의미적 및 통사적 유추를 위한 10,000개의 항목을 추가한 데이터셋입니다.
성능 평가: 기존의 word2vec 및 글자 수준 Skip-gram 모델과 비교하여, 제안된 방법이 의미적 및 통사적 유사도와 유추 작업에서 더 나은 성능을 보임을 실험적으로 확인합니다. 감정 분석 작업에서도 긍정적인 결과를 보입니다.


결론:

이 연구는 한국어의 고유한 언어 구조를 고려한 하위 단어 수준의 단어 벡터 표현 방법을 제시하고,  그 효과를 실험적으로 검증했습니다. 공개된 한국어 평가 데이터셋은 향후 한국어 자연어 처리 연구에 기여할 것으로 기대됩니다.  특히, 자모 수준의 세분화된 정보를 활용함으로써 한국어의 형태소 분석 및 다양한 하위 자연어 처리 작업의 성능 향상에 기여할 수 있습니다.

# 17-11. GloVe
 2014년에 미국 스탠포드 대학에서 개발한 워드 임베딩 방법론
 
워드 임베딩의 두 가지 접근 방법 모두 사용
* 카운트 기반  
    ex> DTM - 단어의 빈도를 수치화한 방법 
    
    
* 예측 기반  
    ex> LSA(atent Semantic Analysis : 잠재 의미 분석)
    -  DTM에 특잇값 분해를 사용하여 잠재된 의미를 이끌어내는 방법론
    - DTM을 차원 축소하여 밀집 표현(dense representation)으로 임베딩 하는 방법
    
    https://youtu.be/GVPTGq53H5I?si=aL9SChHj78DuWzdI
    
    ![image-2.png](attachment:image-2.png)
    
    
## GloVe
GloVe(Global Vectors for Word Representation)는 단어의 의미를 벡터 공간에 임베딩하는 방법 중 하나로, 단어 빈도 정보를 활용하는 모델입니다. GloVe는 단어쌍의 전역적인 동시 발생 빈도를 고려함으로써, 단어들 사이의 문맥적 유사성을 벡터 형태로 나타냅니다.

GloVe의 주요 아이디어는 특정 단어가 다른 단어들과 함께 얼마나 자주 등장하는지를 전체 코퍼스에서 집계한 동시 발생 행렬(Count-based matrix)을 사용하는 것입니다. 이 행렬을 기반으로 각 단어의 벡터 표현을 학습하며, 이 벡터들은 단어들이 나타내는 의미를 벡터 공간에서 효과적으로 파악할 수 있도록 설계됩니다.

학습 과정에서 GloVe는 단어쌍 사이의 동시 발생 확률 비율을 로그 함수로 변환하여 이 수치를 손실 함수로 사용하는데, 이는 단어 자체보다 단어쌍의 관계성에 중점을 두는 방식입니다. 이러한 과정은 특정 단어가 다른 단어들과의 관계에서 어떻게 사용되는지를 벡터로 잘 표현할 수 있게 합니다.

이 결과로 얻어진 벡터들은 단어 사이의 유사성과 관계를 벡터 연산을 통해 직관적으로 이해할 수 있게 해주며, 이는 자연어 처리의 다양한 응용 분야에서 유용하게 활용될 수 있습니다.

![image-3.png](attachment:image-3.png)

![image-4.png](attachment:image-4.png)

![image-5.png](attachment:image-5.png)

![image-6.png](attachment:image-6.png)

In [18]:
import gensim.downloader as api
glove_model = api.load("glove-wiki-gigaword-50")  # glove vectors 다운로드
glove_model.most_similar("dog")  # 'dog'과 비슷한 단어 찾기



[('cat', 0.9218004941940308),
 ('dogs', 0.8513158559799194),
 ('horse', 0.7907583713531494),
 ('puppy', 0.7754920721054077),
 ('pet', 0.7724708318710327),
 ('rabbit', 0.7720814347267151),
 ('pig', 0.7490062117576599),
 ('snake', 0.7399188876152039),
 ('baby', 0.7395570278167725),
 ('bite', 0.7387937307357788)]

In [19]:
glove_model.most_similar('overacting')

[('impudence', 0.7842012047767639),
 ('puerile', 0.7816032767295837),
 ('winningly', 0.7644237875938416),
 ('grossness', 0.7576098442077637),
 ('deconstructions', 0.748936653137207),
 ('over-the-top', 0.7460805773735046),
 ('buffoonery', 0.746045708656311),
 ('impetuosity', 0.7415392398834229),
 ('sophomoric', 0.736961841583252),
 ('zaniness', 0.7353197336196899)]

In [20]:
glove_model.most_similar('memoryy') # 오타

KeyError: "Key 'memoryy' not present"

GloVe는 Word2Vec과 같이 OOV 문제를 가지고 있어서 'memoryy'라는 단어는 인식하지 못합니다. 또한 pre-trained GloVe 모델은 한글이나 알파벳 대문자가 포함된 데이터셋으로 학습하지 않았기 때문에 알파벳 소문자만 인식한다는 사실에 유의하세요!