* 2024-01-12
* 파이토치와 트랜스포머를 활용한 자연어처리와 컴퓨터비전 심층학습  

# 6장 1부 임베딩
* 컴퓨터는 텍스트 자체를 이해할 수 없으므로, 텍스트를 숫자로 변환해야함
* 원-핫 인코딩, 빈도벡터화 -> 희소성이 큼, 텍스트벡터가 의미를 내포하고 있자 않음
* 워드임베딩  -> 단어의 의미를 학습해 표현
             -> (Word2Vec, fastText)
             -> 단어를 고정된 길이의 실수 벡터로 표현하는 방법
             -> 단어의 의미를 벡터 공간에서 다른 단어와의 상대적인 위치로 표현해 단어 간의 관계 추론

# p.266 ~ 269
* 자기회귀 언어모델 -> 조건부확률을 이용해 다음에 올 단어 예측<토큰 분류문제>
* 통계적 언어모델 -> 시퀀스에 대한 확률 분포를 추정해 문장의 문맥을 파악해 다음에 등장할 단어의 확률을 예측함
                 -> 단어의순서와 빈도에만 의존함(단어의 희소성문제 있음)

# 6-1 N_gram
* 기초적인 통계적 언어 모델
* N개의 연속된 단어시퀀스를 하나의 단위로 취급하여 특정 단어 시퀀스가 등장할 확률을 추정한다.
* 입력 텍스트를 하나의 토큰 단위로 분석X -> N개의 토큰을 묶어서 분석함.
* 작은 규모의 데이터세트에서 연속된 문자열을 분석하는데, 큰 효과를 보임
* N = 1 : Unigram, N = 2 : Bigram, N = 3 : Trigram
* <strong>NLTK 라이브러리</strong>로 구현가능

In [9]:
# (1) 파이썬 코드로 구현
def ngrams(sentence, n):
    # 문장을 토큰 단위로 분리<마침표나 문자단위로>
    words = sentence.split()
    ngrams = zip(*[words[i:] for i in range(n)])
    return list(ngrams)

sentence = "안녕하세요 만나서 진심으로 반가위요"

unigram = ngrams(sentence, 1)
bigram = ngrams(sentence, 2)
trigram = ngrams(sentence,3)

print(unigram)
print(bigram)
print(trigram)

[('안녕하세요',), ('만나서',), ('진심으로',), ('반가위요',)]
[('안녕하세요', '만나서'), ('만나서', '진심으로'), ('진심으로', '반가위요')]
[('안녕하세요', '만나서', '진심으로'), ('만나서', '진심으로', '반가위요')]


In [12]:
# (2) nltk 라이브러리로 구현
import nltk

unigram = nltk.ngrams(sentence.split(),1)
bigram = nltk.ngrams(sentence.split(),2)
trigram = nltk.ngrams(sentence.split(),3)

print(list(unigram))
print(list(bigram))
print(list(trigram))

[('안녕하세요',), ('만나서',), ('진심으로',), ('반가위요',)]
[('안녕하세요', '만나서'), ('만나서', '진심으로'), ('진심으로', '반가위요')]
[('안녕하세요', '만나서', '진심으로'), ('만나서', '진심으로', '반가위요')]


In [14]:
#  만약 split을 사용하지 않으면, 단어 하나하나를 분리하여 토큰으로 인식함(공백포함)
unigram = nltk.ngrams(sentence, 1)
figram = nltk.ngrams(sentence,5)

print(list(unigram))
print(list(figram))

[('안',), ('녕',), ('하',), ('세',), ('요',), (' ',), ('만',), ('나',), ('서',), (' ',), ('진',), ('심',), ('으',), ('로',), (' ',), ('반',), ('가',), ('위',), ('요',)]
[('안', '녕', '하', '세', '요'), ('녕', '하', '세', '요', ' '), ('하', '세', '요', ' ', '만'), ('세', '요', ' ', '만', '나'), ('요', ' ', '만', '나', '서'), (' ', '만', '나', '서', ' '), ('만', '나', '서', ' ', '진'), ('나', '서', ' ', '진', '심'), ('서', ' ', '진', '심', '으'), (' ', '진', '심', '으', '로'), ('진', '심', '으', '로', ' '), ('심', '으', '로', ' ', '반'), ('으', '로', ' ', '반', '가'), ('로', ' ', '반', '가', '위'), (' ', '반', '가', '위', '요')]


# 6-2 TF-IDF
* 텍스트 문서에서 특정 단어의 중요도를 계산하는 방법
* 문서 내에서 단어의 중요도를 평사하는 데 사용되는 통계적인 가중치를 의미함
* BoW는 문서나 문장을 단어의 집합으로 표현하는 방법으로, 문서나 문장에 등장하는 단어의 중복을 허용해 <strong>빈도</stong>를 기록함   

## 6-2-1 TF
* 문서 내에서 특정 단어의 빈도수를 나타내는 값
* TF값이 높으면 특정 단어 자체가 전문 용어나 관용어일 가능성이 높음 
* 3개의 문서에서 "movie"기 4번 등장
* TF = 4 

## 6-2-2 DF
* 한 단어가 문서에서 얼마나 많은 문서에 나타나는지를 의미함
* DF값이 높으면 특정 단어가 많은 문서에서 등장한다고 할 수 있음
  -> 중요도가 낮을 수 있음 
* 3개의 문서에서 "movie"가 4번 등장
* DF = 3

## 6-2-3 IDF
* 전체 문서 수를 문서 빈도로 나눈다음에 로그를 취한값을 말함
* 문서 내에서 특정 단어가 얼마나 중요한지 나타냄
* 문서 빈도가 높을 수록 해당 단어가 일반적이고 상대적으로 중요하지 않음을 의미 

## TF-IDF
* TF $*$ IDF
* 문서 내에서 자주 등장하지만, 전체 문서 내에 해당 단어가 적게 등장하면 값이 커짐
* scikit-learn의 함수를 이용하여 계산할 가능 

In [17]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [22]:
TfidfVectorizer(
    # 입력될 데이터의 형태 : content, file, filepath
    input = "content",
    # 텍스트 인코딩 값
    encoding = "utf-8",
    # 소문자 변환
    lowercase = True,
    # 분석에 도움이 되지 않는 의미 없는 단어들
    stop_words = None,
    # N-gram의 범위
    ngram_range = (1,1),
    # 비율 -> 해당 비율을 넘은 단어를 불용어 처리함 ex> 0.7 ...
    max_df = 1.0,
    # 비율을 넘지 못한 단어를 불용어 처리함 ex> 0.3, 0.2, ...
    min_df = 1,
    # 미리 구축한 단어사전 사용 시
    vocabulary = None,
    # IDF 분모에 1을 더함.
    smooth_idf = True
)

TfidfVectorizer()

In [23]:
corpus = [
    "That movie is famous movie",
    "I like this actor",
    "I don't like that actor"
]

In [34]:
import pandas as pd

tfidf_vectorizer = TfidfVectorizer()
tfidf_matrix = tfidf_vectorizer.fit_transform(corpus)

# 행 문서, 열 단어
print(tfidf_matrix.toarray())

[[0.         0.         0.38988801 0.38988801 0.         0.77977602
  0.29651988 0.        ]
 [0.51785612 0.         0.         0.         0.51785612 0.
  0.         0.68091856]
 [0.45985353 0.60465213 0.         0.         0.45985353 0.
  0.45985353 0.        ]]


In [35]:
print(tfidf_vectorizer.vocabulary_)

{'that': 6, 'movie': 5, 'is': 3, 'famous': 2, 'like': 4, 'this': 7, 'actor': 0, 'don': 1}


In [42]:
pd.DataFrame(tfidf_matrix.toarray(), columns = ['actor', 'don', 'famous', 'is', 'like', 'movie', 'that', 'this'])

Unnamed: 0,actor,don,famous,is,like,movie,that,this
0,0.0,0.0,0.389888,0.389888,0.0,0.779776,0.29652,0.0
1,0.517856,0.0,0.0,0.0,0.517856,0.0,0.0,0.680919
2,0.459854,0.604652,0.0,0.0,0.459854,0.0,0.459854,0.0


* 문장의 순서나 문맥을 고려하지 않는다.
* 빈도만을 고려하므로, 생성된 벡터는 해당 문장에서의 중요도를 나타내지, 단어를 나타내지는 않음

# 6-3 Word2Vec
* 단어 간의 유사성을 측정하기 위해 <strong>분포 가설</strong>을 기반으로 개발
* 이러한 가설을 통해 <strong>분산표현</strong>을 학습할 수 있음
* <strong>분포 가설</strong> : 문맥에서 자주 나타나는 단어들은 서로 유사한 의미를 가질 가능성이 높다는 가정
* <strong>분산 표현</strong> : 단어를 고차원 벡터 공간에 매핑하여 단어의 의미를 담는 것

* 논문 링크 : https://arxiv.org/pdf/1301.3781.pdf
* 논문정리 블로그 : https://cpm0722.github.io/paper-review/efficient-estimation-of-word-representations-in-vector-space

## 6-3-1 밀집 표현
* 희소 표현 : (원-핫 인코딩, TF-IDF)
* 밀집 표현 : 단어를 고정된 크기의 실수 벡터로 표현함 -> 단어 간의 거리를 효과적으로 계산가능 (Word2Vec)
* Word2Vec는 밀집 표현을 위해 CBow와 Skip-gram을 사용함

## 6-3-2 CBow(Continous Bag of words)
* 주변에 있는 단어를 가지고 중간에 있는 단어를 예측하는 방법
* <strong>중심단어</strong> : 예측해야할 단어
* <strong>주변단어</strong> : 예측에 사용되는 단어
* <strong>슬라이딩 윈도우</strong> : 학습을 위해 윈도를 이동해 가며 학습하는 방식
### ex) (나는 그와 <strong>축구하는</strong> 것을) 좋아한다. , N = 2
* (나는, 그와, 것을|축구하는)
### 연산과정
* (1) Input Embeddings
* (2) averaged Input Embeddings
* (3) $(*)$ with Weights
* (4) softmax()

## 6-3-3 Skip-gram
* CBow와는 반대로 중심단어를 입력으로 받아, 주변 단어를 예측하는 모델
* 중심단어를 기준으로 양쪽으로 윈도 크기만큼의 단어들을 주변 단어로 삼아 훈련 데이터 세트 생성
* CBow보다 더 많은 데이터세트를 추출할 수 있고, CBow보다 우수한 성능을 보임
* 비교적 드물게 등장하는 단어를 잘 학습할 수 있음
* 벡터 공간에서 더 유의미한 거리 관계를 형성할 수 있음
  
### ex) (나는 그와 <strong>축구하는</strong> 것을) 좋아한다. , N = 2 
* (축구하는|나는), (축구하는|그와), (축구하는|것을)

### 계층적 소프트 맥스 p.283
* 출력층을 이진트리의 구조로 표현해 연산을 수행
* 자주 등장하는 단어일수록, 트리의 상위 노드에 위치시킴 

### 네거티브 샘플링 기법 p.284
* 전체 단어 집합에서 일부 단어를 샘플링하여 오답 단어로 사용함
* 학습 윈도 내에 등장하지 않는 단어를 n개 추출하여 정답 단어와 함께 소프트맥스 연산을 수행함
* 이를 통해 전체 단어의 확률을 계산하지 않고, 모델을 효율적으로 학습시킬 수 있음

In [47]:
# Skip-gram
# V = 학습할 단어의 수
# E = 임베딩 차원
# W(v*e), W'(e*v) = 가중치

# W(v*e)는 임베딩 클래스를 사용하면 산단하게 구현 가능
# 임베딩 클래스는 이산변수를 연속적인 벡터 형태로 변환해 사용
# 단어의 의미와 관련정보 포착 -> 단어간의 유사도를 계산

import torch

torch.nn.Embedding(
    # 이산 변수의 개수로 단어 사전의 크기
    num_embeddings = 20,
    # 임베딩 벡터의 차원수를 의미함
    embedding_dim = 100,
    # 문장의 크기를 동일하게 맞추는 역할 -> 0으로 지정하여 학습되지 않도록!!!
    padding_idx = 0,
    # 임베딩 벡터의 최대 크기를 지정 -> 임베딩 벡터의 놈값이 최대 값이상이면 최대놈으로 크기를 잘라냄
    max_norm = None,
    # 정규화 방식 지정 L1, L2
    norm_type = 2.0
)

Embedding(20, 100, padding_idx=0)

In [111]:
# [1] Skipgram 모델 생성
from torch import nn

class VanillaSkipgram(nn.Module):
    '''
    계층적 소프트 맥스나 네거티브 샘플링 등은 구현하지 않은 기본 형식
    '''
    def __init__(self, vocab_size, embedding_dim):
        super().__init__()
        self.embedding = nn.Embedding(
            num_embeddings = vocab_size,
            embedding_dim = embedding_dim
        )
        self.linear = nn.Linear(
            in_features = embedding_dim,
            out_features = vocab_size 
        )
    def forward(self, input_ids):
        embeddings = self.embedding(input_ids)
        output = self.linear(embeddings)
        return output

In [50]:
# [2] kopora 라이브러리의 네이버 영화 리뷰 감정 분석 데이터세트 호출
import pandas as pd
from Korpora import Korpora
from konlpy.tag import Okt

corpus = Korpora.load("nsmc")
corpus = pd.DataFrame(corpus.test)
corpus


    Korpora 는 다른 분들이 연구 목적으로 공유해주신 말뭉치들을
    손쉽게 다운로드, 사용할 수 있는 기능만을 제공합니다.

    말뭉치들을 공유해 주신 분들에게 감사드리며, 각 말뭉치 별 설명과 라이센스를 공유 드립니다.
    해당 말뭉치에 대해 자세히 알고 싶으신 분은 아래의 description 을 참고,
    해당 말뭉치를 연구/상용의 목적으로 이용하실 때에는 아래의 라이센스를 참고해 주시기 바랍니다.

    # Description
    Author : e9t@github
    Repository : https://github.com/e9t/nsmc
    References : www.lucypark.kr/docs/2015-pyconkr/#39

    Naver sentiment movie corpus v1.0
    This is a movie review dataset in the Korean language.
    Reviews were scraped from Naver Movies.

    The dataset construction is based on the method noted in
    [Large movie review dataset][^1] from Maas et al., 2011.

    [^1]: http://ai.stanford.edu/~amaas/data/sentiment/

    # License
    CC0 1.0 Universal (CC0 1.0) Public Domain Dedication
    Details in https://creativecommons.org/publicdomain/zero/1.0/

[Korpora] Corpus `nsmc` is already installed at C:\Users\user\Korpora\nsmc\ratings_train.txt
[Korpora] Corpus `nsmc` is already installed at C:\Users\user

Unnamed: 0,text,label
0,굳 ㅋ,1
1,GDNTOPCLASSINTHECLUB,0
2,뭐야 이 평점들은.... 나쁘진 않지만 10점 짜리는 더더욱 아니잖아,0
3,지루하지는 않은데 완전 막장임... 돈주고 보기에는....,0
4,3D만 아니었어도 별 다섯 개 줬을텐데.. 왜 3D로 나와서 제 심기를 불편하게 하죠??,0
...,...,...
49995,오랜만에 평점 로긴했네ㅋㅋ 킹왕짱 쌈뽕한 영화를 만났습니다 강렬하게 육쾌함,1
49996,의지 박약들이나 하는거다 탈영은 일단 주인공 김대희 닮았고 이등병 찐따 OOOO,0
49997,그림도 좋고 완성도도 높았지만... 보는 내내 불안하게 만든다,0
49998,절대 봐서는 안 될 영화.. 재미도 없고 기분만 잡치고.. 한 세트장에서 다 해먹네,0


In [51]:
# [3] 토크나이저를 이용하여 형태소를 추출
tokenizer = Okt()
tokens = [tokenizer.morphs(review) for review in corpus.text]
print(tokens[:3])

[['굳', 'ㅋ'], ['GDNTOPCLASSINTHECLUB'], ['뭐', '야', '이', '평점', '들', '은', '....', '나쁘진', '않지만', '10', '점', '짜', '리', '는', '더', '더욱', '아니잖아']]


In [69]:
# [4] 단어 사전 구축
from collections import Counter

def build_vocab(corpus, n_vocab, special_tokens):
    '''
    n_vocab : 구축할 단어 사전의 크기
    special_token : OOV에 대응하기위한 토큰, 단어 사전 내에 없는 단어는 special token으로 대체됨
    단어 사전의 길이 = n_vocab + len(special_token)
    '''
    counter = Counter()
    for tokens in corpus:
        counter.update(tokens)
    vocab = special_tokens
    for token, count in counter.most_common(n_vocab):
        vocab.append(token)
    return vocab

vocab = build_vocab(corpus = tokens, n_vocab = 5000, special_tokens = ["<unk>"])
token_to_id = {token : idx for idx, token in enumerate(vocab)}
id_to_token = {idx : token for idx, token in enumerate(vocab)}

print(vocab[:10])
print(len(vocab))

print(token_to_id['이'])
print(id_to_token[2])

['<unk>', '.', '이', '영화', '의', '..', '가', '에', '...', '을']
5001
2
이


In [72]:
# [4-2] 함수 분해하기
print(tokens[:2])
counter = Counter()
for token in tokens[:3]:
    print(token)
    counter.update(token)
counter

[['굳', 'ㅋ'], ['GDNTOPCLASSINTHECLUB']]
['굳', 'ㅋ']
['GDNTOPCLASSINTHECLUB']
['뭐', '야', '이', '평점', '들', '은', '....', '나쁘진', '않지만', '10', '점', '짜', '리', '는', '더', '더욱', '아니잖아']


Counter({'굳': 1,
         'ㅋ': 1,
         'GDNTOPCLASSINTHECLUB': 1,
         '뭐': 1,
         '야': 1,
         '이': 1,
         '평점': 1,
         '들': 1,
         '은': 1,
         '....': 1,
         '나쁘진': 1,
         '않지만': 1,
         '10': 1,
         '점': 1,
         '짜': 1,
         '리': 1,
         '는': 1,
         '더': 1,
         '더욱': 1,
         '아니잖아': 1})

In [82]:
# [5] 윈도 크기를 정의하고 학습에 사용될 단어 쌍을 추출함.

def get_word_pairs(tokens, window_size):
    '''
    토큰을 입력받아 Skip-gram 모델의 입력의 형태로 사용할 수 있게 전처리함.
    각 단어에서 중심 단어와 주변단어를 고려하여 쌍을 생성함
    '''
    pairs = []
    for sentence in tokens:
        # ['뭐', '야', '이', ....]
        sentence_length = len(sentence)
        for idx, center_word in enumerate(sentence):
            window_start = max(0, idx - window_size)
            window_end = min(sentence_length, idx + window_size + 1)
            center_word = sentence[idx]
            context_words = sentence[window_start:idx] + sentence[idx+1:window_end]
            for context_word in context_words:
                pairs.append([center_word, context_word])
    return pairs

word_pairs = get_word_pairs(tokens, window_size = 2)
print(word_pairs[:5])
print(word_pairs[5:20])

[['굳', 'ㅋ'], ['ㅋ', '굳'], ['뭐', '야'], ['뭐', '이'], ['야', '뭐']]
[['야', '이'], ['야', '평점'], ['이', '뭐'], ['이', '야'], ['이', '평점'], ['이', '들'], ['평점', '야'], ['평점', '이'], ['평점', '들'], ['평점', '은'], ['들', '이'], ['들', '평점'], ['들', '은'], ['들', '....'], ['은', '평점']]


In [81]:
# [5-2] 함수 분해하기
print(f"문장 : {tokens[2]}")

sentence_length = len(tokens[2])
print(f'문장 길이 : {sentence_length}')

index_checker = [('start','center','end')]
for idx, center_word in enumerate(tokens[2]):
    window_start = max(0, idx - 2)
    window_end = min(sentence_length, idx + 2 + 1)
    # 실제 인덱싱은 +1임
    # 이해를 위해 -1을 더한 것이지, 실제로는 -1은 포함되면 안됨!!
    index_checker.append((window_start,idx,window_end-1))
index_checker

문장 : ['뭐', '야', '이', '평점', '들', '은', '....', '나쁘진', '않지만', '10', '점', '짜', '리', '는', '더', '더욱', '아니잖아']
문장 길이 : 17


[('start', 'center', 'end'),
 (0, 0, 2),
 (0, 1, 3),
 (0, 2, 4),
 (1, 3, 5),
 (2, 4, 6),
 (3, 5, 7),
 (4, 6, 8),
 (5, 7, 9),
 (6, 8, 10),
 (7, 9, 11),
 (8, 10, 12),
 (9, 11, 13),
 (10, 12, 14),
 (11, 13, 15),
 (12, 14, 16),
 (13, 15, 16),
 (14, 16, 16)]

In [93]:
# [6] 임베딩 층은 단어의 인덱스를 입력으로 받으므로, 단어 쌍을 인덱스쌍으로 변환!!
def get_index_pairs(word_pairs, token_to_id):
    pairs = []
    unk_index = token_to_id['<unk>']
    for word_pair in word_pairs:
        center_word, context_word = word_pair
        center_index = token_to_id.get(center_word, unk_index)
        context_index = token_to_id.get(context_word, unk_index)
        pairs.append([center_index, context_index])
    return pairs

index_pairs = get_index_pairs(word_pairs, token_to_id)
print(f"단어 : {word_pairs[:5]}")
print(f"인덱스 : {index_pairs[:5]}")
print(f"사전 크기 : {len(vocab)}")

단어 : [['굳', 'ㅋ'], ['ㅋ', '굳'], ['뭐', '야'], ['뭐', '이'], ['야', '뭐']]
인덱스 : [[595, 100], [100, 595], [77, 176], [77, 2], [176, 77]]
사전 크기 : 5001


In [94]:
# [6-1] 함수 뜻어 보기
print({'김':1, '이':2}.get('김', ['<unk>']))
# 없는 값은 <unk>처리
print({'김':1, '이':2}.get('신', ['<unk>']))

1
['<unk>']


In [137]:
# [7] 생성된 인덱스 쌍은 Skip_gram모델의 입력으로 사용됨
# 학습을 위한 텐서 형식으로 변환

import torch
from torch.utils.data import TensorDataset, DataLoader

index_pairs = torch.tensor(index_pairs)
center_index = index_pairs[:,0]
context_index = index_pairs[:,1]

dataset = TensorDataset(center_index, context_index)
dataloader = DataLoader(dataset, batch_size = 32, shuffle = False)

  index_pairs = torch.tensor(index_pairs)


In [138]:
# [7-1] 확인하기
print(index_pairs)

for X, y in dataloader:
    print(X)
    print(y)
    break

dataloader = DataLoader(dataset, batch_size = 32, shuffle = True)

tensor([[595, 100],
        [100, 595],
        [ 77, 176],
        ...,
        [ 46, 988],
        [988, 153],
        [988,  46]])
tensor([ 595,  100,   77,   77,  176,  176,  176,    2,    2,    2,    2,   29,
          29,   29,   29,   11,   11,   11,   11,   15,   15,   15,   15,   48,
          48,   48,   48, 4891, 4891, 4891, 4891, 1626])
tensor([ 100,  595,  176,    2,   77,    2,   29,   77,  176,   29,   11,  176,
           2,   11,   15,    2,   29,   15,   48,   29,   11,   48, 4891,   11,
          15, 4891, 1626,   15,   48, 1626,   90,   48])


In [139]:
# [8] 모델 하이퍼 파라미터 설정
from torch import optim

device = "cuda" if torch.cuda.is_available() else "cpu"
word2vec = VanillaSkipgram(vocab_size = len(token_to_id), embedding_dim = 128).to(device)
criterion = nn.CrossEntropyLoss().to(device)
optimizer = optim.SGD(word2vec.parameters(), lr = 0.1)

In [140]:
# [9] 모델 학습
from tqdm.notebook import tqdm
import time

start_time = time.time()
for epoch in tqdm(range(1,11)):
    cost = 0.0
    for x, y in dataloader:
        x = x.to(device)
        y = y.to(device)
        y_hat = word2vec(x)
        
        loss = criterion(y_hat, y)
        
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
        
        cost += loss
    cost = cost/len(dataloader)
    print(f"Epoch : {epoch:4d}, Cost : {cost:.3f}")
torch.save(word2vec.state_dict(), './models/vanillaword2vec.pt')
print(f"소요시간 : {time.time() - start_time}")

  0%|          | 0/10 [00:00<?, ?it/s]

Epoch :    1, Cost : 6.198
Epoch :    2, Cost : 5.982
Epoch :    3, Cost : 5.932
Epoch :    4, Cost : 5.902
Epoch :    5, Cost : 5.880
Epoch :    6, Cost : 5.863
Epoch :    7, Cost : 5.848
Epoch :    8, Cost : 5.835
Epoch :    9, Cost : 5.824
Epoch :   10, Cost : 5.813
소요시간 : 792.4200279712677


In [168]:
# [10] 학습이 완료되면 W(v*e)와 W'(v*e) 중 하나의 행렬을 선택 해 임베딩 값을 추출함

# 학습 시간이 오래 걸리므로, 사전 학습된 데이터를 호출하여 사용!!!
#from model import *
#word2vec = torch.load('./models/vanillaword2vec.pt', map_location = device)

token_to_embedding = dict()
embedding_matrix = word2vec.embedding.weight.detach().cpu().numpy()

for word, embedding in zip(vocab, embedding_matrix):
    token_to_embedding[word] = embedding

index = 30
token = vocab[30]
token_embedding = token_to_embedding[token]
print(token)
print(token_embedding)

연기
[-0.52035546  1.3474808  -0.4053414  -0.27269873  0.4114011  -1.6132668
  0.8733662   0.41310808 -1.2717438  -0.14906047  0.4396288  -0.6304197
 -0.9371011  -1.0590744  -0.41054484  0.40856427 -0.13384584  0.25723374
  0.6048212  -0.08283345 -2.4064937  -0.66592157  0.27645877 -0.37452465
 -0.1763151   0.43774545  1.0476179   1.305812   -0.21097043  0.74167347
 -0.11827717 -1.9610428  -0.12030492  0.04492797 -0.02649096  1.8522102
  0.7570809   0.73748714 -2.0955505  -0.34397516 -1.0933992   0.9443328
 -0.5337088   1.2045662  -0.36237624 -1.1135533  -0.2932356   1.2258747
 -0.6093435  -0.66981953 -1.6303976  -0.48890394 -0.03774274 -0.03539302
  1.0742985  -0.38711882  0.33452788  1.040623    1.3401182  -0.8222577
 -0.73478216 -1.8255621   0.19357277  0.10837984  0.4007236   0.6845867
  0.45767948 -1.6472296  -1.0293194   0.10692199  0.1261175  -0.20900083
 -0.05086553 -0.5629654  -0.3484156   0.6093022  -0.43607858  0.67343163
  1.4220386   0.8648355  -1.8431602  -0.9799758  -0.043

In [157]:
# [10] 학습이 완료되면 W(v*e)와 W'(v*e) 중 하나의 행렬을 선택 해 임베딩 값을 추출함

# 학습 시간이 오래 걸리므로, 사전 학습된 데이터를 호출하여 사용!!!
# .py파일에 저장된 모델의 구조를 호출
from model import *
word3vec = VanillaSkipgram(vocab_size = len(token_to_id), embedding_dim = 128).to(device)
# 저장해둔 모델의 가중치를 호출하여 사용!!
word3vec.load_state_dict(torch.load('./models/vanillaword2vec.pt'))
# 이전의 모델 저장 방식으로는 모델이 저장되지 않음
# word3vec = torch.load('./models/vanillaword2vec.pt', map_location = device)

token_to_embedding = dict()
embedding_matrix = word3vec.embedding.weight.detach().cpu().numpy()

for word, embedding in zip(vocab, embedding_matrix):
    token_to_embedding[word] = embedding

index = 30
token = vocab[30]
token_embedding = token_to_embedding[token]
print(token)
print(token_embedding)

연기
[-0.52035546  1.3474808  -0.4053414  -0.27269873  0.4114011  -1.6132668
  0.8733662   0.41310808 -1.2717438  -0.14906047  0.4396288  -0.6304197
 -0.9371011  -1.0590744  -0.41054484  0.40856427 -0.13384584  0.25723374
  0.6048212  -0.08283345 -2.4064937  -0.66592157  0.27645877 -0.37452465
 -0.1763151   0.43774545  1.0476179   1.305812   -0.21097043  0.74167347
 -0.11827717 -1.9610428  -0.12030492  0.04492797 -0.02649096  1.8522102
  0.7570809   0.73748714 -2.0955505  -0.34397516 -1.0933992   0.9443328
 -0.5337088   1.2045662  -0.36237624 -1.1135533  -0.2932356   1.2258747
 -0.6093435  -0.66981953 -1.6303976  -0.48890394 -0.03774274 -0.03539302
  1.0742985  -0.38711882  0.33452788  1.040623    1.3401182  -0.8222577
 -0.73478216 -1.8255621   0.19357277  0.10837984  0.4007236   0.6845867
  0.45767948 -1.6472296  -1.0293194   0.10692199  0.1261175  -0.20900083
 -0.05086553 -0.5629654  -0.3484156   0.6093022  -0.43607858  0.67343163
  1.4220386   0.8648355  -1.8431602  -0.9799758  -0.043

In [161]:
vocab

['<unk>',
 '.',
 '이',
 '영화',
 '의',
 '..',
 '가',
 '에',
 '...',
 '을',
 '도',
 '들',
 ',',
 '는',
 '를',
 '은',
 '너무',
 '한',
 '?',
 '다',
 '정말',
 '만',
 '진짜',
 '적',
 '!',
 '로',
 '점',
 '으로',
 '에서',
 '평점',
 '연기',
 '것',
 '과',
 '~',
 '최고',
 '내',
 '그',
 '나',
 '잘',
 '인',
 '와',
 '안',
 '생각',
 '게',
 '이런',
 '못',
 '왜',
 '스토리',
 '....',
 '이다',
 '드라마',
 '사람',
 '감동',
 '하는',
 '1',
 '보고',
 '때',
 '더',
 '하고',
 '고',
 '말',
 '아',
 '감독',
 '배우',
 'ㅋㅋ',
 '내용',
 '그냥',
 '거',
 '중',
 '까지',
 '재미',
 '보다',
 '본',
 '요',
 '!!',
 '없는',
 '좀',
 '뭐',
 '시간',
 '수',
 '지',
 '봤는데',
 '쓰레기',
 '사랑',
 '볼',
 '네',
 '작품',
 '다시',
 '하나',
 '없다',
 '10',
 '할',
 '이건',
 '마지막',
 '2',
 '저',
 '같은',
 '정도',
 '있는',
 'ㅠㅠ',
 'ㅋ',
 '좋은',
 '완전',
 '처음',
 '대',
 '장면',
 '주인공',
 '입니다',
 'ㅋㅋㅋ',
 '이렇게',
 '액션',
 '최악',
 '보는',
 '걸',
 '지금',
 '이야기',
 '하',
 '끝',
 '임',
 '개',
 '3',
 '참',
 '별로',
 "'",
 '연출',
 '없고',
 '돈',
 '서',
 '느낌',
 '봐도',
 '듯',
 '라',
 '기',
 '재밌게',
 '별',
 '인데',
 'ㅡㅡ',
 '역시',
 '명작',
 '난',
 '많이',
 '이해',
 '라고',
 '^^',
 '면',
 '그리고',
 '때문',
 '여자',
 '이영화',
 '보면',
 

In [166]:
len(vocab), embedding_matrix.shape

(5001, (5001, 128))

In [169]:
# [11] Word2Vec 모델의 임베딩 행렬을 이용해 각 단어의 임베딩 값을 매핑하고,
# 단어와 임베딩 값을 출력함
# 이 임베딩 값으로 단어의 유사도를 확인할 수 있음<코사인 유사도 : 유사1, 비유사0>

import numpy as np
from numpy.linalg import norm

def cosine_similarity(a,b):
    cosine = np.dot(b,a) / (norm(b, axis = 1) * norm(a))
    return cosine

def top_n_index(cosine_matrix, n):
    closet_indexes = cosine_matrix.argsort()[::-1]
    top_n = closet_indexes[1 : n + 1]
    return top_n

In [170]:
cosine_matrix = cosine_similarity(token_embedding, embedding_matrix)
top_n = top_n_index(cosine_matrix, n = 5)

print(f"{token}와 가장 유사한 5개 단어")

for index in top_n:
    print(f"{id_to_token[index]} - 유사도 : {cosine_matrix[index]:.4f}")

연기과 가장 유사한 5개 단어
의사 - 유사도 : 0.3122
전의 - 유사도 : 0.2939
홍상수 - 유사도 : 0.2921
준비 - 유사도 : 0.2896
안되서 - 유사도 : 0.2852


# 6-4 Gensim
* Gensim라이브러리를 이용하여 word2vec를 학습

In [172]:
!pip install gensim

Collecting gensim
  Downloading gensim-4.3.2-cp39-cp39-win_amd64.whl.metadata (8.5 kB)
Downloading gensim-4.3.2-cp39-cp39-win_amd64.whl (24.0 MB)
   ---------------------------------------- 0.0/24.0 MB ? eta -:--:--
   ---------------------------------------- 0.0/24.0 MB ? eta -:--:--
   ---------------------------------------- 0.0/24.0 MB 487.6 kB/s eta 0:00:50
   ---------------------------------------- 0.1/24.0 MB 939.4 kB/s eta 0:00:26
   ---------------------------------------- 0.2/24.0 MB 1.1 MB/s eta 0:00:22
    --------------------------------------- 0.4/24.0 MB 1.6 MB/s eta 0:00:15
   - -------------------------------------- 0.6/24.0 MB 2.4 MB/s eta 0:00:10
   - -------------------------------------- 1.0/24.0 MB 3.3 MB/s eta 0:00:07
   -- ------------------------------------- 1.7/24.0 MB 4.6 MB/s eta 0:00:05
   ---- ----------------------------------- 2.8/24.0 MB 6.9 MB/s eta 0:00:04
   ------- -------------------------------- 4.2/24.0 MB 9.4 MB/s eta 0:00:03
   ----------- --

In [175]:
from gensim.models import Word2Vec
Word2Vec(
    # 모델의 학습 데이터 (토큰리스트로 표현돔)
    sentences = None,
    # 말뭉치 파일 : 학습데이터를 파일로 입력할 떄, 사용
    corpus_file = None,
    # 임베딩할 차원의 수를 나타냄
    vector_size = 1000,
    # 모델의 학습률(learning_rate)를 나타냄
    alpha = 0.025,
    # 학습데이터를 생성할 윈도우 크기를 의미, 5 -> 중심단어로부터 5만큼 떨어진 단어까지르 주변단어로 고려
    window = 5,
    # 학습에 사용할 최소 빈도를 의미(이하면 학습에 사용하지 않음)
    min_count = 5,
    # 병령 학습할 스레드의 수
    workers = 3,
    # Skip-gram 사용여부 : 0. CBoW, 1. Skip-gram
    sg = 0,
    # 계층적 소프트 맥스 사용여부를 나타냄
    hs = 0,
    # CBoW평균화 : 중심단어와 주변단어를 합칠 때, 벡터의 평균 유무를 나타냄
    cbow_mean = 1,
    # 네거티브 샘플링 단어의 수를 의미
    negative = 5,
    # 네거티브 샘플링의 확률지수를 의미함
    ns_exponent = 0.75,
    # 단어사전의 최대 크기를 나타냄
    max_final_vocab = None,
    # 에폭과 배치단어 수
    epochs = 5,
    batch_words = 10000
)

<gensim.models.word2vec.Word2Vec at 0x12f16c03b80>

## 6-4-1 gensim라이브러리로 네이버영화리뷰 데이터셋학습

In [178]:
import pandas as pd
from Korpora import Korpora
from konlpy.tag import Okt

corpus = Korpora.load('nsmc')
corpus  = pd.DataFrame(corpus.test)


    Korpora 는 다른 분들이 연구 목적으로 공유해주신 말뭉치들을
    손쉽게 다운로드, 사용할 수 있는 기능만을 제공합니다.

    말뭉치들을 공유해 주신 분들에게 감사드리며, 각 말뭉치 별 설명과 라이센스를 공유 드립니다.
    해당 말뭉치에 대해 자세히 알고 싶으신 분은 아래의 description 을 참고,
    해당 말뭉치를 연구/상용의 목적으로 이용하실 때에는 아래의 라이센스를 참고해 주시기 바랍니다.

    # Description
    Author : e9t@github
    Repository : https://github.com/e9t/nsmc
    References : www.lucypark.kr/docs/2015-pyconkr/#39

    Naver sentiment movie corpus v1.0
    This is a movie review dataset in the Korean language.
    Reviews were scraped from Naver Movies.

    The dataset construction is based on the method noted in
    [Large movie review dataset][^1] from Maas et al., 2011.

    [^1]: http://ai.stanford.edu/~amaas/data/sentiment/

    # License
    CC0 1.0 Universal (CC0 1.0) Public Domain Dedication
    Details in https://creativecommons.org/publicdomain/zero/1.0/

[Korpora] Corpus `nsmc` is already installed at C:\Users\user\Korpora\nsmc\ratings_train.txt
[Korpora] Corpus `nsmc` is already installed at C:\Users\user

In [179]:
tokenizer = Okt()
tokens = [tokenizer.morphs(review) for review in corpus.text]

In [180]:
tokens

[['굳', 'ㅋ'],
 ['GDNTOPCLASSINTHECLUB'],
 ['뭐',
  '야',
  '이',
  '평점',
  '들',
  '은',
  '....',
  '나쁘진',
  '않지만',
  '10',
  '점',
  '짜',
  '리',
  '는',
  '더',
  '더욱',
  '아니잖아'],
 ['지루하지는', '않은데', '완전', '막장', '임', '...', '돈', '주고', '보기', '에는', '....'],
 ['3',
  'D',
  '만',
  '아니었어도',
  '별',
  '다섯',
  '개',
  '줬을텐데',
  '..',
  '왜',
  '3',
  'D',
  '로',
  '나와서',
  '제',
  '심기',
  '를',
  '불편하게',
  '하죠',
  '??'],
 ['음악', '이', '주가', '된', ',', '최고', '의', '음악', '영화'],
 ['진정한', '쓰레기'],
 ['마치',
  '미국',
  '애니',
  '에서',
  '튀어나온듯',
  '한',
  '창의력',
  '없는',
  '로봇',
  '디자인',
  '부터가',
  ',',
  '고개',
  '를',
  '젖게',
  '한다'],
 ['갈수록',
  '개판',
  '되가는',
  '중국영화',
  '유치하고',
  '내용',
  '없음',
  '폼',
  '잡다',
  '끝남',
  '말',
  '도',
  '안되는',
  '무기',
  '에',
  '유치한',
  'cg',
  '남무',
  '아',
  '그립다',
  '동사서독',
  '같은',
  '영화',
  '가',
  '이건',
  '3',
  '류',
  '아',
  '류작',
  '이다'],
 ['이별',
  '의',
  '아픔',
  '뒤',
  '에',
  '찾아오는',
  '새로운',
  '인연',
  '의',
  '기쁨',
  'But',
  ',',
  '모든',
  '사람',
  '이',
  '그렇지는',
  '않네',
  '..'],
 ['괜찮

* 토큰 생성에 시간 소요

In [187]:
import pickle

with open('./nsmc_tokens.pkl', 'wb') as f:
    pickle.dump(tokens,f)

In [190]:
with open('./nsmc_tokens.pkl', 'rb') as f:
    pickle_tokens = pickle.load(f)
pickle_tokens

[['굳', 'ㅋ'],
 ['GDNTOPCLASSINTHECLUB'],
 ['뭐',
  '야',
  '이',
  '평점',
  '들',
  '은',
  '....',
  '나쁘진',
  '않지만',
  '10',
  '점',
  '짜',
  '리',
  '는',
  '더',
  '더욱',
  '아니잖아'],
 ['지루하지는', '않은데', '완전', '막장', '임', '...', '돈', '주고', '보기', '에는', '....'],
 ['3',
  'D',
  '만',
  '아니었어도',
  '별',
  '다섯',
  '개',
  '줬을텐데',
  '..',
  '왜',
  '3',
  'D',
  '로',
  '나와서',
  '제',
  '심기',
  '를',
  '불편하게',
  '하죠',
  '??'],
 ['음악', '이', '주가', '된', ',', '최고', '의', '음악', '영화'],
 ['진정한', '쓰레기'],
 ['마치',
  '미국',
  '애니',
  '에서',
  '튀어나온듯',
  '한',
  '창의력',
  '없는',
  '로봇',
  '디자인',
  '부터가',
  ',',
  '고개',
  '를',
  '젖게',
  '한다'],
 ['갈수록',
  '개판',
  '되가는',
  '중국영화',
  '유치하고',
  '내용',
  '없음',
  '폼',
  '잡다',
  '끝남',
  '말',
  '도',
  '안되는',
  '무기',
  '에',
  '유치한',
  'cg',
  '남무',
  '아',
  '그립다',
  '동사서독',
  '같은',
  '영화',
  '가',
  '이건',
  '3',
  '류',
  '아',
  '류작',
  '이다'],
 ['이별',
  '의',
  '아픔',
  '뒤',
  '에',
  '찾아오는',
  '새로운',
  '인연',
  '의',
  '기쁨',
  'But',
  ',',
  '모든',
  '사람',
  '이',
  '그렇지는',
  '않네',
  '..'],
 ['괜찮

* 사전에 생성한 토큰을 이용!!

In [182]:
from gensim.models import Word2Vec

word2vec = Word2Vec(
    sentences = tokens,
    vector_size = 128,
    window = 5,
    min_count = 1,
    sg = 1,
    epochs = 3,
    max_final_vocab = 10000
)

In [183]:
word2vec.save('./models/genism_word2vec.model')
word2vec = Word2Vec.load('./models/genism_word2vec.model')

In [185]:
word = "연기"
print(word2vec.wv[word])
print(word2vec.wv.most_similar(word, topn = 5))
print(word2vec.wv.similarity(w1 = word, w2 = "연기력"))

[-0.38606757 -0.32277983  0.29194152  0.1665694   0.1482961  -0.22057848
  0.16112044  0.00553047 -0.6598887   0.3990817   0.21226098 -0.53534925
 -0.38539815 -0.0306352   0.02375293 -0.12561762 -0.40844563  0.27153242
 -0.11331737  0.04514048  0.52873     0.0380053  -0.18904097 -0.09556534
 -0.11320364 -0.13324484 -0.111826    0.08195267  0.19479558 -0.12983952
 -0.42958674 -0.03227831  0.57209164  0.07246989 -0.21210295  0.22819522
  0.29616848 -0.03707065  0.00322377 -0.17457585  0.02462609  0.17370391
 -0.04171003 -0.32727408 -0.44217327  0.10980073 -0.4535253  -0.01178192
  0.09077916  0.12530607  0.64156574  0.27481315  0.03292473  0.32290488
 -0.4093519  -0.37219205 -0.06879465 -0.13698438 -0.1972193   0.26949438
 -0.14216428 -0.2791149   0.17916298  0.21736187 -0.3758064   0.08868649
 -0.04465196  0.36850446  0.40460202 -0.20334327 -0.28006622 -0.30302343
 -0.14865457  0.04460958 -0.12174886 -0.223664   -0.28183857 -0.37050462
 -0.30571958  0.13519856 -0.46069753 -0.07492562  0

* word2vec는 분포가설을 통해 빠르게 단어의 임베딩을 학습할 수 있음
* 단어의 형태학적 특징을 학습할 수 없음

# 6-5 fastText
* 2015 facebook에서 개발한 오픈소스 임베딩 모델
* 텍스트 분류 및 텍스트 마이닝을 위한 알고리즘
* 단어의 하위단어를 고려하여 n-gram을 수헹 후, 벡터화 진행(,를 이용하여 단어의 시작과 끝을 표현함)
* 논문 링크 : https://arxiv.org/pdf/1607.04606.pdf
* 논문정리 블로그 : https://supkoon.tistory.com/15

In [191]:
# 한국어 자연어 추론 데이터셋을 이용하여 학습진행
from Korpora import Korpora

corpus = Korpora.load("kornli")
corpus_texts = corpus.get_all_texts() + corpus.get_all_pairs()
tokens = [sentence.split() for sentence in corpus_texts]

print(tokens[:3])


    Korpora 는 다른 분들이 연구 목적으로 공유해주신 말뭉치들을
    손쉽게 다운로드, 사용할 수 있는 기능만을 제공합니다.

    말뭉치들을 공유해 주신 분들에게 감사드리며, 각 말뭉치 별 설명과 라이센스를 공유 드립니다.
    해당 말뭉치에 대해 자세히 알고 싶으신 분은 아래의 description 을 참고,
    해당 말뭉치를 연구/상용의 목적으로 이용하실 때에는 아래의 라이센스를 참고해 주시기 바랍니다.

    # Description
    Author : KakaoBrain
    Repository : https://github.com/kakaobrain/KorNLUDatasets
    References :
        - Ham, J., Choe, Y. J., Park, K., Choi, I., & Soh, H. (2020). KorNLI and KorSTS: New Benchmark
           Datasets for Korean Natural Language Understanding. arXiv preprint arXiv:2004.03289.
           (https://arxiv.org/abs/2004.03289)

    This is the dataset repository for our paper
    "KorNLI and KorSTS: New Benchmark Datasets for Korean Natural Language Understanding."
    (https://arxiv.org/abs/2004.03289)
    We introduce KorNLI and KorSTS, which are NLI and STS datasets in Korean.

    # License
    Creative Commons Attribution-ShareAlike license (CC BY-SA 4.0)
    Details in https://creativecommons.org/licenses

[kornli] download multinli.train.ko.tsv: 83.6MB [00:00, 85.9MB/s]                                                      
[kornli] download snli_1.0_train.ko.tsv: 78.5MB [00:00, 84.4MB/s]                                                      
[kornli] download xnli.dev.ko.tsv: 516kB [00:00, 1.59MB/s]                                                             
[kornli] download xnli.test.ko.tsv: 1.04MB [00:00, 4.18MB/s]                                                           


[['개념적으로', '크림', '스키밍은', '제품과', '지리라는', '두', '가지', '기본', '차원을', '가지고', '있다.'], ['시즌', '중에', '알고', '있는', '거', '알아?', '네', '레벨에서', '다음', '레벨로', '잃어버리는', '거야', '브레이브스가', '모팀을', '떠올리기로', '결정하면', '브레이브스가', '트리플', 'A에서', '한', '남자를', '떠올리기로', '결정하면', '더블', 'A가', '그를', '대신하러', '올라가고', 'A', '한', '명이', '그를', '대신하러', '올라간다.'], ['우리', '번호', '중', '하나가', '당신의', '지시를', '세밀하게', '수행할', '것이다.']]


In [192]:
# 깃허브의 올릴 수 있는 최대용량인 25MB를 넘어 다운받아서 사용해야됨!!!
'''
import pickle

with open('./kornil_tokens.pkl', 'wb') as f:
    pickle.dump(tokens,f)

with open('./kornil_tokens.pkl', 'rb') as f:
    tokens = pickle.load(f)
    '''
print(tokens[:3])

[['개념적으로', '크림', '스키밍은', '제품과', '지리라는', '두', '가지', '기본', '차원을', '가지고', '있다.'], ['시즌', '중에', '알고', '있는', '거', '알아?', '네', '레벨에서', '다음', '레벨로', '잃어버리는', '거야', '브레이브스가', '모팀을', '떠올리기로', '결정하면', '브레이브스가', '트리플', 'A에서', '한', '남자를', '떠올리기로', '결정하면', '더블', 'A가', '그를', '대신하러', '올라가고', 'A', '한', '명이', '그를', '대신하러', '올라간다.'], ['우리', '번호', '중', '하나가', '당신의', '지시를', '세밀하게', '수행할', '것이다.']]


In [194]:
from gensim.models import FastText

fastText = FastText(
    sentences = tokens,
    vector_size = 128,
    window = 5,
    min_count = 5,
    sg = 1,
    epochs = 3,
    min_n = 2,
    max_n = 6
)

In [196]:
fastText.save("./models/fastText.model")

In [197]:
fastText = FastText.load("./models/fastText.model")
oov_token = "사랑헤요"
oov_vector = fastText.wv[oov_token]

print(oov_token in fastText.wv.index_to_key)
print(fastText.wv.most_similar(oov_vector, topn = 5))

False
[('사랑', 0.9287823438644409), ('사랑해', 0.8826856017112732), ('사랑한', 0.8721379637718201), ('사랑받고', 0.8251482248306274), ('사랑이', 0.8099729418754578)]


* fasttext는 OOV문제를 효과적으로 해결할 수 있음
* 단어 사전에 존재하지 않는 단어를 하위단어들의 조합의 임베딩을 이용하여, 토큰의 임베딩을 계산할 수 있음

# END(2024-01-14)