# 5-2. 벡터화 실습: 원-핫 인코딩 구현해보기

### Step 1. 패키지 설치하기

In [1]:
import re
from konlpy.tag import Okt
from collections import Counter

In [2]:
text = "임금님 귀는 당나귀 귀! 임금님 귀는 당나귀 귀! 실컷~ 소리치고 나니 속이 확 뚫려 살 것 같았어."
text

'임금님 귀는 당나귀 귀! 임금님 귀는 당나귀 귀! 실컷~ 소리치고 나니 속이 확 뚫려 살 것 같았어.'

### Step 2. 전처리 이야기

In [8]:
reg = re.compile("[^ㄱ-ㅎㅏ-ㅣ가-힣 ]")
text = reg.sub("", text)
print(text)

임금님 귀는 당나귀 귀 임금님 귀는 당나귀 귀 실컷 소리치고 나니 속이 확 뚫려 살 것 같았어


### Step 3. 토큰화 이야기

In [9]:
okt = Okt()
tokens = okt.morphs(text)
print(tokens)

['임금님', '귀', '는', '당나귀', '귀', '임금님', '귀', '는', '당나귀', '귀', '실컷', '소리', '치고', '나니', '속이', '확', '뚫려', '살', '것', '같았어']


### Step 4. 단어장 만들기

In [10]:
vocab = Counter(tokens)
print(vocab)

Counter({'귀': 4, '임금님': 2, '는': 2, '당나귀': 2, '실컷': 1, '소리': 1, '치고': 1, '나니': 1, '속이': 1, '확': 1, '뚫려': 1, '살': 1, '것': 1, '같았어': 1})


In [11]:
vocab['임금님']

2

In [12]:
vocab_size = 5
vocab = vocab.most_common(vocab_size)
print(vocab)

[('귀', 4), ('임금님', 2), ('는', 2), ('당나귀', 2), ('실컷', 1)]


In [13]:
word2idx= {word[0]: index+1 for index,word in enumerate(vocab)}
word2idx

{'귀': 1, '임금님': 2, '는': 3, '당나귀': 4, '실컷': 5}

### Step 5: 원-핫 벡터 만들기

In [17]:
def one_hot_encoding(word,word2index):
    one_hot_vector = [0] * (len(word2index)) #[0, 0, 0, 0, 0]
    index = word2index[word] #index=2
    one_hot_vector[index-1] = 1 #첫번째 인덱스 위치에 
    return one_hot_vector
print("completed")

completed


In [18]:
one_hot_encoding("임금님",word2idx)

[0, 1, 0, 0, 0]

### 케라스를 통한 원-핫 인코딩(one-hot encoding)

In [19]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical

In [20]:
text = [['강아지', '고양이', '강아지'],['애교', '고양이'], ['컴퓨터', '노트북']]
text

[['강아지', '고양이', '강아지'], ['애교', '고양이'], ['컴퓨터', '노트북']]

In [21]:
#케라스 토크나이저는 주어진 텍스트로부터 단어장을 만들고 단어장의 각 단어에 고유한 정수를 맵핑해준다. 
t = Tokenizer()
t.fit_on_texts(text)
t.word_index

{'강아지': 1, '고양이': 2, '애교': 3, '컴퓨터': 4, '노트북': 5}

In [22]:
vocab_size = len(t.word_index) +1

In [23]:
sub_text = ['강아지','고양이','강아지','컴퓨터','바보']
encoded = t.texts_to_sequences([sub_text])
print(encoded)

[[1, 2, 1, 4]]


In [24]:
one_hot = to_categorical(encoded,num_classes=vocab_size)
print(one_hot)

[[[0. 1. 0. 0. 0. 0.]
  [0. 0. 1. 0. 0. 0.]
  [0. 1. 0. 0. 0. 0.]
  [0. 0. 0. 0. 1. 0.]]]


# 5-3. 워드 임베딩

### 희소 벡터(Sparse Vector)의 문제점

In [None]:
#이에 대한 대안으로 '기계가 단어장 크기보다 적은 차원의 밀집 벡터(dense vector)를 학습'하는 워드 임베딩(word embedding) 이 제안되었습니다. 이를 통해 얻는 밀집 벡터는 각 차원이 0과 1이 아닌 다양한 실숫값을 가지며, 이 밀집 벡터를 임베딩 벡터(embedding vector) 라고 합니다.

In [None]:
#결론적으로 워드 임베딩에서 중요한 것은 두 가지 입니다.
#한 단어를 길이가 비교적 짧은 밀집 벡터로 나타낸다.
#그런데 이 밀집 벡터는 단어가 갖는 의미나 단어 간의 관계 등을 어떤 식으로든 내포하고 있다.

# 5-5. Word2Vec (2) CBoW

# 5-7. Word2Vec (4) 영어 Word2Vec 실습과 OOV 문제

In [25]:
import nltk
nltk.download('abc')
nltk.download('punkt')

[nltk_data] Downloading package abc to /Users/songye/nltk_data...
[nltk_data]   Unzipping corpora/abc.zip.
[nltk_data] Downloading package punkt to /Users/songye/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [26]:
from nltk.corpus import abc
corpus = abc.sents()

In [27]:
corpus[:3]

[['PM',
  'denies',
  'knowledge',
  'of',
  'AWB',
  'kickbacks',
  'The',
  'Prime',
  'Minister',
  'has',
  'denied',
  'he',
  'knew',
  'AWB',
  'was',
  'paying',
  'kickbacks',
  'to',
  'Iraq',
  'despite',
  'writing',
  'to',
  'the',
  'wheat',
  'exporter',
  'asking',
  'to',
  'be',
  'kept',
  'fully',
  'informed',
  'on',
  'Iraq',
  'wheat',
  'sales',
  '.'],
 ['Letters',
  'from',
  'John',
  'Howard',
  'and',
  'Deputy',
  'Prime',
  'Minister',
  'Mark',
  'Vaile',
  'to',
  'AWB',
  'have',
  'been',
  'released',
  'by',
  'the',
  'Cole',
  'inquiry',
  'into',
  'the',
  'oil',
  'for',
  'food',
  'program',
  '.'],
 ['In',
  'one',
  'of',
  'the',
  'letters',
  'Mr',
  'Howard',
  'asks',
  'AWB',
  'managing',
  'director',
  'Andrew',
  'Lindberg',
  'to',
  'remain',
  'in',
  'close',
  'contact',
  'with',
  'the',
  'Government',
  'on',
  'Iraq',
  'wheat',
  'sales',
  '.']]

In [28]:
len(corpus)

29059

In [30]:
len(corpus[1])

26

In [31]:
from gensim.models import Word2Vec
model = Word2Vec(sentences=corpus,vector_size=100,window=5,min_count=5,workers=4,sg=0)

In [32]:
model_result = model.wv.most_similar('man')
print(model_result)

[('woman', 0.9233418107032776), ('skull', 0.911030113697052), ('Bang', 0.905648946762085), ('asteroid', 0.9052114486694336), ('third', 0.9020071625709534), ('baby', 0.8994219303131104), ('dog', 0.898607611656189), ('bought', 0.8975202441215515), ('rally', 0.8912495374679565), ('disc', 0.8889137506484985)]


In [35]:
from gensim.models import KeyedVectors

model.wv.save_word2vec_format('./word_embedding/w2v')
loaded_model = KeyedVectors.load_word2vec_format("./word_embedding/w2v")
print("model load complete")

model load complete


In [36]:
model_result = loaded_model.most_similar('man')
print(model_result)

[('woman', 0.9233418107032776), ('skull', 0.911030113697052), ('Bang', 0.905648946762085), ('asteroid', 0.9052114486694336), ('third', 0.9020071625709534), ('baby', 0.8994219303131104), ('dog', 0.898607611656189), ('bought', 0.8975202441215515), ('rally', 0.8912495374679565), ('disc', 0.8889137506484985)]


In [39]:
# 에러가 나더라도 놀라지 마세요.
loaded_model.most_similar('man')
#KeyError: "Key 'overacting' not present"

[('woman', 0.9233418107032776),
 ('skull', 0.911030113697052),
 ('Bang', 0.905648946762085),
 ('asteroid', 0.9052114486694336),
 ('third', 0.9020071625709534),
 ('baby', 0.8994219303131104),
 ('dog', 0.898607611656189),
 ('bought', 0.8975202441215515),
 ('rally', 0.8912495374679565),
 ('disc', 0.8889137506484985)]

# 5-8. 임베딩 벡터의 시각화

# 5-9. FastText

In [40]:
from gensim.models import FastText
fasttext_model = FastText(corpus,window=5,min_count=5,workers=4,sg=1)

In [42]:
fasttext_model.wv.most_similar('overacting')

[('fluctuating', 0.9416335821151733),
 ('resolving', 0.940483033657074),
 ('emptying', 0.9352311491966248),
 ('malting', 0.9350288510322571),
 ('shooting', 0.9328505396842957),
 ('overwhelming', 0.932068407535553),
 ('mounting', 0.9305345416069031),
 ('debilitating', 0.9301708936691284),
 ('extracting', 0.9295319318771362),
 ('declining', 0.9280957579612732)]

In [43]:
fasttext_model.wv.most_similar('memoryy')

[('memory', 0.946443498134613),
 ('musical', 0.865608811378479),
 ('basic', 0.8654351234436035),
 ('mechanisms', 0.8645912408828735),
 ('mechanism', 0.8621349930763245),
 ('mechanical', 0.8546159863471985),
 ('imagine', 0.8526882529258728),
 ('technical', 0.8464776277542114),
 ('intelligence', 0.8410244584083557),
 ('duplicate', 0.8382733464241028)]