### 단어의 표현 (Word Representation)
- 기계는 문자를 그대로 인식할 수 없기때문에 숫자로 변환

### 1 원-핫 인코딩 (One-Hot Encoding)

#### 1.1 직접 구현해보기

#### 원숭이, 바나나, 사과" 로 원-핫 인코딩을 한다면

In [None]:
#인코딩 대상 단어들을 담은 리스트
word_ls = ['원숭이','바나나','사과','사과']

from collections import defaultdict
import numpy as np

In [None]:
# defaultdict = dict는 원래 값이 있어야되기 때문에 default로 미리 설정해줌
# defaultdict(lambda:len(word2id_dic)) -> 다이나믹하게 한개를 집어넣으면 len(word2id_dic)에 따라 변함
# ex word2id_dic['바나나']-> 0
# ex word2id_dic['사과']-> 1

In [None]:
def one_hot_encode(word_ls):
    # 고유 단어와 인덱스를 매칭시켜주는 사전 생성
    word2id_dic = defaultdict(lambda:len(word2id_dic))

    # {단어 : 인덱스} 사전 구축
    for word in word_ls:
        word2id_dic[word]

    n_unique_words = len(word2id_dic) # 고유한 단어의 갯수
    one_hot_vectors = np.zeros((len(word_ls),n_unique_words)) # 원핫-벡터를 만들기 위해 비어있는 벡터생성

    for i, word in enumerate(word_ls):
        index = word2id_dic[word] # 해당 단어의 고유 인덱스
        one_hot_vectors[i, index] = 1 # 해당 단어의 고유 인덱스에만 1을 더해줌
    return one_hot_vectors

In [None]:
one_hot_vectors = one_hot_encode(word_ls)
one_hot_vectors

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.],
       [0., 0., 1.]])

In [None]:
word_ls = ['원숭이','바나나','사과','코끼리']

In [None]:
one_hot_vectors = one_hot_encode(word_ls)
one_hot_vectors

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

#### 1.3 sklearn 활용

In [None]:
# sklearn을 활용한 one-hot encoding
from numpy import array
from numpy import argmax
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder

# 예제 데이터 배열
values = array(word_ls)
print(values)
# 문자열에 숫자를 붙임
label_enc = LabelEncoder()
int_enc = label_enc.fit_transform(values)
print(int_enc)

# binary encode
onehot_enc = OneHotEncoder(sparse=False) #sparse 다시 찾아보기
int_enc = int_enc.reshape(len(int_enc), 1) # n:1 matrix로 변환
print(int_enc)
onehot_enc = onehot_enc.fit_transform(int_enc)
print(onehot_enc)

# one-hot encoding 의 첫번째 배열을 값을 역으로 산출
inverted = label_enc.inverse_transform([argmax(onehot_enc[0, :])]) #:뒤에 1을 주면 바나나가 나옴 -> 이해하기

print(inverted)

['원숭이' '바나나' '사과' '코끼리']
[2 0 1 3]
[[2]
 [0]
 [1]
 [3]]
[[0. 0. 1. 0.]
 [1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 0. 1.]]
['바나나']


In [None]:
onehot_enc[0, :]

array([0., 0., 1., 0.])

In [None]:
argmax(onehot_enc[0, :])

2

In [None]:
label_enc.inverse_transform([argmax(onehot_enc[0, :])])

array(['원숭이'], dtype='<U3')

### 2 밀집 벡터 (Dense Vector)

In [None]:
word_embedding_dic = {
'사과' : [1.0, 0.5],
'바나나' : [0.9, 1.2],
'원숭이' : [0.5, 1.5]
}

### 2-1 유사도 계산

#### 2.1.1 유클리디언 거리(Euclidean distance)
- 두 벡터사이의 직선 거리. 피타고라스 정리를 생각하면 이해하기 쉬움

In [None]:
import numpy as np
def euclidean_dist(x,y):
    x = np.array(x)
    y = np.array(y)
    return np.sqrt(np.sum(x-y)**2)

# 사과와 바나나의 유클리디안 유사도
euclidean_dist(word_embedding_dic['사과'], word_embedding_dic['바나나'])

0.6

#### 2.1.2 코사인 유사도(Cosine Similarity)
- 두 벡터간의 유사도를 측정하는 방법 중 하나
- 두 벡터 사이의 코사인을 측정
- 0도 = 1, 90도 = 0, 180도 = -1 ==> 1에 가까울수록 유사도가 높음

In [None]:
def cosine_similarity(x, y):
    # x와 y, 두 벡터의 코사인 유사도를 계산하는 함수
    nominator = np.dot(x, y) # 분자
    denominator = np.linalg.norm(x)*np.linalg.norm(y) # 분모
    return nominator/denominator

a = np.array([1, 2])
b = np.array([3, 4])
np.dot(a, b)

11

In [None]:
a = np.array([1, 2])
np.linalg.norm(a)

#사과와 바나나의 코사인 유사도
print(cosine_similarity(word_embedding_dic['사과'], word_embedding_dic['바나나']))
print(euclidean_dist(word_embedding_dic['사과'], word_embedding_dic['바나나']))

# 사과와 원숭이의 코사인 유사도
print(cosine_similarity(word_embedding_dic['사과'], word_embedding_dic['원숭이']))
print(euclidean_dist(word_embedding_dic['사과'], word_embedding_dic['원숭이']))

#바나나와 원숭이의 코사인 유사도
print(cosine_similarity(word_embedding_dic['바나나'], word_embedding_dic['원숭이']))
print(euclidean_dist(word_embedding_dic['바나나'], word_embedding_dic['원숭이']))

0.8944271909999159
0.6
0.7071067811865475
0.5
0.9486832980505138
0.09999999999999998


#### 2.1.3 자카드 유사도(Jaccard index)

In [None]:
s1 = '대부분 원숭이는 바나나를 좋아합니다.'
s2 = '코주부 원숭이는 바나나를 싫어합니다.'
# 토큰화를 수행합니다.
token_s1 = s1.split()
token_s2 = s2.split()
union = set(token_s1).union(set(token_s2))
print(union)
intersection = set(token_s1).intersection(set(token_s2))
print(intersection)
print(len(intersection)/len(union)) # 2를 6로 나눔.

{'바나나를', '대부분', '싫어합니다.', '좋아합니다.', '코주부', '원숭이는'}
{'원숭이는', '바나나를'}
0.3333333333333333


#### 2.1.4 레빈슈타인 거리

### 3 TF-IDF를 활용한 단어 벡터 

#### 3.1 직접 구현하기

In [None]:
d1 = "The cat sat on my face I hate a cat"
d2 = "The dog sat on my bed I love a dog"

from math import log10

# document 내 토큰이 등장한 빈도수 계산
def f(t, d):
   return d.count(t)

# tf 계산
def tf(t, d):
   return 0.5 + 0.5*f(t,d)/max([f(w,d) for w in d])

# idf 계산
def idf(t, D):
    numerator = len(D)
    denominator = 1 + len([ True for d in D if t in d])
    return log10(numerator/denominator) + 1

# tf-idf 계산
def tfidf(t, d, D):
    #print(D)
    print(t)
    #print(d)
    print(tf(t,d))
    print(idf(t, D))
    print(tf(t,d)*idf(t, D))
    print("===")
    return tf(t,d)*idf(t, D)
    
# 공백을 기준으로 토큰과
def tokenizer(d):
  return d.split()

# tfidf 계산
# d f tfidfS (D)


def tfidfScorer(D):
    tokenized_D = [tokenizer(d) for d in D]
    result = []
    for d in tokenized_D:
      result.append([(t, tfidf(t, d, tokenized_D)) for t in d])
    return result

corpus = [d1, d2]

for i, doc in enumerate(tfidfScorer(corpus)):
    print('====== document[%d] ======' % i)
    print(doc)

The
0.75
0.8239087409443188
0.6179315557082391
===
cat
1.0
1.0
1.0
===
sat
0.75
0.8239087409443188
0.6179315557082391
===
on
0.75
0.8239087409443188
0.6179315557082391
===
my
0.75
0.8239087409443188
0.6179315557082391
===
face
0.75
1.0
0.75
===
I
0.75
0.8239087409443188
0.6179315557082391
===
hate
0.75
1.0
0.75
===
a
0.75
0.8239087409443188
0.6179315557082391
===
cat
1.0
1.0
1.0
===
The
0.75
0.8239087409443188
0.6179315557082391
===
dog
1.0
1.0
1.0
===
sat
0.75
0.8239087409443188
0.6179315557082391
===
on
0.75
0.8239087409443188
0.6179315557082391
===
my
0.75
0.8239087409443188
0.6179315557082391
===
bed
0.75
1.0
0.75
===
I
0.75
0.8239087409443188
0.6179315557082391
===
love
0.75
1.0
0.75
===
a
0.75
0.8239087409443188
0.6179315557082391
===
dog
1.0
1.0
1.0
===
[('The', 0.6179315557082391), ('cat', 1.0), ('sat', 0.6179315557082391), ('on', 0.6179315557082391), ('my', 0.6179315557082391), ('face', 0.75), ('I', 0.6179315557082391), ('hate', 0.75), ('a', 0.6179315557082391), ('cat', 1.0)]


#### 3.2 sklearn 활용

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

corpus = [
'you know I want your love',
'I like you',
'what should I do ',
]
d1 = "The cat sat on my face I hate a cat"
d2 = "The dog sat on my bed I love a dog"
corpus = [d1, d2]
count_vect = CountVectorizer()
countv = count_vect.fit_transform(corpus)
print(countv.toarray()) # 코퍼스로부터 각 단어의 빈도 수를 기록한다.
print(count_vect.vocabulary_) # 각 단어의 인덱스가 어떻게 부여되었는지를 보여준다.

from sklearn.feature_extraction.text import TfidfVectorizer
corpus = [
'you know I want your love',
'I like you',
'what should I do ',
]
d1 = "The cat sat on my face I hate a cat"
d2 = "The dog sat on my bed I love a dog"
corpus = [d1, d2]
tfidf_vect = TfidfVectorizer().fit(corpus)
tfidfv = tfidf_vect.transform(corpus)
print(tfidfv.toarray())
print(tfidf_vect.vocabulary_)

[[0 2 0 1 1 0 1 1 1 1]
 [1 0 2 0 0 1 1 1 1 1]]
{'the': 9, 'cat': 1, 'sat': 8, 'on': 7, 'my': 6, 'face': 3, 'hate': 4, 'dog': 2, 'bed': 0, 'love': 5}
[[0.         0.70600557 0.         0.35300279 0.35300279 0.
  0.25116439 0.25116439 0.25116439 0.25116439]
 [0.35300279 0.         0.70600557 0.         0.         0.35300279
  0.25116439 0.25116439 0.25116439 0.25116439]]
{'the': 9, 'cat': 1, 'sat': 8, 'on': 7, 'my': 6, 'face': 3, 'hate': 4, 'dog': 2, 'bed': 0, 'love': 5}


#### 3.3 gensim 활용

In [None]:
import gensim.downloader as api
from gensim.models import TfidfModel
from gensim import corpora

corpus = [
'you know I want your love',
' i ',
'I like you',
'what should I do ',
]

doc_ls = [doc.split() for doc in corpus]
id2word = corpora.Dictionary(doc_ls) # fit dictionary
corpus = [id2word.doc2bow(doc) for doc in doc_ls] # convert corpus to BoW format

tfidf = TfidfModel(corpus) # fit model
vector = tfidf[corpus[0]] # apply model to the first corpus document
tfidf[corpus][0]
id2word.keys()

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

### 4 LSA(Latent Semantic Analysis)를 활용한 단어 벡터

#### 4.1 sklearn 활용

In [None]:
doc_ls = ['바나나 사과 포도 포도',
'사과 포도',
'포도 바나나',
'짜장면 짬뽕 탕수육',
'볶음밥 탕수육',
'짜장면 짬뽕',
'라면 스시',
'스시',
'가츠동 스시 소바',
'된장찌개 김치찌개 김치',
'김치 된장',
'비빔밥 김치'
]

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import TruncatedSVD

count_vect = CountVectorizer()
countv = count_vect.fit_transform(doc_ls)
svd = TruncatedSVD(n_components=2, algorithm='randomized', n_iter=100)
svd.fit(countv)

features = count_vect.get_feature_names() # 단어 집합. 1,000개의 단어가 저장됨.
for i in range(len(features)) :
    print("{} : {}".format(features[i], svd.components_[:,i]))

가츠동 : [-6.39684477e-18  6.68405705e-16]
김치 : [ 8.61804005e-18 -5.78113744e-15]
김치찌개 : [ 9.36664910e-18 -2.01553906e-15]
된장 : [-3.37773875e-17 -1.85629056e-15]
된장찌개 : [-1.78968651e-17 -1.96465929e-15]
라면 : [-6.44599925e-17  3.76789212e-16]
바나나 : [4.08248290e-01 6.40117971e-17]
볶음밥 : [-1.24658810e-22  1.27737006e-01]
비빔밥 : [ 1.71317196e-17 -1.77956935e-15]
사과 : [ 4.08248290e-01 -7.29763768e-17]
소바 : [2.57737173e-17 6.08369150e-16]
스시 : [-3.35807639e-17  1.84145991e-15]
짜장면 : [-5.97276238e-22  6.12024764e-01]
짬뽕 : [-5.97276238e-22  6.12024764e-01]
탕수육 : [-4.72617429e-22  4.84287758e-01]
포도 : [8.16496581e-01 4.48270508e-18]


#### 4.2 gensim 활용

In [None]:
doc_ls = ['바나나 사과 포도 포도',
'사과 포도',
'포도 바나나',
'짜장면 짬뽕 탕수육',
'볶음밥 탕수육',
'짜장면 짬뽕',
'라면 스시',
'스시',
'가츠동 스시 소바',
'된장찌개 김치찌개 김치',
'김치 된장',
'비빔밥 김치'
]

doc_ls = [d.split() for d in doc_ls]

from gensim import corpora
from gensim.models import LsiModel

id2word = corpora.Dictionary(doc_ls) #사전 구축
corpus = [id2word.doc2bow(text) for text in doc_ls] # 코퍼스 생성
lsi = LsiModel(corpus, id2word=id2word, num_topics=2) #LSA 모델

for i in id2word.keys():
    print("{} : {}".format(id2word[i], lsi.projection.u[i]))

바나나 : [4.08248290e-01 2.70471214e-16]
사과 : [ 4.08248290e-01 -7.95017438e-17]
포도 : [ 8.16496581e-01 -1.82872853e-16]
짜장면 : [-1.96292979e-16  6.12024764e-01]
짬뽕 : [-1.80562466e-16  6.12024764e-01]
탕수육 : [-1.33177729e-16  4.84287758e-01]
볶음밥 : [-3.90642214e-17  1.27737006e-01]
라면 : [ 2.45780525e-17 -4.93772386e-16]
스시 : [ 5.97929177e-18 -1.34422763e-15]
가츠동 : [ 2.79232745e-17 -5.42384710e-16]
소바 : [-2.30171596e-17 -5.37475621e-16]
김치 : [-1.28513425e-17 -5.24170813e-15]
김치찌개 : [ 4.87634005e-17 -2.01303971e-15]
된장찌개 : [ 5.22899525e-17 -2.06258603e-15]
된장 : [ 5.19762616e-17 -1.51057952e-15]
비빔밥 : [ 3.17040001e-17 -1.56678823e-15]
