<a href="https://colab.research.google.com/github/jejec0703/NLP-Natural-Language-Processing/blob/master/Word_Representation.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 단어의 표현 (Word Representation)


기계는 문자를 그대로 인식할 수 없기때문에 숫자로 변환

## 1 원-핫 인코딩 (One-Hot Encoding)

### 1.1 직접 구현해보기

"원숭이, 바나나, 사과" 로 원-핫 인코딩을 한다면

In [None]:
# 인코딩 대상 단어들을 담은 리스트
word_ls = ['원숭이','바나나','사과','사과']

from collections import defaultdict
import numpy as np 

def one_hot_encode(word_ls):
    # 고유 단어와 인덱스를 매칭시켜주는 사전 생성
    
    word2id_dic = defaultdict(lambda:len(word2id_dic))
    ## defaultdict = default 값을 정해주는 함수
    ## 값 지정 안해줘도 선언된 default 값을 출력함.
    ## 여기서는 word2id_dic 의 수로 나옴

    # {단어 : 인덱스} 사전 구축
    for word in word_ls:
        word2id_dic[word]
    
    n_unique_words = len(word2id_dic) # 고유한 단어의 갯수
    one_hot_vectors = np.zeros((len(word_ls), n_unique_words)) # 원핫-벡터를 만들기 위해 비어있는 벡
    
    for i,word in enumerate(word_ls):
        index = word2id_dic[word] # 해당 단어의 고유 인덱스
        one_hot_vectors[i, index] = 1 # 해당 단어의 고유 인덱스에만 1을 더해줌
        
    return one_hot_vectors

In [None]:
one_hot_vectors = one_hot_encode(word_ls)
one_hot_vectors

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.],
       [0., 0., 1.]])

In [None]:
# array([[1., 0., 0.], = 원숭이
#       [0., 1., 0.], = 바나나
#      [0., 0., 1.], = 사과
#       [0., 0., 1.]]) = 사과

"코끼리"라는 단어가 추가된다면?

In [None]:
word_ls = ['원숭이','바나나','사과','코끼리']

one_hot_vectors = one_hot_encode(word_ls)
one_hot_vectors

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

## 1.3 sklearn 활용


t(X[, y])  |  Fit OneHotEncoder to X  
t_transform(X[, y])  |  Fit OneHotEncoder to X, then transform X  
inverse_transform(X)  |  Convert the back data to the original representation  
transform(X)  |  Transform X using one-hot encoding.


fit = 학습  
transform = 적용

In [None]:
# sklearn을 활용한 one-hot encoding
from numpy import array
from numpy import argmax
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder

In [None]:
# 예제 데이터 배열
values = array(word_ls)
print(values)

# 문자열에 숫자를 붙임
label_enc = LabelEncoder()
int_enc = label_enc.fit_transform(values)
print(int_enc)

# binary encode
onehot_enc = OneHotEncoder(sparse=False) 
## sparse = True 면 인덱스로만 표현

int_enc = int_enc.reshape(len(int_enc), 1) # n:1 matrix로 변환
print(int_enc)

onehot_enc = onehot_enc.fit_transform(int_enc)
print(onehot_enc)

# one-hot encoding 의 첫번째 배열을 값을 역으로 산출
inverted = label_enc.inverse_transform([argmax(onehot_enc[0, :])])
print(inverted)

onehot_enc[0, :]

argmax(onehot_enc[0, :])

label_enc.inverse_transform([argmax(onehot_enc[1, :])])

['원숭이' '바나나' '사과' '코끼리']
[2 0 1 3]
[[2]
 [0]
 [1]
 [3]]
[[0. 0. 1. 0.]
 [1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 0. 1.]]
['원숭이']


array(['바나나'], dtype='<U3')

In [None]:
onehot_enc[1, :] ## 1번째 모든 열

array([1., 0., 0., 0.])

## 2 밀집 벡터 (Dense Vector)


In [None]:
word_embedding_dic = {
    '사과' : [1.0, 0.5],
    '바나나' : [0.9, 1.2],
    '원숭이' : [0.5, 1.5]
}

## 2차원 벡터

## 2-1 유사도 계산

## 2.1.1 유클리디언 거리(Euclidean distance)
두 벡터사이의 직선 거리. 피타고라스 정리를 생각하면 이해하기 쉬움


https://en.wikipedia.org/wiki/Euclidean_distance


In [None]:
import numpy as np
def euclidean_dist(x,y):   
    x = np.array(x)
    y = np.array(y)
    return np.sqrt(np.sum(x-y)**2)
  
# 사과와 바나나의 유클리디안 유사도
euclidean_dist(word_embedding_dic['사과'], word_embedding_dic['바나나'])

0.6

https://en.wikipedia.org/wiki/Cosine_similarity


## 2.1.2 코사인 유사도(Cosine Similarity)

- 두 벡터간의 유사도를 측정하는 방법 중 하나
- 두 벡터 사이의 코사인을 측정
- 0도 = 1, 90도 = 0, 180도 = -1 ==> 1에 가까울수록 유사도가 높음

In [None]:
def cosine_similarity(x, y):
    # x와 y, 두 벡터의 코사인 유사도를 계산하는 함수
    nominator = np.dot(x, y)    # 분자
    denominator = np.linalg.norm(x)*np.linalg.norm(y)  # 분모
    return nominator/denominator

a = np.array([1, 2])
b = np.array([3, 4])
np.dot(a, b)

11

numpy의 linalg 서브 패키지의 norm 명령으로 벡터의 길이를 계산할 수 있다. 위에서 예로 든 2차원 벡터 𝑎=[1,2] 의 길
이는 √5≈2.236 이다.


In [None]:
a = np.array([1, 2])
np.linalg.norm(a)

2.23606797749979

In [None]:
# 사과와 바나나의 코사인 유사도
print(cosine_similarity(word_embedding_dic['사과'], word_embedding_dic['바나나']))
print(euclidean_dist(word_embedding_dic['사과'], word_embedding_dic['바나나']))

0.8944271909999159
0.6


In [None]:
# 사과와 원숭이의 코사인 유사도
print(cosine_similarity(word_embedding_dic['사과'], word_embedding_dic['원숭이']))
print(euclidean_dist(word_embedding_dic['사과'], word_embedding_dic['원숭이']))

0.7071067811865475
0.5


In [None]:
# 바나나와 원숭이의 코사인 유사도
print(cosine_similarity(word_embedding_dic['바나나'], word_embedding_dic['원숭이']))
print(euclidean_dist(word_embedding_dic['바나나'], word_embedding_dic['원숭이']))

0.9486832980505138
0.09999999999999998


바나나와 원숭이의 코사인 유사도와 유클리드 거리가 가장 관계성을 띈다.

## 2.1.3 자카드 유사도(Jaccard index)

https://en.wikipedia.org/wiki/Jaccard_index

In [None]:
s1 = '대부분 원숭이는 바나나를 좋아합니다.'
s2 = '코주부 원숭이는 바나나를 싫어합니다.'

# 토큰화를 수행합니다.
token_s1 = s1.split()
token_s2 = s2.split()

union = set(token_s1).union(set(token_s2))
print(union)  ## 합집합

intersection = set(token_s1).intersection(set(token_s2))
print(intersection)  ## 교집합

print(len(intersection)/len(union)) # 2를 6로 나눔.

{'바나나를', '원숭이는', '싫어합니다.', '좋아합니다.', '대부분', '코주부'}
{'원숭이는', '바나나를'}
0.3333333333333333


## 3. TF-IDF를 활용한 단어 벡터


## 3.1 직접 구현하기

In [None]:
d1 = "The cat sat on my face I hate a cat"
d2 = "The dog sat on my bed I love a dog"

from math import log10

# document 내 토큰이 등장한 빈도수 계산
def f(t, d):
    return d.count(t)

# tf 계산
def tf(t, d):
    return 0.5 + 0.5*f(t,d)/max([f(w,d) for w in d])

# idf 계산
def idf(t, D):
    numerator = len(D)
    denominator = 1 + len([ True for d in D if t in d])
    return log10(numerator/denominator) + 1

# tf-idf 계산
def tfidf(t, d, D):
    #print(D)
    print(t)
    #print(d)
    print(tf(t,d))
    print(idf(t, D))
    print(tf(t,d)*idf(t, D))
    print("===")
    return tf(t,d)*idf(t, D)

# 공백을 기준으로 토큰과
def tokenizer(d):
    return d.split()

# tfidf 계산  
def tfidfScorer(D):
    tokenized_D = [tokenizer(d) for d in D]
    result = []
    for d in tokenized_D:
        result.append([(t, tfidf(t, d, tokenized_D)) for t in d])
    return result

corpus = [d1, d2]

for i, doc in enumerate(tfidfScorer(corpus)):
    print('====== document[%d] ======' % i)
    print(doc)

The
0.75
0.8239087409443188
0.6179315557082391
===
cat
1.0
1.0
1.0
===
sat
0.75
0.8239087409443188
0.6179315557082391
===
on
0.75
0.8239087409443188
0.6179315557082391
===
my
0.75
0.8239087409443188
0.6179315557082391
===
face
0.75
1.0
0.75
===
I
0.75
0.8239087409443188
0.6179315557082391
===
hate
0.75
1.0
0.75
===
a
0.75
0.8239087409443188
0.6179315557082391
===
cat
1.0
1.0
1.0
===
The
0.75
0.8239087409443188
0.6179315557082391
===
dog
1.0
1.0
1.0
===
sat
0.75
0.8239087409443188
0.6179315557082391
===
on
0.75
0.8239087409443188
0.6179315557082391
===
my
0.75
0.8239087409443188
0.6179315557082391
===
bed
0.75
1.0
0.75
===
I
0.75
0.8239087409443188
0.6179315557082391
===
love
0.75
1.0
0.75
===
a
0.75
0.8239087409443188
0.6179315557082391
===
dog
1.0
1.0
1.0
===
[('The', 0.6179315557082391), ('cat', 1.0), ('sat', 0.6179315557082391), ('on', 0.6179315557082391), ('my', 0.6179315557082391), ('face', 0.75), ('I', 0.6179315557082391), ('hate', 0.75), ('a', 0.6179315557082391), ('cat', 1.0)]


## 3.2 sklearn 활용


In [None]:
from sklearn.feature_extraction.text import CountVectorizer

corpus = [
    'you know I want your love',
    'I like you',
    'what should I do ',    
]

d1 = "The cat sat on my face I hate a cat"
d2 = "The dog sat on my bed I love a dog"

corpus = [d1, d2]
count_vect = CountVectorizer()
countv = count_vect.fit_transform(corpus)

print(countv.toarray()) # 코퍼스로부터 각 단어의 빈도 수를 기록한다.
print(count_vect.vocabulary_) # 각 단어의 인덱스가 어떻게 부여되었는지를 보여준다.

from sklearn.feature_extraction.text import TfidfVectorizer

corpus = [
    'you know I want your love',
    'I like you',
    'what should I do ',    
]

d1 = "The cat sat on my face I hate a cat"
d2 = "The dog sat on my bed I love a dog"

corpus = [d1, d2]
tfidf_vect = TfidfVectorizer().fit(corpus)
tfidfv = tfidf_vect.transform(corpus)

print(tfidfv.toarray())
print(tfidf_vect.vocabulary_)

[[0 2 0 1 1 0 1 1 1 1]
 [1 0 2 0 0 1 1 1 1 1]]
{'the': 9, 'cat': 1, 'sat': 8, 'on': 7, 'my': 6, 'face': 3, 'hate': 4, 'dog': 2, 'bed': 0, 'love': 5}
[[0.         0.70600557 0.         0.35300279 0.35300279 0.
  0.25116439 0.25116439 0.25116439 0.25116439]
 [0.35300279 0.         0.70600557 0.         0.         0.35300279
  0.25116439 0.25116439 0.25116439 0.25116439]]
{'the': 9, 'cat': 1, 'sat': 8, 'on': 7, 'my': 6, 'face': 3, 'hate': 4, 'dog': 2, 'bed': 0, 'love': 5}


## 3.3 gensim 활용

In [None]:
import gensim.downloader as api
from gensim.models import TfidfModel
from gensim import corpora

corpus = [
    'you know I want your love',   
    'I like you',
    'what should I do ',    
]

doc_ls = [doc.split() for doc in corpus]
id2word = corpora.Dictionary(doc_ls)  # fit dictionary
corpus = [id2word.doc2bow(doc) for doc in doc_ls]  # convert corpus to BoW format

tfidf = TfidfModel(corpus)  # fit model
vector = tfidf[corpus[0]]  # apply model to the first corpus document

tfidf[corpus][0]

id2word.keys() 

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [None]:
TfidfModel?

## 4 LSA(Latent Semantic Analysis)를 활용한 단어 벡터

## 4.1 sklearn 활용

In [None]:
doc_ls = ['바나나 사과 포도 포도',
         '사과 포도',
         '포도 바나나',
         '짜장면 짬뽕 탕수육',
         '볶음밥 탕수육',
         '짜장면 짬뽕',
         '라면 스시',
         '스시',
         '가츠동 스시 소바',
         '된장찌개 김치찌개 김치',
         '김치 된장',
         '비빔밥 김치'
         ]

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import TruncatedSVD

count_vect = CountVectorizer()
countv = count_vect.fit_transform(doc_ls)
svd = TruncatedSVD(n_components=2, algorithm='randomized', n_iter=100)
svd.fit(countv)

features = count_vect.get_feature_names() # 단어 집합. 1,000개의 단어가 저장됨.
for i in range(len(features)) :
  print("{} : {}".format(features[i], svd.components_[:,i]))

가츠동 : [-4.07979821e-17 -4.01596694e-16]
김치 : [2.09349068e-18 5.76386282e-15]
김치찌개 : [9.74570980e-19 2.14627638e-15]
된장 : [5.41043651e-18 1.90525027e-15]
된장찌개 : [-3.20994703e-18  2.12533234e-15]
라면 : [-3.15477209e-18 -2.64913015e-16]
바나나 : [4.08248290e-01 1.00752812e-16]
볶음밥 : [2.83503999e-23 1.27737006e-01]
비빔밥 : [-9.8194756e-18  1.6543782e-15]
사과 : [ 4.08248290e-01 -9.29452252e-17]
소바 : [-1.79194223e-17 -2.87222716e-16]
스시 : [ 2.68951275e-17 -1.98307832e-15]
짜장면 : [1.35834926e-22 6.12024764e-01]
짬뽕 : [1.35834926e-22 6.12024764e-01]
탕수육 : [1.07484526e-22 4.84287758e-01]
포도 : [ 8.16496581e-01 -3.90388792e-18]


## 4.2 gensim 활용

In [None]:
doc_ls = ['바나나 사과 포도 포도',
         '사과 포도',
         '포도 바나나',
         '짜장면 짬뽕 탕수육',
         '볶음밥 탕수육',
         '짜장면 짬뽕',
         '라면 스시',
         '스시',
         '가츠동 스시 소바',
         '된장찌개 김치찌개 김치',
         '김치 된장',
         '비빔밥 김치'
]

doc_ls = [d.split() for d in doc_ls]

from gensim import corpora
from gensim.models import LsiModel

id2word = corpora.Dictionary(doc_ls) #사전 구축
corpus = [id2word.doc2bow(text) for text in doc_ls] # 코퍼스 생성
lsi = LsiModel(corpus, id2word=id2word, num_topics=2) #LSA 모델

for i in id2word.keys() :
  print("{} : {}".format(id2word[i], lsi.projection.u[i]))

바나나 : [4.08248290e-01 1.31910541e-16]
사과 : [4.08248290e-01 1.09170574e-16]
포도 : [ 8.16496581e-01 -3.65265927e-16]
짜장면 : [1.31039257e-16 6.12024764e-01]
짬뽕 : [7.32982072e-18 6.12024764e-01]
탕수육 : [6.65918541e-17 4.84287758e-01]
볶음밥 : [-2.39101133e-18  1.27737006e-01]
라면 : [-6.63638628e-17  1.17227874e-15]
스시 : [-6.09343866e-17  3.35024221e-15]
가츠동 : [-9.24659716e-18  1.35228727e-15]
소바 : [-2.7823214e-17  1.3178684e-15]
김치 : [-1.01455049e-16  2.16496230e-15]
김치찌개 : [-3.56814066e-17  8.95726765e-16]
된장찌개 : [-1.19843851e-17  8.85863503e-16]
된장 : [-2.29956002e-17  6.53958789e-16]
비빔밥 : [-1.67377925e-17  6.27231406e-16]
