# 문장의 표현 (Sentence Representation)

# 1 BoW (Bag of Words)

<img src="https://image.slidesharecdn.com/vector-space-models-170118145044/95/cs571-vector-space-models-3-638.jpg?cb=1485433004" />

https://en.wikipedia.org/wiki/Bag-of-words_model
https://www.slideshare.net/jchoi7s/cs571-vector-space-models

## 1.1 직접구현

In [None]:
docs = [
    '오늘 동물원에서 원숭이를 봤어',
    '오늘 동물원에서 코끼리를 봤어 봤어',
    '동물원에서 원숭이에게 바나나를 줬어 바나나를'
]

### 1) 띄어쓰기 단위로 토큰화

In [None]:
doc_ls = [doc.split() for doc in docs]
doc_ls

### 2) 각 고유 토큰에 인덱스(Index)를 지정

In [None]:
from collections import defaultdict

word2id = defaultdict(lambda : len(word2id))
[word2id[token] for doc in doc_ls for token in doc]
word2id   

### 3) BoW 생성

In [None]:
import numpy as np 

BoW_ls = []

for i, doc in enumerate(doc_ls):
    bow = np.zeros(len(word2id), dtype=int)
    for token in doc:
        bow[word2id[token]] += 1 # 해당 토큰의 위치(column)
    BoW_ls.append(bow.tolist())
BoW_ls

In [None]:
from IPython.core import display as ICD
import pandas as pd

sorted_vocab = sorted((value, key) for key, value in word2id.items())
vocab = [v[1] for v in sorted_vocab]
for i in range(len(docs)) :
    print("문서{} : {}".format(i, docs[i]))
    ICD.display(pd.DataFrame([BoW_ls[i]], columns=vocab))
    print("\n\n")



---





## 1.2 단어 순서를 고려하지 않은 BoW

In [None]:
docs = [
    '나는 양념 치킨을 좋아해 하지만 후라이드 치킨을 싫어해',
    '나는 후라이드 치킨을 좋아해 하지만 양념 치킨을 싫어해'
]

### 1) 띄어쓰기 단위로 토큰화

In [None]:
doc_ls = [doc.split() for doc in docs]
doc_ls

### 2) 각 고유 토큰에 인덱스(Index)를 지정

In [None]:
from collections import defaultdict

word2id = defaultdict(lambda : len(word2id))
[word2id[token] for doc in doc_ls for token in doc ]     
word2id   

### 3) BoW 생성

In [None]:
import numpy as np 

BoW_ls = []

for i, doc in enumerate(doc_ls):
    bow = np.zeros(len(word2id), dtype=int)
    for token in doc:
        bow[word2id[token]] += 1 # 해당 토큰의 위치(column)
    BoW_ls.append(bow.tolist())
BoW_ls

In [None]:
from IPython.core import display as ICD

sorted_vocab = sorted((value, key) for key, value in word2id.items())
vocab = [v[1] for v in sorted_vocab]
for i in range(len(docs)) :
    print("문서{} : {}".format(i, docs[i]))
    ICD.display(pd.DataFrame([BoW_ls[i]], columns=vocab))
    print("\n\n")



---



https://en.wikipedia.org/wiki/Document-term_matrix

## 1.3 sklearn 활용

In [None]:
docs = [
    '오늘 동물원에서 원숭이를 봤어',
    '오늘 동물원에서 코끼리를 봤어 봤어',
    '동물원에서 원숭이에게 바나나를 줬어 바나나를'
]

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

count_vect = CountVectorizer()
BoW = count_vect.fit_transform(docs)

BoW.toarray()[0]

In [None]:
from IPython.core import display as ICD

vocab = count_vect.get_feature_names()
for i in range(len(docs)) :
    print("문서{} : {}".format(i, docs[i]))
    ICD.display(pd.DataFrame([BoW.toarray()[i]], columns=vocab))
    print("\n\n")



---


## 1.4 gensim 활용

In [None]:
docs = [
    '오늘 동물원에서 원숭이를 봤어',
    '오늘 동물원에서 코끼리를 봤어 봤어',
    '동물원에서 원숭이에게 바나나를 줬어 바나나를'
]

In [None]:
import gensim
import numpy as np
from gensim import corpora

doc_ls = [doc.split() for doc in docs]
id2word = corpora.Dictionary(doc_ls)
BoW = [id2word.doc2bow(doc) for doc in doc_ls]
BoW[0]

In [None]:
from gensim.matutils import sparse2full
from IPython.core import display as ICD

vocab = [id2word[i] for i in id2word.keys()]
for i in range(len(docs)) :
    print("문서{} : {}".format(i, docs[i]))
    ICD.display(pd.DataFrame([sparse2full(BoW[0], len(vocab))], columns=vocab))
    print("\n\n")



---



# 2 TDM(Term-Document Matrix)

## 2.1 직접구현

In [None]:
docs = [
    '오늘 동물원에서 원숭이를 봤어',
    '오늘 동물원에서 코끼리를 봤어 봤어',
    '동물원에서 원숭이에게 바나나를 줬어 바나나를'
]

### 1) 띄어쓰기 단위로 토큰화

In [None]:
doc_ls = [doc.split() for doc in docs]
doc_ls

### 2) 각 고유 토큰에 인덱스(Index)를 지정

In [None]:
from collections import defaultdict

word2id = defaultdict(lambda : len(word2id))
[word2id[token] for doc in doc_ls for token in doc ]     
word2id        

### 3) TDM 생성

In [None]:
import numpy as np 

TDM = np.zeros((len(word2id), len(doc_ls)), dtype=int)
for i, doc in enumerate(doc_ls):
    for token in doc:
        TDM[word2id[token], i] += 1 # 해당 토큰의 위치(column)
TDM

In [None]:
import pandas as pd

doc_names = ['문서'+ str(i) for i in range(len(doc_ls))]
sorted_vocab = sorted((value, key) for key, value in word2id.items())
vocab = [v[1] for v in sorted_vocab]
df_TDM = pd.DataFrame(TDM, columns=doc_names)
df_TDM['단어'] = vocab
df_TDM.set_index('단어')

## 2.2 sklearn 활용

In [None]:
docs = [
    '오늘 동물원에서 원숭이를 봤어',
    '오늘 동물원에서 코끼리를 봤어 봤어',
    '동물원에서 원숭이에게 바나나를 줬어 바나나를'
]

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

count_vect = CountVectorizer()
DTM = count_vect.fit_transform(docs)
DTM.toarray()

In [None]:
import pandas as pd

doc_names = ['문서'+ str(i) for i in range(len(doc_ls))]
vocab = count_vect.get_feature_names()
df_TDM = pd.DataFrame(DTM.toarray().T, columns=doc_names)
df_TDM['단어'] = vocab
df_TDM.set_index('단어')



---


## 2.3 gensim 활용

In [None]:
docs = [
    '오늘 동물원에서 원숭이를 봤어',
    '오늘 동물원에서 코끼리를 봤어 봤어',
    '동물원에서 원숭이에게 바나나를 줬어 바나나를'
]

In [None]:
import gensim
from gensim import corpora

doc_ls = [doc.split() for doc in docs] #공백으로 토큰화
id2word = corpora.Dictionary(doc_ls)
TDM = [id2word.doc2bow(doc) for doc in doc_ls]
TDM

In [None]:
import pandas as pd

doc_names = ['문서'+ str(i) for i in range(len(doc_ls))]
vocab = [id2word[i] for i in id2word.keys()]
DTM_matrix = [sparse2full(doc, len(vocab)).tolist() for doc in TDM]

df_TDM = pd.DataFrame(np.array(DTM_matrix, dtype=int).T, columns=doc_names)
df_TDM['단어'] = vocab
df_TDM.set_index('단어')

In [None]:
DTM_matrix

---

# 3 TF-IDF (Term Frequency-Inverse Document Frequency)

<img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/10109d0e60cc9d50a1ea2f189bac0ac29a030a00" />



*  TF(단어 빈도, Term Frequency) : 단어가 문서 내에 등장하는 빈도
*  IDF(역문서 빈도, Inverse Document Frequency) : 단어가 여러 문서에 공통적으로 등장하는 빈도
*  한 문서 내에 자주 등장하고 다른 문서에 자주 등장하지 않는 단어를 주요 단어로 판별할 수 있음


https://en.wikipedia.org/wiki/Tf%E2%80%93idf

## 3.1 직접계산하기 1

weighting schema|weight
--|--
tf (term frequency)|<img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/91699003abf4fe8bdf861bbce08e73e71acf5fd4" />
idf(inverse document frequency) |<img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/864fcfdc0c16344c11509f724f1aa7081cf9f657" />

In [None]:
docs = [
    '오늘 동물원에서 원숭이를 봤어',
    '오늘 동물원에서 코끼리를 봤어 봤어',
    '동물원에서 원숭이에게 바나나를 줬어 바나나를'
]

### 1) 띄어쓰기 단위로 토큰화

In [None]:
doc_ls = [doc.split() for doc in docs]
doc_ls

### 2) 각 고유 토큰에 인덱스(Index)를 지정

In [None]:
from collections import defaultdict

word2id = defaultdict(lambda : len(word2id))
[word2id[token] for doc in doc_ls for token in doc ]     
word2id        

### 3) TDM 생성

In [None]:
import numpy as np 

TDM = np.zeros((len(doc_ls),len(word2id)), dtype=int)
for i, doc in enumerate(doc_ls):
    for token in doc:
        TDM[i, word2id[token]] += 1 # 해당 토큰의 위치(column)
TDM

### 4) TF 계산

<img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/91699003abf4fe8bdf861bbce08e73e71acf5fd4" />

TF = 문서내 토크빈도/ 문서내 전체토큰갯수

In [None]:
def computeTF(TDM):
    doc_len = len(TDM)
    word_len = len(TDM[0])

    tf = np.zeros((doc_len, word_len))

    for doc_i in range(doc_len) :
        for word_i in range(word_len) :
            tf[doc_i, word_i] = TDM[doc_i, word_i]/TDM[doc_i].sum()
    return tf

computeTF(TDM)

### 5) IDF  계산

<img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/864fcfdc0c16344c11509f724f1aa7081cf9f657" />

IDF = log(총문서수/토큰이등장한문서수)

In [None]:
import numpy as np

def computeIDF(TDM):
    doc_len = len(TDM)
    word_len = len(TDM[0])

    idf = np.zeros(word_len)
    for i in range(word_len) :
        idf[i] = -np.log(np.count_nonzero(TDM[:,i]) / doc_len)
        
    return idf
computeIDF(TDM)    

### 6) TF-IDF 계산

In [None]:
def computeTFIDF(TDM):
    tf = computeTF(TDM)
    idf = computeIDF(TDM)

    tfidf = np.zeros(tf.shape)
    for doc_i in range(tf.shape[0]) :
        for word_i in range(tf.shape[1]) :
            tfidf[doc_i, word_i] = tf[doc_i, word_i] * idf[word_i]
    return tfidf
computeTFIDF(TDM)

In [None]:
import pandas as pd

sorted_vocab = sorted((value, key) for key, value in word2id.items())
vocab = [v[1] for v in sorted_vocab]
tfidf= computeTFIDF(TDM)
pd.DataFrame(tfidf, columns=vocab)

## 3.2 직접계산하기2

weighting schema|weight|설명
--|--|--
tf(double normalization 0.5)|<img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/45badc1c70ec2caa00ed8c21ed75bd9f8d3e650c" />|=0.5 + 0.5(토큰빈도/문서내최빈토큰)
idf(inverse document frequency smooth)|<img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/23e5ae785c1ddc6bd95d404ea3fac2477fff5eff" />|=log(문서갯수/(1+토큰빈도))

In [None]:
docs = [
    '오늘 동물원에서 원숭이를 봤어',
    '오늘 동물원에서 코끼리를 봤어 봤어',
    '동물원에서 원숭이에게 바나나를 줬어 바나나를'
]

In [None]:
import numpy as np
from collections import defaultdict

# document 내 토큰이 등장한 빈도수 계산
def f(t, d):
    return d.count(t)

# tf 계산
def tf(t, d):
    return 0.5 + 0.5*f(t,d)/max([f(w,d) for w in d])

# idf 계산
def idf(t, D):
    numerator = len(D)
    denominator = 1 + len([ True for d in D if t in d])
    return np.log(numerator/denominator)

# tf-idf 계산
def tfidf_score(t, d, D):
    return tf(t,d)*idf(t, D)

# 공백을 기준으로 토큰과
def tokenizer(d):
    return d.split()

# tfidf 계산  
def tfidfScorer(D):
    D_ls = [tokenizer(d) for d in D]
    vocab = list(set().union(*D_ls))
    word2id = defaultdict(lambda : len(word2id))
    [ word2id[v] for v in vocab ]

    tfidf = np.zeros((len(D_ls), len(vocab)))
    for i in range(len(D_ls)) :
        for t in D_ls[i] :
            tfidf[i, word2id[t]] = tfidf_score(t, D_ls[i], D_ls)
    return tfidf, vocab

tfidfScorer(docs)

In [None]:
import pandas as pd
tfidf, vocab = tfidfScorer(docs)
pd.DataFrame(tfidf, columns=vocab)

## 3.3 sklearn 활용

In [None]:
docs = [
    '오늘 동물원에서 원숭이를 봤어',
    '오늘 동물원에서 코끼리를 봤어 봤어',
    '동물원에서 원숭이에게 바나나를 줬어 바나나를'
]

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf_vect = TfidfVectorizer()
tfidf = tfidf_vect.fit_transform(docs)
tfidf.todense()

In [None]:
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer

count_vect = CountVectorizer()
BoW = count_vect.fit_transform(docs)
tfidf_trans = TfidfTransformer()
tfidf = tfidf_trans.fit_transform(BoW)
tfidf.todense()

In [None]:
import pandas as pd

vocab = tfidf_vect.get_feature_names()
pd.DataFrame(tfidf.todense(), columns=vocab)



---



## 3.4 gensim 활용

In [None]:
docs = [
    '오늘 동물원에서 원숭이를 봤어',
    '오늘 동물원에서 코끼리를 봤어 봤어',
    '동물원에서 원숭이에게 바나나를 줬어 바나나를'
]

In [None]:
import gensim
from gensim import corpora
from gensim.models import TfidfModel

doc_ls = [doc.split() for doc in docs] #공백으로 토큰화
id2word = corpora.Dictionary(doc_ls)
TDM = [id2word.doc2bow(doc) for doc in doc_ls]
model = TfidfModel(TDM)
tfidf = model[TDM] 
tfidf[0]

In [None]:
from gensim.matutils import sparse2full

vocab = [id2word[i] for i in id2word.keys()]
TDM_matrix = [sparse2full(doc, len(vocab)).tolist() for doc in tfidf]
pd.DataFrame(TDM_matrix, columns=vocab)

---

# 4 LSA(Latent Semantic Analysis)를 활용한 문서 벡터

## 4.1 sklearn 활용

In [None]:
docs = [
    '오늘 동물원에서 원숭이를 봤어',
    '오늘 동물원에서 코끼리를 봤어 봤어',
    '동물원에서 원숭이에게 바나나를 줬어 바나나를'
]

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import TruncatedSVD

n_dim = 3

count_vect = CountVectorizer()
DTM = count_vect.fit_transform(docs)
svd = TruncatedSVD(n_components=n_dim, algorithm='randomized', n_iter=100)
u_sigma = svd.fit_transform(DTM)
u_sigma

In [None]:
import numpy as np

# svd.fit_transform(X) => U * Sigma.
# svd.singular_values_ => Sigma .
# svd.components_ => VT
df_U = pd.DataFrame(u_sigma/svd.singular_values_, columns=range(len(docs)))
df_U['문서'] = docs
df_U.set_index('문서')

## 4.2 gensim 활용

In [None]:
docs = [
    '오늘 동물원에서 원숭이를 봤어',
    '오늘 동물원에서 코끼리를 봤어 봤어',
    '동물원에서 원숭이에게 바나나를 줬어 바나나를'
]

In [None]:
doc_ls = [doc.split() for doc in docs]
doc_ls[0]

In [None]:
from gensim import corpora
from gensim.models import LsiModel

n_dim = 3

id2word = corpora.Dictionary(doc_ls)
corpus_TDM = [id2word.doc2bow(text) for text in doc_ls]
model_LSA = LsiModel(corpus_TDM, id2word=id2word, num_topics=n_dim)
corpus_VT = model_LSA[corpus_TDM]
corpus_VT[0]

In [None]:
from gensim.matutils import sparse2full
# LsiModel.projection.u => left singular vectors,
# LsiModel.projection.s => singular values,
# model[training_corpus] => right singular vectors.

n_topics = 3

VT = [sparse2full(doc_vector, n_topics).tolist() for doc_vector in corpus_VT]
df_VT = pd.DataFrame(VT, columns=range(len(docs)))
df_VT['문서'] = docs
df_VT = df_VT.set_index('문서')
df_VT

In [None]:
from numpy import dot
from numpy.linalg import norm

def cosine_similarity(a, b) :
    return dot(a, b)/(norm(a)*norm(b))

cosine_similarity(VT[0], VT[1])
cosine_similarity(VT[1], VT[2])