# TF-IDF(Term Frequency -Inverse Document Frequency)
## 단어 빈도 -역 문서 빈도 

TF-IDF는 단어의 빈도와 역 문서 빈도를 사용하여 DTM 내의 각 단어들마다 중요한 정도를 가중치로 주는 방법입니다 
사용 방법은 우성 DTM을 만든 후, TF-IDF 가중치를 부여합니다. 
TF-IDF는 주로 문서의 유사도를 구하는 작업, 검색 시슽ㅁ에서 검색 결과의 중요도를 정하는 작업, 문서 내에서 특정 단어의 중요도를 구하는 작업 등에 쓰일 수 있습니다.

1. tf(d,t) : 특정 문서 d에서의 특정 단어 t의 등장 횟수 
2. df(t) : 특정 단어 t가 등장한 문서의 수  
3. idf(d,t) : df(t)에 반비례하는 수 

+ TF-IDF = tf * idf 

## 사이킷런을 이용하여 tf-idf 구하기 

In [1]:
from sklearn.feature_extraction.text import CountVectorizer 
corpus=[
    '먹고 싶은 사과',
    '먹고 싶은 토마토',
    '빨갛고 큼지막한 토마토 토마토',
    '저는 과일이 좋아요'
]

In [2]:
#DTM 만들기 
vector=CountVectorizer()
print(vector.fit_transform(corpus).toarray()) # 코버스로부터 각 단어의 빈도 수를 기록 
print(vector.vocabulary_) #ㅏㄱ 단어의 인덱스가 어떻게 부여되었는지를 보여준다. 

[[0 1 0 1 1 0 0 0 0]
 [0 1 0 0 1 0 0 0 1]
 [0 0 1 0 0 0 0 1 2]
 [1 0 0 0 0 1 1 0 0]]
{'먹고': 1, '싶은': 4, '사과': 3, '토마토': 8, '빨갛고': 2, '큼지막한': 7, '저는': 5, '과일이': 0, '좋아요': 6}


In [3]:
from sklearn.feature_extraction.text import TfidfVectorizer
tfidfv=TfidfVectorizer().fit(corpus)
print(tfidfv.transform(corpus).toarray())
print(tfidfv.vocabulary_)

[[0.         0.52640543 0.         0.66767854 0.52640543 0.
  0.         0.         0.        ]
 [0.         0.57735027 0.         0.         0.57735027 0.
  0.         0.         0.57735027]
 [0.         0.         0.47212003 0.         0.         0.
  0.         0.47212003 0.7444497 ]
 [0.57735027 0.         0.         0.         0.         0.57735027
  0.57735027 0.         0.        ]]
{'먹고': 1, '싶은': 4, '사과': 3, '토마토': 8, '빨갛고': 2, '큼지막한': 7, '저는': 5, '과일이': 0, '좋아요': 6}


## 코드 직접 구현하기

In [4]:
docs = [
    '먹고 싶은 사과',
    '먹고 싶은 토마토',
    '빨갛고 큼지막한 토마토 토마토',
    '저는 과일이 좋아요'
]
vocab = list(set(w for doc in docs for w in doc.split()))
vocab.sort()

In [5]:
# tf - idf 구하는 함수 
import math 

N = len(docs) # 총 문서의 수

def tf(t, d):
    return d.count(t)

def idf(t):
    df = 0
    for doc in docs:
        df += t in doc
    return math.log(N/(df + 1))

def tfidf(t, d):
    return tf(t,d)* idf(t)

In [6]:
#tf 구하기 
import pandas as pd 

result = []
for i in range(N): # 각 문서에 대해서 아래 명령을 수행
    result.append([])
    d = docs[i]
    for j in range(len(vocab)):
        t = vocab[j]        
        result[-1].append(tf(t, d))

tf_ = pd.DataFrame(result, columns = vocab)
tf_

Unnamed: 0,과일이,먹고,빨갛고,사과,싶은,저는,좋아요,큼지막한,토마토
0,0,1,0,1,1,0,0,0,0
1,0,1,0,0,1,0,0,0,1
2,0,0,1,0,0,0,0,1,2
3,1,0,0,0,0,1,1,0,0


In [7]:
# idf구하기
result = []
for j in range(len(vocab)):
    t = vocab[j]
    result.append(idf(t))

idf_ = pd.DataFrame(result, index = vocab, columns = ["IDF"])
idf_

Unnamed: 0,IDF
과일이,0.693147
먹고,0.287682
빨갛고,0.693147
사과,0.693147
싶은,0.287682
저는,0.693147
좋아요,0.693147
큼지막한,0.693147
토마토,0.287682


In [8]:
# tf-idf 행렬 
result = []
for i in range(N):
    result.append([])
    d = docs[i]
    for j in range(len(vocab)):
        t = vocab[j]

        result[-1].append(tfidf(t,d))

tfidf_ = pd.DataFrame(result, columns = vocab)
tfidf_

Unnamed: 0,과일이,먹고,빨갛고,사과,싶은,저는,좋아요,큼지막한,토마토
0,0.0,0.287682,0.0,0.693147,0.287682,0.0,0.0,0.0,0.0
1,0.0,0.287682,0.0,0.0,0.287682,0.0,0.0,0.0,0.287682
2,0.0,0.0,0.693147,0.0,0.0,0.0,0.0,0.693147,0.575364
3,0.693147,0.0,0.0,0.0,0.0,0.693147,0.693147,0.0,0.0


# LDA 잠재 디리클레 할당(Latent Dirichlet Allocaion)


In [16]:
corpus2=[
    '저는 토마토랑 바나나를 먹어요',
    '우리는 귀여운 강아지가 좋아요',
    '저의 깜찍하고 귀여운 강아지가 바나나를 먹어요',
    '저는 토마토랑 바나나를 먹어요'
]

In [17]:
from nltk.tokenize import word_tokenize 
tokenized_doc=[]
for i in corpus2:
    tokenized_doc.append(word_tokenize(i))

In [18]:
tokenized_doc

[['저는', '토마토랑', '바나나를', '먹어요'],
 ['우리는', '귀여운', '강아지가', '좋아요'],
 ['저의', '깜찍하고', '귀여운', '강아지가', '바나나를', '먹어요'],
 ['저는', '토마토랑', '바나나를', '먹어요']]

In [20]:
from gensim import corpora 
dictionary=corpora.Dictionary(tokenized_doc)
corpus=[dictionary.doc2bow(text) for text in tokenized_doc]
print(corpus[1]) #수행된 결과에서 두번째 뉴스 출력. 첫번째 문서의 인덱스는 0 

[(4, 1), (5, 1), (6, 1), (7, 1)]


In [21]:
import gensim 
NUM_TOPICS=2 #k=2
ldamodel=gensim.models.ldamodel.LdaModel(corpus,num_topics=NUM_TOPICS,id2word=dictionary,passes=15)
topics=ldamodel.print_topics(num_words=4)
for topic in topics:
    print(topic)

(0, '0.191*"먹어요" + 0.191*"바나나를" + 0.137*"토마토랑" + 0.137*"저는"')
(1, '0.185*"귀여운" + 0.184*"강아지가" + 0.153*"좋아요" + 0.153*"우리는"')


In [23]:
#시각화 & 토픽별 주제 
import pyLDAvis.gensim
pyLDAvis.enable_notebook()
vis=pyLDAvis.gensim.prepare(ldamodel,corpus,dictionary)
pyLDAvis.display(vis)

In [25]:
# 문서별 토픽 분포 보기 
for i,topic_list in enumerate(ldamodel[corpus]):
    if i==5:
        break
    print(i, '번째 문서의 topic 비율은', topic_list)

0 번째 문서의 topic 비율은 [(0, 0.89625454), (1, 0.103745446)]
1 번째 문서의 topic 비율은 [(0, 0.10586712), (1, 0.8941329)]
2 번째 문서의 topic 비율은 [(0, 0.78402144), (1, 0.21597856)]
3 번째 문서의 topic 비율은 [(0, 0.8962571), (1, 0.10374283)]


# doc2vec 을 이용하여 문서간 유사도 측정하기 
## 1. 코사인 유사도 

In [39]:
import pandas, nltk
from gensim.models.doc2vec import Doc2Vec, TaggedDocument
from nltk.tokenize import RegexpTokenizer

In [38]:
corpus2

['저는 토마토랑 바나나를 먹어요',
 '우리는 귀여운 강아지가 좋아요',
 '저의 깜찍하고 귀여운 강아지가 바나나를 먹어요',
 '저는 토마토랑 바나나를 먹어요']

In [37]:
tokenized_doc

[['저는', '토마토랑', '바나나를', '먹어요'],
 ['우리는', '귀여운', '강아지가', '좋아요'],
 ['저의', '깜찍하고', '귀여운', '강아지가', '바나나를', '먹어요'],
 ['저는', '토마토랑', '바나나를', '먹어요']]

word2vec에서는 list의 list 형태로 데이터를 넣었다면, 여기에서는 words=['i', 'love', 'machine', 'learning', '.', 'its', 'awesome', '.'], tags=['0'] 이런 형태의 데이터의 list들을 만들어서 입력으로 사용합니다.

In [42]:
tagged_data = [TaggedDocument(words=word_tokenize(_d.lower()), tags=[str(i)]) for i, _d in enumerate(corpus2)] #enumerate 인덱스 번호와 원소를 나타냄 

print(tagged_data)

[TaggedDocument(words=['저는', '토마토랑', '바나나를', '먹어요'], tags=['0']), TaggedDocument(words=['우리는', '귀여운', '강아지가', '좋아요'], tags=['1']), TaggedDocument(words=['저의', '깜찍하고', '귀여운', '강아지가', '바나나를', '먹어요'], tags=['2']), TaggedDocument(words=['저는', '토마토랑', '바나나를', '먹어요'], tags=['3'])]


In [43]:
# 모델 설정 
# 파라미터값 변경하며 확인하기 
max_epochs = 100
vec_size = 20
alpha = 0.025

model = Doc2Vec(size=vec_size,
                alpha=alpha, 
                min_alpha=0.00025,
                min_count=1,
                dm =1)
  
model.build_vocab(tagged_data)

for epoch in range(max_epochs):
    print('iteration {0}'.format(epoch))
    model.train(tagged_data,
                total_examples=model.corpus_count,
                epochs=model.iter)
    # decrease the learning rate
    model.alpha -= 0.0002
    # fix the learning rate, no decay
    model.min_alpha = model.alpha

model.save("d2v.model")
print("Model Saved")

iteration 0
iteration 1
iteration 2
iteration 3
iteration 4
iteration 5
iteration 6
iteration 7
iteration 8
iteration 9
iteration 10
iteration 11
iteration 12
iteration 13
iteration 14
iteration 15
iteration 16
iteration 17
iteration 18
iteration 19
iteration 20
iteration 21
iteration 22
iteration 23
iteration 24

  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)



iteration 25
iteration 26
iteration 27
iteration 28
iteration 29
iteration 30
iteration 31
iteration 32
iteration 33
iteration 34
iteration 35
iteration 36
iteration 37
iteration 38
iteration 39
iteration 40
iteration 41
iteration 42
iteration 43
iteration 44
iteration 45
iteration 46
iteration 47
iteration 48
iteration 49

  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)



iteration 50
iteration 51
iteration 52
iteration 53
iteration 54
iteration 55
iteration 56
iteration 57
iteration 58
iteration 59
iteration 60
iteration 61
iteration 62
iteration 63
iteration 64
iteration 65
iteration 66
iteration 67
iteration 68
iteration 69
iteration 70
iteration 71
iteration 72
iteration 73
iteration 74

  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)



iteration 75
iteration 76
iteration 77
iteration 78
iteration 79
iteration 80
iteration 81
iteration 82
iteration 83
iteration 84
iteration 85
iteration 86
iteration 87
iteration 88
iteration 89
iteration 90
iteration 91
iteration 92
iteration 93
iteration 94
iteration 95
iteration 96
iteration 97
iteration 98
iteration 99
Model Saved

  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)
  epochs=model.iter)





In [44]:
from gensim.models.doc2vec import Doc2Vec

model= Doc2Vec.load("d2v.model")
#test 해보기  - train 데이터에 없는 데이터를 사용해야하지만 일단 4번째 문장을 사용해본다. 
test_data = word_tokenize("저는 토마토랑 바나나를 먹어요".lower())
v1 = model.infer_vector(test_data)
print("V1_infer", v1)


V1_infer [-0.00897267 -0.0231356  -0.00998604 -0.02220161 -0.02150639 -0.0091275
 -0.006314    0.01688878  0.02315597  0.00636885  0.01561861  0.0027152
  0.01525442  0.01548706  0.01586853  0.00256532  0.02016707 -0.01839732
 -0.00283964 -0.01906318]


In [45]:
# to find most similar doc using tags
similar_doc = model.docvecs.most_similar('1') 
print(similar_doc)

[('2', 0.9801236987113953), ('3', 0.9535617828369141), ('0', 0.9390742778778076)]


 위의 결과를 해석해보면 
 1번문장 ('우리는 귀여운 강아지가 좋아요')과 가장 유사한 문장은 98퍼 유사한 2번 문장(저의 깜찍하고 귀여운 강아지가 바나나를 먹어요)이다.  
 데이터 수가 적기 때문에 유사도가 높게 나온거로 보인다. 