<a href="https://colab.research.google.com/github/ttury/Deep-Learning-For-Natural-Language-Processing/blob/master/TF_IDF.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **TF-IDF**
---
> dtm 내의 각 단어들마다 중요한 정도를 가중치로 주는 방법

> TF-IDF = TF(Term Frequency * IDF(Inverse Document Frequency)

<br/>

* d : 특정 문서
* t : 특정 단어
* n : 문서 개수

<br/>

> tf(d, t)
* 특정 문서 d에서의 특정 단어 t의 등장 횟수
* DTM 값을 그대로 사용

> df(t)
* 특정 단어 t가 등장한 문서의 수

> idf(d, t)
* df와 반비례하는 수
* $idf(d, t) = \ln(\frac{n}{1+df(t)})$
* 분모가 0이 되지 않도록 df(t)에 1을 더함
* 1 + d(f) = n일 때 idf가 0이 되지 않도록 계산 마지막에 1을 더하기도 함
* TF-IDF 값들이 너무 큰 격차를 갖지 않도록 자연로그 사용

<br/>

## 사이킷런 이용
---
> DTM
* CountVectorizer 사용

> TF-IDF
* TfidfVectorizer 사용
* TF-IDF 값을 구할 때 약간 다른 식을 사용

<br/>

DTM : https://wikidocs.net/24559
<br/>
TF-IDF = https://wikidocs.net/31698






In [50]:
import pandas as pd
from math import log

docs = [
        '먹고 싶은 사과',
        '먹고 싶은 바나나',
        '길고 노란 바나나 바나나',
        '저는 과일이 좋아요'
]
# vocab = list(set(w for doc in docs for w in doc.split()))
vocab = set()
for doc in docs:
  vocab.update(doc.split())
vocab = list(vocab)
vocab.sort()

In [51]:
num_of_docs = len(docs)

def term_frequency(term, doc):
  return doc.count(term) # 문자열 count 함수 : 문자열 속 문자열 개수 찾기

def doc_frequency(term):
  df = 0
  for doc in docs:
    df += term in doc # 문서에 존재하면 1, 아니면 0
  return df

def inv_doc_frequency(term):
  df = doc_frequency(term)
  return log(num_of_docs / (df + 1))

def tf_idf(term, doc):
  return term_frequency(term, doc) * inv_doc_frequency(term)

In [None]:
result = list()
for doc in docs:
  result.append([]) # 2차원 리스트에서 하나의 행
  for term in vocab: # 열이 단어 사전 기준
    result[-1].append(term_frequency(term, doc)) # 작성 중인 행에 tf 값 넣기

tf = pd.DataFrame(result, columns = vocab)
print(tf)

In [None]:
result = list(map(inv_doc_frequency, vocab))

idf = pd.DataFrame(result, index = vocab, columns = ["IDF"])
print(idf)

In [None]:
pd.set_option('display.max_rows', 10)
pd.set_option('display.max_columns', 10)

result = list()
for doc in docs:
  result.append([])
  for term in vocab:
    result[-1].append(tf_idf(term, doc))

tfidf = pd.DataFrame(result, columns = vocab)
print(tfidf)

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

corpus = [
          'you know I want your love',
          'I like you',
          'what should I do'
]
count_vector = CountVectorizer()
print(count_vector.fit_transform(corpus).toarray())
print(count_vector.vocabulary_)

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

corpus = [
          'you know i want your love',
          'I like you',
          'what should i do'
]
tfidf_vector = TfidfVectorizer().fit(corpus)
print(tfidf_vector.transform(corpus).toarray())
print(tfidf_vector.vocabulary_)