<a href="https://colab.research.google.com/github/changyong93/Natural-language-processing-with-chat-bot/blob/main/%EB%94%A5%EB%9F%AC%EB%8B%9D%EC%9D%84_%EC%9D%B4%EC%9A%A9%ED%95%9C_%EC%9E%90%EC%97%B0%EC%96%B4%EC%B2%98%EB%A6%AC_%EC%9E%85%EB%AC%B8(4_3~4_%EC%B9%B4%EC%9A%B4%ED%8A%B8_%EA%B8%B0%EB%B0%98_%EB%8B%A8%EC%96%B4_%ED%91%9C%ED%98%84_%EB%AC%B8%EC%84%9C%EB%8B%A8%EC%96%B4%ED%96%89%EB%A0%AC%EA%B3%BC_TF_IDF).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 문서 단어 행렬(Document-Term Matrix, DTM)
---
각 문서에 대한 BoW 표현 방법을 가지고, 서로 다른 문서들의 BoW들을 결합한 표현방법인 무서 단어 행렬(DTM)의 표현을 구현

##  DTM 중 TF-IDF 구현
---
- IF-IDF(Term Frequency - Inverse Document Frequency) : 단어의 빈도와 역 문서 빈도(문서 빈도에 특정 식을 취함)을 이용해 DTM 내의 각 단어들마다 중요한 정보에 가중치를 부여한느 방식
- 사용 방법 : 우선 DTM을 만든 후 TF-IDF 가중치 부여
- IF-IDF 사용처 : 문서의 유사도를 구하는 작업, 검색 시스템에서 검색의 중요도를 정하는 작업, 문서 내에서 특정 단어의 중요도를 구하는 작업 등
- 기존 DTM보다 더 많은 정보를 고려할 순 있으나 성능이 더 뛰어나진 않음

## 파이썬으로 TF-IDF 구현

In [None]:
import pandas as pd # 데이터프레임 사용
from math import log #TF-IDF 계산

In [None]:
docs = [
  '먹고 싶은 사과',
  '먹고 싶은 바나나',
  '길고 노란 바나나 바나나',
  '저는 과일이 좋아요'
] 
vocab = list(set(w for doc in docs for w in doc.split()))
vocab.sort()

In [None]:
N = len(docs) #문서 개수

def tf(t,d):
  return d.count(t)

def idf(t):
  df = 0
  for doc in docs:
    df += t in doc
  return log(N / (1 + df))

def tfidf(t,d):
  return tf(t,d) * idf(t)

In [None]:
# TF 즉 DTM 구하기
result = []
for i in range(N): #문서 개수만큼 반복
  result.append([])

  d = docs[i]

  for j in range(len(vocab)):
    s = vocab[j]
    result[-1].append(tf(s,d))

tf_ = pd.DataFrame(data = result, columns = vocab)
tf_

In [None]:
#idf 생성
result = []

for i in range(len(vocab)):
  t = vocab[i]
  result.append(idf(t))
idf_ = pd.DataFrame(data = result, index = vocab, columns = ["idf"])
idf_

In [None]:
#tf-idf 구하기
result = []
for i in range(N):
  result.append([])
  
  d = docs[i]
  for j in range(len(vocab)):
    t = vocab[j]
    result[-1].append(tfidf(t,d))

tfidf_ = pd.DataFrame(data = result, columns = vocab)
tfidf_

- tf-idf 구현 완료
- 단 문제는 문서의 전체 단어가 4개인데, 해당 문서에 3개일 경우 1+3으로 로그값이 0으로 출력됨
- 이 경우 가중치를 활용 불가 => log의 input 분모에 1을 더하지 말고, log(N/df(t)) + 1로 바깥에서 더할 경우 이상없이 수행 가능

## 사이킷런으로 TF-IDF 구현
---
- 사이킷런의 TF-IDF는 조금 더 조정된 다른 식을 사용
- log 내부의 분자에 1을 더해주고, 로그항에 1을 더해주고 L2 정규화 

In [None]:
# DTM 구현
from sklearn.feature_extraction.text import CountVectorizer

corpus = [
    'you know I want your love',
    'I like you',
    'what should I do ',    
]

vector = CountVectorizer()
print(vector.fit_transform(corpus).toarray())
print(vector.vocabulary_)

In [None]:
#TF-IDF 구현
# 사이킷런 TfidfVectorizer 사용
from sklearn.feature_extraction.text import TfidfVectorizer
corpus = [
    'you know I want your love',
    'I like you',
    'what should I do ',    
]

tfidf = TfidfVectorizer()
print(tfidf.fit_transform(corpus).toarray())
print(tfidf.vocabulary_)