## Bag of Words

- 단어 별 정수 인덱스 부여, 빈도수를 기록한 것

## Document-Term Matrix

- 전체 문서에서 등장한 단어만큼의 열을 가진 벡터에서 문서 별로 등장한 단어에 빈도수만큼의 수를 부여

# TF-IDF

## TF

특정 문서에서 특정 단어가 등장한 횟수를 말한다.

## DF

특정 단어가 등장한 문서의 수를 말한다.

## IDF

DF의 역수

TF-IDF

$$
log(\frac{n} {1 + df(t)})
$$

- 로그를 취해서 수가 너무 커지는 것을 방지

- 분모에 1을 더해서 df가 0일 때의 경우를 대비

# 예시 코드

In [30]:
import pandas as pd
from math import log
from konlpy.tag import Okt

doc_list = [
    '안녕하세요 감사해요 잘있어요 다시 만나요',
    '안녕하세요 오늘도 좋은 하루 보내세요',
    '안녕하세요 안녕하세요 안녕하세요 오늘도 날씨가 좋네요',
]

# 문서 전체의 단어들을 토큰화
token_list = Okt().morphs(' '.join(doc_list))

# 중복 단어를 제거
token_list = list(set(token_list))
# print(token_list)

def tf(term, document):
    # document 에서 term 의 등장 횟수를 count
    return document.count(term)

def idf(term):
    # doc_list 에서 term 이 등장한 문서 수를 count
    df = 0
    for doc in doc_list:
        if term in doc:
            df += 1
    return log(len(doc_list) / (df+1))

def tfidf(term, document):
    # tf * idf
    return tf(term, document)*idf(term)

dtm = []

for doc in doc_list:
    # document term matrix (문서별 단어 등장 횟수) 를 구현해보자, 3 (문서) x 13 (단어) 의 행렬을 리스트로 구성하면 된다
    dtm.append(list())
    for token in token_list:
        dtm[-1].append(tf(token, doc))

dtm_pd = pd.DataFrame(dtm, columns=token_list)
print(dtm_pd)

idf_list = []

for token in token_list:
    # 단어별로 idf의 값을 구한 리스트를 만들어보자
    # 위 idf 함수를 이용하면 된다
    print(token)
    idf_list.append(idf(token))

idf_pd = pd.DataFrame(idf_list, columns=['idf'], index=token_list)
print(idf_pd)

tfidf_list = []

for doc in doc_list:
    # tfidf 를 구현해보자, 3 (문서) x 13 (단어) 의 행렬을 리스트로 구성하면 된다
    # 내부의 요소는 모두 tfidf 값으로 구성
    tfidf_list.append(list())
    for token in token_list:
        tfidf_list[-1].append(tfidf(token, doc))

tfidf_pd = pd.DataFrame(tfidf_list, columns=token_list)
print(tfidf_pd)

날씨  도  보내세요  좋네요  안녕하세요  잘있어요  하루  만나요  다시  감사해요  오늘  좋은  가
0   0  0     0    0      1     1   0    1   1     1   0   0  0
1   0  1     1    0      1     0   1    0   0     0   1   1  0
2   1  1     0    1      3     0   0    0   0     0   1   0  1
날씨
도
보내세요
좋네요
안녕하세요
잘있어요
하루
만나요
다시
감사해요
오늘
좋은
가
            idf
날씨     0.405465
도      0.000000
보내세요   0.405465
좋네요    0.405465
안녕하세요 -0.287682
잘있어요   0.405465
하루     0.405465
만나요    0.405465
다시     0.405465
감사해요   0.405465
오늘     0.000000
좋은     0.405465
가      0.405465
         날씨    도      보내세요       좋네요     안녕하세요      잘있어요        하루       만나요  \
0  0.000000  0.0  0.000000  0.000000 -0.287682  0.405465  0.000000  0.405465   
1  0.000000  0.0  0.405465  0.000000 -0.287682  0.000000  0.405465  0.000000   
2  0.405465  0.0  0.000000  0.405465 -0.863046  0.000000  0.000000  0.000000   

         다시      감사해요   오늘        좋은         가  
0  0.405465  0.405465  0.0  0.000000  0.000000  
1  0.000000  0.000000  0.0  0.405465  0.000000  
2  0.000000