# Scikit-Learn 라이브러리를 이용하여 구현하기

In [10]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [11]:
docs = [
    '나는 오늘 기분이 좋아',
    '나는 항상 기분이 좋아',
    '우리는 매일 기분이 나빠',
    '너는 항상 나빠 나빠'
]

In [27]:
# TF-IDF 객체선언
tfidfv = TfidfVectorizer()

# 단어를 학습시킨다
tfidfv.fit(docs)

# 단어사전 출력(단어사전은 단어-인덱스) -> 이때 한 글자 단어들은 제외되고 단어 사전이 만들어진다.
tfidfv.vocabulary_

{'나는': 1, '오늘': 5, '기분이': 0, '좋아': 7, '항상': 8, '우리는': 6, '매일': 4, '나빠': 2, '너는': 3}


In [13]:
# idf 결과
tfidfv.idf_

array([1.22314355, 1.51082562, 1.51082562, 1.91629073, 1.91629073,
       1.91629073, 1.91629073, 1.51082562, 1.51082562])

In [19]:
# 위 사전을 기반으로 tf-idf 계산
tfidfv.transform(docs).toarray()

array([[0.39205255, 0.4842629 , 0.        , 0.        , 0.        ,
        0.61422608, 0.        , 0.4842629 , 0.        ],
       [0.42344193, 0.52303503, 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.52303503, 0.52303503],
       [0.36674667, 0.        , 0.4530051 , 0.        , 0.57457953,
        0.        , 0.57457953, 0.        , 0.        ],
       [0.        , 0.        , 0.7779822 , 0.49338588, 0.        ,
        0.        , 0.        , 0.        , 0.3889911 ]])

In [28]:
print(sorted(tfidfv.vocabulary_.items()))

[('기분이', 0), ('나는', 1), ('나빠', 2), ('너는', 3), ('매일', 4), ('오늘', 5), ('우리는', 6), ('좋아', 7), ('항상', 8)]


# 직접 TF-IDF 구현하기

In [1]:
import pandas as pd
from math import log

#### TF, IDF, TF-IDF 함수 작성

In [None]:
# 최종적인 TF, IDF Vector 구하기
class TF_IDF():
    def __init__(self, docs): 
        self.docs = docs
        self.words = list(set([word for doc in docs for word in doc.split()]))
        self.TF = pd.DataFrame(index=self.docs, columns=self.words)
        self.IDF = pd.DataFrame(index=self.words, columns=['idf'])
    
    def tf(self):
        for idx, row in self.TF.iterrows():
            for word in self.words:
                row[word] = idx.count(word)
        return self.TF
    
    def idf(self):
        for word in self.words:
            self.IDF.loc[word,'idf'] = log(len(self.docs)/(1+len([doc for doc in self.docs if word in doc])))
        return self.IDF

# documents
docs = [
    '나는 오늘 기분이 좋아',
    '나는 항상 기분이 좋아',
    '우리는 매일 기분이 나빠',
    '너는 항상 나빠 나빠'
]

# idf 구하기
test = TF_IDF(docs)
test.idf()

In [6]:
# 최종적인 TF_IDF CLASS
class TF_IDF():
    def __init__(self, docs): 
        self.docs = docs
        self.words = list(set([word for doc in docs for word in doc.split()]))
        self.TF_IDF = pd.DataFrame(index=self.docs, columns=self.words)
    
    def tf(self, idx, word):
        return idx.count(word)
    
    def idf(self, word):
        return log(len(self.docs)/(1+len([doc for doc in self.docs if word in doc])))
    
    def tf_idf(self):
        for idx, row in self.TF_IDF.iterrows():
            for word in self.words:
                row[word] = self.tf(idx, word) * self.idf(word)
        return self.TF_IDF
        

#### 실행해보기

In [7]:
# documents
docs = [
    '나는 오늘 기분이 좋아',
    '나는 항상 기분이 좋아',
    '우리는 매일 기분이 나빠',
    '너는 항상 나빠 나빠'
]

test = TF_IDF(docs)
print("Docs : ",test.docs)
print("Docs words : ",test.words)

Docs :  ['나는 오늘 기분이 좋아', '나는 항상 기분이 좋아', '우리는 매일 기분이 나빠', '너는 항상 나빠 나빠']
Docs words :  ['기분이', '좋아', '너는', '매일', '나는', '오늘', '항상', '나빠', '우리는']


In [9]:
test.tf_idf()

Unnamed: 0,기분이,좋아,너는,매일,나는,오늘,항상,나빠,우리는
나는 오늘 기분이 좋아,0,0.287682,0.0,0.0,0.287682,0.693147,0.0,0.0,0.0
나는 항상 기분이 좋아,0,0.287682,0.0,0.0,0.287682,0.0,0.287682,0.0,0.0
우리는 매일 기분이 나빠,0,0.0,0.0,0.693147,0.0,0.0,0.0,0.287682,0.693147
너는 항상 나빠 나빠,0,0.0,0.693147,0.0,0.0,0.0,0.287682,0.575364,0.0


# Scikit-Learn에 맞게 코드 직접 구현하기

In [57]:
import numpy as np
# L2 정규화를 하기 위해 Scikit-Learn에서 제공하는 Preprocessing을 사용한다
from sklearn import preprocessing

class TF_IDF():
    def __init__(self, docs): 
        self.docs = docs
        self.words = list(set([word for doc in docs for word in doc.split()]))
        self.TF = pd.DataFrame(index=self.docs, columns=self.words)
        self.IDF = pd.DataFrame(index=self.words, columns=['idf'])
    
    def tf(self):
        for idx, row in self.TF.iterrows():
            for word in self.words:
                row[word] = idx.count(word)
        return self.TF
    
    def idf(self):
        for word in self.words:
            self.IDF.loc[word,'idf'] = np.log((1+len(self.docs))/(1+len([doc for doc in self.docs if word in doc]))) + 1
        return self.IDF
    
    def tf_idf(self):
        tf = self.tf().values
        idf = np.array(self.idf()['idf'].tolist())
        tf_idf_multiple = np.multiply(tf, idf) # tf * idf
        print("tf_idf_multiple : \n", tf_idf_multiple)
        tf_idf = preprocessing.normalize(tf_idf_multiple, norm='l2')
        return tf_idf
        

In [58]:
# documents
docs = [
    '나는 오늘 기분이 좋아',
    '나는 항상 기분이 좋아',
    '우리는 매일 기분이 나빠',
    '너는 항상 나빠 나빠'
]

test = TF_IDF(docs)
print("Docs : ",test.docs)
print("Docs words : ",test.words)

Docs :  ['나는 오늘 기분이 좋아', '나는 항상 기분이 좋아', '우리는 매일 기분이 나빠', '너는 항상 나빠 나빠']
Docs words :  ['기분이', '좋아', '너는', '매일', '나는', '오늘', '항상', '나빠', '우리는']


In [59]:
test.idf()

Unnamed: 0,idf
기분이,1.22314
좋아,1.51083
너는,1.91629
매일,1.91629
나는,1.51083
오늘,1.91629
항상,1.51083
나빠,1.51083
우리는,1.91629


In [60]:
test.tf().to_numpy()

array([[1, 1, 0, 0, 1, 1, 0, 0, 0],
       [1, 1, 0, 0, 1, 0, 1, 0, 0],
       [1, 0, 0, 1, 0, 0, 0, 1, 1],
       [0, 0, 1, 0, 0, 0, 1, 2, 0]], dtype=object)

In [61]:
np.array(test.idf()['idf'].tolist())

array([1.22314355, 1.51082562, 1.91629073, 1.91629073, 1.51082562,
       1.91629073, 1.51082562, 1.51082562, 1.91629073])

In [62]:
test.tf_idf()

tf_idf_multiple : 
 [[1.2231435513142097 1.5108256237659907 0.0 0.0 1.5108256237659907
  1.916290731874155 0.0 0.0 0.0]
 [1.2231435513142097 1.5108256237659907 0.0 0.0 1.5108256237659907 0.0
  1.5108256237659907 0.0 0.0]
 [1.2231435513142097 0.0 0.0 1.916290731874155 0.0 0.0 0.0
  1.5108256237659907 1.916290731874155]
 [0.0 0.0 1.916290731874155 0.0 0.0 0.0 1.5108256237659907
  3.0216512475319814 0.0]]


array([[0.39205255, 0.4842629 , 0.        , 0.        , 0.4842629 ,
        0.61422608, 0.        , 0.        , 0.        ],
       [0.42344193, 0.52303503, 0.        , 0.        , 0.52303503,
        0.        , 0.52303503, 0.        , 0.        ],
       [0.36674667, 0.        , 0.        , 0.57457953, 0.        ,
        0.        , 0.        , 0.4530051 , 0.57457953],
       [0.        , 0.        , 0.49338588, 0.        , 0.        ,
        0.        , 0.3889911 , 0.7779822 , 0.        ]])