지금부터는 코드를 통해 TF-IDF를 실습해 보도록 하겠습니다.

In [1]:
text = ["I am a great great elementary school student", "And I am a boy"]

# Word tokenized sentence
from nltk import word_tokenize

text_tokenzied = [word_tokenize(sentence) for sentence in text]

In [2]:
text_tokenzied

[['I', 'am', 'a', 'great', 'great', 'elementary', 'school', 'student'],
 ['And', 'I', 'am', 'a', 'boy']]

처음에 문서인 text를 정의해줍니다. 여기서 우리는 각 문장을 문서라고 정의하겠습니다.  
즉 text에는 문서 1, 문서 2 이렇게 2개의 문서가 있는 것입니다.

In [3]:
# Remove stopwords that are two short.

text_tokenzied2 = []
for sentence in text_tokenzied:
    sent = []
    for word in sentence:
        print(f"word: {word}:{len(word)}")
        if len(word) >=2:
            sent.append(word)
    text_tokenzied2.append(sent)
        
print(text_tokenzied2)

word: I:1
word: am:2
word: a:1
word: great:5
word: great:5
word: elementary:10
word: school:6
word: student:7
word: And:3
word: I:1
word: am:2
word: a:1
word: boy:3
[['am', 'great', 'great', 'elementary', 'school', 'student'], ['And', 'am', 'boy']]


그 다음 학습의 성능을 향상하기 위해 글자 수가 하나인 단어를 제거해줍니다.   
토크 나이저 된 리스트는 위와 같이 문서들에서 단어 'I'가 사라진것을  
알 수 있음.

In [4]:
# Vocabulary list
from collections import Counter

vocab_counter = Counter()
for sentence in text_tokenzied2:
    vocab_counter.update(sentence)

vocab = []
for key, value in vocab_counter.items():
    print(key, value)
    vocab.append(key)

print(vocab)

am 2
great 2
elementary 1
school 1
student 1
And 1
boy 1
['am', 'great', 'elementary', 'school', 'student', 'And', 'boy']


전체 문서들의 중복제거한 단어들을 list로 만들어 줍니다.

In [5]:
count = []
for sentence in text_tokenzied2:
    vocab_counter = Counter()
    vocab_counter.update(sentence)
    count.append(vocab_counter)
print(count)

[Counter({'great': 2, 'am': 1, 'elementary': 1, 'school': 1, 'student': 1}), Counter({'And': 1, 'am': 1, 'boy': 1})]


- TF 계산에 사용되는 단어는 전체 문서에 있는 단어를 대상으로 함.  
- vocab는 전체 문서에 있는 단어의 리스트임.

In [9]:
def TF(vocab, counter):
    vector = []
    for word in vocab:
        if counter[word] != False:
            vector.append(counter[word])
        else:
            vector.append(0)
    return vector

print(vocab)
print(TF(vocab, count[0]))
print(TF(vocab, count[1]))

['am', 'great', 'elementary', 'school', 'student', 'And', 'boy']
[1, 2, 1, 1, 1, 0, 0]
[1, 0, 0, 0, 0, 1, 1]


TF함수를 이용해 각 문서별로 사용된 단어수를 구해줍니다.  
위와 같이 'am'은 1번, 'greate'은 2번 ... 사용된 것을  
확인할 수 있습니다.

In [14]:
def DF(text_tokenzied2, vocab):
    text = []
    for sentence in text_tokenzied2:
        for word in list(set(sentence)):
            text.append(word)
    #print(text)
    vocab_counter = Counter()
    vocab_counter.update(text)

    df = []
    for word in vocab:
        df.append(vocab_counter[word])
    return df

        

In [15]:
print(vocab)
print(DF(text_tokenzied2, vocab))

['am', 'great', 'elementary', 'school', 'student', 'And', 'boy']
[2, 1, 1, 1, 1, 1, 1]


In [28]:
import math

def IDF(df, n):
    idf = []
    for i in df:
        idf.append(math.log((n)/(i+1))+1)
    return idf

In [29]:
print(vocab)
print(IDF(DF(text_tokenzied2, vocab), len(text_tokenzied2)))

['am', 'great', 'elementary', 'school', 'student', 'And', 'boy']
[0.5945348918918356, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0]


In [34]:
def TFIDF(tf, idf):
    product = [x*y for x, y in zip(tf, idf)]
    return product

print(vocab)
print(TFIDF(TF(vocab, count[1]), IDF(DF(text_tokenzied2, vocab), len(text_tokenzied2))))

['am', 'great', 'elementary', 'school', 'student', 'And', 'boy']
[0.5945348918918356, 0.0, 0.0, 0.0, 0.0, 1.0, 1.0]


In [35]:
tfidf = []
for c in count:
    tfidf.append(TFIDF(TF(vocab, c), IDF(DF(text_tokenzied2, vocab), len(text_tokenzied2))))

print(vocab)
print(tfidf)

['am', 'great', 'elementary', 'school', 'student', 'And', 'boy']
[[0.5945348918918356, 2.0, 1.0, 1.0, 1.0, 0.0, 0.0], [0.5945348918918356, 0.0, 0.0, 0.0, 0.0, 1.0, 1.0]]
