In [None]:
from math import log10
import pandas as pd

In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


### 1. TF-IDF Implementation

In [None]:
# =======================================
# -- TF-IDF function
# =======================================
from math import log10

def f(t, d):
    # d is document == tokens
    return d.count(t)

def tf(t, d):
    # d is document == tokens
    return 0.5 + 0.5*f(t,d)/max([f(w,d) for w in d])

def idf(t, D):
    # D is documents == document list
    numerator = len(D)
    denominator = 1 + len([ True for d in D if t in d])
    return log10(numerator/denominator)

def tfidf(t, d, D):
    return tf(t,d)*idf(t, D)

def tokenizer(d):
    # return [ t for t in d.split() if len(t) > 1 ]
    return d.split()

def tfidfScorer(D):
    tokenized_D = [tokenizer(d) for d in D]
    result = []
    for d in tokenized_D:
        result.append([(t, tfidf(t, d, tokenized_D)) for t in d])
    return result

In [None]:
for i, doc in enumerate(tfidfScorer(all_sentences)):
    print("=====")
    print(i)
    print(doc)

### 2. Scikit-learn

In [5]:
from sklearn.feature_extraction.text import TfidfVectorizer
from collections import defaultdict

In [7]:
vectorizer = TfidfVectorizer()
sp_matrix = vectorizer.fit_transform(all_sentences)

word2id = defaultdict(lambda : 0)
for idx, feature in enumerate(vectorizer.get_feature_names()):
    word2id[feature] = idx

for i, sent in enumerate(all_sentences):
    print('====== document[%d] ======' % i)
    print( [ (token, sp_matrix[i, word2id[token]]) for token in sent.split() ] )


[('굳', 0.0)]
[('음악', 0.926077286603817), ('이', 0.0), ('주', 0.0), ('가', 0.0), ('된', 0.0), ('최고', 0.32767592354406144), ('의', 0.0), ('음악', 0.926077286603817), ('영화', 0.18710785222982526)]
[('이별', 0.35280800615170044), ('의', 0.0), ('아픔', 0.3189164909333268), ('뒤', 0.0), ('에', 0.0), ('찾아오', 0.35280800615170044), ('는', 0.0), ('새로운', 0.3329827406563315), ('인연', 0.3329827406563315), ('의', 0.0), ('기쁨', 0.3329827406563315), ('But', 0.0), ('모든', 0.2542890792924871), ('사람', 0.20633131435110877), ('이', 0.0), ('그렇', 0.2915540093057826), ('지', 0.0), ('는', 0.0), ('않', 0.0), ('네', 0.0)]
[('괜찮', 0.39823244527162743), ('네요', 0.27005140394484184), ('오랜만', 0.4373477870874153), ('포켓몬스터', 0.5525191856139221), ('잼', 0.0), ('밌어요', 0.5214715921492458)]
[('청춘', 0.2608208257044477), ('은', 0.0), ('아름답', 0.21105974343487646), ('다', 0.0), ('그', 0.0), ('아름다움', 0.5216416514088954), ('은', 0.0), ('이성', 0.27634968496640205), ('을', 0.0), ('흔들', 0.27634968496640205), ('어', 0.0), ('놓', 0.0), ('는다', 0.20182350691354828), ('

- 한글자 단어 제외
- https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html


In [4]:
path = '/content/drive/My Drive/Colab Notebooks/2020-PoscoICT/Data/ratings_test_tokenized.txt'
all_sentences = []
with open(path, 'r', encoding='utf-8') as f:
  for line in f.readlines():
    all_sentences.append(line.replace('\n',''))

# df['column_name'].values

print(all_sentences[:10])

['굳', '음악 이 주 가 된 최고 의 음악 영화', '이별 의 아픔 뒤 에 찾아오 는 새로운 인연 의 기쁨 But 모든 사람 이 그렇 지 는 않 네', '괜찮 네요 오랜만 포켓몬스터 잼 밌어요', '청춘 은 아름답 다 그 아름다움 은 이성 을 흔들 어 놓 는다 찰나 의 아름다움 을 잘 포착 한 섬세 하 고 아름다운 수채화 같 은 퀴어 영화 이 다', '눈 에 보이 는 반전 이 었 지만 영화 의 흡인력 은 사라지 지 않 았 다', '소위 문가 라는 평점 은 뭐 냐', '최고', '나이스', 'NUM 일 의 금요일 나이트메어 시리즈 와 함께 가장 많 은 시리즈 를 양산 해냈 던 헬 레이저 시리즈 의 첫 편 작가 의 상상력 이 돋보이 는 작품 이 며 갈고리 로 사 지 찢 는 고어 씬 은 지금 보 더라도 상당히 잔인 하 고 충격 적 이 다']
