# TF-IDF Content Based 추천 시스템

## 개요 Abstract
TF-IDF란 수많은 문서들 중 query 문장과 가장 유사한 문서들을 골라내는 알고리즘이다.
이를 추천 시스템으로 응용할 수 있다. 즉, 상품 상세페이지의 설명글을 문서(document)로 분류하고 상품명을 query문장으로 치환하는 것이다.  

In [None]:
import sys
from reco_utils.recommender.tfidf.tfidf_utils import TfidfRecommender

## 1. 데이터셋 불러오기
상품페이지 metadata가 포함되어 있는 csv파일을 불러온다 (metadata.csv)

In [None]:
import pandas as pd

container_name = 'covid19temp'
metadata_filename = pd.read_cvs('metadata.csv') # 상품명, 상세페이지, 태그 등이 포함된 데이터셋


## 2. recommender 객체 생성하기

In [None]:
recommender = TfidfRecommender(id_col='',tokenization_method='bert')

## 3. 텍스트(상세페이지) 전처리

In [None]:
cols_to_clean = ['title','description'] # 전처리할 특성들
clean_col = 'cleaned_text' # 새로 전처리된 텍스트
df_clean = recommender.clean_dataframe(all_text, cols_to_clean, clean_col) # 전처리된 데이터프레임

In [None]:
# Tokenize text with tokenization_method specified in class instantiation
tf, vectors_tokenized = recommender.tokenize_text(df_clean, text_col=clean_col)

## 4. 추천 시스템 테스트
이상 완성된 추천 시스템 모델을 전처리된 데이터에 적용하여 k개의 추천 항목들을 선정해본다

In [None]:
# Fit the TF-IDF vectorizer
recommender.fit(tf, vectors_tokenized)

# Get recommendations
top_k_recommendations = recommender.recommend_top_k_items(df_clean, k=5) # 추천 상위 5개

In [None]:
top_k_recommendations