# 01. 데이터 로드 , 전처리 , 생성

In [1]:
# 라이브러리 불러오기

import os
import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder

"""
데이터 로드 (네이버 크롤링)
1. 데이터 불러오기
2. 컬럼 이름 변경
3. 결측치 제거
"""

ori_df = pd.read_csv("data/Test_Sample_data2.csv")
ori_df = ori_df.reset_index(drop = True)
ori_df.rename(columns = {'닉네임':'user','제품명':'item','평점':'score'},inplace = True)
df = ori_df[['user','item','score']]
df = df.dropna()
df = df.loc[df.score !=0]

"""==========================================================================================="""


df

Unnamed: 0,user,item,score
0,nbnb****,말하는 따라쟁이 앵무새 인형 말따라하는 장난감,4
1,ojh2****,말하는 따라쟁이 앵무새 인형 말따라하는 장난감,5
2,yons****,말하는 따라쟁이 앵무새 인형 말따라하는 장난감,3
3,ohmy****,말하는 따라쟁이 앵무새 인형 말따라하는 장난감,4
4,ehsd****,말하는 따라쟁이 앵무새 인형 말따라하는 장난감,5
...,...,...,...
35447,4455****,변신 아쿠아젯 RC카 수륙양용 무선조종 장난감 자동차 어린이,5
35448,heoo****,변신 아쿠아젯 RC카 수륙양용 무선조종 장난감 자동차 어린이,5
35449,cded****,변신 아쿠아젯 RC카 수륙양용 무선조종 장난감 자동차 어린이,4
35450,kimt****,변신 아쿠아젯 RC카 수륙양용 무선조종 장난감 자동차 어린이,5


In [2]:
"""
사용자의 샘플 데이터 추출

1. 총 데이터 35,000여건
2. 총 유저수 16,554명
3. 샘플 유저 인덱스 번호 저장
4. 샘플 유저 리스트 작성
5. 데이터 프레임 생성 >> 샘플유저를 사용하여 데이터프레임 재구성
6. 데이터 프레임 인덱스 초기화
"""

sample_num = 16554
unique_user_lst = list(np.unique(df['user']))
print("유저 수 : {}".format(len(unique_user_lst)))
print("sample_data : {}".format(sample_num))

sample_user_idx = np.random.choice(len(unique_user_lst), sample_num, replace = False)
sample_user_lst = [unique_user_lst[idx] for idx in sample_user_idx]
df = df[df['user'].isin(sample_user_lst)] # 
df = df.reset_index(drop = True)

"""==========================================================================================="""

print(" 유저 아이디 : {}".format(unique_user_lst[:5]))
print(df)

유저 수 : 16654
sample_data : 16554
 유저 아이디 : ['0000****', '0001****', '0010****', '0024****', '002j****']
           user                               item  score
0      nbnb****          말하는 따라쟁이 앵무새 인형 말따라하는 장난감      4
1      ojh2****          말하는 따라쟁이 앵무새 인형 말따라하는 장난감      5
2      yons****          말하는 따라쟁이 앵무새 인형 말따라하는 장난감      3
3      ohmy****          말하는 따라쟁이 앵무새 인형 말따라하는 장난감      4
4      ehsd****          말하는 따라쟁이 앵무새 인형 말따라하는 장난감      5
...         ...                                ...    ...
35200  4455****  변신 아쿠아젯 RC카 수륙양용 무선조종 장난감 자동차 어린이      5
35201  heoo****  변신 아쿠아젯 RC카 수륙양용 무선조종 장난감 자동차 어린이      5
35202  cded****  변신 아쿠아젯 RC카 수륙양용 무선조종 장난감 자동차 어린이      4
35203  kimt****  변신 아쿠아젯 RC카 수륙양용 무선조종 장난감 자동차 어린이      5
35204  happ****  변신 아쿠아젯 RC카 수륙양용 무선조종 장난감 자동차 어린이      5

[35205 rows x 3 columns]


In [3]:
"""
한 번 이상의 평점 데이터가 있는 유저만 사용 ( 2개 이상의 평점을 가지고 있는 유저 데이터 가져오기)
1. 유저 카운트( 데이터 프레임 속에 유저가 몇번 존재하는지)
2. 유저 카운트라는 새로운 컬럼을 만들어서 카운트 작성
3. 카운트가 2개 이상인 유저만 선택하여 데이터 프레임 저장
"""

# 2명 이상의 score 데이터가 있는 유저만 사용
df_count = df.groupby(['user']).count()
df['count'] = df.groupby('user')['user'].transform('count')
df = df[df['count'] > 1]

"""==========================================================================================="""
df

Unnamed: 0,user,item,score,count
3,ohmy****,말하는 따라쟁이 앵무새 인형 말따라하는 장난감,4,4
5,nana****,말하는 따라쟁이 앵무새 인형 말따라하는 장난감,5,18
6,wjdd****,말하는 따라쟁이 앵무새 인형 말따라하는 장난감,4,42
7,raen****,말하는 따라쟁이 앵무새 인형 말따라하는 장난감,5,2
8,jinm****,말하는 따라쟁이 앵무새 인형 말따라하는 장난감,3,10
...,...,...,...,...
35193,gree****,변신 아쿠아젯 RC카 수륙양용 무선조종 장난감 자동차 어린이,3,17
35194,gree****,변신 아쿠아젯 RC카 수륙양용 무선조종 장난감 자동차 어린이,3,17
35199,shin****,변신 아쿠아젯 RC카 수륙양용 무선조종 장난감 자동차 어린이,5,72
35203,kimt****,변신 아쿠아젯 RC카 수륙양용 무선조종 장난감 자동차 어린이,5,7


In [4]:
"""
유저 아이템에 임시 (인코딩,디코딩)아이디 부여
1. 유저 아이디 수치화 > 저장
2. 제품 아이디 수치화 > 저장
"""

user_encoder = LabelEncoder()
item_encoder = LabelEncoder()
df['user_id'] = user_encoder.fit_transform(df['user'])
df['item_id'] = item_encoder.fit_transform(df['item'])

"""==========================================================================================="""
df

Unnamed: 0,user,item,score,count,user_id,item_id
3,ohmy****,말하는 따라쟁이 앵무새 인형 말따라하는 장난감,4,4,3959,19
5,nana****,말하는 따라쟁이 앵무새 인형 말따라하는 장난감,5,18,3795,19
6,wjdd****,말하는 따라쟁이 앵무새 인형 말따라하는 장난감,4,42,5721,19
7,raen****,말하는 따라쟁이 앵무새 인형 말따라하는 장난감,5,2,4380,19
8,jinm****,말하는 따라쟁이 앵무새 인형 말따라하는 장난감,3,10,2519,19
...,...,...,...,...,...,...
35193,gree****,변신 아쿠아젯 RC카 수륙양용 무선조종 장난감 자동차 어린이,3,17,1832,26
35194,gree****,변신 아쿠아젯 RC카 수륙양용 무선조종 장난감 자동차 어린이,3,17,1832,26
35199,shin****,변신 아쿠아젯 RC카 수륙양용 무선조종 장난감 자동차 어린이,5,72,4773,26
35203,kimt****,변신 아쿠아젯 RC카 수륙양용 무선조종 장난감 자동차 어린이,5,7,2923,26


In [5]:
"""
 새로운 참조용 테이블 생성 ( 제품 목록 테이블 )
 1. 아이템 중복 제거
 2. 아이템 컬럼 문자 형변환
"""

item_lookup = df[['item_id','item']].drop_duplicates()
item_lookup['item_id'] = item_lookup.item_id.astype(str)

"""==========================================================================================="""
item_lookup

Unnamed: 0,item_id,item
3,19,말하는 따라쟁이 앵무새 인형 말따라하는 장난감
4247,32,스모네오 레고듀플로호환 통큰블록 블럭장난감
7122,7,국민 아기 텐트 인디언 유아 어린이 아이 놀이 플레이 하우스 장난감집 아기집
8584,16,디폼 블럭 8mm 세트 패키지 도안 소근육 발달 놀이 조립 캐릭터 어린이 유아 만들...
9523,20,"메이크잇업 13종 디럭스, 유아 화장놀이 세트, 어린이 화장품 장난감"
...,...,...
35042,42,열감지 개방형 실리콘 빨대 카멜로우 다회용 재사용 스트로우 친환경 종이 휴대용 접이...
35056,46,자동 손세정기 손세정제 디스펜서
35067,66,휴대용 손 소독제 세이프 굿 핸드겔 어린이 소독젤 유아 소독겔
35183,52,캐리팝 대용량 총 2개 아기 유아 목욕 놀이 장난감


In [6]:
from tqdm import tqdm

"""
train, test 데이터 생성 ( 딥러닝 학습,테스트용 )
1. 학습용 데이터 컬럼 추출 
2. 학습용 데이터, 테스트 데이터 생성
3. df_neg >> 유저 아이디 마다 하나의 Positive item(구매제품), N개의 Negative item(구매하지않은 제품)으로 구성된 테이블 생성
"""

df = df[['user_id', 'item_id', 'score']]

def mask_first(x) :
    result = np.ones_like(x)
    result[0] = 0
    return result

df_test = df.copy(deep = True)
df_train = df.copy(deep = True)

df_test = df_test.groupby(['user_id']).first()
df_test['user_id'] = df_test.index
df_test = df_test[['user_id','item_id','score']]
df_test = df_test.reset_index(drop=True)

mask = df.groupby(['user_id'])['user_id'].transform(mask_first).astype(bool)
df_train = df.loc[mask]

users = list(np.sort(df.user_id.unique()))
items = list(np.sort(df.item_id.unique()))

train_rows = df_train['user_id'].astype(int)
train_cols = df_train['item_id'].astype(int)
train_values = list(df_train.score)

train_uids = np.array(train_rows.tolist())
train_iids = np.array(train_cols.tolist())

real_rows = df['user_id'].astype(int)
real_cols = df['item_id'].astype(int)
real_values = list(df.score)

real_uids = np.array(real_rows.tolist())
real_iids = np.array(real_cols.tolist())

def get_all_negatives():

    df_neg = self.get_negatives(real_uids, real_iids, items, df)
    df_neg.insert(0, 'users', pd.DataFrame(list(df_neg[0]))[0])
    df_neg.insert(1, 'items', pd.DataFrame(list(df_neg[0]))[1])  
    del df_neg[0]
    ids = df_neg[df_neg['users']==user_id]
    list_ = ids[ids.columns[2:]].values
    list_ = np.array(ids[ids.columns[2:]].values).flatten().tolist()
    set(list_)
    return list_

def get_negatives(uids, iids, items, DataFrame) :
    
    """
    negative item 리스트 생성 함수
    negative 리스트 >> 유저별 구매하지 않은, 조회하지 않은, 평점을 달지 않은 데이터 시트 (테스트 및 상용화)
    """
    negativeList = []
    df_u = DataFrame['user_id'].values.tolist()
    df_i = DataFrame['item_id'].values.tolist()
    
    df_ratings = list(zip(df_u,df_i))
    zipped = set(zip(uids,iids))
    
    for (u,i) in tqdm(df_ratings) :
        negatives = []
        negatives.append((u,i))
        for t in range(25) :
            j = np.random.randint(len(items))
            while (u,j) in zipped :
                j = np.random.randint(len(items))
            negatives.append(j)
        negativeList.append(negatives)
    df_neg = pd.DataFrame(negativeList)
    return df_neg

train_df_neg = get_negatives(train_uids,train_iids,items,df_test)
real_df_neg = get_negatives(real_uids,real_iids,items,df)

"""==========================================================================================="""

train_df_neg

100%|███████████████████████████████████████████████████████████████████████████| 6201/6201 [00:00<00:00, 18790.38it/s]
100%|█████████████████████████████████████████████████████████████████████████| 24852/24852 [00:01<00:00, 16888.80it/s]


Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,16,17,18,19,20,21,22,23,24,25
0,"(0, 19)",12,46,37,27,10,63,17,66,20,...,29,0,30,13,11,66,20,16,4,10
1,"(1, 10)",21,26,17,1,54,19,44,55,45,...,5,14,2,41,2,11,20,58,46,13
2,"(2, 15)",58,14,66,0,63,56,51,61,51,...,56,48,34,22,42,60,4,30,36,30
3,"(3, 62)",34,21,27,44,48,39,15,45,28,...,20,65,49,38,29,31,7,52,19,39
4,"(4, 19)",34,40,6,46,4,42,36,43,34,...,65,59,28,4,24,26,58,23,5,29
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6196,"(6196, 8)",41,25,16,44,7,56,47,29,2,...,43,23,28,31,44,53,21,36,39,26
6197,"(6197, 13)",15,62,4,1,20,42,66,44,30,...,42,17,20,47,54,23,33,49,11,40
6198,"(6198, 7)",20,6,23,33,66,55,64,37,37,...,19,52,2,44,24,17,63,66,17,16
6199,"(6199, 9)",38,58,19,44,7,23,36,21,15,...,28,5,63,35,15,65,33,2,41,19


# 02. 모델링, 알고리즘 생성

In [7]:
import tensorflow as tf
from tensorflow.keras.layers import *
from tensorflow.keras.models import Model

latent_features = 8

## input 데이터 정의

user = Input(shape = (1,), dtype = 'int32')
item = Input(shape = (1,), dtype = 'int32')

# 사용자 기반 GMF 임베딩 입력층 레이어 지정
gmf_user_embedding = Embedding(len(users), latent_features, input_length=user.shape[1])(user)
gmf_user_embedding = Flatten()(gmf_user_embedding)

# Item embedding for GMF
gmf_item_embedding = Embedding(len(items), latent_features, input_length=item.shape[1])(item)
gmf_item_embedding = Flatten()(gmf_item_embedding)

# User embedding for MLP
mlp_user_embedding = Embedding(len(users), 32, input_length=user.shape[1])(user)
mlp_user_embedding = Flatten()(mlp_user_embedding)

# Item embedding for MLP
mlp_item_embedding = Embedding(len(items), 32, input_length=item.shape[1])(item)
mlp_item_embedding = Flatten()(mlp_item_embedding)

# GMF layers
gmf_mul =  Multiply()([gmf_user_embedding, gmf_item_embedding])

# MLP layers
mlp_concat = Concatenate()([mlp_user_embedding, mlp_item_embedding])
mlp_dropout = Dropout(0.2)(mlp_concat)

# Layer1
mlp_layer_1 = Dense(units=64, activation='relu', name='mlp_layer1')(mlp_dropout)  # (64,1)
mlp_dropout1 = Dropout(rate=0.2, name='dropout1')(mlp_layer_1)                    # (64,1)
mlp_batch_norm1 = BatchNormalization(name='batch_norm1')(mlp_dropout1)            # (64,1)

# Layer2
mlp_layer_2 = Dense(units=32, activation='relu', name='mlp_layer2')(mlp_batch_norm1)  # (32,1)
mlp_dropout2 = Dropout(rate=0.2, name='dropout2')(mlp_layer_2)                        # (32,1)
mlp_batch_norm2 = BatchNormalization(name='batch_norm2')(mlp_dropout2)                # (32,1)

# Layer3
mlp_layer_3 = Dense(units=16, activation='relu', name='mlp_layer3')(mlp_batch_norm2)  # (16,1)

# Layer4
mlp_layer_4 = Dense(units=8, activation='relu', name='mlp_layer4')(mlp_layer_3)       # (8,1)

# merge GMF + MLP
merged_vector = tf.keras.layers.concatenate([gmf_mul, mlp_layer_4])

# Output layer
output_layer = Dense(1, kernel_initializer='lecun_uniform', name='output_layer')(merged_vector) # 1,1 / h(8,1)초기화

# Model
model = Model([user, item], output_layer)
model.compile(optimizer= 'adam', loss= 'binary_crossentropy')
model.build(user.shape)
model.summary()

Model: "model"
__________________________________________________________________________________________________
Layer (type)                    Output Shape         Param #     Connected to                     
input_1 (InputLayer)            [(None, 1)]          0                                            
__________________________________________________________________________________________________
input_2 (InputLayer)            [(None, 1)]          0                                            
__________________________________________________________________________________________________
embedding_2 (Embedding)         (None, 1, 32)        198432      input_1[0][0]                    
__________________________________________________________________________________________________
embedding_3 (Embedding)         (None, 1, 32)        2144        input_2[0][0]                    
______________________________________________________________________________________________

# 03. 학습용 데이터 전처리 , 모델 학습

In [8]:
# 학습 데이터 생성 
def get_train_instances(uids, iids, num_neg, num_items) :
    """
    모델에 학습 시킬 수치화된 데이터 생성
    """
    user_input, item_input, labels = [], [], []
    zipped = set(zip(uids, iids))
    
    for (u,i) in zip(uids, iids) :
        
        # pos item 추가
        user_input.append(u)
        item_input.append(i)
        labels.append(1)
        
        # neg item 추가
        for t in range(num_neg) :
            j = np.random.randint(num_items)     # neg_item j num_neg 개 샘플링
            while (u,j) in zipped :             # u가 j를 이미 선택했다면 다시 샘플링
                j = np.random.randint(num_items)
            user_input.append(u) # [u1, u1,  u1,  ...]
            item_input.append(j) # [pos_i, neg_j1, neg_j2, ...]
            labels.append(0)     # [1, 0,  0,  ...]
    return user_input, item_input, labels

num_neg = 3

user_input, item_input, labels = get_train_instances(train_uids, train_iids, num_neg, len(items))

print("샘플 유저 아이디 5개 : {}".format(user_input[:5]))
print("샘플 아이템 아이디 5개 : {}".format(item_input[:5]))
print("샘플 구매(평점리플) 여부 5개 : {}".format(labels[:5]))

샘플 유저 아이디 5개 : [2490, 2490, 2490, 2490, 4380]
샘플 아이템 아이디 5개 : [19, 61, 64, 1, 19]
샘플 구매(평점리플) 여부 5개 : [1, 0, 0, 0, 1]


In [9]:
from sklearn.utils import shuffle

# numpy 형식으로 변환, 학습은 기본적으로 numpy 형식으로
# 데이터 섞어주기

user_data_shuff, item_data_shuff, label_data_shuff = shuffle(user_input,item_input,labels)

user_data_shuff = np.array(user_data_shuff).reshape(-1,1)
item_data_shuff = np.array(item_data_shuff).reshape(-1,1)
label_data_shuff = np.array(label_data_shuff).reshape(-1,1)

print("유저 아이디 5개 : {}".format(user_data_shuff[:5]))
print("아이템 아이디 5개 : {}".format(item_data_shuff[:5]))
print("구매(평점리플) 여부 5개 : {}".format(label_data_shuff[:5]))

유저 아이디 5개 : [[5465]
 [1490]
 [1331]
 [1374]
 [2790]]
아이템 아이디 5개 : [[29]
 [22]
 [22]
 [36]
 [36]]
구매(평점리플) 여부 5개 : [[0]
 [1]
 [1]
 [0]
 [0]]


In [10]:
## 학습

model.fit([user_data_shuff, item_data_shuff], label_data_shuff, epochs = 15, batch_size = 256, verbose = 1)

Epoch 1/15
Epoch 2/15
Epoch 3/15
Epoch 4/15
Epoch 5/15
Epoch 6/15
Epoch 7/15
Epoch 8/15
Epoch 9/15
Epoch 10/15
Epoch 11/15
Epoch 12/15
Epoch 13/15
Epoch 14/15
Epoch 15/15


<keras.callbacks.History at 0x15cd33535b0>

# 04. 모델 평가 

In [11]:
import heapq

def get_hits(k_ranked, holdout) :
    """
    hit 생성 함수
    hit := holdout(어떤 유저의 positive item)이 예측된 목록의 K 순위 내에 있는지의 여부
    """
    for item in k_ranked :
        if item == holdout :
            return 1
    return 0

def eval_rating(idx, ratings, negetives, K, model) :
    """
    모든 유저의 예측 목록에서 각 유저마다 positive item이 K 순위 내에 얼마나 많이 있는지 평가하는 함수
    """
    items = negetives[idx]          # negative items [neg_item_id, ... ] (1,100)
    user_idx = ratings[idx][0]      # [user_id, item_id][0]
    holdout = ratings[idx][1]       # [user_id, item_id][1]
    items.append(holdout)           # holdout 추가 [neg_item_id, ..., holdout] (1,101)
    
    # prediction
    
    predict_user = np.full(len(items), user_idx, dtype='int32').reshape(-1,1) # [[user_id], ...], (101, 1)
    np_items = np.array(items).reshape(-1,1)                                  # [[item_id], ... ], (101, 1)
    
    predictions = model.predict([predict_user, np_items])
    predictions = predictions.flatten().tolist()
    item_to_pre_score = {item:pre for item,pre in zip(items, predictions)}
    
    # 점수가 높은 상위 K개 아이템 리스트 생성
    k_ranked = heapq.nlargest(K, item_to_pre_score, key = item_to_pre_score.get)
    
    # holdout이 상위 K 순위에 포함 되는지 체크
    # { 1 : 포함 , 0 : 안포함}
    hits = get_hits(k_ranked, holdout)
    
    return hits

def evaluate_top_k(df_neg, df_test, model, K=5) :
    """
    TOP-K metric을 사용해 모델을 평가하는 함수
    """
    hits = []
    test_u = df_test['user_id'].values.tolist()
    test_i = df_test['item_id'].values.tolist()
    
    test_ratings = list(zip(test_u, test_i))
    df_neg = df_neg.drop(df_neg.columns[0], axis = 1)
    test_negetives = df_neg.values.tolist() #[[(user_id, item_id =holdout)], neg_item,neg_item,....]
    
    # user 샘플링
#     sample_idx_lst = np.random.choice(len(test_ratings), int(len(test_ratings) * 0.3))
    for user_idx in tqdm(range(len(test_ratings))) :
        hitrate = eval_rating(user_idx, test_ratings, test_negetives, K, model)
        hits.append(hitrate) # ex. [1,0,1,1,0,....] (1, df_test.shape[0])
    
    return hits

def calculate_top_k_metric(df_neg,df_test,model) :
    hit_lst = evaluate_top_k(df_neg,df_test,model,K=5)
    top_k_metric = np.mean(hit_lst)
    print("metric : {}".format(top_k_metric))
    return top_k_metric


def recommend_user_item(user_id) :
    real_df = real_df_neg.copy()
    real_df.insert(0, 'users', pd.DataFrame(list(real_df[0]))[0])
    real_df.insert(1, 'items', pd.DataFrame(list(real_df[0]))[1])  
    del real_df[0]
    ids = real_df[real_df['users']==user_id]
    list_ = ids[ids.columns[2:]].values
    list_ = list(np.array(ids[ids.columns[2:]].values).flatten().tolist())
    
    user_candidate_item = np.array(list_).reshape(-1,1)
    user_input = np.full(len(user_candidate_item), user_id, dtype = 'int32').reshape(-1,1)
    predictions = model.predict([user_input, user_candidate_item])
    predictions = predictions.flatten().tolist()
    item_to_pre_score = {item[0]: pre for item,pre in zip(user_candidate_item, predictions)}
    item_to_pre_score = dict(sorted(item_to_pre_score.items(), key = lambda x:x[1], reverse = True))

    recommend_item_lst = list(item_to_pre_score.keys())
    print('recommend : {}'.format(item_encoder.inverse_transform(recommend_item_lst[:15])))

    return item_to_pre_score, recommend_item_lst



In [12]:
top_k_metric = calculate_top_k_metric(train_df_neg,df_test,model)

100%|██████████████████████████████████████████████████████████████████████████████| 6201/6201 [03:26<00:00, 29.96it/s]

metric : 0.826318335752298





In [19]:
item_to_pre_score, recommend_item_lst = recommend_user_item(20)

recommend : ['나혼자산다 LED 비행기 장난감 360도 회전 부메랑 비행기' '지하철여행장난감/ 기차놀이/ 사운드불빛/ 선택가능'
 '전설의 압구정 펌프왕 레트로 가정용 오락기 추억의 오락실 게임기 고전 게임 옛날 미니 펌프 캠핑용'
 '캐리팝 대용량 총 2개 아기 유아 목욕 놀이 장난감' '자동 손세정기 손세정제 디스펜서'
 '오션파크 플레이 워터 세트 TV광고 블럭 아기 목욕 장난감 물 놀이 수영장'
 '변신 아쿠아젯 RC카 수륙양용 무선조종 장난감 자동차 어린이' 'TV광고 핫휠 메이커킷 자동차 장난감 미니카'
 '아이와 병원놀이 영유아장난감 어린이 의사 역할놀이세트 어린이집준비물'
 'TV광고 배트맨 버스터 장난감 총 놀이 한밤의 악당 사냥 빌런 레이저'
 '태엽장난감 , 태엽인형, 태엽놀이, 태엽, 사파리태엽, 완구놀이, 놀이용품, 동물인형 동물태엽 사자 돼지 강아지 가재 낙타 코끼리 원숭이태엽'
 '레츠토이 트럭 잠수함 캐리어 미니카 자동차 장난감 세트' '휴대용 손 소독제 세이프 굿 핸드겔 어린이 소독젤 유아 소독겔'
 '슬러쉬카트 카트장난감 아이스크림카트 캔디카트 역할놀이 장난감' '멜로디카트 아이스크림카트 카트장난감 역할놀이']


In [20]:
recommend_Top = pd.DataFrame()

recommend_Top['item'] = list(item_encoder.inverse_transform(recommend_item_lst[:15]))
recommend_Top['prediction'] = list(item_to_pre_score.values())[:15]

In [25]:
recommend_Top # 사용자가 구매한 제품을 제외한 추천 목록 
              # prediction > 사용자가 제품을 구매할 확률을 모델이 예측한 값

Unnamed: 0,item,prediction
0,나혼자산다 LED 비행기 장난감 360도 회전 부메랑 비행기,0.716429
1,지하철여행장난감/ 기차놀이/ 사운드불빛/ 선택가능,0.689197
2,전설의 압구정 펌프왕 레트로 가정용 오락기 추억의 오락실 게임기 고전 게임 옛날 미...,0.549524
3,캐리팝 대용량 총 2개 아기 유아 목욕 놀이 장난감,0.537275
4,자동 손세정기 손세정제 디스펜서,0.526835
5,오션파크 플레이 워터 세트 TV광고 블럭 아기 목욕 장난감 물 놀이 수영장,0.520103
6,변신 아쿠아젯 RC카 수륙양용 무선조종 장난감 자동차 어린이,0.504871
7,TV광고 핫휠 메이커킷 자동차 장난감 미니카,0.498591
8,아이와 병원놀이 영유아장난감 어린이 의사 역할놀이세트 어린이집준비물,0.49304
9,TV광고 배트맨 버스터 장난감 총 놀이 한밤의 악당 사냥 빌런 레이저,0.475859
