# 추천 대상 유저 영화 interaction pred_df 생성

- 주어진 학습 데이터(train_rating)를 기반으로 유저가 아직 시청하지 않은 영화를 예측하기 위해 새로운 데이터프레임(pred_df)을 생성

In [3]:
import pandas as pd
import numpy as np
from tqdm import tqdm

In [4]:
# Data load

train_df = pd.read_csv('./data/train/train_ratings.csv')
train_df.head()

Unnamed: 0,user,item,time
0,11,4643,1230782529
1,11,170,1230782534
2,11,531,1230782539
3,11,616,1230782542
4,11,2140,1230782563


In [5]:
# 시청한 영화 목록 구성
# dict 시청목록 유저 id를 key, 유저별 영화를 그룹 데이터 value 처리

watched = {}
for user_id, group_data in train_df.groupby('user')['item']:
    watched[user_id] = set(group_data)

In [6]:
# 예측할 데이터 프레임(pred_df) 생성
# 31360 유저, 6807 영화
uniq_user_ids = train_df['user'].unique()
unique_item_ids = train_df['item'].unique()

users = []
items = []
total_item = set(unique_item_ids)

for user in tqdm(uniq_user_ids):
    users += [user] * len(total_item - watched[user])     # users.append([user] * len(total_item - watched[user]))
    items += list(total_item - watched[user])


100%|██████████| 31360/31360 [00:16<00:00, 1910.30it/s]


In [5]:
pred_df = pd.DataFrame({'user':np.array(users),
                        'item':np.array(items)})

pred_df

Unnamed: 0,user,item
0,11,2
1,11,3
2,11,32770
3,11,5
4,11,6
...,...,...
208313044,138493,32743
208313045,138493,49130
208313046,138493,65514
208313047,138493,49132


In [6]:
pred_df[pred_df['user']==11].head(20)

Unnamed: 0,user,item
0,11,2
1,11,3
2,11,32770
3,11,5
4,11,6
5,11,7
6,11,4
7,11,8
8,11,10
9,11,11


In [7]:
pred_df.to_csv("predict_df.csv", index=False)


---