- 최재희
- 김강민
- 오창환
- 이휘준
- 이은성
-
user의 과거 기록들을 이용해 하나의 카테고리(Book)에서의 아이템들 Rangking을 주어 Top K개를 추천, user의 구매를 유도하는 알고리즘
-
State: User가 과거에 관심을 보였던 n개의 items 및 item에 대한 정보
-
Action: K개의 items으로 이루어진 item list(user에게 추천)
-
Reward: Action에 대해 user가 남긴 rating
-
Input > Output: 어떤 state를 보고 적절한 추천 list action을 결정
-
Data: 각 user별로 남긴 평점을 시간순으로 정렬해 state, action, reward로 이루어진 train data 생성해서 사용
- Deep Neural Network for YouTube recommendation
- Deep reinforcement learning based recommendation with Explicit User-item Interaction Modeling
- Top-K off-Policy Correction for a REINFORCE Recommender System
- Deep Reinforcement Learning for List-wise Recommendations
-
T-Academy
-
참고 도서
- 파이썬과 케라스로 배우는 강화학습
- 바닥부터 배우는 강화학습(torch)
- 수학으로 풀어보는 강화학습 원리와 알고리즘
-
참고 사이트
-
논문
- https://github.com/shashist/recsys-rl/tree/274341bc867ee81eeb14177ed79a14fe578464cd
- https://github.com/bcsrn/RL_DDPG_Recommendation
- embedding by MF or Auto-Encoder with Aamazon book data
- recsys-rl 정확도 개선
- Amazon: Book.csv
- ratings only(51,311,621): item, user, rating, timestamp
- matadata: asin, title, feature, description, price, image, related, salesRank, rand, categories, tech1, tech2, similar
- 총 개수: 51311621
- 유저수: 15,362,619
- 아이템수: 2,930,451
- 총 개수: 15,731,887
- 유저수: 301,567
- 아이템수: 1,615,039