### Data Preprocessing

In [1]:
import numpy as np
import pandas as pd

from datetime import datetime

import seaborn as sns
import matplotlib.pyplot as plt

In [2]:
recipe_meta = pd.read_csv('data/레시피_메타정보_raw.csv')
recipe_meta

Unnamed: 0,레시피_아이디,조회수,레시피_메인이미지,유저_아이디,제목,등록일,수정일,요약,인원수,소요시간,난이도
0,13654,4115,https://recipe1.ezmember.co.kr/cache/recipe/20...,cools,바나나 고구마 셔벗,2005-06-10,2005-06-10,,,,
1,13655,2165,https://recipe1.ezmember.co.kr/cache/recipe/20...,cools,생선수프,2005-06-10,2005-06-10,,,,
2,13656,1777,https://recipe1.ezmember.co.kr/cache/recipe/20...,cools,밤대추 미음,2005-06-10,2005-06-10,,,,
3,13657,2011,https://recipe1.ezmember.co.kr/cache/recipe/20...,cools,바닐라 견과류 아이스크림,2005-06-10,2005-06-10,,,,
4,13998,6107,https://recipe1.ezmember.co.kr/cache/recipe/20...,magicgirl,감자스프,2005-06-15,2005-06-15,,,,
...,...,...,...,...,...,...,...,...,...,...,...
176454,6979664,47,https://recipe1.ezmember.co.kr/cache/recipe/20...,dudfhr79,훈제오리고기로 만드는 훈제오리주물럭 레시피!,,2022-05-20,훈제오리고기로 만드는 훈제오리주물럭 레시피 입니다.,3인분,30분 이내,초급
176455,6979665,29,https://recipe1.ezmember.co.kr/cache/recipe/20...,jylhee070467,최고의 요리비결 부추전,2022-05-20,2022-05-20,"부추는 비타민의 보고라고 불릴 정도로 비타민 A, B1, B2, C 등이 풍부하고 ...",1인분,30분 이내,아무나
176456,6979666,14,https://recipe1.ezmember.co.kr/cache/recipe/20...,soylee1015,꽃 요리 아카시아꽃 튀김 향긋한 튀김,2022-05-20,2022-05-20,산에서 딴 아카시아 꽃으로 아카시아 꽃 튀김을 \n만들어 봅니다. 모양도 향기도 좋...,2인분,10분 이내,아무나
176457,6979667,49,https://recipe1.ezmember.co.kr/cache/recipe/20...,62929808,시원한 광어물회 맛있게 간단히 만들어 보세요.,2022-05-20,2022-05-20,시원한 광어물회 '이것' 넣어서 간편하고 맛있게 만들어 보세요.,1인분,15분 이내,아무나


In [3]:
recipe_user = pd.read_csv('data/레시피_유저_내용_raw.csv')
recipe_user

Unnamed: 0,레시피_아이디,유저_아이디,레시피_유저_순번,별점,등록일,내용,이미지
0,100014,77253045,1,5,2017-06-08 19:24:49,레시피대로 따라서 맛있게먹 고있어요~~^^감사합니다,
1,1000637,ina521,1,5,2017-06-11 11:41:00,레시피감사해요잘만들어먹었네요^^,
2,1001360,khea0628,1,5,2017-06-09 12:24:56,너무 맛있게 해먹었습니다. 양도 푸짐하고.. 국물도 끝내주고... 영양만점인듯해요당...,
3,1001902,18187133,1,5,2016-12-23 17:17:45,지금 만드는중인데. 맛있을것 같아요,
4,1002049,80221089,1,3,2017-01-19 07:21:09,오늘 만들어봤는데 간단하고 재료도 많이 필요없어서 노무 좋았어요! 크림이 너무 많았...,
...,...,...,...,...,...,...,...
368524,6908390,10251040,9,5,2020-06-01 12:58:02,간단하고 맛도 좋아요,
368525,6908390,jeungi4860,10,5,2019-07-09 12:16:53,잘만들어먹엇어여~,
368526,6908390,41379274,11,5,2020-09-28 21:28:38,잘 해먹었습니다^^,
368527,6908397,26773485,1,5,2020-01-31 08:27:02,비쥬얼 좋아요 잘먹었습니다,


#### 필요한 feature만 추출하기
기존의 feature 중 별점, 조회수, 등록일만 필요하므로 이것만 따로 뽑는다.

In [4]:
tot = pd.merge(recipe_user, recipe_meta, how='left', left_on='레시피_아이디', right_on='레시피_아이디')

tot.drop(['레시피_메인이미지', '유저_아이디_y', '이미지', '내용', '제목', '요약', '인원수', '소요시간', '난이도', '유저_아이디_x', '레시피_유저_순번', '등록일_x', '수정일'], axis=1, inplace=True)
tot.columns = ['레시피_아이디', '별점', '조회수', '등록일']
tot.drop(tot[tot.등록일.isnull()].index, axis=0, inplace=True)
tot['등록일'] = pd.to_datetime(tot['등록일'], format="%Y-%m-%d")

tot

Unnamed: 0,레시피_아이디,별점,조회수,등록일
0,100014,5,34537,2007-01-23
1,1000637,5,27437,2009-01-11
2,1001360,5,36510,2009-01-11
3,1001902,5,42646,2009-01-12
4,1002049,3,12119,2009-01-12
...,...,...,...,...
368524,6908390,5,30844,2019-03-14
368525,6908390,5,30844,2019-03-14
368526,6908390,5,30844,2019-03-14
368527,6908397,5,8245,2019-03-14


별점 feature를 가지고 '좋아요/싫어요'라는 새로운 feature를 만들었다. 

In [5]:
def goodNbad(x):
    """
    평점 4점 이상 = 좋아요, 4점 미만 = 싫어요
    """
    good, bad = 0,0
    for elem in x:
        if elem >= 4: 
            good += 1
        else:  
            bad += 1

    return good, bad

# 사실상 모두 같은 값
def uploaded_date(x):
    return max(x)

# 사실상 모두 같은 값
def recipe_pageview(x):
    return max(x)

In [6]:
result = tot.groupby('레시피_아이디').agg({'별점':[goodNbad,'count'], '등록일':uploaded_date, '조회수':recipe_pageview}).reset_index()

result.columns = ['레시피_아이디','좋음_싫음','리뷰수','등록일','조회수']
result[['좋아요','싫어요']] = pd.DataFrame(result.좋음_싫음.tolist())
result.drop(['좋음_싫음'],axis=1, inplace=True)
result.set_index('레시피_아이디', inplace=True)

result

Unnamed: 0_level_0,리뷰수,등록일,조회수,좋아요,싫어요
레시피_아이디,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
21262,1,2005-09-08,13574,1,0
21361,1,2005-09-08,12982,1,0
22751,1,2005-09-21,18427,1,0
24006,1,2005-09-29,6726,1,0
24536,3,2005-10-06,3520,3,0
...,...,...,...,...,...
6979278,2,2022-05-13,2995,2,0
6979305,1,2022-05-14,131,1,0
6979308,1,2022-05-15,694,1,0
6979382,1,2022-05-16,149,1,0


### Reddit Ranking Algorithm

- 사용하는 feature : 좋아요/싫어요, 등록일

기존 공식은 다음과 같다.
$$\log_{10}(max(|ups-downs|,1)) \;+\; \frac{sign(ups-downs)\cdot(upload\;date-reddit\;open\;day)}{45000}$$
- 첫번째 텀 : 게시물의 인기도
- 두번째 텀 : 인기도 기반의 게시물 나이

<br/>

이 공식을 현재 task에 맞춰 약간 변형했다.
$$\ln(max(|ups-downs|,1)+1) \;+\; sign(ups-downs)\cdot\ln(\frac{upload\;date-first\;recipe\;upload\;date}{864
00}+1)$$
- 자연로그로 변경하고, 음의 무한대값을 방지하지 위해 +1을 했다.
- 최신성의 영향력을 줄이기 위해 나이 term에 자연로그를 씌웠다.
- '하루' 단위로 나이가 들게 수정했다.

In [7]:
### reddit ranking algorithm
# https://sungkee-book.tistory.com/10

epoch = datetime(1970, 1, 1)

## 첫번째 레시피 게시일 
FIRST_UPLOAD = recipe_meta.sort_values(by='등록일').iloc[0,5]  # 2005-06-10
FIRST_UPLOAD = datetime.strptime(FIRST_UPLOAD, '%Y-%m-%d')

def epoch_seconds(date): 
    ## convert datetime to seconds 
    td = date - epoch 
    return td.days*86400 + td.seconds + (float(td.microseconds)/100000) 
    
def score(ups, downs): 
    return ups - downs 
    
def reddit_score(ups, downs, date): 
    s = score(ups, downs) 
    order = np.log1p(max(abs(s), 1)) 
    
    if s > 0: sign = 1 
    elif s < 0: sign = -1 
    else: sign = 0 

    seconds = epoch_seconds(date) - epoch_seconds(FIRST_UPLOAD)

    log_age = np.log1p(seconds / 86400)  # 최신성의 영향력이 크지 않으므로 scale을 줄이기로 했다.
    
    return round(order + sign * log_age, 5)  # 소숫점 다섯자리까지 반올림

def calculate_score(df):
    return reddit_score(df['좋아요'], df['싫어요'], df['등록일'])

In [8]:
# 각 레시피의 score 계산
result['점수'] = result.apply(calculate_score, axis=1)
result = result.reset_index().sort_values(by="점수", ascending=False)
result

Unnamed: 0,레시피_아이디,리뷰수,등록일,조회수,좋아요,싫어요,점수
25266,6876357,1771,2017-09-12,2959635,1755,16,15.86857
28315,6884636,1555,2018-02-27,2182552,1550,5,15.78719
31678,6894096,1251,2018-08-13,1730144,1238,13,15.59059
36226,6906655,1164,2019-02-15,1321401,1160,4,15.57058
28049,6883937,1242,2018-02-13,1318066,1231,11,15.54817
...,...,...,...,...,...,...,...
52035,6975066,1,2022-02-24,1217,0,1,-8.02355
52134,6976065,1,2022-03-14,562,0,1,-8.02650
52242,6977553,1,2022-04-08,759,0,1,-8.03057
52265,6977967,1,2022-04-16,2269,0,1,-8.03187


In [9]:
# isin() 이용해서 위 데이터프레임에 존재하는 레시피의 이름 가져오자.
temp = recipe_meta[recipe_meta['레시피_아이디'].isin(result.레시피_아이디)]
result_reddit_annotated = pd.merge(result, temp, how='left', left_on='레시피_아이디', right_on='레시피_아이디')
result_reddit_annotated = result_reddit_annotated[['레시피_아이디','제목','등록일_x','조회수_x','리뷰수','좋아요','싫어요','점수']]
result_reddit_annotated.columns = ['레시피_아이디','제목','등록일','조회수','리뷰수','좋아요','싫어요','점수']
result_reddit_annotated

Unnamed: 0,레시피_아이디,제목,등록일,조회수,리뷰수,좋아요,싫어요,점수
0,6876357,닭볶음탕 진짜진짜 황금레시피 알려 드려요~~^^,2017-09-12,2959635,1771,1755,16,15.86857
1,6884636,부대찌개 양념 만드는법 홀릭되는 맛임,2018-02-27,2182552,1555,1550,5,15.78719
2,6894096,너무 간단한데 맛있어서 놀라는 백종원 분식점 떡볶이 황금 레시피,2018-08-13,1730144,1251,1238,13,15.59059
3,6906655,양념장이 참 맛있는 두부조림,2019-02-15,1321401,1164,1160,4,15.57058
4,6883937,닭볶음탕 닭도리탕 황금레시피 짱짱맛 칼칼함이 남달라,2018-02-13,1318066,1242,1231,11,15.54817
...,...,...,...,...,...,...,...,...
52325,6975066,무생채 만드는 법 새콤달콤 꼬들꼬들한 무우생채 무요리,2022-02-24,1217,1,0,1,-8.02355
52326,6976065,"간단한 한끼, 고추장 달걀밥 레시피!",2022-03-14,562,1,0,1,-8.02650
52327,6977553,달래오이무침 [봄내음 물씬~~ 향긋한 달래와 아삭한 오이의 상큼한 만남! 조물조물 ...,2022-04-08,759,1,0,1,-8.03057
52328,6977967,제철간단김치~오이(김치)소박이!,2022-04-16,2269,1,0,1,-8.03187


In [10]:
# 이 결과를 저장하자.
result_reddit_annotated.to_csv("results/reddit_result.csv")

### 새롭게 정의한 score

- 사용하는 feature : 리뷰 수, 좋아요/싫어요, 조회수

기존에 익히 알려진 score들은 최신성을 반영하는 경우가 많지만, 현재 task에는 중요한 요소가 아니어서 score를 다시 정의했다.

$$\ln(max(|ups-downs|,1)+1) \;+\; \frac{number\;of\;reviews}{pageviews}$$

In [11]:
## my popularity scoring algorithm

def score(ups, downs): 
    return ups - downs 

def recipe_pop_score(ups, downs, pageview, numOfReviews): 
    s = score(ups, downs) 
    order = np.log1p(max(abs(s), 1)) 
    
    return round(order + numOfReviews / pageview, 5)  # 소숫점 다섯자리까지 반올림

def calculate_score(df):
    return recipe_pop_score(df['좋아요'], df['싫어요'], df['조회수'], df['리뷰수'])

In [12]:
# 각 레시피의 score 계산
result_copy = result.copy()

result_copy['새_점수'] = result_copy.apply(calculate_score, axis=1)
result_copy = result_copy.reset_index().sort_values(by="새_점수", ascending=False)
result_copy.drop('점수',axis=1, inplace=True)
result_copy

Unnamed: 0,index,레시피_아이디,리뷰수,등록일,조회수,좋아요,싫어요,새_점수
0,25266,6876357,1771,2017-09-12,2959635,1755,16,7.46224
1,28315,6884636,1555,2018-02-27,2182552,1550,5,7.34414
2,31678,6894096,1251,2018-08-13,1730144,1238,13,7.11224
4,28049,6883937,1242,2018-02-13,1318066,1231,11,7.10837
3,36226,6906655,1164,2019-02-15,1321401,1160,4,7.05447
...,...,...,...,...,...,...,...,...
47897,3949,4008363,1,2012-07-31,254308,1,0,0.69315
47903,3934,3997539,1,2012-07-27,257639,1,0,0.69315
46780,6099,5897144,1,2014-04-17,161531,1,0,0.69315
47907,3916,3986112,1,2012-07-23,147725,1,0,0.69315


In [13]:
# isin() 이용해서 위 데이터프레임에 존재하는 레시피의 이름 가져오자.
temp = recipe_meta[recipe_meta['레시피_아이디'].isin(result_copy.레시피_아이디)]
result_my_annotated = pd.merge(result_copy, temp, how='left', left_on='레시피_아이디', right_on='레시피_아이디')
result_my_annotated = result_my_annotated[['레시피_아이디','제목','등록일_x','조회수_x','리뷰수','좋아요','싫어요','새_점수']]
result_my_annotated.columns = ['레시피_아이디','제목','등록일','조회수','리뷰수','좋아요','싫어요','새_점수']
result_my_annotated

Unnamed: 0,레시피_아이디,제목,등록일,조회수,리뷰수,좋아요,싫어요,새_점수
0,6876357,닭볶음탕 진짜진짜 황금레시피 알려 드려요~~^^,2017-09-12,2959635,1771,1755,16,7.46224
1,6884636,부대찌개 양념 만드는법 홀릭되는 맛임,2018-02-27,2182552,1555,1550,5,7.34414
2,6894096,너무 간단한데 맛있어서 놀라는 백종원 분식점 떡볶이 황금 레시피,2018-08-13,1730144,1251,1238,13,7.11224
3,6883937,닭볶음탕 닭도리탕 황금레시피 짱짱맛 칼칼함이 남달라,2018-02-13,1318066,1242,1231,11,7.10837
4,6906655,양념장이 참 맛있는 두부조림,2019-02-15,1321401,1164,1160,4,7.05447
...,...,...,...,...,...,...,...,...
52325,4008363,홈메이드 떡갈비,2012-07-31,254308,1,1,0,0.69315
52326,3997539,버섯볶음 맛있게 만드는법,2012-07-27,257639,1,1,0,0.69315
52327,5897144,장어탕 맛있게 끓이는 법,2014-04-17,161531,1,1,0,0.69315
52328,3986112,여름철 밑반찬 깻잎김치 담그는법,2012-07-23,147725,1,1,0,0.69315


In [14]:
# 이 결과를 저장하자.
result_my_annotated.to_csv("results/my_defined_result.csv")

### 결과 보여주기
다양한 랭킹을 보여주기 위해 구한 랭킹 결과에서 상위 100개 중 10개를 random으로 추출한다.
#### Reddit

In [22]:
reddit = pd.read_csv('results/reddit_result.csv')
reddit.drop('Unnamed: 0',axis=1, inplace=True)  # 없으면 안 지워도 된다..
reddit_top100_random10 = reddit[:100].sample(frac=0.1, random_state=42)
reddit_top100_random10

Unnamed: 0,레시피_아이디,제목,등록일,조회수,리뷰수,좋아요,싫어요,점수
83,6891526,두부조림 양념장 만드는 법,2018-06-26,717843,302,301,1,14.17616
53,6891652,감자요리 - 백종원 감자짜글이,2018-06-28,545552,356,356,0,14.34721
70,6923068,김치 볶음밥 완전 새로운 방식!,2019-12-05,325245,297,295,2,14.25753
45,6886559,【본죽장조림】소고기장조림 만들기~,2018-04-02,756915,399,396,3,14.4274
44,6865170,(입맛 살리는 초간단 면요리) 새콤달콤 비빔국수,2017-02-13,513560,444,440,4,14.4386
39,3568149,고등어무조림,2012-04-09,983119,797,795,2,14.49953
22,6882172,집에 있는 재료로 간단하게~ 오므라이스,2018-01-11,713838,572,566,6,14.76332
80,6880161,"경상도식 얼큰 소고기무국 만드는 법, 국물이 칼칼해서 해장국으로도 좋아요 !",2017-11-28,690781,329,325,4,14.19853
10,6903507,"오징어 볶음, 향과 맛이 일품! 백종원 오징어 볶음",2019-01-04,1303533,798,792,6,15.17678
0,6876357,닭볶음탕 진짜진짜 황금레시피 알려 드려요~~^^,2017-09-12,2959635,1771,1755,16,15.86857


#### my defined

In [23]:
my = pd.read_csv('results/my_defined_result.csv')
my.drop('Unnamed: 0',axis=1, inplace=True)  # 없으면 안 지워도 된다..
my_top100_random10 = my[:100].sample(frac=0.1, random_state=42)
my_top100_random10

Unnamed: 0,레시피_아이디,제목,등록일,조회수,리뷰수,좋아요,싫어요,새_점수
83,6830098,꼬들한 양파 오이무침,2015-07-10,527764,327,323,4,5.76894
53,6879335,"참치마요덮밥 만들기, 혼밥요리로 딱!",2017-11-09,514766,411,407,4,6.00221
70,6883016,"[간단 자취요리] 요청쇄도! 맛있는 콩불, 콩나물 불고기 만들기",2018-01-29,449041,354,353,1,5.86726
45,6905196,국물이 너무 개운해요~맑은콩나물국 맛있게 끓이는법(김진옥요리가좋다),2019-01-25,789508,419,419,0,6.04079
44,6893285,"무생채 만드는 법, 절이지 않고 10분 만에 휘리릭 ~",2018-07-29,716642,431,428,3,6.05504
39,6905743,절대 실패없는 제육볶음 황금레시피 감칠맛과 매운맛이 좋아요~!!,2019-02-01,839917,447,443,4,6.08731
22,6879533,생생정보통 잡채 황금레시피 이거였네,2017-11-14,1894006,744,719,25,6.5443
80,6895383,아삭아삭 콩나물무침♡,2018-09-06,531499,349,337,12,5.78755
10,6859263,"매콤 된장찌개, 채소와 두부만 넣은 초간단 초스피드 된장찌개",2016-10-27,1415084,891,880,11,6.76912
0,6876357,닭볶음탕 진짜진짜 황금레시피 알려 드려요~~^^,2017-09-12,2959635,1771,1755,16,7.46224
