In [4]:
import os
import pandas as pd
import numpy as np
from math import sqrt
from tqdm import tqdm_notebook as tqdm

from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
import matplotlib.pyplot as plt

In [5]:
data = pd.read_json('../data.json')

In [6]:
data.head()

Unnamed: 0,id,name,branch,area,tel,address,latitude,longitude,category_list,menu_list,bhour_list,review_cnt,review_list
0,1,Agal,,홍대,010-6689-5886,서울특별시 마포구 동교동 170-13,37.556862,126.926666,"[{'category': '아구찜'}, {'category': '포장마차'}]",[],[],0,[]
1,2,Assisy,,광주,062-367-0700,광주광역시 서구 농성동 631-33,35.150746,126.890062,[{'category': '카페'}],[],[],0,[]
2,3,Battered Sole,,이태원,02-749-6867,서울특별시 용산구 이태원동 118-9,37.535032,126.991664,"[{'category': '피쉬앤칩스'}, {'category': '펍'}]","[{'menu': '메인 (피쉬앤칩스, 오리 가슴살 등)', 'price': 140...","[{'type': 1, 'week_type': 1, 'mon': 0, 'tue': ...",0,[]
3,4,Chakyoung,,달맞이길,051-756-5566,부산광역시 해운대구 중2동 1509-5,35.158587,129.175004,"[{'category': '레스토랑'}, {'category': '카프레제'}]",[],[],0,[]
4,5,Delabobo,,발산역,02-2667-9854,서울특별시 강서구 등촌동 689,37.559904,126.840512,"[{'category': '디저트카페'}, {'category': '디저트'}]",[],[],0,[]


In [7]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 459988 entries, 0 to 459987
Data columns (total 13 columns):
 #   Column         Non-Null Count   Dtype  
---  ------         --------------   -----  
 0   id             459988 non-null  int64  
 1   name           459988 non-null  object 
 2   branch         23460 non-null   object 
 3   area           443274 non-null  object 
 4   tel            449759 non-null  object 
 5   address        459931 non-null  object 
 6   latitude       459987 non-null  float64
 7   longitude      459987 non-null  float64
 8   category_list  459988 non-null  object 
 9   menu_list      459988 non-null  object 
 10  bhour_list     459988 non-null  object 
 11  review_cnt     459988 non-null  int64  
 12  review_list    459988 non-null  object 
dtypes: float64(2), int64(2), object(9)
memory usage: 45.6+ MB


In [8]:
data.isna().sum()

id                    0
name                  0
branch           436528
area              16714
tel               10229
address              57
latitude              1
longitude             1
category_list         0
menu_list             0
bhour_list            0
review_cnt            0
review_list           0
dtype: int64

In [9]:
data2 = pd.read_pickle('../dump.pkl')
data2

{'stores':             id     store_name branch  area            tel  \
 0            1           Agal   None    홍대  010-6689-5886   
 1            2         Assisy   None    광주   062-367-0700   
 2            3  Battered Sole   None   이태원    02-749-6867   
 3            4      Chakyoung   None  달맞이길   051-756-5566   
 4            5       Delabobo   None   발산역   02-2667-9854   
 ...        ...            ...    ...   ...            ...   
 459983  459996         행복부대찌개   None   녹양동   031-877-2410   
 459984  459997           행복부페   None   안중읍   031-682-1733   
 459985  459998           행복분식   None   퇴촌면  031-8071-2668   
 459986  459999           행복분식   None   소주동   055-312-3713   
 459987  460000           행복분식   None  의정부동   031-772-6624   
 
                       address   latitude   longitude   category  
 0        서울특별시 마포구 동교동 170-13  37.556862  126.926666   아구찜|포장마차  
 1         광주광역시 서구 농성동 631-33  35.150746  126.890062         카페  
 2        서울특별시 용산구 이태원동 118-9  37.535032  

In [10]:
stores_df = data2['stores'].copy()
stores_df.head()

Unnamed: 0,id,store_name,branch,area,tel,address,latitude,longitude,category
0,1,Agal,,홍대,010-6689-5886,서울특별시 마포구 동교동 170-13,37.556862,126.926666,아구찜|포장마차
1,2,Assisy,,광주,062-367-0700,광주광역시 서구 농성동 631-33,35.150746,126.890062,카페
2,3,Battered Sole,,이태원,02-749-6867,서울특별시 용산구 이태원동 118-9,37.535032,126.991664,피쉬앤칩스|펍
3,4,Chakyoung,,달맞이길,051-756-5566,부산광역시 해운대구 중2동 1509-5,35.158587,129.175004,레스토랑|카프레제
4,5,Delabobo,,발산역,02-2667-9854,서울특별시 강서구 등촌동 689,37.559904,126.840512,디저트카페|디저트


In [11]:
reviews_df = data2['reviews']
reviews_df.head()

Unnamed: 0,id,store,user,score,content,reg_time,user_gender,user_born
0,1,15,68632,5,전포 윗길에 새로 생긴! 호주에서 온 쉐프가 직접 요리하는 호주식 레스토랑!,1970-01-01 00:00:00,남,1990
1,2,18,389728,5,샌드위치 내용물도 알차게 들어있고 맛있었어요 가성비 추천,1970-01-01 00:00:00,여,1993
2,3,19,68716,4,홈플러스 1층 매장 푸드코트 내 있는 매장인데 계란찜정식은 처음보고 시켜봣는데 사진...,1970-01-01 00:00:00,여,1984
3,4,37,774353,2,"전 여기 5년전에 가봤었는데 그때 기억은 별로였어요\n단체손님이 많았고, 차려지는건...",1970-01-01 00:00:00,여,1972
4,5,38,115682,3,친구들끼리 술 간단하게마시러 감. 스끼다시 괜찮지만 회 양이 조금 부족한 느낌. 맛...,2019-03-15 22:16:47,남,1991


In [12]:
reviews_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 91398 entries, 0 to 91397
Data columns (total 8 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   id           91398 non-null  int64 
 1   store        91398 non-null  int64 
 2   user         91398 non-null  int64 
 3   score        91398 non-null  int64 
 4   content      91398 non-null  object
 5   reg_time     91398 non-null  object
 6   user_gender  91398 non-null  object
 7   user_born    91398 non-null  object
dtypes: int64(4), object(4)
memory usage: 5.6+ MB


In [13]:
!pip install matrix-factorization



In [14]:
from matrix_factorization import BaselineModel, KernelMF, train_update_test_split

In [15]:
ratings_df = reviews_df[['store','user','score','reg_time']].copy()
ratings_df["user"].values

array([ 68632, 389728,  68716, ..., 190766, 201564, 611078], dtype=int64)

In [16]:
ratings_df = ratings_df.rename(columns = {"store":"item_id","user":"user_id","reg_time":"timestamp","score":"rating"})

In [17]:
ratings_df = ratings_df[['user_id','item_id','rating','timestamp']]
ratings_df

Unnamed: 0,user_id,item_id,rating,timestamp
0,68632,15,5,1970-01-01 00:00:00
1,389728,18,5,1970-01-01 00:00:00
2,68716,19,4,1970-01-01 00:00:00
3,774353,37,2,1970-01-01 00:00:00
4,115682,38,3,2019-03-15 22:16:47
...,...,...,...,...
91393,17371,360499,5,1970-01-01 00:00:00
91394,198050,360505,4,1970-01-01 00:00:00
91395,190766,360514,5,1970-01-01 00:00:00
91396,201564,360514,4,1970-01-01 00:00:00


In [18]:
ratings_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 91398 entries, 0 to 91397
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   user_id    91398 non-null  int64 
 1   item_id    91398 non-null  int64 
 2   rating     91398 non-null  int64 
 3   timestamp  91398 non-null  object
dtypes: int64(3), object(1)
memory usage: 2.8+ MB


In [19]:
X_train, X_test, y_train, y_test = train_test_split(ratings_df[['user_id','item_id']],ratings_df[['rating']], test_size=0.2, random_state=1234)

print(X_train.shape)
print(y_train.shape)
print(X_test.shape)
print(y_test.shape)

(73118, 2)
(73118, 1)
(18280, 2)
(18280, 1)


In [20]:
matrix_fact = KernelMF(n_epochs=20, n_factors=100, verbose=1, lr=0.001, reg=0.005)
matrix_fact.fit(X_train, y_train)

Epoch  1 / 20  -  train_rmse: 1.1042830958969088
Epoch  2 / 20  -  train_rmse: 1.0941768037132626
Epoch  3 / 20  -  train_rmse: 1.0850764296384439
Epoch  4 / 20  -  train_rmse: 1.0767412772753098
Epoch  5 / 20  -  train_rmse: 1.069001248706338
Epoch  6 / 20  -  train_rmse: 1.0617369089679325
Epoch  7 / 20  -  train_rmse: 1.0548620943125289
Epoch  8 / 20  -  train_rmse: 1.0483166064073322
Epoch  9 / 20  -  train_rmse: 1.0420495313759577
Epoch  10 / 20  -  train_rmse: 1.0360224315827138
Epoch  11 / 20  -  train_rmse: 1.0302063580355834
Epoch  12 / 20  -  train_rmse: 1.024575097029267
Epoch  13 / 20  -  train_rmse: 1.019105736396856
Epoch  14 / 20  -  train_rmse: 1.0137833397492804
Epoch  15 / 20  -  train_rmse: 1.0085919925385192
Epoch  16 / 20  -  train_rmse: 1.003519690093185
Epoch  17 / 20  -  train_rmse: 0.9985565308235274
Epoch  18 / 20  -  train_rmse: 0.9936935134070738
Epoch  19 / 20  -  train_rmse: 0.988922508736938
Epoch  20 / 20  -  train_rmse: 0.9842365922442851


KernelMF(gamma=0.01, lr=0.001, n_epochs=20, reg=0.005)

In [21]:
pred = matrix_fact.predict(X_test)
rmse = mean_squared_error(y_test, pred, squared=False)
print(f"\nTest RMSE: {rmse:.4f}")


Test RMSE: 1.0573


In [22]:
# Get recommendations
user = 68632
items_known = X_train.query("user_id == @user")["item_id"]

result_df = matrix_fact.recommend(user=user, items_known=items_known,amount=30)
result_df

Unnamed: 0,user_id,item_id,rating_pred
13632,68632,81272,5.0
6222,68632,119553,5.0
83,68632,26012,5.0
31800,68632,155276,5.0
8622,68632,112877,5.0
2417,68632,76200,5.0
24624,68632,354937,5.0
347,68632,346836,5.0
3442,68632,53390,5.0
971,68632,270009,5.0


In [23]:
ids = result_df['item_id'].to_list()

In [24]:
test_recommend = stores_df[stores_df['id'].isin(ids)]

In [25]:
test_recommend.to_csv(path_or_buf="test_recommend.csv",encoding='utf-8-sig')

PermissionError: [Errno 13] Permission denied: 'test_recommend.csv'

In [33]:
test_before_data = reviews_df[reviews_df['user'] == 68632]

In [None]:
test_before_data.to_csv('test_before_data.csv',encoding='utf-8-sig')

In [None]:
!pip install konlpy

In [26]:
import sys

sys.version

'3.8.5 (default, Sep  3 2020, 21:29:08) [MSC v.1916 64 bit (AMD64)]'

In [None]:
!pip install --user JPype1-1.1.2-cp38-cp38-win_amd64.whl

In [34]:
test_before_data

Unnamed: 0,id,store,user,score,content,reg_time,user_gender,user_born
0,1,15,68632,5,전포 윗길에 새로 생긴! 호주에서 온 쉐프가 직접 요리하는 호주식 레스토랑!,1970-01-01 00:00:00,남,1990
325,326,1216,68632,5,간단하게 먹으러 갔다가 얼큰우동에 반하고 나오는 24시 우동집!,1970-01-01 00:00:00,남,1990
1412,1413,8756,68632,5,식사보다는 말그대로 피맥으로 한잔하기에 딱 좋은 피자!,1970-01-01 00:00:00,남,1990
1527,1528,9460,68632,5,파란 컨테이너의 외관부터 너무 이쁜 건대 커멘그래운드 2층의 루프탑카페! 분위기 좋...,2019-04-06 12:52:22,남,1990
2300,4681,13745,68632,5,가야공원에서 제일 맛있는 오리고기집~ 다 먹고 볶음밥 볶아 먹으면.. 크~~,2018-11-28 15:12:33,남,1990
...,...,...,...,...,...,...,...,...
87932,11466,345715,68632,5,전포동에 위치한 조용하고 예쁜 카페 전포리! 벌써부터 크리스마스 느낌 물씬~,1970-01-01 00:00:00,남,1990
88311,11845,347500,68632,4,24시간이라 적당히 갈비탕/육개장칼국수로 한끼 떼우기에 좋아요,1970-01-01 00:00:00,남,1990
88564,12098,348557,68632,5,구디가면 꼭 먹는 정정아식당! 닭볶음탕에 볶음밥 먹으면 그냥 끝!,1970-01-01 00:00:00,남,1990
88749,12283,349096,68632,5,능이버섯으로 지은 밥과 능이버섯을 달인 물로 만든 요리들,1970-01-01 00:00:00,남,1990


In [28]:
from konlpy.tag import Kkma
from konlpy.utils import pprint

In [None]:
!pip install --user jpype1==0.7.0

In [29]:
kkma = Kkma()

In [30]:
from konlpy.utils import pprint

In [31]:
pprint(kkma.sentences(u'네, 안녕하세요. 반갑습니다.'))

['네, 안녕하세요.', '반갑습니다.']


In [43]:
test_before_data['content'].apply(lambda x: kkma.sentences(u"{}".format(x)))

IndexError: string index out of range

In [41]:
test_before_data['words'] = test_before_data['content'].apply(lambda x: kkma.sentences(u"{}".format(x)))

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  test_before_data['words'] = test_before_data['content'].apply(lambda x: kkma.sentences(u"{}".format(x)))


In [42]:
test_before_data

Unnamed: 0,id,store,user,score,content,reg_time,user_gender,user_born,words
0,1,15,68632,5,전포 윗길에 새로 생긴! 호주에서 온 쉐프가 직접 요리하는 호주식 레스토랑!,1970-01-01 00:00:00,남,1990,[전포 윗길에 새로 생긴! 호주에서 온 쉐프가 직접 요리하는 호주식 레스토랑!]
325,326,1216,68632,5,간단하게 먹으러 갔다가 얼큰우동에 반하고 나오는 24시 우동집!,1970-01-01 00:00:00,남,1990,[간단하게 먹으러 갔다가 얼 큰 우동에 반하고 나오는 24 시 우동 집!]
1412,1413,8756,68632,5,식사보다는 말그대로 피맥으로 한잔하기에 딱 좋은 피자!,1970-01-01 00:00:00,남,1990,[식사보다는 말 그대로 피맥으로 한잔하기에 딱 좋은 피자!]
1527,1528,9460,68632,5,파란 컨테이너의 외관부터 너무 이쁜 건대 커멘그래운드 2층의 루프탑카페! 분위기 좋...,2019-04-06 12:52:22,남,1990,"[파란 컨테이너의 외관부터 너무 이쁜 건대, 커 멘 그래 운드 2 층의 루프탑 카페..."
2300,4681,13745,68632,5,가야공원에서 제일 맛있는 오리고기집~ 다 먹고 볶음밥 볶아 먹으면.. 크~~,2018-11-28 15:12:33,남,1990,[가야공원에서 제일 맛있는 오리 고기 집~ 다 먹고 볶음밥 볶아 먹으면.. 크~~]
...,...,...,...,...,...,...,...,...,...
87932,11466,345715,68632,5,전포동에 위치한 조용하고 예쁜 카페 전포리! 벌써부터 크리스마스 느낌 물씬~,1970-01-01 00:00:00,남,1990,[전포동에 위치한 조용하고 예쁜 카페 전 포리! 벌써부터 크리스마스 느낌 물씬~]
88311,11845,347500,68632,4,24시간이라 적당히 갈비탕/육개장칼국수로 한끼 떼우기에 좋아요,1970-01-01 00:00:00,남,1990,[24시간이라 적당히 갈비탕/ 육개장 칼국수로 한 끼 떼우기에 좋아요]
88564,12098,348557,68632,5,구디가면 꼭 먹는 정정아식당! 닭볶음탕에 볶음밥 먹으면 그냥 끝!,1970-01-01 00:00:00,남,1990,[구디 가면 꼭 먹는 정 정아 식당! 닭볶음탕에 볶음밥 먹으면 그냥 끝!]
88749,12283,349096,68632,5,능이버섯으로 지은 밥과 능이버섯을 달인 물로 만든 요리들,1970-01-01 00:00:00,남,1990,[능이 버섯으로 지은 밥과 능이 버섯을 달인 물로 만든 요리들]
