In [1]:
import pandas as pd
import numpy as np
from sklearn.metrics import mean_squared_error

In [2]:
excel_file_path = './data/dataTmp.xlsx'

# 엑셀 파일의 각 시트를 다른 변수에 저장
menu_info = pd.read_excel(excel_file_path, sheet_name='Sheet1', header = 0, index_col = 0)
user_info = pd.read_excel(excel_file_path, sheet_name='Sheet2', header = 0, index_col = 0)

# 각 시트 데이터 확인
# print("Sheet1 데이터:")
# print(menu_info.head())

# print("\nSheet2 데이터:")
# print(user_info.head())

In [3]:
# print제한 없애기
pd.set_option('display.max_seq_items', None)
pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)

In [4]:
# 사용자 - 메뉴 정보가 저장된 데이터프레임 배열로 바꾸기
user_info.arr = user_info.to_numpy()

  user_info.arr = user_info.to_numpy()


In [52]:
# 실제 R 행렬과 예측 행렬의 오차를 구하는 함수
def calculate_rmse(R, P, Q, non_zeros):
    error = 0

    full_pred_matrix = np.dot(P, Q.T)

    # 여기서 non_zeros는 아래 함수에서 확인할 수 있다.
    x_non_zero_ind = [non_zeros[0] for non_zeros in non_zeros]
    y_non_zero_ind = [non_zeros[1] for non_zeros in non_zeros]

    # 원 행렬 R에서 0이 아닌 값들만 추출한다.
    R_non_zeros = R[x_non_zero_ind, y_non_zero_ind]

    # 예측 행렬에서 원 행렬 R에서 0이 아닌 위치의 값들만 추출하여 저장한다.
    full_pred_matrix_non_zeros = full_pred_matrix[x_non_zero_ind, y_non_zero_ind]

    mse = mean_squared_error(R_non_zeros, full_pred_matrix_non_zeros)
    rmse = np.sqrt(mse)

    return rmse

# 행렬분해하는 함수
def matrix_factorization(R, K, steps=200, learning_rate=0.01, r_lambda=0.01):
    num_users, num_items = R.shape

    np.random.seed(1)
    P = np.random.normal(scale=1.0/K, size=(num_users, K))
    Q = np.random.normal(scale=1.0/K, size=(num_items, K))

    # R>0인 행 위치, 열 위치, 값을 non_zeros 리스트에 저장한다.
    non_zeros = [ (i, j, R[i, j]) for i in range(num_users)
                  for j in range(num_items) if R[i, j] > 0 ]

    # SGD 기법으로 P, Q 매트릭스를 업데이트 함
    for step in range(steps):
        for i, j, r in non_zeros:
            # 잔차 구함
            eij = r - np.dot(P[i, :], Q[j, :].T)

            # Regulation을 반영한 SGD 업데이터 적용
            P[i, :] = P[i, :] + learning_rate*(eij * Q[j, :] - r_lambda*P[i, :])
            Q[j, :] = Q[j, :] + learning_rate*(eij * P[i, :] - r_lambda*Q[j, :])

        rmse = calculate_rmse(R, P, Q, non_zeros)
        if step % 10 == 0:
            print("iter step: {0}, rmse: {1:4f}".format(step, rmse))

    return P, Q

# 예측 확률 구하기
def predict(P, Q):
    return np.dot(P, Q.T)

# 에측결과를 토대로 메뉴 선택하기
def predicted_menu(predicted, userNo, nMenu):
    user_like_menu = predicted[userNo+1].copy();
    predicted_name = []
    print(user_like_menu)
    for i in range(0,nMenu):
        max_idx = np.argmax(user_like_menu)
        if user_like_menu[max_idx] < 0 or user_like_menu[max_idx] == 0 : break
        predicted_name += [user_info.columns[max_idx]]
        print(i, " : ", user_info.columns[max_idx])
        user_like_menu[max_idx] = 0
    return predicted_name

In [None]:
### 사용자 - 선호메뉴 데이터를 통한 매뉴 추천

In [50]:
P, Q = matrix_factorization(user_info.arr, K=15)
predicted_R = predict(P,Q)

iter step: 0, rmse: 0.998303
iter step: 10, rmse: 0.971326
iter step: 20, rmse: 0.765388
iter step: 30, rmse: 0.313545
iter step: 40, rmse: 0.120905
iter step: 50, rmse: 0.058427
iter step: 60, rmse: 0.039582
iter step: 70, rmse: 0.033468
iter step: 80, rmse: 0.030702
iter step: 90, rmse: 0.028948
iter step: 100, rmse: 0.027604
iter step: 110, rmse: 0.026482
iter step: 120, rmse: 0.025508
iter step: 130, rmse: 0.024647
iter step: 140, rmse: 0.023877
iter step: 150, rmse: 0.023182
iter step: 160, rmse: 0.022553
iter step: 170, rmse: 0.021978
iter step: 180, rmse: 0.021452
iter step: 190, rmse: 0.020968


In [61]:
predict_menu = predicted_menu(predicted_R, 10, 10)
print(predict_menu)

[0.97507876 0.88794287 0.96227259 0.98548998 0.98205794 0.94836942
 0.91587888 0.86406095 0.97998153 0.98814386 0.02069394 0.07562283
 0.028654  ]
0  :  짜장면
1  :  초밥
2  :  돈가스
3  :  햄버거
4  :  바지락칼국수
5  :  해물찜
6  :  샤부샤부
7  :  김치찌개
8  :  떡볶이
9  :  고등어구이
['짜장면', '초밥', '돈가스', '햄버거', '바지락칼국수', '해물찜', '샤부샤부', '김치찌개', '떡볶이', '고등어구이']


In [60]:
for i in range(0, user_info.shape[1]):
    if user_info.iloc[9,i] == 1 :
        print(user_info.columns[i])

해물찜
돈가스
샤부샤부
햄버거
짜장면
