In [10]:

import json
import pandas as pd
import os
import shutil



DATA_DIR = "./data"
DATA_FILE = os.path.join(DATA_DIR, "data.json")
DUMP_FILE = os.path.join(DATA_DIR, "dump.pkl")


In [12]:

store_columns = (
    "id",  # 음식점 고유번호
    "store_name",  # 음식점 이름
    "branch",  # 음식점 지점 여부
    "area",  # 음식점 위치
    "tel",  # 음식점 번호
    "address",  # 음식점 주소
    "latitude",  # 음식점 위도
    "longitude",  # 음식점 경도
    "category",  # 음식점 카테고리
)

review_columns = (
    "id",  # 리뷰 고유번호
    "store",  # 음식점 고유번호 (FK)
    "user",  # 유저 고유번호 (Fk)
    "score",  # 평점
    "content",  # 리뷰 내용
    "reg_time",  # 리뷰 등록 시간
)

menu_columns = (
    "id",  # 메뉴 고유번호
    "store",  # 음식점 고유번호 (FK)
    "menu_name", # 메뉴 이름
    "price",  # 메뉴 가격
)


user_columns = (
    "id",  # 유저 고유번호
    "gender",  # 유저 성별
    "age",  # 유저 나이
)



In [13]:

def import_data(data_path=DATA_FILE):
    """
    Req. 1-1-1 음식점 데이터 파일을 읽어서 Pandas DataFrame 형태로 저장합니다
    """


    try:
        with open(data_path, encoding="utf-8") as f:
            data = json.loads(f.read())
    except FileNotFoundError as e:
        print(f"`{data_path}` 가 존재하지 않습니다.")
        exit(1)
#     print('=======================json_loads=====================')
#     test = pd.DataFrame(data=data)
#     print(test['review_list'])
#     print('=======================json_loads=====================')

    stores = []  # 음식점 테이블
    reviews = []  # 리뷰 테이블
    menus = [] # 메뉴 테이블
    users = [] # 유저 테이블
    
    idx = 0
    for d in data:

        categories = [c["category"] for c in d["category_list"]]
        stores.append(
            [
                d["id"],
                d["name"],
                d["branch"],
                d["area"],
                d["tel"],
                d["address"],
                d["latitude"],
                d["longitude"],
                "|".join(categories),
            ]
        )

        for review in d["review_list"]:
            r = review["review_info"]
            u = review["writer_info"]

            reviews.append(
                [r["id"], d["id"], u["id"], r["score"], r["content"], r["reg_time"]]
            )
            
            users.append(
                [u["id"], u["gender"], 2021-int(u["born_year"])]
            )
        
        for m in d["menu_list"]:
            idx += 1
            menus.append(
                [str(idx), d["id"], m["menu"], m["price"]]
            )
    store_frame = pd.DataFrame(data=stores, columns=store_columns)
    review_frame = pd.DataFrame(data=reviews, columns=review_columns)
    user_frame = pd.DataFrame(data=users, columns=user_columns)
    menu_frame = pd.DataFrame(data=menus, columns=menu_columns)
    

    return {"stores": store_frame, "reviews": review_frame, "users":user_frame, "menus":menu_frame,}


def dump_dataframes(dataframes):
    pd.to_pickle(dataframes, DUMP_FILE)


def load_dataframes():
    return pd.read_pickle(DUMP_FILE)

def main():

    print("[*] Parsing data...")
    data = import_data()
    print("[+] Done")

    print("[*] Dumping data...")
    dump_dataframes(data)
    print("[+] Done\n")

    data = load_dataframes()

    term_w = shutil.get_terminal_size()[0] - 1
    separater = "-" * term_w

    print("[음식점]")
    print(f"{separater}\n")
    print(data["stores"].head(20))
    print(f"\n{separater}\n\n")

    print("[리뷰]")
    print(f"{separater}\n")
    print(data["reviews"].head(20))
    print(f"\n{separater}\n\n")

    print("[메뉴]")
    print(f"{separater}\n")
    print(data["menus"].head(20))
    print(f"\n{separater}\n\n")
        
    
    print("[유저]")
    print(f"{separater}\n")
    print(data["users"].head(20))
    print(f"\n{separater}\n\n")

    
    

if __name__ == "__main__":
    data = load_dataframes()


ModuleNotFoundError: No module named 'pandas.core.internals.managers'; 'pandas.core.internals' is not a package

In [9]:
df = data["stores"]

def filter_category(category):
    A = ["쌀국수", "베트남", "태국", "중앙아시아", "아시아", "인도", "중동"]
    for a in A:
        if a in category:
            return "아시안요리"

    B = ["중식", "중국", "중화요리"]
    for b in B:
        if b in category:
            return "중식"

    C = ["떡볶이", "김밥"]
    for c in C:
        if c in category:
            return "분식"

    D = ["치킨", "통닭", "닭강정"]
    for d in D:
        if d in category:
            return "치킨"
    
    E = ["짜장", "훠궈", "양꼬치", "마라", "짬뽕", "양고기"]
    for e in E:
        if e in category:
            return "중식"

    F = ["분식"]
    for f in F:
        if f in category:
            return "분식"
    
    G = ["한식", "곤드레밥", "부대찌개", "감자탕", "국밥", "해장국", "백반", "닭볶음탕", "닭갈비", "닭곰탕", "죽",
         "추어탕", "닭도리탕", "아구찜", "해물탕"]
    for g in G:
        if g in category:
            return "한식"
 
    H = ["족발", "보쌈"]
    for h in H:
        if h in category:
            return "족발"

    I = ["국수", "만두전골", "두부", "샤브샤브", "낙지", "간장게장", "찜닭", "꼼장어", "조개구이", "갈낙탕",
         "갈비탕만", "곰탕", "우거지", "청국장"]
    for i in I:
        if i in category:
            return "한식"

    J = ["갈비만두", "만두"]
    for j in J:
        if j in category:
            return "분식"

    K = ["버거"]
    for k in K:
        if k in category:
            return "버거"

    L = ["펍", "pub"]
    for l in L:
        if l in category:
            return "술"

    M = ["삼겹살", "고기집", "목살", "la갈비", "갈매기살", "곱창", "막창", "갈비살", "가브리살"]
    for m in M:
        if m in category:
            return "고기"

    N = ["스파게티", "파스타", "pizza", "피자", "스테이크", "이탈리", "spaghetti", "pasta"]
    for n in N:
        if n in category:
            return "피자,파스타,스테이크"



    O = ["일식", "초밥", "가츠동", "회덮밥", "돈까스", "돈가스", "횟집"]
    for o in O:
        if o in category:
            return "돈가스,회,일식"

    P = ["cafe", "카페", "빙수", "베이커리", "디저트"]  # 더있음
    for p in P:
        if p in category:
            return "카페"

    QQ = ["술집", "포차", "닭발", "bar", "맥주", "호프", "가라아게"]  # 더있음
    for q in QQ:
        if q in category:
            return "술"



df["big_cate"] = df["category"].apply(lambda category: filter_category(category))
# print(df)
print(df.head(20))
data["stores"] = df

NameError: name 'data' is not defined

In [8]:
stores = data["stores"]
users = data["users"]
reviews = data["reviews"]

NameError: name 'data' is not defined

In [0]:
stores_reviews = pd.merge(
reviews, users, left_on="user", right_on="id"
)

In [0]:
# 유저 기준 리뷰로 묶어냄
stores_reviews = stores_reviews.drop_duplicates()

In [7]:
stores = data["stores"]

df = pd.merge(
stores, stores_reviews, left_on="id", right_on="store"
)

NameError: name 'data' is not defined

In [0]:
df.columns # big_cate 있는지 확인

In [0]:
df = df[['store','store_name','user', 'content','score', 'big_cate']]

In [0]:
df.head()

In [0]:
df = df[["user", "store_name", "score"]]

In [0]:
df.head()

In [0]:
# 테이블을 딕셔너리로 만들기
def recur_dict(frame):
    if len(frame.columns) == 1:
        if frame.values.size == 1 : return frame.values[0][0]
        return frame.values.squeeze()
    grouped = frame.groupby(frame.columns[0])
    d = {k : recur_dict(g.iloc[:, 1:]) for k, g in grouped}
    return d

In [0]:
df_to_dict = recur_dict(df)

In [0]:
df_to_dict

In [0]:
# 사용자 목록, 음식점 목록 리스트에 담기
name_list = [] # 사용자 목록 # 중복 불가
store_set = set() # 화장품 목록을 담을 set # 중복 가능

# 사용자 수만큼 반복함
for user_key in df_to_dict:
    name_list.append(user_key)
    # 현재 사용자가 리뷰를 남긴 가게 목록을 set에 담는다.
    for store_key in df_to_dict[user_key]:
        store_set.add(store_key)


In [0]:
store_set

In [0]:
store_list = list(store_set)

In [0]:
# CF 추천시스템에 사용할 rating 추천 딕셔너리 만들기(유저번호, 가게이름, 평점, 카테고리)

In [0]:
rating_dic = {
    'user'  :[],
    'store_name':[],
     'rating':[],
}
# 사용자 수 만큼 반복하는 알고리즘
for name_key in df_to_dict:
    for store_key in df_to_dict[name_key]:
        a1  = name_list.index(name_key)
        a2 = store_list.index(store_key)
        a3 = df_to_dict[name_key][store_key]
        
        rating_dic["user"].append(a1)
        rating_dic["store_name"].append(a2)
        rating_dic["rating"].append(a3)

In [0]:
# 사용자 - 가게 - 평점 출력 => 나중에는 가게 말고 big 카테고리 기준으로 나눠서 카테고리 나눠볼까함
# 키워드 추출 대신 이렇게 함? 
print(len(rating_dic["user"]))
print(len(rating_dic["store_name"]))
print(len(rating_dic["rating"]))

In [0]:
print(rating_dic["user"])
print(rating_dic["store_name"])
print(rating_dic["rating"])

In [0]:
# 데이터 셋 만들기
rating_df = pd.DataFrame(rating_dic)
rating_df

In [0]:
# 딕셔너리 바탕으로 사용자 이름 

In [0]:
import surprise
# 데이터를 읽어들이는 객체 생성(rating_scale=0~5)
reader = surprise.Reader(rating_scale=(0, 5))
reader

In [0]:
# surprise에서 사용할 데이터 셋을 구성하는데 필요한 이름
# 데이터가 저장되어 있는 딕셔너리의 컬럼 이름
# 첫번째 -> user, 두번째 -> store, 세번째 -> rating
col_list = ["user", "store_name", "rating"]
data = surprise.Dataset.load_from_df(df[col_list].reader)
print(col_list)
print(data)

In [0]:
# 학습
trainset = data.build_full_trainset()
option = {"name":"pearson"} # 피어슨 유사도 사용
algo = surprise.KNNBasic(sim_options=option) #surprise.KNNBasic사용
algo.git(train_set)

In [0]:
# 최종적으로 예측하는 CF 추천시스템
who = input("유저 번호를 입력하세요")
print("\n")
result = algo.get_neighbors(index, k=10)
print("당신과 비슷한 입맛을 가진 유저는? : ", result) # 입맛이 비슷한 열명의 사용자 번호
print("\n")

# user에게 추천하는 음식점
print("추천 드리는 음식점은 : ")
for r1 in result:
    max_rating=data.rating_df[data.rating_df["user"]==r1]["rating"].max()
    store_id = data.rating_df[(data.rating_df["rating"]==max_rating)&(data.rating_df["user"]==r1)]["store_name"].values
    
    # 추천해주는 가게들 목록
    for store_item im store_id:
        print(store_list[store_item])
        