In [36]:
import json
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import os
import shutil
import io



DATA_DIR = "../data"
DATA_FILE = os.path.join(DATA_DIR, "data.json")
DUMP_FILE = os.path.join(DATA_DIR, "dump.pkl")

In [37]:
%matplotlib inline

In [38]:

store_columns = (
    "id",  # 음식점 고유번호
    "store_name",  # 음식점 이름
    "branch",  # 음식점 지점 여부
    "area",  # 음식점 위치
    "tel",  # 음식점 번호
    "address",  # 음식점 주소
    "latitude",  # 음식점 위도
    "longitude",  # 음식점 경도
    "category",  # 음식점 카테고리
)

review_columns = (
    "id",  # 리뷰 고유번호
    "store",  # 음식점 고유번호 (FK)
    "user",  # 유저 고유번호 (Fk)
    "score",  # 평점
    "content",  # 리뷰 내용
    "reg_time",  # 리뷰 등록 시간
)

menu_columns = (
    "id",  # 메뉴 고유번호
    "store",  # 음식점 고유번호 (FK)
    "menu_name", # 메뉴 이름
    "price",  # 메뉴 가격
)


user_columns = (
    "id",  # 유저 고유번호
    "gender",  # 유저 성별
    "age",  # 유저 나이
)

In [39]:

def import_data(data_path=DATA_FILE):
    """
    Req. 1-1-1 음식점 데이터 파일을 읽어서 Pandas DataFrame 형태로 저장합니다
    """


    try:
        with open(data_path, encoding="utf-8") as f:
            data = json.loads(f.read())
    except FileNotFoundError as e:
        print(f"`{data_path}` 가 존재하지 않습니다.")
        exit(1)
#     print('=======================json_loads=====================')
#     test = pd.DataFrame(data=data)
#     print(test['review_list'])
#     print('=======================json_loads=====================')

    stores = []  # 음식점 테이블
    reviews = []  # 리뷰 테이블
    menus = [] # 메뉴 테이블
    users = [] # 유저 테이블
    
    idx = 0
    for d in data:

        categories = [c["category"] for c in d["category_list"]]
        stores.append(
            [
                d["id"],
                d["name"],
                d["branch"],
                d["area"],
                d["tel"],
                d["address"],
                d["latitude"],
                d["longitude"],
                "|".join(categories),
            ]
        )

        for review in d["review_list"]:
            r = review["review_info"]
            u = review["writer_info"]

            reviews.append(
                [r["id"], d["id"], u["id"], r["score"], r["content"], r["reg_time"]]
            )
            
            users.append(
                [u["id"], u["gender"], 2021-int(u["born_year"])]
            )
        
        for m in d["menu_list"]:
            idx += 1
            menus.append(
                [str(idx), d["id"], m["menu"], m["price"]]
            )
    store_frame = pd.DataFrame(data=stores, columns=store_columns)
    review_frame = pd.DataFrame(data=reviews, columns=review_columns)
    user_frame = pd.DataFrame(data=users, columns=user_columns)
    menu_frame = pd.DataFrame(data=menus, columns=menu_columns)
    

    return {"stores": store_frame, "reviews": review_frame, "users":user_frame, "menus":menu_frame,}


def dump_dataframes(dataframes):
    pd.to_pickle(dataframes, DUMP_FILE)


def load_dataframes():
    return pd.read_pickle(DUMP_FILE)

def main():

    print("[*] Parsing data...")
    data = import_data()
    print("[+] Done")

    print("[*] Dumping data...")
    dump_dataframes(data)
    print("[+] Done\n")

    data = load_dataframes()

    term_w = shutil.get_terminal_size()[0] - 1
    separater = "-" * term_w

    print("[음식점]")
    print(f"{separater}\n")
    print(data["stores"].head(20))
    print(f"\n{separater}\n\n")

    print("[리뷰]")
    print(f"{separater}\n")
    print(data["reviews"].head(20))
    print(f"\n{separater}\n\n")

    print("[메뉴]")
    print(f"{separater}\n")
    print(data["menus"].head(20))
    print(f"\n{separater}\n\n")
        
    
    print("[유저]")
    print(f"{separater}\n")
    print(data["users"].head(20))
    print(f"\n{separater}\n\n")

    
    

if __name__ == "__main__":
    main()

[*] Parsing data...
[+] Done
[*] Dumping data...
[+] Done

[음식점]
-----------------------------------------------------------------------------------------------------------------------

    id     store_name branch  area            tel  \
0    1           Agal   None    홍대  010-6689-5886   
1    2         Assisy   None    광주   062-367-0700   
2    3  Battered Sole   None   이태원    02-749-6867   
3    4      Chakyoung   None  달맞이길   051-756-5566   
4    5       Delabobo   None   발산역   02-2667-9854   
5    6     Gogoss Pub   None    하남   031-792-9289   
6    7      Madeleine   None   만촌동   053-759-7947   
7    8        NesCafe   None   남포동   051-243-1125   
8    9       Red Camp   None    진주  070-7786-9258   
9   10             T원   None    신촌   02-3145-2904   
10  11          국수이야기   None    월곶   031-317-8002   
11  12           깐부치킨   역삼역점   역삼역    02-501-9284   
12  13           모이바바   None   수영역           None   
13  14             미랑   None    유성   042-826-9240   
14  15            써

In [40]:
def filter_category(category):
    A = ["쌀국수", "베트남", "태국", "중앙아시아", "아시아", "인도", "중동"]
    for a in A:
        if a in category:
            return "아시안요리"

    B = ["중식", "중국", "중화요리"]
    for b in B:
        if b in category:
            return "중식"

    C = ["떡볶이", "김밥"]
    for c in C:
        if c in category:
            return "분식"

    D = ["치킨", "통닭", "닭강정"]
    for d in D:
        if d in category:
            return "치킨"
    
    E = ["짜장", "훠궈", "양꼬치", "마라", "짬뽕", "양고기"]
    for e in E:
        if e in category:
            return "중식"

    F = ["분식"]
    for f in F:
        if f in category:
            return "분식"
    
    G = ["한식", "곤드레밥", "부대찌개", "감자탕", "국밥", "해장국", "백반", "닭볶음탕", "닭갈비", "닭곰탕", "죽",
         "추어탕", "닭도리탕", "아구찜", "해물탕"]
    for g in G:
        if g in category:
            return "한식"
 
    H = ["족발", "보쌈"]
    for h in H:
        if h in category:
            return "족발, 보쌈"

    I = ["국수", "만두전골", "두부", "샤브샤브", "낙지", "간장게장", "찜닭", "꼼장어", "조개구이", "갈낙탕",
         "갈비탕만", "곰탕", "우거지", "청국장", "수제비", "굴비", "비빔밥"]
    for i in I:
        if i in category:
            return "한식"

    J = ["갈비만두", "만두"]
    for j in J:
        if j in category:
            return "분식"

    K = ["버거"]
    for k in K:
        if k in category:
            return "버거"

    L = ["펍", "pub"]
    for l in L:
        if l in category:
            return "술"

    M = ["삼겹살", "고기집", "목살", "la갈비", "갈매기살", "곱창", "막창", "갈비살", "가브리살", "특수"]
    for m in M:
        if m in category:
            return "고기"

    N = ["스파게티", "파스타", "pizza", "피자", "스테이크", "이탈리", "spaghetti", "pasta", "호주"]
    for n in N:
        if n in category:
            return "피자,파스타,스테이크"


    O = ["일식", "초밥", "가츠동", "회덮밥", "돈까스", "돈가스", "횟집", "물회"]
    for o in O:
        if o in category:
            return "돈가스,회,일식"

    P = ["cafe", "Cafe", "카페", "까페", "빙수", "베이커리", "디저트", "샌드위치", "케이크", "에스프레소", "마카롱"]  # 더있음
    for p in P:
        if p in category:
            return "카페"

    QQ = ["술집", "포차", "닭발", "bar", "맥주", "호프", "가라아게", "소주", "칵테일", "오뎅탕"]  # 더있음
    for qq in QQ:
        if qq in category:
            return "술"


In [48]:
stores = data["stores"]
stores["big_cate"] = stores["category"].apply(lambda category: filter_category(category))

stores.head()

Unnamed: 0,id,store_name,branch,area,tel,address,latitude,longitude,category,review_cnt,big_cate
0,1,Agal,,홍대,010-6689-5886,서울특별시 마포구 동교동 170-13,37.556862,126.926666,아구찜|포장마차,0,한식
1,2,Assisy,,광주,062-367-0700,광주광역시 서구 농성동 631-33,35.150746,126.890062,카페,0,카페
2,3,Battered Sole,,이태원,02-749-6867,서울특별시 용산구 이태원동 118-9,37.535032,126.991664,피쉬앤칩스|펍,0,술
3,4,Chakyoung,,달맞이길,051-756-5566,부산광역시 해운대구 중2동 1509-5,35.158587,129.175004,레스토랑|카프레제,0,
4,5,Delabobo,,발산역,02-2667-9854,서울특별시 강서구 등촌동 689,37.559904,126.840512,디저트카페|디저트,0,카페


In [58]:
users = data["users"]
reviews = data["reviews"]
stores_reviews = pd.merge(
reviews, users, left_on="user", right_on="id"
)
stores_reviews = stores_reviews.drop_duplicates()
stores = data["stores"]

df = pd.merge(
stores, stores_reviews, left_on="id", right_on="store"
)
df.columns # big_cate 있는지 확인
# df.head()

Index(['id', 'store_name', 'branch', 'area', 'tel', 'address', 'latitude',
       'longitude', 'category', 'review_cnt', 'big_cate', 'id_x', 'store',
       'user', 'score', 'content', 'reg_time', 'id_y', 'gender', 'born_year'],
      dtype='object')

In [50]:
import itertools
from collections import Counter
import pandas as pd
import numpy as np
from datetime import datetime as dt
from parse import load_dataframes
import shutil

In [79]:
# 카테고리별 음식점 평점 높은 순으로 가중치 둬서 구분하기
def score_by_category(df, n=50):
    df = df[df["big_cate"] == "한식"]
    
    # 점수없는 애들 제외
    df = df[df.score != 0]
    df = df.groupby('store').mean()
    
    df = df[df["review_cnt"]>=30]
    m = df['review_cnt'].quantile(0.8)
    C = df['score'].mean()
    
    # review_cnt 따른 score 가중치
    def weighted_rating(df, m=m, C=C):
        v = df['review_cnt']
        R = df['score']
        
        return ( v / (v+m) * R ) + (m / (m + v) * C)

    df['weight_score'] = df.apply(weighted_rating, axis = 1)
    df = df.sort_values(by=["weight_score"], ascending=False)
    
    return df

most_score_by_category = score_by_category(df)
print(most_score_by_category)

              id  review_cnt     id_x           user     score           id_y  \
store                                                                           
145030  145030.0       101.0  14329.0  354779.099010  4.158416  354779.099010   
26012    26012.0        49.0  10443.0  399044.224490  4.244898  399044.224490   
275702  275702.0        40.0   6600.5  357557.550000  4.125000  357557.550000   
297934  297934.0        48.0  17257.5  340888.979167  4.041667  340888.979167   
332467  332467.0        42.0   8731.5  321046.119048  4.047619  321046.119048   
335278  335278.0        40.0   9377.5  341353.475000  3.925000  341353.475000   
172674  172674.0        30.0   8321.5  308894.333333  3.900000  308894.333333   
353580  353580.0        47.0   1100.0  299456.063830  3.872340  299456.063830   
213774  213774.0        35.0   3285.0  369389.628571  3.828571  369389.628571   
168430  168430.0        33.0   7374.0  454274.151515  3.787879  454274.151515   
335279  335279.0        45.0