In [None]:
import csv
import json

data = []
with open('../data/store.csv') as f:
       for row in csv.DictReader(f):
           data.append(row)

json_data = json.dumps(data)
# print(json_data)

In [1]:
import json
import csv
import pandas as pd
import os
import shutil

DATA_DIR = "../data"
DATA_FILE = os.path.join(DATA_DIR, "data.json")
DUMP_FILE = os.path.join(DATA_DIR, "dump.pkl")

store_columns = (
    "id",  # 음식점 고유번호
    "store_name",  # 음식점 이름
    "branch",  # 음식점 지점 여부
    "area",  # 음식점 위치
    "tel",  # 음식점 번호
    "address",  # 음식점 주소
    "latitude",  # 음식점 위도  # 위치기반 음식점 추천할 때 사용
    "longitude",  # 음식점 경도  # 위치기반 음식점 추천할 때 사용
    "category",  # 음식점 카테고리
    "review_cnt",  # 리뷰 갯수
)

menu_colums = (
    "store",  # 음식점 고유번호
    "menu",  # 메뉴 이름
    "price",  # 메뉴 가격
)

hour_colums = (
    "type",  # 영업시간 종류
    "week_type",  # 주단위 종류
    "store",  # 음식점 고유번호
    "mon",  # 월요일 포함유무
    "tue",  # 화요일 포함유무
    "wed",  # 수요일 포함유무
    "thu",  # 목요일 포함유무
    "fri",  # 금요일 포함유무
    "sat",  # 토요일 포함유무
    "sun",  # 일요일 포함유무
    "start_time",  # 시작시간
    "end_time",  # 종료시간
    "etc",  # 기타
)

review_columns = (
    "id",  # 리뷰 고유번호
    "store",  # 음식점 고유번호
    "user",  # 유저 고유번호
    "score",  # 평점
    "content",  # 리뷰 내용
    "reg_time",  # 리뷰 등록 시간
)

user_colums = (
    "id",  # 유저 고유번호
    "gender",  # 성별
    "born_year"  # 태어난 해
)


def import_data(data_path=DATA_FILE):
    """
    Req. 1-1-1 음식점 데이터 파일을 읽어서 Pandas DataFrame 형태로 저장합니다
    """
    

    try:
        with open(data_path, encoding="utf-8") as f:
            data = json.loads(f.read())
    except FileNotFoundError:
        print(f"`{data_path}` 가 존재하지 않습니다.")
        exit(1)

    stores = []  # 음식점 테이블
    menus = []  # 메뉴 테이블
    hours = []  # 음식점 시간 테이블
    reviews = []  # 리뷰 테이블
    users = []  # 유저 테이블

    for d in data:

        categories = [c["category"] for c in d["category_list"]]
        # review_cnt = 
        stores.append(
            [
                d["id"],
                d["name"],
                d["branch"],
                d["area"],
                d["tel"],
                d["address"],
                d["latitude"],
                d["longitude"],
                "|".join(categories),
                d["review_cnt"]
            ]
        )
  
        for menu in d["menu_list"]:
            menus.append(
                [d["id"], menu["menu"], menu["price"]]
            )
        
        for hour in d["bhour_list"]:
            hours.append(
                [
                    hour["type"], hour["week_type"], d["id"],
                    hour["mon"], hour["tue"], hour["wed"], hour["thu"],
                    hour["fri"], hour["sat"], hour["sun"],
                    hour["start_time"], hour["end_time"], hour["etc"]
                ]
            )
  
        for review in d["review_list"]:
            r = review["review_info"]
            u = review["writer_info"]

            reviews.append(
                [r["id"], d["id"], u["id"], r["score"], r["content"], r["reg_time"]]
            )

            users.append(
                [u["id"], u["gender"], u["born_year"]]
            )

    store_frame = pd.DataFrame(data=stores, columns=store_columns)
    menu_frame = pd.DataFrame(data=menus, columns=menu_colums)
    hour_frame = pd.DataFrame(data=hours, columns=hour_colums)
    review_frame = pd.DataFrame(data=reviews, columns=review_columns)
    user_frame = pd.DataFrame(data=users, columns=user_colums)
    user_frame = user_frame.drop_duplicates()

    return {"stores": store_frame, "menus": menu_frame, "hours": hour_frame,
            "reviews": review_frame, "users": user_frame}


def dump_dataframes(dataframes):
    pd.to_pickle(dataframes, DUMP_FILE)


def load_dataframes():
    return pd.read_pickle(DUMP_FILE)

def import_store(data_path=DATA_FILE):
    """
    Req. 1-1-1 음식점 데이터 파일을 읽어서 Pandas DataFrame 형태로 저장합니다
    """
    
    data = []  # 음식점 테이블
    with open('../data/store.csv') as f:
        for row in csv.DictReader(f):
            data.append(row)

    stores = json.dumps(data)

    stores = []  # 음식점 테이블

    for d in data:

        # review_cnt = 
        stores.append(
            [
                d["id"],
                d["store_name"],
                d["branch"],
                d["area"],
                d["tel"],
                d["address"],
                d["latitude"],
                d["longitude"],
                d["category"],
                d["review_cnt"]
            ]
        )
    
    store_new = pd.DataFrame(data=stores, columns=store_columns)

    return store_new


def main():

    print("[*] Parsing data...")
    data = import_data()
    print("[+] Done")

    print("[*] Dumping data...")
    dump_dataframes(data)
    print("[+] Done\n")

    data = load_dataframes()
    store = import_store()

    term_w = shutil.get_terminal_size()[0] - 1
    separater = "-" * term_w

    print("[메뉴]")
    print(f"{separater}\n")
    print(data["menus"].head())
    print(f"\n{separater}\n\n")

    print("[영업시간]")
    print(f"{separater}\n")
    print(data["hours"].head())
    print(f"\n{separater}\n\n")

    print("[리뷰]")
    print(f"{separater}\n")
    print(data["reviews"].head())
    print(f"\n{separater}\n\n")

    print("[유저]")
    print(f"{separater}\n")
    print(data["users"].head())
    print(f"\n{separater}\n\n")
    
    print(store)


if __name__ == "__main__":
    main()
    
print('---------------------------------------------------------------------------------------------------------')



[*] Parsing data...
[+] Done
[*] Dumping data...
[+] Done

[메뉴]
-----------------------------------------------------------------------------------------------------------------------

   store                  menu    price
0      3  메인 (피쉬앤칩스, 오리 가슴살 등)  14000.0
1      3          스타터 보드(파테 등)  18000.0
2      3        디저트 (초콜렛 퐁당 등)   8500.0
3      3               생과일 칵테일   9000.0
4      3                   생맥주   7000.0

-----------------------------------------------------------------------------------------------------------------------


[영업시간]
-----------------------------------------------------------------------------------------------------------------------

   type  week_type  store  mon  tue  wed  thu  fri  sat  sun start_time  \
0     1          1      3  0.0  0.0  0.0  0.0  0.0  0.0  1.0   17:30:00   
1     3          1      3  1.0  0.0  0.0  0.0  0.0  0.0  0.0   00:00:00   
2     1          1      3  0.0  1.0  1.0  1.0  0.0  0.0  0.0   17:30:00   
3     1          1      

---------------------------------------------------------------------------------------------------------


In [36]:
def area_category(area):
###### 서울#################################################################3
    A = ["서울특별시 종로구", "서울시 종로구", "서울 종로구"]
    for a in A:
        if a in area:
            return "서울중구"

    B = ["서울특별시 중구", "서울시 중구", "서울 중구"]
    for b in B:
        if b in area:
            return "서울중구"

    C = ["서울특별시 용산구", "서울시 용산구", "서울 용산구"]
    for c in C:
        if c in area:
            return "서울용산구"

    D = ["서울특별시 성동구", "서울시 성동구", "서울 성동구"]
    for d in D:
        if d in area:
            return "서울성동구"
    
    E = ["서울특별시 광진구", "서울시 광진구", "서울 광진구"]
    for e in E:
        if e in area:
            return "서울광진구"

    F = ["서울특별시 동대문구", "서울시 동대문구", "서울 동대문구"]
    for f in F:
        if f in area:
            return "서울동대문구"
    
    G = ["서울특별시 중랑구", "서울시 중랑구", "서울 중랑구"]
    for g in G:
        if g in area:
            return "서울중랑구"
 
    H = ["서울특별시 성북구", "서울시 성북구", "서울 성북구"]
    for h in H:
        if h in area:
            return "서울성북구"

    I = ["서울특별시 강북구", "서울시 강북구", "서울 강북구"]
    for i in I:
        if i in area:
            return "서울강북구"

    J = ["서울특별시 도봉구", "서울시 도봉구", "서울 도봉구"]
    for j in J:
        if j in area:
            return "서울도봉구"

    K = ["서울특별시 노원구", "서울시 노원구", "서울 노원구"]
    for k in K:
        if k in area:
            return "서울노원구"

    L = ["서울특별시 은평구", "서울시 은평구", "서울 은평구"]
    for l in L:
        if l in area:
            return "서울은평구"

    M = ["서울특별시 서대문구", "서울시 서대문구", "서울 서대문구"]
    for m in M:
        if m in area:
            return "서울서대문구"

    N = ["서울특별시 마포구", "서울시 마포구", "서울 마포구"]
    for n in N:
        if n in area:
            return "서울마포구"


    O = ["서울특별시 양천구", "서울시 양천구", "서울 양천구"]
    for o in O:
        if o in area:
            return "서울양천구"

    P = ["서울특별시 강서구", "서울시 강서구", "서울 강서구"]
    for p in P:
        if p in area:
            return "서울강서구"

    QQ = ["서울특별시 구로구", "서울시 구로구", "서울 구로구"]
    for q in QQ:
        if q in area:
            return "서울구로구"

    R = ["서울특별시 금천구", "서울시 금천구", "서울 금천구"]
    for r in R:
        if r in area:
            return "서울금천구"

    S = ["서울특별시 영등포구", "서울시 영등포구", "서울 영등포구"]
    for s in S:
        if s in area:
            return "서울영등포구"

    T = ["서울특별시 동작구", "서울시 동작구", "서울 동작구"]
    for t in T:
        if t in area:
            return "서울동작구"

    U = ["서울특별시 관악구", "서울시 관악구", "서울 관악구"]
    for u in U:
        if u in area:
            return "서울관악구"

    V = ["서울특별시 서초구", "서울시 서초구", "서울 서초구"]
    for v in V:
        if v in area:
            return "서울서초구"

    X = ["서울특별시 강남구", "서울시 강남구", "서울 강남구"]
    for x in X:
        if x in area:
            return "서울강남구"

    Y = ["서울특별시 송파구", "서울시 송파구", "서울 송파구"]
    for y in Y:
        if y in area:
            return "서울송파구"

    Z = ["서울특별시 강동구", "서울시 강동구", "서울 강동구"]
    for z in Z:
        if z in area:
            return "서울강동구"


######대전#################################################################
    AA = ["대전광역시 동구", "대전시 동구", "대전 동구"]
    for aa in AA:
        if aa in area:
            return "대전동구"

    BB = ["대전광역시 중구", "대전시 중구", "대전 중구"]
    for bb in BB:
        if bb in area:
            return "대전중구"

    CC = ["대전광역시 서구", "대전시 서구", "대전 서구"]
    for cc in CC:
        if cc in area:
            return "대전서구"

    DD = ["대전광역시 유성구", "대전시 유성구", "대전 유성구"]
    for dd in DD:
        if dd in area:
            return "대전유성구"
    
    EE = ["대전광역시 대덕구", "대전시 대덕구", "대전 대덕구"]
    for ee in EE:
        if ee in area:
            return "대전대덕구"

######대구#################################################################
    AAA = ["대구광역시 동구", "대구시 동구", "대구 동구"]
    for aaa in AAA:
        if aaa in area:
            return "대구동구"

    BBB = ["대구광역시 중구", "대구시 중구", "대구 중구"]
    for bbb in BBB:
        if bbb in area:
            return "대구중구"

    CCC = ["대구광역시 서구", "대구시 서구", "대구 서구"]
    for ccc in CCC:
        if ccc in area:
            return "대구서구"

    DDD = ["대구광역시 수성구", "대구시 수성구", "대구 수성구"]
    for ddd in DDD:
        if ddd in area:
            return "대구수성구"
    
    EEE = ["대구광역시 달서구", "대구시 달서구", "대구 달서구"]
    for eee in EEE:
        if eee in area:
            return "대구달서구"

    FFF = ["대구광역시 달성군", "대구시 달성군", "대구 달성군"]
    for fff in FFF:
        if fff in area:
            return "대구달성군"
    
    GGG = ["대구광역시 남부", "대구시 남부", "대구 남부"]
    for ggg in GGG:
        if ggg in area:
            return "대구남부"
 
    HHH = ["대구광역시 북구", "대구시 북구", "대구 북구"]
    for hhh in HHH:
        if hhh in area:
            return "대구북구"

######광주#################################################################
    AAAA = ["광주광역시 동구", "광주시 동구", "광주 동구"]
    for aaaa in AAAA:
        if aaaa in area:
            return "광주동구"

    BBBB = ["광주광역시 중구", "광주시 중구", "광주 중구"]
    for bbbb in BBBB:
        if bbbb in area:
            return "광주중구"

    CCCC = ["광주광역시 서구", "광주시 서구", "광주 서구"]
    for cccc in CCCC:
        if cccc in area:
            return "광주서구"

    DDDD = ["광주광역시 북구", "광주시 북구", "광주 북구"]
    for dddd in DDDD:
        if dddd in area:
            return "광주북구"
    
    EEEE = ["광주광역시 광산구", "광주시 광산구", "광주 광산구"]
    for eeee in EEEE:
        if eeee in area:
            return "광주광산구"

######제주#################################################################
    AAAAA = ["서귀포시"]
    for aaaaa in AAAAA:
        if aaaaa in area:
            return "제주서귀포시"

    BBBBB = ["제주시"]
    for bbbbb in BBBBB:
        if bbbbb in area:
            return "제주제주시"

######인천#################################################################
    AAAAAA = ["인천광역시 동구", "인천시 동구", "인천 동구"]
    for aaaaaa in AAAAAA:
        if aaaaaa in area:
            return "인천동구"

    BBBBBB = ["인천광역시 중구", "인천시 중구", "인천 중구"]
    for bbbbbb in BBBBBB:
        if bbbbbb in area:
            return "인천중구"

    CCCCCC = ["인천광역시 서구", "인천시 서구", "인천 서구"]
    for cccccc in CCCCCC:
        if cccccc in area:
            return "인천서구"

    DDDDDD = ["인천광역시 미추홀구", "인천시 미추홀구", "인천 미추홀구"]
    for dddddd in DDDDDD:
        if dddddd in area:
            return "인천미추홀구"
    
    EEEEEE = ["인천광역시 연수구", "인천시 연수구", "인천 연수구"]
    for eeeeee in EEEEEE:
        if eeeeee in area:
            return "인천연수구"

    FFFFFF = ["인천광역시 남동구", "인천시 남동구", "인천 남동구"]
    for ffffff in FFFFFF:
        if ffffff in area:
            return "인천남동구"
    
    GGGGGG = ["인천광역시 부평구", "인천시 부평구", "인천 부평구"]
    for gggggg in GGGGGG:
        if gggggg in area:
            return "인천부평구"
 
    HHHHHH = ["인천광역시 계양구", "인천시 계양구", "인천 계양구"]
    for hhhhhh in HHHHHH:
        if hhhhhh in area:
            return "인천계양구"
    
    IIIIII = ["인천광역시 강화군", "인천시 강화군", "인천 강화군"]
    for iiiiii in IIIIII:
        if iiiiii in area:
            return "인천강화군"

######울산#################################################################
    AAAAAAA = ["울산광역시 동구", "울산시 동구", "울산 동구"]
    for aaaaaaa in AAAAAAA:
        if aaaaaaa in area:
            return "울산동구"

    BBBBBBB = ["울산광역시 중구", "울산시 중구", "울산 중구"]
    for bbbbbbb in BBBBBBB:
        if bbbbbbb in area:
            return "울산중구"

    CCCCCCC = ["울산광역시 남구", "울산시 남구", "울산 남구"]
    for ccccccc in CCCCCCC:
        if ccccccc in area:
            return "울산남구"

    DDDDDDD = ["울산광역시 북구", "울산시 북구", "울산 북구"]
    for ddddddd in DDDDDDD:
        if ddddddd in area:
            return "울산북구"
    
    EEEEEEE = ["울산광역시 울주군", "울산시 울주군", "울산 울주군"]
    for eeeeeee in EEEEEEE:
        if eeeeeee in area:
            return "울산울주군"


######부산#################################################################3
    Ai = ["부산광역시 중구", "부산시 중구", "부산 중구"]
    for ai in Ai:
        if ai in area:
            return "부산중구"

    Bi = ["부산광역시 서구", "부산시 서구", "부산 서구"]
    for bi in Bi:
        if bi in area:
            return "부산서구"

    Ci = ["부산광역시 동구", "부산시 동구", "부산 동구"]
    for ci in Ci:
        if ci in area:
            return "부산동구"

    Di = ["부산광역시 영도구", "부산시 영도구", "부산 영도구"]
    for di in Di:
        if di in area:
            return "부산영도구"
    
    Ei = ["부산광역시 부산진구", "부산시 부산진구", "부산 부산진구"]
    for ei in Ei:
        if ei in area:
            return "부산부산진구"

    Fi = ["부산광역시 동래구", "부산시 동래구", "부산 동래구"]
    for fi in Fi:
        if fi in area:
            return "부산동래구"
    
    Gi = ["부산광역시 남구", "부산시 남구", "부산 남구"]
    for gi in Gi:
        if gi in area:
            return "부산남구"
 
    Hi = ["부산광역시 북구", "부산시 북구", "부산 북구"]
    for hi in Hi:
        if hi in area:
            return "부산북구"

    Ii = ["부산광역시 해운대구", "부산시 해운대구", "부산 해운대구"]
    for ii in Ii:
        if ii in area:
            return "부산해운대구"

    Ji = ["부산광역시 사하구", "부산시 사하구", "부산 사하구"]
    for ji in Ji:
        if ji in area:
            return "사하구"

    Ki = ["부산광역시 금정구", "부산시 금정구", "부산 금정구"]
    for ki in Ki:
        if ki in area:
            return "부산금정구"

    Li = ["부산광역시 강서구", "부산시 강서구", "부산 강서구"]
    for li in Li:
        if li in area:
            return "부산강서구"

    Mi = ["부산광역시 연제구", "부산시 연제구", "부산 연제구"]
    for mi in Mi:
        if mi in area:
            return "부산연제구"

    Ni = ["부산광역시 수영구", "부산시 수영구", "부산 수영구"]
    for ni in Ni:
        if ni in area:
            return "부산수영구"

    Oi = ["부산광역시 사상구", "부산시 사상구", "부산 사상구"]
    for oi in Oi:
        if oi in area:
            return "부산사상구"

    Pi = ["부산광역시 기장군", "부산시 기장군", "부산 기장군"]
    for pi in Pi:
        if pi in area:
            return "부산기장군"
        
######강원#################################################################3
    Aj = ["강원도 춘천시", "강원 춘천시"]
    for aj in Aj:
        if aj in area:
            return "강원춘천시"

    Bj = ["강원도 원주시", "강원 원주시"]
    for bj in Bj:
        if bj in area:
            return "강원원주시"

    Cj = ["강원도 강릉시", "강원 강릉시"]
    for cj in Cj:
        if cj in area:
            return "강원강릉시"

    Dj = ["강원도 동해시", "강원 동해시"]
    for dj in Dj:
        if dj in area:
            return "강원동해시"
    
    Ej = ["강원도 태백시", "강원 태백시"]
    for ej in Ej:
        if ej in area:
            return "강원태백시"

    Fj = ["강원도 속초시", "강원 속초시"]
    for fj in Fj:
        if fj in area:
            return "강원속초시"
    
    Gj = ["강원도 삼척시", "강원 삼척시"]
    for gj in Gj:
        if gj in area:
            return "강원삼척시"
 
    Hj = ["강원도 홍천군", "강원 홍천군"]
    for hj in Hj:
        if hj in area:
            return "강원홍천군"

    Ij = ["강원도 횡성군", "강원 횡성군"]
    for ij in Ij:
        if ij in area:
            return "강원횡성군"

    Jj = ["강원도 평창군", "강원 평창군"]
    for jj in Jj:
        if jj in area:
            return "강원평창군"

    Kj = ["강원도 정선군", "강원 정선군"]
    for kj in Kj:
        if kj in area:
            return "강원정선군"

    Lj = ["강원도 철원군", "강원 철원군"]
    for lj in Lj:
        if lj in area:
            return "강원철원군"

    Mj = ["강원도 화천군", "강원 화천군"]
    for mj in Mj:
        if mj in area:
            return "강원화천군"

    Nj = ["강원도 양구군", "강원 양구군"]
    for nj in Nj:
        if nj in area:
            return "강원양구군"

    Oj = ["강원도 인제군", "강원 인제군"]
    for oj in Oj:
        if oj in area:
            return "강원인제군"

    Pj = ["강원도 고성군", "강원 고성군"]
    for pj in Pj:
        if pj in area:
            return "강원고성군"

    Qj = ["강원도 영월군", "강원 영월군"]
    for qj in Qj:
        if qj in area:
            return "강원영월군"

    Rj = ["강원도 양양군", "강원 양양군"]
    for rj in Rj:
        if rj in area:
            return "강원양양군"
        
######전라남도#################################################################3
    Ap = ["전라남도 목포시", "전남 목포시"]
    for ap in Ap:
        if ap in area:
            return "전남목포시"

    Bp = ["전라남도 여수시", "전남 여수시"]
    for bp in Bp:
        if bp in area:
            return "전남여수시"

    Cp = ["전라남도 순천시", "전남 순천시"]
    for cp in Cp:
        if cp in area:
            return "전남순천시"

    Dp = ["전라남도 나주시", "전남 나주시"]
    for dp in Dp:
        if dp in area:
            return "전남나주시"
    
    Ep = ["전라남도 광양시", "전남 광양시"]
    for ep in Ep:
        if ep in area:
            return "전남광양시"

    Fp = ["전라남도 담양군", "전남 담양군"]
    for fp in Fp:
        if fp in area:
            return "전남담양군"
    
    Gp = ["전라남도 곡성군", "전남 곡성군"]
    for gp in Gp:
        if gp in area:
            return "전남곡성군"
 
    Hp = ["전라남도 구례군", "전남 구례군"]
    for hp in Hp:
        if hp in area:
            return "전남구례군"

    Ip = ["전라남도 고흥군", "전남 고흥군"]
    for ip in Ip:
        if ip in area:
            return "전남고흥군"

    p = ["전라남도 보성군", "전남 보성군"]
    for p in p:
        if p in area:
            return "전남보성군"

    Kp = ["전라남도 화순군", "전남 화순군"]
    for kp in Kp:
        if kp in area:
            return "전남화순군"

    Lp = ["전라남도 강진군", "전남 강진군"]
    for lp in Lp:
        if lp in area:
            return "전남강진군"

    Mp = ["전라남도 해남군", "전남 해남군"]
    for mp in Mp:
        if mp in area:
            return "전남해남군"

    Np = ["전라남도 영암군", "전남 영암군"]
    for np in Np:
        if np in area:
            return "전남영암군"

    Op = ["전라남도 무안군", "전남 무안군"]
    for op in Op:
        if op in area:
            return "전남무안군"

    Pp = ["전라남도 함평군", "전남 함평군"]
    for pp in Pp:
        if pp in area:
            return "전남함평군"

    Qp = ["전라남도 영광군", "전남 영광군"]
    for qp in Qp:
        if qp in area:
            return "전남영광군"

    Rp = ["전라남도 장성군", "전남 장성군"]
    for rp in Rp:
        if rp in area:
            return "전남장성군"

    Sp = ["전라남도 완도군", "전남 완도군"]
    for sp in Sp:
        if sp in area:
            return "전남완도군"

    Tp = ["전라남도 진도군", "전남 진도군"]
    for tp in Tp:
        if tp in area:
            return "전남진도군"

    Up = ["전라남도 신안군", "전남 신안군"]
    for up in Up:
        if up in area:
            return "전남신안군"

    Vp = ["전라남도 장흥군", "전남 장흥군"]
    for vp in Vp:
        if vp in area:
            return "전남장흥군"

NameError: name 'store' is not defined

In [14]:
def filter_category(category):
    A = ["쌀국수", "베트남", "태국", "중앙아시아", "아시아", "인도", "중동"]
    for a in A:
        if a in category:
            return "아시안요리"

    B = ["중식", "중국", "중화요리"]
    for b in B:
        if b in category:
            return "중식"

    C = ["떡볶이", "김밥"]
    for c in C:
        if c in category:
            return "분식"

    D = ["치킨", "통닭", "닭강정"]
    for d in D:
        if d in category:
            return "치킨"
    
    E = ["짜장", "훠궈", "양꼬치", "마라", "짬뽕", "양고기"]
    for e in E:
        if e in category:
            return "중식"

    F = ["분식"]
    for f in F:
        if f in category:
            return "분식"
    
    G = ["한식", "곤드레밥", "부대찌개", "감자탕", "국밥", "해장국", "백반", "닭볶음탕", "닭갈비", "닭곰탕", "죽",
         "추어탕", "닭도리탕", "아구찜", "해물탕"]
    for g in G:
        if g in category:
            return "한식"
 
    H = ["족발", "보쌈"]
    for h in H:
        if h in category:
            return "족발, 보쌈"

    I = ["국수", "만두전골", "두부", "샤브샤브", "낙지", "간장게장", "찜닭", "꼼장어", "조개구이", "갈낙탕",
         "갈비탕만", "곰탕", "우거지", "청국장", "수제비", "굴비", "비빔밥"]
    for i in I:
        if i in category:
            return "한식"

    J = ["갈비만두", "만두"]
    for j in J:
        if j in category:
            return "분식"

    K = ["버거"]
    for k in K:
        if k in category:
            return "버거"

    L = ["펍", "pub"]
    for l in L:
        if l in category:
            return "술"

    M = ["삼겹살", "고기집", "목살", "la갈비", "갈매기살", "곱창", "막창", "갈비살", "가브리살", "특수"]
    for m in M:
        if m in category:
            return "고기"

    N = ["스파게티", "파스타", "pizza", "피자", "스테이크", "이탈리", "spaghetti", "pasta", "호주"]
    for n in N:
        if n in category:
            return "피자,파스타,스테이크"


    O = ["일식", "초밥", "가츠동", "회덮밥", "돈까스", "돈가스", "횟집", "물회"]
    for o in O:
        if o in category:
            return "돈가스,회,일식"

    P = ["cafe", "Cafe", "카페", "까페", "빙수", "베이커리", "디저트", "샌드위치", "케이크", "에스프레소", "마카롱"]  # 더있음
    for p in P:
        if p in category:
            return "카페"

    QQ = ["술집", "포차", "닭발", "bar", "맥주", "호프", "가라아게", "소주", "칵테일", "노가리", "골뱅이"]  # 더있음
    for q in QQ:
        if q in category:
            return "술"

In [33]:
import itertools
from collections import Counter
from parse import load_dataframes
import pandas as pd
from datetime import datetime as dt
import shutil


data = load_dataframes()
term_w = shutil.get_terminal_size()[0] - 1
separater = "-" * term_w

stores = import_store()
#     stores["big_cate"] = stores["category"].apply(lambda category: filter_category(category))
stores["area_cate"] = stores["address"].apply(lambda address: area_category(address))
# print(stores.head(60))


In [34]:

base_dir = "../data"
file_nm = "area_category.xlsx"
xlxs_dir = os.path.join(base_dir, file_nm)

stores.to_excel(xlxs_dir)

In [16]:
a = stores["area"].drop_duplicates()
print(len(a))

NameError: name 'stores' is not defined

In [4]:
# 가격이랑 카테고리해서 knn하기

import itertools
from collections import Counter
from parse import load_dataframes
import pandas as pd
from datetime import datetime as dt
import shutil

data = load_dataframes()
stores = import_store()
term_w = shutil.get_terminal_size()[0] - 1
separater = "-" * term_w

# store
stores["big_cate"] = stores["category"].apply(lambda category: filter_category(category))
# print(stores.head())
stores["id"] = stores["id"].apply(pd.to_numeric)
# print(stores)

# menu
# 가격가지고올때, 메뉴가 하나의 가게에 여러개 나오니까 그거로 평균내서 store랑 합치기
menu = data["menus"]
menus = menu.groupby("store").mean()
# print(menus)

store_menu = pd.merge(stores, menus, left_on="id", right_on="store")
print(store_menu.tail())

            id store_name branch area           tel  \
219983  456301     해녀직영횟집         정동진  033-644-5278   
219984  456302        해녀집          길동  02-6249-5346   
219985  456304       해녀짬뽕          서면  051-806-1231   
219986  456305    해녀천지할매집          기장                 
219987  456309      해녀촌식당         욕지도  055-644-0277   

                          address   latitude   longitude category review_cnt  \
219983      강원도 강릉시 강동면 정동진리 12-2    37.6859     129.039  해삼물회|전복          0   
219984         서울특별시 강동구 길동 414-3  37.536745  127.137544    갈치|횟집          0   
219985      부산광역시 부산진구 부전동 241-12    35.1537     129.058  해물짬뽕|짬뽕          0   
219986          부산광역시 기장군 기장읍 연화리  35.219408  129.227325  전복죽|해산물          0   
219987  경상남도 통영시 욕지면 서촌 아랫길 112번지  34.634565  128.264682                   0   

        big_cate         price  
219983  돈가스,회,일식  25000.000000  
219984  돈가스,회,일식      0.000000  
219985        중식  26400.000000  
219986        한식  23180.000000  
219987      None  19846

In [5]:
from sklearn.feature_extraction.text import CountVectorizer
store_menu = store_menu.fillna(0)
store_menu = store_menu[store_menu["big_cate"] != 0]
vect1 = CountVectorizer()
vect1.fit(store_menu["big_cate"])
vect1.vocabulary_

{'카페': 11,
 '한식': 14,
 '치킨': 10,
 '피자': 13,
 '파스타': 12,
 '스테이크': 5,
 '고기': 0,
 '버거': 2,
 '족발': 8,
 '보쌈': 3,
 '돈가스': 1,
 '일식': 7,
 '중식': 9,
 '분식': 4,
 '아시안요리': 6}

In [None]:
store_menu["price"] = store_menu.price.convert_objects(convert_numeric=True)
# print(store_menu["price"].head())
print(store_menu.head())

In [11]:
# price도 카테고리 나누기
def price_category(price):
    if 0 <= price < 5000:
            return "5000원이하"

    elif 5000 <= price < 10000:
            return "10000원이하"
        
    elif 10000 <= price < 15000:
            return "15000원이하"
        
    elif 15000 <= price < 20000:
            return "20000원이하"
        
    elif 20000 <= price < 25000:
            return "25000원이하"
        
    elif 25000 <= price < 30000:
            return "30000원이하"
    
    elif 30000 <= price < 35000:
            return "35000원이하"
        
    elif 35000 <= price < 40000:
            return "40000원이하"
        
    else:
        return "40000원이상"

In [12]:
store_menu["price_cate"] = store_menu["price"].apply(lambda price: price_category(price))
print(store_menu.head())

   id     store_name branch area           tel                address  \
0   3  Battered Sole         이태원   02-749-6867   서울특별시 용산구 이태원동 118-9   
1   6     Gogoss Pub          하남  031-792-9289     경기도 하남시 덕풍동 412-18   
2   7      Madeleine         만촌동  053-759-7947  대구광역시 수성구 만촌1동 1356-7   
3  11          국수이야기          월곶  031-317-8002     경기도 시흥시 월곶동 1006-3   
4  13           모이바바         수영역                  부산광역시 수영구 광안동 116-4   

    latitude   longitude  category review_cnt big_cate         price  \
0  37.535032  126.991664   피쉬앤칩스|펍          0        술  11300.000000   
1  37.539046  127.203933         펍          0        술  16000.000000   
2  35.869088  128.636058  마들렌|베이커리          0       카페   3333.333333   
3    37.3887      126.74   국수|고기국수          0       한식   4333.333333   
4    35.1627     129.115      cafe          0       카페      0.000000   

  price_cate  
0   15000원이하  
1   20000원이하  
2    5000원이하  
3    5000원이하  
4    5000원이하  


In [13]:
from sklearn.feature_extraction.text import CountVectorizer
# store_menu = store_menu.fillna(0)
# store_menu = store_menu[store_menu["big_cate"] != 0]
vect2 = CountVectorizer()
vect2.fit(store_menu["price_cate"])
vect2.vocabulary_

{'15000원이하': 1,
 '20000원이하': 2,
 '5000원이하': 8,
 '10000원이하': 0,
 '30000원이하': 4,
 '25000원이하': 3,
 '40000원이상': 6,
 '35000원이하': 5,
 '40000원이하': 7}

In [18]:
import numpy as np
from sklearn.neighbors import KNeighborsClassifier
from sklearn.neighbors import NearestNeighbors

a = vect1.transform(store_menu["big_cate"]).toarray()
b = vect2.transform(store_menu["price_cate"]).toarray()
# print(b)
c = np.hstack([a, b])
c.tolist()

# training_points = c.tolist()
# training_labels = [0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
# classifier = KNeighborsClassifier(n_neighbors = 3)
# guesses = classifier.predict(c)
  
# classifier.fit(training_points, training_labels)

[[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0],
 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0],
 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1],
 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1],
 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1],
 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0],
 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0],
 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0],
 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0],
 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1],
 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1],
 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0],
 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0],
 [0, 0, 0, 0, 0, 0, 0, 0,