In [148]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import os
import seaborn as sns

# 설정

In [149]:
# 데이터 프레임의 모든 column을 볼 수 있도록 설정
pd.set_option('display.max_columns', None)

# DATA PATH

In [150]:
DATA_DIR = "./data"
UPJONG_DIR = "./data/6260000_CSV"

# 인허가포털에서 가져온 업종별 데이터 (일반음식점)
- 22/06/30 이전까지 인허가가 완료된 사업장 116,174개 사업장
    - 영업 중 사업장 : 44,229개
    - 폐업한 사업장 : 71,945개

In [151]:
RSTR_PATH = os.path.join(UPJONG_DIR, "6260000_부산광역시_07_24_04_P_일반음식점.csv")

In [152]:
df_rstr = pd.read_csv(RSTR_PATH, encoding = 'cp949', low_memory = False)
df_rstr.drop(['Unnamed: 47'], axis = 1, inplace = True)

In [153]:
df_rstr['업태구분명'].unique()

array(['경양식', '한식', '중국식', '식육(숯불구이)', '전통찻집', '분식', '탕류(보신용)', '횟집',
       '정종/대포집/소주방', '기타', '일식', '호프/통닭', '통닭(치킨)', '김밥(도시락)', '복어취급',
       '패스트푸드', '뷔페식', '감성주점', '외국음식전문점(인도,태국등)', '패밀리레스트랑', '냉면집',
       '라이브카페', nan, '출장조리', '키즈카페', '까페', '이동조리'], dtype=object)

In [154]:
df_rstr.head(3).T

Unnamed: 0,0,1,2
번호,1,2,3
개방서비스명,일반음식점,일반음식점,일반음식점
개방서비스아이디,07_24_04_P,07_24_04_P,07_24_04_P
개방자치단체코드,3400000,3400000,3400000
관리번호,3400000-101-2001-01867,3400000-101-1997-00163,3400000-101-1997-00159
인허가일자,20010314,19971011,19970926
인허가취소일자,,,
영업상태구분코드,1,1,1
영업상태명,영업/정상,영업/정상,영업/정상
상세영업상태코드,1,1,1


# 유의미해보이는 정보

- 인허가일자
- 폐업일자 : 인허가 이후 폐업하기까지의 기간을 통해 지역적으로 어느 정도 사업수명을 가지는지 알아볼 수 있을 것 같음
- 소재지면적
- 소재지전체주소(도로명전체주소)
- 사업장명
- 업태구분명 : 한식, 일식, 중국식, 치킨, 카페 등.. 
    - 판매 중인 음식 분류에 대한 정보
    - 카페나 키즈카페도 여기에 포함되어 있어서 정리가 필요해 보임
- 좌표정보 : x,y 좌표
- 남성 / 여성 종사자수
- 영업장주변구분명 : 기타, 주택가주변, 학교정화(상대), 학교정화(절대), 유흥업소밀집지역, 아파트지역, 결혼예식장주변
    - 학교환경위생정화구역 (상대 / 절대) : 학생의 교육환경 보호를 위해 학교경계로부터 직선거리 200미터의 범위 안의 지역 (절대는 50미터까지, 상대는 그 이후부터 200미터까지)

### 이외에도
- 보증액
- 월세액
- 총종사자수
### 등의 유의미한 정보가 있어 보이지만 결측치가 90% 이상임.

In [62]:
all_missval = df_rstr.isnull().sum() / len(df_rstr) * 100
pd.DataFrame(all_missval.sort_values(ascending=False)[:24])

Unnamed: 0,0
홈페이지,100.0
인허가취소일자,100.0
건물소유구분명,100.0
휴업시작일자,100.0
휴업종료일자,100.0
재개업일자,100.0
전통업소주된음식,99.996557
전통업소지정번호,99.990531
총종업원수,90.330883
공장판매직종업원수,90.317971


---

# 인허가포털에서 가져온 업종별 데이터 (휴게음식점)

In [166]:
HRSTR_PATH = os.path.join(UPJONG_DIR, "6260000_부산광역시_07_24_05_P_휴게음식점.csv")
df_hrstr = pd.read_csv(HRSTR_PATH, encoding = 'cp949', low_memory = False)
df_hrstr.drop(['Unnamed: 47'], axis = 1, inplace = True)
df_hrstr.columns

Index(['번호', '개방서비스명', '개방서비스아이디', '개방자치단체코드', '관리번호', '인허가일자', '인허가취소일자',
       '영업상태구분코드', '영업상태명', '상세영업상태코드', '상세영업상태명', '폐업일자', '휴업시작일자', '휴업종료일자',
       '재개업일자', '소재지전화', '소재지면적', '소재지우편번호', '소재지전체주소', '도로명전체주소', '도로명우편번호',
       '사업장명', '최종수정시점', '데이터갱신구분', '데이터갱신일자', '업태구분명', '좌표정보(x)', '좌표정보(y)',
       '위생업태명', '남성종사자수', '여성종사자수', '영업장주변구분명', '등급구분명', '급수시설구분명', '총종업원수',
       '본사종업원수', '공장사무직종업원수', '공장판매직종업원수', '공장생산직종업원수', '건물소유구분명', '보증액',
       '월세액', '다중이용업소여부', '시설총규모', '전통업소지정번호', '전통업소주된음식', '홈페이지'],
      dtype='object')

In [172]:
hrstr_upjong_count = df_hrstr.groupby(['업태구분명'])['사업장명'].count().sort_values(ascending = False)
pd.DataFrame(hrstr_upjong_count)

Unnamed: 0_level_0,사업장명
업태구분명,Unnamed: 1_level_1
커피숍,9302
일반조리판매,5340
기타 휴게음식점,4673
다방,3749
과자점,2475
편의점,1675
패스트푸드,1653
푸드트럭,336
백화점,273
전통찻집,145
