In [1]:
import os
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from matplotlib import font_manager, rc
%matplotlib inline
import seaborn as sns
# from functools import reduce

# set font
font_name = font_manager.FontProperties(
    fname='c:/Windows/Fonts/malgun.ttf').get_name()
rc('font', family=font_name)
# matplotlib.rcParams['axes.unicode_minus'] = False
sns.set(font=font_name,
        rc={'axes.unicode_minus': False})  # to show negative sign on graphs

# set option
pd.set_option('display.max_rows', 100)
pd.set_option('display.max_columns', 100)
pd.set_option('display.precision', 2)

In [71]:
# 평균기대수명 19년
# https://www.data.go.kr/data/15039778/fileData.do
life_exp = pd.read_csv('./data/국민건강보험공단_지역별 기대수명지표_20191231.csv', encoding='cp949')
life_exp = life_exp.loc[(life_exp['지표연도']==2019) & (life_exp['적용기간']=='6년')] # 적용기간이 무엇을 뜻하는 것일까? 추후 확인이 필요하다.
life_exp.to_csv('./data/life_exp_v1.csv')

In [72]:
# 지역보건의료기관 19년
# https://www.data.go.kr/data/3072692/fileData.do
medic_fac = pd.read_csv('./data/보건복지부_전국 지역보건의료기관 현황_20191227.csv', encoding='cp949')
medic_fac = medic_fac.pivot_table(index=['시도', '시군구'], columns='보건기관 유형', aggfunc='count').reset_index()
medic_fac.columns = medic_fac.columns.droplevel(0)
medic_fac.rename(columns={medic_fac.columns[0]:'시도', medic_fac.columns[1]:'시군구'})
medic_fac.to_csv('./data/medic_fac_v1.csv')

In [127]:
# 시군구 21년
# https://www.data.go.kr/data/15070405/fileData.do
sigungu = pd.read_csv('./data/통계청_나라통계_우편번호_20211110.csv', encoding='cp949')
sigungu = sigungu[['도이름', '시군구이름']]
sigungu = sigungu.drop_duplicates()
sigungu.to_csv('./data/sigungu_v1.csv')

In [101]:
# 질병예측 21년
# https://www.data.go.kr/data/15083145/fileData.do
## 감기
flu = pd.read_csv('data/국민건강보험공단 질병예측 정보_20210630/진료정보_감기_시군구.csv', encoding='cp949')
flu.rename(columns={'발생건수(건)':file[36:-8]+'발생건수'})
flu.to_csv('./data/flu_v1.csv')
## 눈병
eye_tr = pd.read_csv('data/국민건강보험공단 질병예측 정보_20210630/진료정보_눈병_시군구.csv', encoding='cp949')
eye_tr.rename(columns={'발생건수(건)':file[36:-8]+'발생건수'})
eye_tr.to_csv('./data/eye_tr_v1.csv')
## 천식
asthma = pd.read_csv('data/국민건강보험공단 질병예측 정보_20210630/진료정보_천식_시군구.csv', encoding='cp949')
asthma.rename(columns={'발생건수(건)':file[36:-8]+'발생건수'})
asthma.to_csv('./data/asthma_v1.csv')
## 피부염
derma = pd.read_csv('data/국민건강보험공단 질병예측 정보_20210630/진료정보_피부염_시군구.csv', encoding='cp949')
derma.rename(columns={'발생건수(건)':file[36:-8]+'발생건수'})
derma.to_csv('./data/derma_v1.csv')

In [108]:
# 진료내역정보
# https://www.data.go.kr/data/15007115/fileData.do
# pd.read_csv('C:/Users/joon9/OneDrive/문서/capstone/data/국민건강보험공단_진료내역정보_20211228/HP_T20_2020_1.csv', encoding='cp949')

In [109]:
# 건강검진
# https://www.data.go.kr/data/15007122/fileData.do
# pd.read_csv('C:/Users/joon9/OneDrive/문서/capstone/data/국민건강보험공단_건강검진정보_20211229.csv', encoding='cp949')

In [128]:
# 범죄발생
# https://www.data.go.kr/data/3074462/fileData.do
crime = pd.read_csv('./data/경찰청_범죄 발생 지역별 통계_20151231.csv', encoding='cp949')
crime = crime.pivot_table(columns='범죄대분류', aggfunc=sum)
crime.to_csv('./data/crime_v1.csv')

In [136]:
# 범죄발생2
# https://www.data.go.kr/data/15085726/fileData.do
crime2 = pd.read_csv('./data/대검찰청_범죄발생지_20181231.csv', encoding='cp949')
crime2.to_csv('./data/crime_v2.csv')

In [138]:
# 전월세 22년
# https://kosis.kr/
rent = pd.read_csv('./data/전월세통합지수_20220329223136.csv', encoding='cp949')
rent.to_csv('./data/rent_v1.csv')

In [139]:
# 상가 21년
import os
files = []
for file in os.listdir('data/소상공인시장진흥공단_상가(상권)정보_20211231'):
    if file.endswith('.csv'):
        file = os.path.join(
            'data/소상공인시장진흥공단_상가(상권)정보_20211231', file)
        files.append(file)
store = pd.DataFrame()
for file in files:
    temp = pd.read_csv(file, low_memory=False)
    store = pd.concat([store, temp], axis=0, ignore_index=True)
store.to_csv('./data/store_v1.csv')

In [None]:
# def sido(series):
#     시도명 = {
#         '인천':'인천광역시',
#         '충남':'충청남도',
#         '경기':'경기도',
#         '대전':'대전광역시',
#         '경남':'경상남도',
#         '서울':'서울특별시',
#         '전남':'전라남도',
#         '전북':'전라북도',
#         '제주':'제주특별자치도',
#         '부산':'부산광역시',
#         '광주':'광주광역시',
#         '울산':'울산광역시',
#         '경북':'경상북도',
#         '충북':'충청북도',
#         '대구':'대구광역시',
#         '강원':'강원도',
#         }
#     for i in 시도명.keys():
#         df.loc[df['시도명']==i, '시도명'] = 시도명[i]


Unnamed: 0,날짜,시군구지역코드,피부염발생건수
0,20140101,11110,4
1,20140101,11140,3
2,20140101,11170,2
3,20140101,11200,7
4,20140101,11215,5
...,...,...,...
686605,20210630,48870,45
686606,20210630,48880,78
686607,20210630,48890,46
686608,20210630,49110,567
