In [1]:
import pandas as pd
import numpy as np

In [2]:
df = pd.DataFrame()
df

## 도서관 종속 변인 및 도서관 통제변인 붙이기
#### 데이터 출처: 문화체육관광부, 국가도서관통계시스템

* 2015 - 2018년 기준 데이터 수집

### 1) 도서관 종속 변인

> KDC 대분류 별 대출권수

### 2) 도서관 통제 변인

> 도서 개수, 도서관 시설 부지, 도서관 연면적, 개관일수, 도서관 개수

* 시군구별 도서관 데이터를 제작할 때 도서관 개수(count), 도서관 시설 부지, 도서관 연면적, 개관일수(mean),  KDC 대분류 별 대출권수, 도서 개수(sum) 을 사용함

In [None]:
# 년도별 데이터 수집
for i in range(2015,2019):
    df= df.append(pd.read_excel('./data/public_library_statics/library_2015_2018_statics.xlsx',sheet_name=str(i)))
df

In [None]:
# 시도 지명 바꾸기
def city_sido_change(sido):
    if sido =='서울':
        sido = '서울특별시'
    elif sido =='인천':
        sido = '인천광역시'
    elif sido =='경기':
        sido ='경기도'
        
    return sido

# 시군구 지명 바꾸기
def city_sgg_change(sido,sgg):
    if (sido =='인천광역시')&(sgg=='남구'):
        sgg='미추홀구'
    elif (sido =='경기도')&(sgg=='여주군'):
        sgg ='여주시'
     
    return sgg.split(' ')[0] #경기도 구 단위를 시단위로 올리기 위해

In [None]:
# 공공 일반 도서관 만 가져오기
df = df[(df['구분']=='공공(일반)')&(df['설립주체']!='사립')]
df

In [None]:
df['설립주체'].unique()

In [None]:
# 수도권 도서관만 가져오기
df = df[(df['시도'] == '서울')|(df['시도'] == '경기')|(df['시도'] == '인천')]
df

In [None]:
# 시도 시군구 이름 변경
df['시도'] = df['시도'].apply(lambda x:(city_sido_change(x)))
df['시군구'] = df.apply(lambda x:(city_sgg_change(x['시도'],x['시군구'])), axis=1)

df

In [None]:
# 정보를 붙이기 위한 지역 코드 불러오기
kor_city_adcode = pd.read_csv('./data/korea_city/kor_city.csv', dtype=str)

kor_city_adcode

In [None]:
# 시군구 단위 행정코드 가져오기
kor_city_adcode['code_len'] = kor_city_adcode['행정구역코드'].apply(lambda x:len(x))
kor_city_adcode = kor_city_adcode[kor_city_adcode['code_len']==5].reset_index().drop(columns=['code_len','index'])
kor_city_adcode

In [None]:
# 행정구역, 법정구역 코드 붙이기
df_m_cd = pd.merge(df,kor_city_adcode[['시도','시군구','행정구역코드','법정구역코드']],on=['시도','시군구'],how='left')
df_m_cd

In [None]:
df_m_cd['AGE'] = df_m_cd['년도'] - df_m_cd['개관년도'] + 1
df_m_cd

In [None]:
# 행정, 법정코드 빈값 확인
print(df_m_cd.isna().sum())

In [None]:
df_m_cd.columns

In [None]:
df_m_cd['총_국내도서권수']=df_m_cd[['도서_국내_총류', '도서_국내_철학',
       '도서_국내_종교', '도서_국내_사회과학', '도서_국내_순수과학', '도서_국내_기술과학', '도서_국내_예술',
       '도서_국내_언어', '도서_국내_문학', '도서_국내_역사']].sum(axis=1)

df_m_cd

In [None]:
df_m_cd['총_대출권수']=df_m_cd[['대출권수_어린이_총류', '대출권수_어린이_철학',
       '대출권수_어린이_종교', '대출권수_어린이_사회과학', '대출권수_어린이_순수과학', '대출권수_어린이_기술과학',
       '대출권수_어린이_예술', '대출권수_어린이_언어', '대출권수_어린이_문학', '대출권수_어린이_역사',
       '대출권수_청소년_총류', '대출권수_청소년_철학', '대출권수_청소년_종교', '대출권수_청소년_사회과학',
       '대출권수_청소년_순수과학', '대출권수_청소년_기술과학', '대출권수_청소년_예술', '대출권수_청소년_언어',
       '대출권수_청소년_문학', '대출권수_청소년_역사', '대출권수_성인_총류', '대출권수_성인_철학', '대출권수_성인_종교',
       '대출권수_성인_사회과학', '대출권수_성인_순수과학', '대출권수_성인_기술과학', '대출권수_성인_예술',
       '대출권수_성인_언어', '대출권수_성인_문학', '대출권수_성인_역사']].sum(axis=1)

df_m_cd

In [None]:
df_m_cd.to_excel('./data/result/library_info.xlsx',index=False)

In [None]:
# 시군구 도서관 개수 세기
city_lib_num = df_m_cd[['년도','시도','시군구','행정구역코드','법정구역코드','연번']].groupby(['년도','시도','시군구','행정구역코드','법정구역코드']).count().reset_index().rename(columns={"연번":"도서관 수"})
city_lib_num

In [None]:
# 시군구 도서관 개수 세기
city_lib_cont = df_m_cd[['년도','시도','시군구','행정구역코드','법정구역코드','시설_도서관부지면적', '시설_연면적', '개관일수','AGE']].groupby(['년도','시도','시군구','행정구역코드','법정구역코드']).mean().reset_index()
city_lib_cont

In [None]:
# 도서관 대출권수 개수
city_loan_count = df_m_cd[['년도','시도','시군구','행정구역코드','법정구역코드', '도서_국내_총류', '도서_국내_철학',
       '도서_국내_종교', '도서_국내_사회과학', '도서_국내_순수과학', '도서_국내_기술과학', '도서_국내_예술',
       '도서_국내_언어', '도서_국내_문학', '도서_국내_역사','대출권수_어린이_총류', '대출권수_어린이_철학',
       '대출권수_어린이_종교', '대출권수_어린이_사회과학', '대출권수_어린이_순수과학', '대출권수_어린이_기술과학',
       '대출권수_어린이_예술', '대출권수_어린이_언어', '대출권수_어린이_문학', '대출권수_어린이_역사',
       '대출권수_청소년_총류', '대출권수_청소년_철학', '대출권수_청소년_종교', '대출권수_청소년_사회과학',
       '대출권수_청소년_순수과학', '대출권수_청소년_기술과학', '대출권수_청소년_예술', '대출권수_청소년_언어',
       '대출권수_청소년_문학', '대출권수_청소년_역사', '대출권수_성인_총류', '대출권수_성인_철학', '대출권수_성인_종교',
       '대출권수_성인_사회과학', '대출권수_성인_순수과학', '대출권수_성인_기술과학', '대출권수_성인_예술',
       '대출권수_성인_언어', '대출권수_성인_문학', '대출권수_성인_역사','총_국내도서권수','총_대출권수']].groupby(['년도','시도','시군구','행정구역코드','법정구역코드']).sum().reset_index()
city_loan_count

In [None]:
city_lib_info = pd.merge(city_lib_num,city_lib_cont, on=['년도','시도','시군구','행정구역코드','법정구역코드'], how='outer')
city_lib_info = pd.merge(city_lib_info,city_loan_count, on=['년도','시도','시군구','행정구역코드','법정구역코드'], how='outer')
city_lib_info

In [None]:
city_lib_info.isna().sum()

In [None]:
city_lib_info.to_excel('./data/result/city_lib_info.xlsx', index=False)