In [1]:
import pandas as pd 
import re
import numpy as np
import googlemaps
import json
import warnings #경고 제거
warnings.filterwarnings(action='ignore')

In [1]:
df = pd.read_csv("전국도서관표준데이터-20201223.csv",header=1,encoding='utf-8') #CP949 , EUC-KR4
df

## 데이터 전처리

1. 데이터 정리

In [2]:
df.columns

In [4]:
#열 이름 출력
df.columns
#필요한 열 리스트
columns = ['도서관명','시도명','시군구명','열람좌석수','자료수(도서)','자료수(연속간행물)','자료수(비도서)','위도','경도','건물면적','도서관유형']
#필요한 열만 분리해 신규 데이터프레임 생성
df_lib = df[columns]

In [5]:
#열 정리1. 통합
df_lib['자료수'] = df_lib['자료수(도서)'] + df_lib['자료수(연속간행물)'] + df_lib['자료수(비도서)']

In [3]:
# 열 정리2. 필요없는 열 제거
dropList = ["자료수(도서)", "자료수(연속간행물)", "자료수(비도서)"]
df_lib = df_lib.drop(dropList,axis=1)
df_lib.head()

In [7]:
#열 정리3. 보기 쉽도록 열 순서 변경
columns = ["도서관명", "시도명", "시군구명", "열람좌석수", "자료수", "위도", "경도", "도서관유형", "건물면적"]
df_lib = df_lib[columns]

In [8]:
#서울 도서관만 남기기
df_lib = df_lib[df_lib["시도명"] == "서울특별시"]
#index 제거
df_lib.reset_index(inplace=True, drop=True)

In [4]:
df_lib.head()

#

2. 결측치 채우기

In [5]:
#결측치 처리를 위한 확인
df_lib.isnull().sum()

#


*건물면적 결측치 채우기*

1. 건물면적 값이 null인 데이터프레임 생성
2. 임의로 값을 넣을만한 기준 구하기(서울 도서관의 열람좌석 1개당 건물면적 중위값)
3. 기준에 맞춰 임의의 값 채우기
4. 아직 비어있는 셀 구글링 통해 채우기
5. 기존 데이터프레임에 삽입

In [8]:
#결측치 채우기 1. 건물면적(1)

null_df = df_lib[(df_lib["건물면적"].isnull()) & (df_lib["도서관유형"] == "작은도서관")] 
notNull_df = df_lib[df_lib["건물면적"].notnull() & (df_lib['도서관유형'] == "작은도서관")]
buildmean = np.median(notNull_df["건물면적"] / notNull_df["열람좌석수"])
df_lib["건물면적"].fillna(round(null_df["열람좌석수"] * buildmean, 2), inplace = True)
buildmean
# null_df : 건물면적의 값이 null이며 유형이 '작은도서관'인 데이터프레임
# notNull_df : 건물면적의 값이 null이 아니며 유형이 '작은도서관'인 데이터프레임
# buildmean : notNull_df안에서 각 도서관마다 건물면적 / 열람좌석수를 계산하여 열람좌석 1개당 평균건물면적 중위값
# 기존 데이터프레임에서 건물면적이 null인 곳마다 열람좌석수 * buildmean을 채워줌.

## 처음 전체 '건물면적'에서 median 값을 구하고 비교했을 때는 차이가 큼
## null_df['도서관유형'].value_counts()로 도서관유형이 '작은도서관'이 다수(작은도서관: 185, 공공도서관: 3)인 것을 확인하고 수정.

In [12]:
#결측치 채우기 1. 건물면적(2)

df_lib['건물면적'][85] = '324'
df_lib['건물면적'][86] = '1104'
df_lib['건물면적'][235] = '1396.94'

#df_lib[df_lib['건물면적'].isnull()]로 null 셀의 index 확인 #공공도서관은 구글링을 통해 빈 칸 채우기 

In [9]:
df_lib.isnull().sum()

#

*위도, 경도 결측치 채우기*

1. 위도와 경도가 null인 데이터프레임 생성
2. 구글맵 API에 접근
3. 도서관 이름 -----(GoogleMap API)-----> 좌표
4. 받아온 좌표들을 리스트에 append
5. 검색이 되지않는 도서관들은 따로 error_list로 묶어줌
6. 좌표 열 새로 만들기 : (유저와 도서관 사이 거리 계산할때 편하게 좌표를 보내기 위해)
7. 좌표 열에 받아온 리스트 삽입
8. error_list 확인 후 보완
9. 필요없어진 위도, 경도 열 삭제

In [10]:
#결측치 채우기 2. 위도와 경도(1)

loc_null_df = df_lib[(df_lib["위도"].isnull()) | (df_lib["경도"].isnull())]
loc_null_df.set_index("도서관명", inplace=True)
loc_null_df.head()

#위도와 경도가 NaN값인 데이터 프레임만들기
#도서관명 값에 쉽게 접근하기 위해 index를 "도서관명"으로 설정
#loc_null_df.set_index("도서관명", inplace=True)

In [15]:
#결측치 채우기 2. 위도와 경도(2)

gmaps_key = "############API KEY##########"
gmaps = googlemaps.Client(key = gmaps_key)
#구글맵 API에 할당받은 키로 접속

In [16]:
#결측치 채우기 2. 위도와 경도(3) 

loc = [] #좌표열에 넣어줄 좌표값
error_list = [] #구글맵내에서 검색이 되지않는 도서관 

for lib_name in loc_null_df.index:
    tmp = gmaps.geocode(lib_name) #주소로 검색해 좌표로 돌려주는 API기능

    if bool(tmp): #검색이 된다면
        tmp_loc = tmp[0].get('geometry')
        lat = tmp_loc['location']['lat']
        lng = tmp_loc['location']['lng']
        if ((lat > 0) & (lng > 0)): #좌표가 -값이면 검색이 잘못된것이므로 error_list 추가
            loc.append(str(lat) + ", " + str(lng))
        else:
            loc.append("0, 0") 
            error_list.append(lib_name)
    else: #주소로 검색이 안 된다면
        loc.append("0, 0") 
        error_list.append(lib_name)
        pass
    
#구글맵 API 활용 코드

In [11]:
#결측치 채우기 2. 위도와 경도(4)

loc_null_df["좌표"] = loc
loc_null_df.head()
#새로운 '좌표' 열을 만들어 받아온 값 추가

In [19]:
#결측치 채우기 2. 위도와 경도(5)
#error_list => 도서관 이름 확인

loc_null_df["좌표"]["상림6 작은도서관"] = "37.6490888, 126.9280755"
loc_null_df["좌표"]["책뜰에도서관"] = "37.64329638160066, 126.92207614232784"
loc_null_df["좌표"]["두근두근작은도서관 (마고정 3단지 도서관)"] = "37.6324903, 126.918633"
loc_null_df["좌표"]["영광영재도서관"] = "37.602983, 126.9070533"
loc_null_df["좌표"]["KB국민은행과 함께하는 나무작은도서관"] = "37.6538637, 127.0601291"
loc_null_df["좌표"]["산책마을 SH작은도서관"] = "37.6335037, 126.9338975"
#구글링으로 추가

In [22]:
#결측치 채우기 2. 위도와 경도(6)

for i in range(len(loc_null_df)):
    loc_null_df['위도'].values[i] = loc_null_df['좌표'].values[i].split(', ')[0]
    loc_null_df['경도'].values[i] = loc_null_df['좌표'].values[i].split(', ')[1]
    
# 받아온 좌표 값을 쪼개서 위도와 경도 열 채우기

In [12]:
loc_null_df.head()
#위도, 경도를 채운 데이터프레임

In [24]:
#데이터프레임 통합(1)

loc_null_df.reset_index(inplace=True)
#기존 df과 구조를 맞추기 위한 index reset

In [25]:
#데이터프레임 통합(2)

df_lib['위도'] = df_lib['위도'].fillna(0)
df_lib['경도'] = df_lib['경도'].fillna(0)
#기본 df의 위도, 경도 null값 조정
loc_exist_df = df_lib[ df_lib['위도'] != 0 ]
#null 값이 없는 df 생성
df_lib_filled = pd.concat([loc_exist_df, loc_null_df], axis=0, ignore_index=True)
#null 값이 없는 df와 null 값을 채운 df를 'df_lib_filled'로 통합

In [26]:
#데이터프레임 통합(3)

df_lib_filled['좌표'] = df_lib_filled['위도'].astype('str')+', '+df_lib_filled['경도'].astype('str')
#추후 작업을 위한 좌표열 생성

In [13]:
df_lib_filled.isnull().sum()

In [14]:
df_lib_filled.head()

In [None]:
df_lib_filled.to_csv("꽉찬전국도서관표준데이터-20201223.csv", encoding='utf-8')
#파일로 저장