# Python DataFrame Handling

### 부제 : 파이썬에서 데이터프레임을 다루는 (색다른) 방법

### 이번 시간 강의 내용

1. 데이터 입출력 : **pandas** 라이브러리 (R의 데이터프레임을 Python으로 구현)
1. 데이터프레임 전처리 : **dfply** 라이브러리 (R의 **dplyr** 패키지를 Python으로 구현)
1. 데이터 시각화 : **plotnine** 라이브러리 (R의 **ggplot2** 패키지를 Python으로 구현)
1. 지도 시각화 : **geopandas** 라이브러리 & **folium** 라이브러리 (**leaflet.js**를 활용)

### 강의자료 준비

* 이번 강의에 사용될 강의안과 공개된 데이터셋을 아래 깃허브 저장소로 이동하여 압축(zip) 파일로 내려받으세요.
    - 링크 : https://github.com/MrKevinNa/BC_Korea
    - 압축 파일에는 'bnd', 'jupyter' 등 2개의 폴더가 포함되어 있습니다.


* 내려받은 압축파일을 풀고, 4개의 폴더를 작업경로로 사용할 폴더로 이동시킵니다.
    - [예시] 문서(Documents) 폴더에 **'BC_Korea'**라는 새로운 폴더를 생성합니다.
    - Windows : 'C:/Users/Username/Documents/BC_Korea'
    - MacOS : '/Users/Username/Documents/BC_Korea'

### 1. 데이터 입출력 : pandas 라이브러리 (R의 데이터프레임을 Python으로 구현)

#### pandas 라이브러리

* 데이터 분석 과정에서 2차원 데이터프레임이 주로 사용됩니다.
    - **pandas**의 데이터프레임은 R의 데이터프레임에서 유래한 것으로 알려져 있습니다


* **pandas** 라이브러리의 함수를 이용하면 다음과 같은 자료형을 생성할 수 있습니다.
    - 1차원 시리즈(Series) : 데이터프레임의 열벡터로 사용됩니다.
    - 2차원 데이터프레임(DataFrame) : 1차원 시리즈를 컬럼으로 갖는 2차원 자료형입니다.
    - 3차원 패널(Panel) : 데이터프레임을 (특히 시간에 따라) 중첩한 것입니다.
        * 동일한 관찰 대상이 시간의 흐름에 따라 어떻게 바뀌어 가는지 확인하는 분석이 가능합니다.

#### (1) 2019년 4월 거래 데이터 읽기

In [None]:
# 라이브러리 호출
import pandas as pd
import os

# 경고를 출력하지 않도록 설정
import warnings
warnings.filterwarnings('ignore')

In [None]:
# 현재 작업경로 확인
os.getcwd()

In [None]:
# 작업경로 변경
# [참고] 작업경로는 사용 중인 컴퓨터의 폴더에 맞게 스스로 변경하세요!!
os.chdir(path = '/Users/drkevin/BC_Korea/data')

In [None]:
# 작업경로에 포함된 파일명 출력
os.listdir()

#### csv 파일의 한글 인코딩 방식 확인

In [None]:
# 라이브러리 호출
import chardet

In [None]:
# 불러올 파일명 지정
file = '거래내역_201904.csv'

In [None]:
# csv 파일 읽기
# 한글 인코딩 방식이 UTF-8이 아니면 에러 발생!
tr201904 = pd.read_csv(filepath_or_buffer = file)

In [None]:
# csv 파일을 'raw binary 8 bit'로 읽고 글자수 확인
raw = open(file = file, mode = 'rb').read()
len(raw)

In [None]:
# 글자수가 상당히 많으므로 일부만 출력
raw[:100]

In [None]:
# `raw`의 인코딩 방식 확인
# [주의] 전체 글자수로 하면 시간이 상당히 오래 걸림
chardet.detect(byte_str = raw[:100])

In [None]:
# 인코딩 방식을 추가로 지정하여, csv 파일 다시 읽기
tr201904 = pd.read_csv(filepath_or_buffer = file, encoding = 'EUC-KR')

#### [참고] xlsx 파일로 입출력

In [None]:
# `tr201904`의 일부만 `df`로 남기기
df = tr201904.loc[0:100, :]

In [None]:
# xlsx 파일로 저장
df.to_excel(excel_writer = 'test.xlsx', sheet_name = '201904', index = None)

In [None]:
# 작업경로에 포함된 파일명 출력
os.listdir()

In [None]:
# xlsx 파일 읽기
df1 = pd.read_excel(io = 'test.xlsx')

#### [참고] csv 파일로 입출력

In [None]:
# csv 파일로 저장
df.to_csv(path_or_buf = 'test.csv', index = None, encoding = 'UTF-8')

In [None]:
# 작업폴더에 포함된 파일명 출력
os.listdir()

In [None]:
# csv 파일 읽기
df2 = pd.read_csv(filepath_or_buffer = 'test.csv')

#### 데이터프레임의 구조 파악

In [None]:
# 정보 확인
tr201904.info()

In [None]:
# 자료형 확인
type(tr201904)

In [None]:
# 행/열 차원 확인
tr201904.shape

In [None]:
# 인덱스(행이름) 출력
tr201904.index

In [None]:
# 컬럼명(열이름) 출력
tr201904.columns

In [None]:
# 일부 컬럼의 자료형을 문자열(str)로 변환
cols = ['가맹점신우편번호', '고객신우편번호', '연령대코드', '매출구분코드', '가맹점업종코드']
tr201904.loc[:, cols] = tr201904.loc[:, cols].astype(str)

In [None]:
# 컬럼의 자료형 출력
tr201904.dtypes

In [None]:
# 처음 10행만 출력
tr201904.head(n = 10)

In [None]:
# `가맹점신우편번호` 컬럼을 다섯 글자 문자열로 변경
tr201904['가맹점신우편번호'] = tr201904['가맹점신우편번호'].str.zfill(5)

In [None]:
# 처음 10행만 다시 출력
tr201904.head(n = 10)

In [None]:
# 마지막 10행만 출력
tr201904.tail(n = 10)

#### (2) 2020년 4월  거래 데이터 읽기

In [None]:
# 작업경로에 포함된 파일명 출력
os.listdir()

In [None]:
# 불러올 파일명 지정
file = '거래내역_202004.csv'

In [None]:
# 2020년 04월 거래 데이터 읽기
tr202004 = pd.read_csv(filepath_or_buffer = file, encoding = 'EUC-KR')

In [None]:
# 정보 확인
tr202004.info()

In [None]:
# 일부 컬럼의 자료형을 문자열(str)로 변환
cols = ['가맹점신우편번호', '고객신우편번호', '연령대코드', '매출구분코드', '가맹점업종코드']
tr202004.loc[:, cols] = tr202004.loc[:, cols].astype(str)

In [None]:
# `가맹점신우편번호` 컬럼을 다섯 글자 문자열로 변경
tr202004['가맹점신우편번호'] = tr202004['가맹점신우편번호'].str.zfill(5)

In [None]:
# 처음 10행만 출력
tr202004.head(n = 10)

### 2. 데이터프레임 전처리 : dfply 라이브러리 (R의 dplyr 패키지를 Python으로 구현)

#### dfply 라이브러리

* **dfply**는 R의 **dplyr** 패키지를 Python으로 구현한 라이브러리입니다.


* **dfply** 라이브러리는 데이터프레임을 전처리하는데 필요한 함수를 포함하고 있습니다.
    - 파이프 연산자('>>')를 지원하기 때문에 코드를 쉽게 작성할 수 있습니다.


* **dfply** 라이브러리로 처리할 수 있는 주요 작업은 다음과 같습니다. (SQL 대체)
    - 데이터프레임에서 컬럼을 **선택(select)**하거나 **제거(drop)**합니다.
    - 조건에 맞는 행을 **필터링(filter_by)**하거나, 인덱스로 **잘라(row_slice)**냅니다.
    - **그룹을 설정(group_by)**하고 숫자 변수를 **집계(summarize)한 변수를 생성**합니다.
    - 기존 변수를 **변형한(mutate) 다양한 파생변수를 생성**합니다.
    - 데이터프레임을 오름차순 또는 내림차순으로 **정렬(arrange)**합니다.

#### (1) 2019년 4월 거래 데이터

In [None]:
# dfply 라이브러리 설치 : dfply-0.3.3
# !pip install dfply

In [None]:
# 라이브러리 호출
from dfply import *

In [None]:
# 불필요한 컬럼 삭제
# tr201904.drop(labels = '할부개월수', axis = 1, inplace = True)
tr201904 >>= drop(X.할부개월수)

In [None]:
# 컬럼명(열이름) 출력
tr201904.columns

In [None]:
# 연령대별 건수 확인
# tr201904.groupby('연령대코드')['연령대코드'].count()
tr201904 >> group_by(X.연령대코드) >> summarize(Count = n(X.연령대코드))

In [None]:
# 연령대가 20~50대만 남기기
# tr201904 = tr201904[(tr201904['연령대코드'] != '10') | 
#                     (tr201904['연령대코드'] != '15') |
#                     (tr201904['연령대코드'] != '60') |
#                     (tr201904['연령대코드'] != '65') |
#                     (tr201904['연령대코드'] != '70')]

tr201904 >>= filter_by(X.연령대코드 != '10', 
                       X.연령대코드 != '15', 
                       X.연령대코드 != '60', 
                       X.연령대코드 != '65', 
                       X.연령대코드 != '70')

In [None]:
# 행/열 차원 확인
tr201904.shape

In [None]:
# 연령대별 건수 다시 확인
tr201904 >> group_by(X.연령대코드) >> summarize(Count = n(X.연령대코드))

In [None]:
# 성별 건수 확인
tr201904 >> group_by(X.성별코드) >> summarize(Count = n(X.성별코드))

In [None]:
# 매출구분코드별 건수 확인
# 매출구분코드 : 5(일시불), 6(현금서비스), 7(리볼빙), 8(할부), 9(즉시불)
tr201904 >> group_by(X.매출구분코드) >> summarize(Count = n(X.매출구분코드))

In [None]:
# 가맹점업종코드별 건수 확인
tr201904 >> group_by(X.가맹점업종코드) >> summarize(Count = n(X.가맹점업종코드))

#### (2) 2020년 4월 거래 데이터

In [None]:
# 불필요한 컬럼 삭제
tr202004 >>= drop(X.할부개월수)

In [None]:
# 연령대별 건수 확인
tr202004 >> group_by(X.연령대코드) >> summarize(Count = n(X.연령대코드))

In [None]:
# 연령대가 20~50대만 남기기
tr202004 >>= filter_by(X.연령대코드 != '10', 
                       X.연령대코드 != '15', 
                       X.연령대코드 != '60', 
                       X.연령대코드 != '65', 
                       X.연령대코드 != '70')

In [None]:
# 행/열 차원 확인
tr202004.shape

In [None]:
# 연령대별 건수 다시 확인
tr202004 >> group_by(X.연령대코드) >> summarize(Count = n(X.연령대코드))

In [None]:
# 성별 건수 확인
tr202004 >> group_by(X.성별코드) >> summarize(Count = n(X.성별코드))

In [None]:
# 매출구분코드별 건수 확인
# 매출구분코드 : 5(일시불), 6(현금서비스), 7(리볼빙), 8(할부), 9(즉시불)
tr202004 >> group_by(X.매출구분코드) >> summarize(Count = n(X.매출구분코드))

In [None]:
# 가맹점업종코드별 건수 확인
tr202004 >> group_by(X.가맹점업종코드) >> summarize(Count = n(X.가맹점업종코드))

#### (3) 데이터 병합 1 : 거래데이터와 가맹점업종코드를 하나로 병합

In [None]:
# 작업경로에 포함된 파일명 출력
os.listdir()

In [None]:
# 가맹점업종코드 읽기
upjong = pd.read_excel(io = 'BC카드_가맹점업종.xlsx')

In [None]:
# 정보 확인
upjong.info()

In [None]:
# 처음 10행만 출력
upjong.head(n = 10)

In [None]:
# 처음 2행을 제외하고 다시 읽어와야 함
upjong = pd.read_excel(io = 'BC카드_가맹점업종.xlsx', skiprows = 2)

In [None]:
# 정보 다시 확인
upjong.info()

In [None]:
# 첫 번째 컬럼 삭제
upjong >>= drop(X['Unnamed: 0'])

In [None]:
# `소분류 코드` 컬럼의 첫 번째 값 출력
# [주의] 컬럼의 자료형은 'object'이지만, 첫 번째 값은 '정수'이므로 자료형 변환 필요!
upjong['소분류 코드'][0]

In [None]:
# `소분류 코드` 컬럼의 자료형을 문자열(str)로 변환
# [주의] 자료형을 문자열로 변환하지 않으면 거래 데이터와 제대로 병합할 수 없음!!
upjong['소분류 코드'] = upjong['소분류 코드'].astype(str)

In [None]:
# `소분류 코드` 컬럼의 첫 번째 값 다시 출력
upjong['소분류 코드'][0]

In [None]:
# 병합 전, `tr201904`의 행/열 차원 확인
tr201904.shape

In [None]:
# 2019년 4월 거래 데이터와 가맹점업종코드 병합 (left_join)
tr201904 = pd.merge(left = tr201904, 
                    right = upjong.loc[:, ['소분류 코드', '소분류']], 
                    how = 'left', 
                    left_on = '가맹점업종코드', 
                    right_on = '소분류 코드')

In [None]:
# 행/열 차원 확인
tr201904.shape

In [None]:
# 처음 10행만 출력
tr201904.head(n = 10)

In [None]:
# 소분류 컬럼의 NA 개수 확인
tr201904['소분류'].isna().sum()

In [None]:
# 가맹점업종코드별 건수 내림차순 정렬 후 확인
tr201904 \
  >> group_by(X.소분류, X.가맹점업종코드) \
  >> summarize(Count = n(X.가맹점업종코드)) \
  >> ungroup() \
  >> arrange(X.Count, ascending = False)

In [None]:
# 2020년 4월 거래 데이터와 가맹점업종코드명 병합 (left_join)
tr202004 = pd.merge(left = tr202004, 
                    right = upjong.loc[:, ['소분류 코드', '소분류']], 
                    how = 'left', 
                    left_on = '가맹점업종코드', 
                    right_on = '소분류 코드')

#### (4) 데이터 병합 2 : 거래 데이터와 서울특별시 신우편번호 데이터 병합

* 아래 링크로 접속하여 '지역별 주소 DB' 파일을 내려받고, 압축을 푼 다음 **'zipcode'** 폴더로 저장!
    - 파일 용량이 너무 커서 깃허브에 등록이 안됨!

    [우편번호 DB 내려받기](https://www.epost.go.kr/search/zipcode/areacdAddressDown.jsp)

* **법정동과 행정동의 차이**


    - 법정동 : 법으로 지정된 대한민국 행정구역의 일종. 거의 변동 없음
    - 행정동 : 법정동으로 지역의 통제가 되지 않으므로 지방자치단체가 분할/통합/조정한 행정구역. 수시로 변동

In [None]:
# 작업경로 변경
os.chdir(path = '/Users/drkevin/BC_Korea/zipcode')

In [None]:
# 작업경로에 포함된 파일명 출력
os.listdir()

In [None]:
# 불러올 파일명 지정
file = '서울특별시.txt'

In [None]:
# txt 파일을 'raw binary 8 bit'로 읽고 글자수 확인
raw = open(file = file, mode = 'rb').read()
len(raw)

In [None]:
# 글자수가 상당히 많으므로 일부만 출력
raw[:100]

In [None]:
# `raw`의 인코딩 방식 확인
chardet.detect(byte_str = raw[:100])

In [None]:
# 서울특별시 데이터 읽기
# [주의] 파일을 읽기 전, 해당 파일을 열고 구분자를 미리 확인!!
zipcode = pd.read_csv(filepath_or_buffer = '서울특별시.txt', sep = '|')

In [None]:
# 정보 확인
zipcode.info()

In [None]:
# `우편번호` 컬럼의 자료형을 문자열(str)로 변환
zipcode.loc[:, '우편번호'] = zipcode.loc[:, '우편번호'].astype(str)

In [None]:
# 필요한 컬럼만 남기기 (서울특별시의 시군구, 법정동 및 행정동만! 도로명주소는 제외)
zipcode >>= filter_by(X.시도 == '서울특별시') >> select(X.우편번호, X.시군구, X.법정동명, X.행정동명)

In [None]:
# 처음 10행만 출력
zipcode.head(n = 10)

In [None]:
# `우편번호` 컬럼을 다섯 글자 문자열로 변경
zipcode['우편번호'] = zipcode['우편번호'].str.zfill(5)

In [None]:
# 처음 10행만 다시 출력
zipcode.head(n = 10)

In [None]:
# 우편번호 기준 중복 제거
# [주의] 우편번호가 중복된 상태로 병합하면, 기존 데이터의 수가 크게 증가!!
zipcode >>= distinct(X.우편번호)

In [None]:
# `zipcode`의 행/열 차원 확인
zipcode.shape

In [None]:
# `tr201904`의 행/열 차원 확인
tr201904.shape

In [None]:
# 2019년 4월 데이터와 우편번호 데이터 병합
tr201904 = pd.merge(left = tr201904, 
                    right = zipcode, 
                    how = 'left', 
                    left_on = '가맹점신우편번호', 
                    right_on = '우편번호')

In [None]:
# `tr201904`의 행/열 차원 다시 확인
tr201904.shape

In [None]:
# 처음 10행만 다시 출력
tr201904.head(n = 10)

In [None]:
# `시군구` 컬럼별 건수 확인
tr201904 >> group_by(X.시군구) >> summarize(Count = n(X.시군구)) >> ungroup() >> arrange(X.Count, ascending = False)

In [None]:
# `tr202004`의 행/열 차원 확인
tr202004.shape

In [None]:
# 2020년 4월 데이터와 우편번호 데이터 병합
tr202004 = pd.merge(left = tr202004, 
                    right = zipcode, 
                    how = 'left', 
                    left_on = '가맹점신우편번호', 
                    right_on = '우편번호')

In [None]:
# `tr202004`의 행/열 차원 다시 확인
tr202004.shape

In [None]:
# 처음 10행만 출력
tr202004.head(n = 10)

In [None]:
# `시군구` 컬럼별 건수 확인
tr202004 >> group_by(X.시군구) >> summarize(Count = n(X.시군구)) >> ungroup() >> arrange(X.Count, ascending = False)

#### (5) 업종 선택 : 법정동 가맹점업종코드별 평균 매출액이 전년 대비 크게 차이나는 5개 업종 선별

* 2019년과 2020년 거래 데이터의 자치구별 건수의 차이가 상당히 크다는 점을 참고하시기 바랍니다.

In [None]:
# 2019년 4월 법정동 가맹점업종코드별 평균 매출액
avg201904 = tr201904 \
  >> group_by(X.소분류, X.가맹점업종코드, X.법정동명, X.시군구) \
  >> summarize(평균매출2019 = X.매출금액.mean()) \
  >> ungroup() \
  >> arrange(X.시군구, X.법정동명)

# 데이터프레임 출력
avg201904

In [None]:
# 2020년 4월 법정동 가맹점업종코드별 평균 매출액
avg202004 = tr202004 \
  >> group_by(X.소분류, X.가맹점업종코드, X.법정동명, X.시군구) \
  >> summarize(평균매출2020 = X.매출금액.mean()) \
  >> ungroup() \
  >> arrange(X.시군구, X.법정동명)

# 데이터프레임 출력
avg202004

In [None]:
# 두 데이터프레임 병합
avgAll = pd.merge(left = avg201904, 
                  right = avg202004, 
                  how = 'left', 
                  on = ['시군구', '법정동명', '가맹점업종코드', '소분류'])

# 데이터프레임 출력
avgAll

In [None]:
# 전년 대비 `평균매출차이` 확인
avgAll >> mutate(평균매출차이 = X.평균매출2020 - X.평균매출2019)

In [None]:
# 전년 대비 `평균매출증감` 컬럼 생성
avgAll >>= mutate(평균매출증감 = ((X.평균매출2020 - X.평균매출2019) / X.평균매출2019 * 100).round(2))

In [None]:
# 처음 10행만 출력
avgAll.head(n = 10)

In [None]:
# 전체 지역에 가맹점업종코드 값이 있는 것이 아니므로, `법정동명` 기준으로 건수 확인
avgAll \
  >> group_by(X.소분류, X.가맹점업종코드) \
  >> summarize(건수 = n(X.법정동명)) \
  >> ungroup() \
  >> arrange(X.건수, ascending = False) \
  >> head(5)

In [None]:
# 가장 많은 지역을 커버하는 업종코드는 '편의점'이므로, 강남구 '편의점' 업종으로 시각화!
uj4010 = avgAll >> filter_by(X.시군구 == '강남구', X.가맹점업종코드 == '4010')

# 데이터프레임 출력
uj4010

### 3. 데이터 시각화 : plotnine 라이브러리 (R의 ggplot2 패키지를 Python으로 구현)

#### plotnine 라이브러리

* **plotnine**은 R의 **ggplot2** 패키지를 Python으로 구현한 라이브러리입니다.
    - **ggplot2**은 R에서 데이터 시각화 관련 패키지 중 전 세계적으로 가장 많이 쓰이는 패키지 중 하나입니다.


* **plotnine** 라이브러리는 몇 개의 층(layer)를 쌓는 증분 방식을 사용하여 사용자가 원하는 그래프를 완성할 수 있도록 합니다.
    - `ggplot()` 함수와 `geom_*()` 함수로 그래프의 기본 골격을 만듭니다.
    - `coord_*()`, `scale_*()`, `facet_*()` 함수 등으로 레이어를 추가, 그래프를 통해 전달하려는 메시지를 효과적으로 표현할 수 있습니다.
    - 각 레이어는 '+' 기호로 추가합니다.

In [None]:
# plotnine 라이브러리 설치
# descartes-1.1.0, mizani-0.7.1, palettable-3.3.0, pandas-1.1.2, plotnine-0.7.1 설치됨
# !pip install plotnine

In [None]:
# 라이브러리 호출
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.font_manager as fm
import seaborn as sns

In [None]:
# 컴퓨터에 설치된 폰트 목록 출력
fontList = fm.findSystemFonts(fontext = 'ttf')
fontList

In [None]:
# 관심 있는 폰트가 있는지 빠르게 확인
[font for font in fontList if 'Gothic' in font]

#### matplotlib 라이브러리로 막대그래프 그리기

In [None]:
# 전역에 사용할 한글 폰트 및 크기 설정
plt.rcParams['font.family'] = 'AppleGothic'
plt.rcParams['figure.figsize'] = (8, 8)
plt.rcParams['figure.dpi'] = 100

In [None]:
# 설정 가능한 컬러맵(colormap) 목록 확인
dir(plt.cm)

In [None]:
# 컬러맵 설정
colors = plt.cm.rainbow(X = np.linspace(start = 1, stop = 0, num = 14))

In [None]:
# 막대그래프 그리기 : plt.cm의 컬러맵 활용
plt.figure(figsize = (8, 6), dpi = 100)

plt.bar(x = uj4010['법정동명'], height = uj4010['평균매출증감'], color = colors)

plt.title(label = '서울특별시 강남구 법정동별 편의점 업종의 평균 매출액 증감율')
plt.xlabel(xlabel = '법정동명')
plt.xticks(rotation = 90)
plt.ylabel(ylabel = '평균매출증감')

plt.ylim(-100, 0)
for x, y in zip(uj4010['법정동명'], uj4010['평균매출증감']):
    plt.text(x = x, y = y-2, s = y, fontsize = 8, ha = 'center', va = 'top', color = 'black')

plt.show()

In [None]:
# 막대그래프 그리기 : seaborn 라이브러리의 color_palette() 이용
plt.figure(figsize = (8, 6), dpi = 100)

plt.bar(x = uj4010['법정동명'], height = uj4010['평균매출증감'], 
        color = sns.color_palette(palette = 'Spectral', n_colors = len(uj4010['법정동명'])))

plt.title(label = '서울특별시 강남구 법정동별 편의점 업종의 평균 매출액 증감율')
plt.xlabel(xlabel = '법정동명')
plt.xticks(rotation = 90)
plt.ylabel(ylabel = '평균매출증감')

plt.ylim(-100, 0)
for x, y in zip(uj4010['법정동명'], uj4010['평균매출증감']):
    plt.text(x = x, y = y-2, s = y, fontsize = 8, ha = 'center', va = 'top', color = 'black')

plt.show()

#### plotnine 라이브러리로 막대그래프 그리기

In [None]:
# 라이브러리 호출
from plotnine import *

In [None]:
# 한글 폰트 설정
fontPath = '/System/Library/Fonts/Supplemental/AppleGothic.ttf'
fontProp = fm.FontProperties(fname = fontPath)

In [None]:
# 막대그래프 그리기
ggplot(data = uj4010, 
       mapping = aes(x = '법정동명', 
                     y = '평균매출증감',
                     fill = '법정동명')) \
  + geom_col() \
  + geom_text(mapping = aes(label = '평균매출증감'),
              nudge_y = -3,
              size = 8) \
  + ggtitle(title = '서울특별시 강남구 법정동별 편의점 업종의 평균 매출액 증감율') \
  + theme_bw() \
  + theme(text = element_text(fontproperties = fontProp, size = 6),
          axis_text_x = element_text(rotation = 90))

### 4. 지도 시각화 : geopandas 라이브러리 & folium 라이브러리 (**leaflet.js**를 활용)

* 지도 시각화 : **단계구분도(choropleth)**

    - 특정한 지리 현상(예를 들어, 인구 변동 등)을 선택적으로 표현한 것을 '주제도'라고 합니다. 
    - 주제도를 표현할 때, 지도를 행정구역으로 나누고 색상의 음영을 다르게 한 것으로 '단계구분도'라고 합니다.
    - 단계구분도를 표현할 때, 행정구역을 나누기 위해 `shape 파일`이 필요합니다.


* **shape 파일**이란?

    - 확장자가 `.shp`인 파일로, 행정구역의 경계 좌표를 포함하고 있습니다.
        - 우리나라 통계청에서 매년 행정동의 행정경계 데이터를 제공하고 있습니다.
        - 우리나라 국가공간정보포털에서는 법정동의 행정경계 데이터를 제공하고 있습니다.

    - `.shp` 외에 `.shx`, `.dbf`, `.prj` 등이 함께 포함되어 있어야 제대로 읽을 수 있습니다.
        - Python에서 **geopandas** 라이브러리를 이용하면 `.shp` 파일을 쉽게 읽을 수 있습니다.


* 법정동 행정경계 데이터 내려받기

    - 관련 사이트 : [국가공간정보포털](http://www.nsdi.go.kr/)
    - 위 사이트에서 회원가입하고 로그인한 다음, 아래 링크에서 zip 파일을 내려받아 'bnd' 폴더에 저장합니다.
    - [시군구](http://data.nsdi.go.kr/dataset/15144) : 'LARD_ADM_SECT_SGG_서울.zip'
    - [읍면동](http://data.nsdi.go.kr/dataset/15145) : 'LSMD_ADM_SECT_UMD_서울.zip'


* 다양한 좌표계(위도와 경도)

    - **WGS84** : GPS가 사용하는 좌표계 (EPSG: 4326)
    - **UTM-K(Bessel)** : 새주소지도에서 사용 중인 좌표계 (EPSG: 5178)
    - **UTM-K(GRS80)** : 네이버 지도에서 사용 중인 좌표계 (EPSG: 5179)
    * 출처 : https://www.osgeo.kr/17

#### geonpandas 라이브러리

* Python에서 행정경계 데이터(shp 파일)을 읽을 때 주로 사용되는 라이브러리입니다.

* pandas 라이브러리의 데이터프레임과 유사합니다.

* **Geometry** 자료형을 지원하므로, 여러 좌표를 하나로 묶은 **다각형(Polygon)** 처리가 쉽습니다.

In [None]:
# geopandas 라이브러리 설치
# click-plugins-1.1.1, cligj-0.5.0, fiona-1.8.17, geopandas-0.8.1, munch-2.5.0, pyproj-2.6.1.post1, shapely-1.7.1 설치됨
# !pip install geopandas

In [None]:
# 라이브러리 호출
import geopandas as gpd

In [None]:
# 현재 작업경로 확인
os.getcwd()

#### (1) 시군구 단위 경계 데이터 읽기

In [None]:
# 작업경로에 포함된 파일명 출력
os.listdir(path = '/Users/drkevin/BC_Korea/bnd')

In [None]:
# shp 파일이 저장된 폴더로 작업경로 변경
os.chdir(path = '/Users/drkevin/BC_Korea/bnd/LARD_ADM_SECT_SGG_서울')

In [None]:
# 작업경로에 포함된 파일명 출력
os.listdir()

In [None]:
# 불러올 파일명 지정
file = 'LARD_ADM_SECT_SGG_11.shp'

In [None]:
# txt 파일을 'raw binary 8 bit'로 읽고 글자수 확인
raw = open(file = file, mode = 'rb').read()
len(raw)

In [None]:
# 글자수가 상당히 많으므로 일부만 출력
raw[:100]

In [None]:
# `raw`의 인코딩 방식 확인
chardet.detect(byte_str = raw[:100])

In [None]:
# shp 파일 읽기
# [참고] detect() 함수 실행 결과, Greek 문자로 탐지되었지만 'EUC-KR'로 시도!
shpSigg = gpd.read_file('LARD_ADM_SECT_SGG_11.shp', encoding = 'EUC-KR')

In [None]:
# 정보 확인
shpSigg.info()

In [None]:
# 처음 10행만 출력
shpSigg.head(n = 10)

In [None]:
# 필요한 컬럼만 선택 : 읍면동 데이터프레임과 병합하여 'SGG_NM'을 붙이기 위함
shpSigg >>= select(X.SGG_NM, X.ADM_SECT_C)

#### (2) 읍면동 단위 경계 데이터 읽기

In [None]:
# 작업경로에 포함된 파일명 출력
os.listdir(path = '/Users/drkevin/BC_Korea/bnd')

In [None]:
# shp 파일이 저장된 폴더로 작업경로 변경
os.chdir(path = '/Users/drkevin/BC_Korea/bnd/LSMD_ADM_SECT_UMD_서울')

In [None]:
# 작업경로에 포함된 파일명 출력
os.listdir()

In [None]:
# shp 파일 읽기
shpDong = gpd.read_file('LSMD_ADM_SECT_UMD_11.shp', encoding = 'EUC-KR')

In [None]:
# 처음 10행만 출력
shpDong.head(n = 10)

In [None]:
# 좌표계 확인
shpDong.crs

In [None]:
# (필요시) 좌표계 설정 (EPSG:5179 -> UTM-K(GRS80)와 같음)
# shpDong.crs = 'EPSG:5179'

In [None]:
# folium 라이브러리 활용을 위해 좌표계 변환 (EPSG:4326 -> WGS84와 같음)
shpDong = shpDong.to_crs(epsg = 4326)

In [None]:
# 처음 10행만 출력
shpDong.head(n = 10)

#### 읍면동 데이터에 시군구 데이터 병합

In [None]:
# `EMD_CD`에서 처음 5자리만 잘라낸 `GB` 컬럼 생성
shpDong >>= mutate(ADM_SECT_C = X.EMD_CD.str[:5])

In [None]:
# 처음 10행만 출력
shpDong.head(n = 10)

In [None]:
# 두 데이터프레임 병합
shpDong = pd.merge(left = shpDong, right = shpSigg, how = 'left', on = 'ADM_SECT_C')

In [None]:
# 처음 10행만 출력
shpDong.head(n = 10)

In [None]:
# 서울특별시 강남구만 선택
shpGangnam = shpDong >> filter_by(X.SGG_NM == '강남구')

In [None]:
# shpGangnam에 uj4010 병합
shpGangnam = pd.merge(left = shpGangnam, right = uj4010, how = 'left', left_on = 'EMD_NM', right_on = '법정동명')

In [None]:
# 처음 10행만 출력
shpGangnam.head(n = 10)

In [None]:
# 지도 위 단계구분도에 마우스 올리면 출력할 정보 미리 생성
shpGangnam >>= mutate(HOVER = X.EMD_NM + ' : ' + X.평균매출증감.astype(str))

In [None]:
# GeoJSON 파일로 저장 : folium 라이브러리를 활용한 지도 시각화 때 사용!
os.chdir(path = '/Users/drkevin/BC_Korea/bnd')
shpGangnam.to_file(filename = 'shpGangnam.json', driver = 'GeoJSON')

#### matplotlib 라이브러리로 단계구분도(choropleth) 그리기

In [None]:
# 라이브러리 호출
from mpl_toolkits.axes_grid1 import make_axes_locatable

In [None]:
# 현재 작업경로 확인
os.getcwd()

In [None]:
# 작업경로 변경 : 단계구분도를 png 파일로 저장
os.chdir(path = '/Users/drkevin/BC_Korea/data')

In [None]:
# 단계구분도 그리기
fig, ax = plt.subplots(1, 1)

div = make_axes_locatable(ax)
cax = div.append_axes('right', size = '5%', pad = 0.1)

ax = shpGangnam.plot(column = '평균매출증감', ax = ax, legend = True, cax = cax, cmap = 'Oranges', ec = 'black')
ax.set_title('강남구 단계구분도')
ax.set_axis_off()

plt.savefig('Choropleth_Gangnam.png', dpi = 300)
plt.show()

#### folium 라이브러리

* 웹 상에서 지도를 표현할 때 많이 사용되는 leaflet.js를 Python에서 구현한 라이브러리입니다.

* WGS84 좌표계의 위도와 경도를 지정하면, 해당 지점을 중심으로 하는 지도를 호출합니다.

* 지도 위에 단계구분도 표현이 가능하므로 쉽고 깔끔한 지도 시각화가 가능합니다.

In [None]:
# folium 라이브러리 설치
# branca-0.4.1 folium-0.11.0 설치됨
# !pip install folium

In [None]:
# 라이브러리 호출
import folium
import json

In [None]:
# `shpGangnam`의 `total_bounds` 확인
shpGangnam.geometry.total_bounds

In [None]:
# 전체 좌표의 왼쪽 하단, 오른쪽 상단의 좌표가 포함되어 있음
x1, y1, x2, y2 = shpGangnam.geometry.total_bounds

In [None]:
# 위도, 경도 순으로 중심 좌표 설정 후 출력
center = (y1 + y2) / 2, (x1 + x2) / 2
center

#### 지도 타입 설정

* `tiles` : 'OpenStreetmap', 'Stamen Toner', 'Stamen Terrain' 등

In [None]:
# 지도 설정 (위도, 경도 순)
Map = folium.Map(location = center, zoom_start = 13, tiles = 'Stamen Toner')

# 중심에 마커 추가 : 한글로 지정하면 글자가 제대로 출력되지 않음
folium.Marker(location = center, tooltip = 'Gangnam').add_to(Map)

In [None]:
# 지도 출력
Map

In [None]:
# 현재 작업경로 확인
os.getcwd()

In [None]:
# 작업경로 변경 : 단계구분도를 png 파일로 저장
os.chdir(path = '/Users/drkevin/BC_Korea/bnd')

In [None]:
# GeoJSON 파일 읽기
raw = open(file = 'shpGangnam.json', mode = 'rb')
jsonGangnam = json.load(raw)

In [None]:
# json 파일 출력
jsonGangnam

In [None]:
# 지도 다시 설정
Map = folium.Map(location = center, zoom_start = 12)

# 지도 출력
Map

In [None]:
# 지도에 단계구분도 추가
Cho = folium.Choropleth(geo_data = jsonGangnam,
                        data = uj4010,
                        columns = ['법정동명', '평균매출증감'],
                        key_on = 'feature.properties.EMD_NM',
                        fill_color = 'Spectral',
                        fill_opacity = 0.5,
                        line_opacity = 0.5,
                        legend_name = 'Sales Variation Rate (%)',
                        reset = True
                        ).add_to(Map)

# 지도 출력
Map

In [None]:
# 법정동 위에 마우스를 올리면 정보 출력
Cho.geojson.add_child(folium.features.GeoJsonTooltip(fields = ['HOVER'], labels = False))

# 지도 출력
Map

In [None]:
# 지도에 추가된 레이어를 제어하는 메뉴 버튼 추가
folium.LayerControl().add_to(Map)

# 지도 출력
Map

In [None]:
# HTML로 저장
Map.save(outfile = 'Choropleth_Gangnam.html')

## End of Document