<p style="font-family:verdana;font-size:200%;text-align:center;">신용카드 데이터 분석</p>

### 부제 : Python을 활용한 탐색적 데이터 분석

### 이번 시간 강의 내용

1. 실습 데이터셋 준비 : **chardet** & **pandas** 라이브러리
1. 탐색적 데이터 분석
1. 데이터 시각화 : **seaborn** & **matplotlib** 라이브러리
1. 지도 시각화 : **folium** 라이브러리

### 강의자료 준비

* 작업경로로 사용할 폴더를 생성합니다.
 - 문서(Documents) 폴더에 **BC_Korea**라는 폴더를 생성합니다.
 - Windows : 'C:/Users/User_name/Documents/BC_Korea'
 - MacOS : '/Users/User_name/Documents/BC_Korea'


* 이번 강의에 사용될 [코드 및 데이터](https://codeload.github.com/MrKevinNa/BC_Korea/zip/refs/heads/main)를 압축파일로 내려받습니다.
 - 일반적으로 압축파일은 다운로드(Downloads) 폴더에 저장되어 있습니다.
 - 압축파일에는 **code** 및 **data** 폴더가 포함되어 있습니다.
 - 압축파일을 풀고 **code** 및 **data** 폴더를 작업경로인 **BC_Korea** 폴더로 옮깁니다.


* [BC카드 금융 빅데이터 플랫폼](https://www.bigdata-finance.kr)에서 내려받은 데이터를 **data** 폴더로 옮깁니다.
 - 데이터를 내려받는 방법은 사전에 이메일로 발송되었습니다.

### 실습 데이터셋 준비 : chardet & pandas 라이브러리

In [None]:
# 라이브러리를 호출합니다.
import os, chardet
import numpy as np
import pandas as pd

In [None]:
# 현재 작업경로를 확인합니다.
os.getcwd()

In [None]:
# data 폴더로 작업경로를 변경합니다. (상대경로 사용)
os.chdir(path = '../data')

In [None]:
# 작업경로에 포함된 폴더명과 파일명을 출력합니다.
os.listdir()

In [None]:
# 신용카드 데이터 파일명을 지정합니다.
fileName = '20210709112650186교육용_데이터_수정(강남구).csv'

In [None]:
# 신용카드 데이터 파일을 바이너리로 읽고, raw를 생성합니다.
raw = open(file = fileName, mode = 'rb').read()

In [None]:
# raw의 클래스를 확인합니다.
type(raw)

In [None]:
# raw의 일부를 출력합니다.
raw[:100]

In [None]:
# raw의 인코딩 방식을 확인합니다.
chardet.detect(raw[:100])

In [None]:
# raw를 디코딩하면 한글로 출력됩니다.
raw[:100].decode(encoding = 'EUC-KR')

In [None]:
# 신용카드 데이터를 읽고, 데이터프레임 df를 생성합니다.
df = pd.read_csv(filepath_or_buffer = fileName, encoding = 'EUC-KR')

In [None]:
# df의 일부를 출력합니다. n 매개변수에 전달되는 인자의 기본값은 5입니다.
df.head(n = 10)

In [None]:
# df의 정보를 확인합니다.
# 행 길이, 열 길이, 열별 결측값 아닌 개수 및 자료형(data type)을 확인합니다.
df.info()

In [None]:
# 기준일자를 날짜형으로 변환합니다.
df['기준일자'] = df['기준일자'].astype('str').astype('datetime64')

In [None]:
# df의 열별 자료형을 확인합니다.
df.dtypes

In [None]:
# 텍스트 데이터를 읽을 때, 날짜형으로 읽을 변수명을 지정할 수 있습니다.
df = pd.read_csv(filepath_or_buffer = fileName, encoding = 'EUC-KR', parse_dates = ['기준일자'])

In [None]:
# df의 정보를 확인합니다.
df.info()

In [None]:
# 불필요한 열을 삭제합니다.
df = df.drop(labels = ['가맹점주소_광역시도', '가맹점주소_시군구', '매출건수'], axis = 1)

In [None]:
# 일부 열이름을 변경합니다.
df = df.rename(columns = {'가맹점주소_읍면동': '읍면동', '가맹점업종': '업종명', '결제고객수': '고객수', '매출금액': '매출액'})

In [None]:
# 기준일자별 빈도수를 확인합니다.
df['기준일자'].value_counts().sort_index().reset_index()

In [None]:
# 기준일자에서 년, 월, 일 및 요일을 추출합니다.
df['년'] = df['기준일자'].dt.year
df['월'] = df['기준일자'].dt.month
df['일'] = df['기준일자'].dt.day
df['요일정수'] = df['기준일자'].dt.dayofweek.astype('str')
df['요일'] = df['기준일자'].dt.day_name()

In [None]:
# df의 일부를 출력합니다.
df.head()

- 거래요일이 영문으로 생성되었습니다. 
- 이는 로케일 문제이므로 한글 로케일로 변경하고 변수를 다시 생성해야 합니다.

In [None]:
# 라이브러리를 호출합니다.
import locale

In [None]:
# 현재 설정된 날짜/시간 로케일을 확인합니다.
locale.getlocale(category = locale.LC_TIME)

In [None]:
# 날짜/시간 로케일을 '한국'으로 변경합니다.
# MacOS는 'ko_KR', Windows는 'korean'으로 지정하세요.
locale.setlocale(category = locale.LC_TIME, locale = 'ko_KR')

In [None]:
# 기준일자에서 한글 요일을 추출합니다. '%A'는 '요일'에 해당하는 포맷입니다.
df['요일'] = df['기준일자'].dt.strftime('%A')

In [None]:
# df의 일부를 출력합니다.
df.head()

In [None]:
# 요일정수와 요일을 하나의 문자열로 결합하고, 요일정수를 삭제합니다.
cols = ['요일정수', '요일']
df['요일'] = df[cols].apply(lambda x: '-'.join(x), axis = 1)
df = df.drop(labels = ['요일정수'], axis = 1)

In [None]:
# df의 일부를 출력합니다.
df.head()

### 탐색적 데이터 분석

- 명목형 변수(열)별 빈도수 확인 : 연령대, 성별, 가구생애주기

- 코로나 관련 업종별 이용 현황 : 피벗 테이블로 요약 데이터 생성
 - 코로나 전후(2019년, 2020년) 업종별 고객수 및 매출액 증감률 확인
 - 코로나 이후(2020년, 2021년) 업종별 고객수 및 매출액 증감률 확인
 - 2021년 고객수 및 매출액 합계 상위 업종 확인

In [None]:
# 지수표현식으로 출력되지 않도록 하는 설정합니다.
# [참고] 모든 실수가 소수점 넷째 자리까지 출력되므로 불편할 수 있습니다.
# pd.options.display.float_format = '{:.4f}'.format

# 숫자형 변수(열)의 기술통계량을 출력합니다.
df.describe().round(2)

In [None]:
# 문자형 변수(열)의 기술통계량을 출력합니다.
df.describe(include = 'object')

In [None]:
# 연령대별 빈도수를 확인합니다.
df['연령대'].value_counts().sort_index().reset_index()

In [None]:
# 작업의 편의를 위해 '20대미만'을 '10대', '60대이상'을 '60대'로 변경합니다.
df.loc[df['연령대'] == '20대미만', '연령대'] = '10대'
df.loc[df['연령대'] == '60대이상', '연령대'] = '60대'

In [None]:
# 연령대별 빈도수를 다시 확인합니다.
df['연령대'].value_counts().sort_index().reset_index()

In [None]:
# 성별 빈도수를 확인합니다.
df['성별'].value_counts().sort_index().reset_index()

In [None]:
# 가구생애주기별 빈도수를 확인합니다.
df['가구생애주기'].value_counts().sort_index().reset_index()

In [None]:
# 가구생애주기에서 '기타'를 제거합니다.
df = df.loc[df['가구생애주기'] != '기타']

In [None]:
# 가구생애주기에서 문자열 ' 가구'를 제거합니다. 
df['가구생애주기'] = df['가구생애주기'].str.replace(' 가구', '')

In [None]:
# 가구생애주기별 빈도수를 다시 확인합니다.
df['가구생애주기'].value_counts().sort_index().reset_index()

In [None]:
# 업종별 증감률 확인을 위한 피벗 테이블을 생성합니다.
df1 = pd.pivot_table(
    data = df, 
    values = ['매출액', '고객수'], 
    index = '업종명', 
    columns = '년', 
    aggfunc = 'sum', 
    fill_value = 0
)

In [None]:
# df1의 일부를 출력합니다.
df1.head()

In [None]:
# 열이름만 출력합니다.
df1.columns

In [None]:
# 열이름의 name이 '년'인 행을 삭제한 결과를 출력합니다.
# level = 1(두 번째 행)을 지정한 것과 같습니다.
df1.columns.droplevel('년')

In [None]:
# 열이름의 name이 None인 행을 삭제한 결과를 출력합니다.
# level = 0(첫 번째 행)을 지정한 것과 같습니다.
df1.columns.droplevel(None)

In [None]:
# 열이름을 결합한 결과를 출력합니다.
# [참고] 열이름의 name이 '년'인 행은 정수이므로 문자열로 변환해야 합니다.
df1.columns.droplevel('년') + df1.columns.droplevel(None).astype('str')

In [None]:
# df1의 열이름을 변경합니다.
df1.columns = df1.columns.droplevel('년') + df1.columns.droplevel(None).astype('str')

In [None]:
# df1의 행이름을 초기화합니다.
df1 = df1.reset_index()

In [None]:
# df1의 일부를 출력합니다.
df1.head()

In [None]:
# 전년비 증감률 변수를 생성합니다.
df1['고객증감률2020'] = ((df1['고객수2020'] - df1['고객수2019']) / df1['고객수2019']).round(4) * 100
df1['매출증감률2020'] = ((df1['매출액2020'] - df1['매출액2019']) / df1['매출액2019']).round(4) * 100

df1['고객증감률2021'] = ((df1['고객수2021'] - df1['고객수2020']) / df1['고객수2020']).round(4) * 100
df1['매출증감률2021'] = ((df1['매출액2021'] - df1['매출액2020']) / df1['매출액2020']).round(4) * 100

In [None]:
# df1의 일부를 출력합니다.
df1.head()

#### 코로나 이전(2019년) 대비 이후(2020년) 업종별 변동 확인

In [None]:
# 고객수가 감소한 상위 다섯 개 업종을 확인합니다.
df1.sort_values(by = ['고객증감률2020']).head()

In [None]:
# 매출액이 감소한 상위 다섯 개 업종을 확인합니다.
df1.sort_values(by = ['매출증감률2020']).head()

In [None]:
# 고객수가 증가한 상위 다섯 개 업종을 확인합니다.
df1.sort_values(by = ['고객증감률2020'], ascending = False).head()

In [None]:
# 매출액이 증가한 상위 다섯 개 업종을 확인합니다.
df1.sort_values(by = ['매출증감률2020'], ascending = False).head()

#### 전년(2020년) 대비 2021년 업종별 변동 확인

In [None]:
# 고객수가 감소한 상위 다섯 개 업종을 확인합니다.
df1.sort_values(by = ['고객증감률2021']).head()

In [None]:
# 매출액이 감소한 상위 다섯 개 업종을 확인합니다.
df1.sort_values(by = ['매출증감률2021']).head()

In [None]:
# 고객수가 증가한 상위 다섯 개 업종을 확인합니다.
df1.sort_values(by = ['고객증감률2021'], ascending = False).head()

In [None]:
# 매출액이 증가한 상위 다섯 개 업종을 확인합니다.
df1.sort_values(by = ['매출증감률2021'], ascending = False).head()

#### 2021년 고객수 및 매출액 상위 업종 확인

In [None]:
# 고객수 상위 다섯 개 업종을 확인합니다.
df1.sort_values(by = ['고객수2021'], ascending = False).head()

In [None]:
# 매출액 상위 다섯 개 업종을 확인합니다.
df1.sort_values(by = ['매출액2021'], ascending = False).head()

### 데이터 시각화 : seaborn & matplotlib 라이브러리

#### 그래프 옵션 및 폰트 설정

In [None]:
# 라이브러리를 호출합니다.
import seaborn as sns
import matplotlib.pyplot as plt
import matplotlib.font_manager as fm
%matplotlib inline

In [None]:
# 그래프의 크기와 해상도를 설정합니다.
plt.rcParams['figure.figsize'] = (8, 4)
plt.rcParams['figure.dpi'] = 100

#### 구글 폰트에 등록된 한글 폰트를 설치하는 방법을 소개합니다.

- [구글 폰트](https://fonts.google.com/?subset=korean)에서 원하는 한글 폰트를 선택합니다.
- 한글 폰트를 압축파일을 내려받습니다.
- 다운로드 폴더로 이동하여 압출파일을 풀면 **ttf(true type font)** 파일이 포함되어 있습니다.
- **ttf** 파일에서 마우스 오른쪽 버튼을 클릭하고, **설치** 메뉴를 선택하면 폰트가 설치됩니다.

In [None]:
# 사용 중인 컴퓨터에 설치된 폰트 목록을 생성합니다.
fontList = fm.findSystemFonts(fontext = 'ttf')

In [None]:
# 설치된 폰트 개수를 확인합니다.
len(fontList)

In [None]:
# 폰트 목록의 일부를 출력합니다.
fontList[0:10]

In [None]:
# 원하는 한글 폰트명으로 폰트 경로를 찾습니다.
fontPath = [font for font in fontList if 'GamjaFlower' in font]

In [None]:
# 한글 폰트 경로를 출력하고, 원하는 것을 선택합니다.
for i, e in enumerate(fontPath):
    print(i, e)

In [None]:
# 한글 폰트 정보를 생성합니다.
fontProp = fm.FontProperties(fname = fontPath[0])

In [None]:
# 한글 폰트와 글자 크기를 설정합니다.
plt.rcParams['font.family'] = fontProp.get_name()
plt.rcParams['font.size'] = 12

#### 막대 그래프 시각화

In [None]:
# 관심 업종을 선택합니다. 업종이 여러 개일 때 바(bar) 기호로 연결합니다.
upjong = '일반한식|서양음식'

In [None]:
# 관심 업종만 선택하여 데이터프레임 df2를 생성하고 일부를 출력합니다.
df2 = df.loc[df['업종명'].str.contains(upjong)]
df2.head()

In [None]:
# 연령대별 매출액 변화를 시각화합니다.
df2 = df2.sort_values(by = ['연령대', '업종명'])
sns.catplot(data = df2, x = '연령대', y = '매출액', hue = '년', col = '업종명', kind = 'bar', 
            estimator = sum, ci = None, palette = 'Reds', legend_out = False);

In [None]:
# 성별 매출액 변화를 시각화합니다.
df2 = df2.sort_values(by = ['성별', '업종명'])
sns.catplot(data = df2, x = '성별', y = '매출액', hue = '년', col = '업종명', kind = 'bar', 
            estimator = sum, ci = None, palette = 'Blues', legend_out = False);

In [None]:
# 가구생애주기별 매출액 변화를 시각화합니다.
df2 = df2.sort_values(by = ['가구생애주기', '업종명'])
sns.catplot(data = df2, x = '가구생애주기', y = '매출액', hue = '년', col = '업종명', kind = 'bar', 
            estimator = sum, ci = None, palette = 'Greens', legend_out = False);

In [None]:
# 가구생애주기 및 성별 매출액 변화를 시각화합니다.
df2 = df2.sort_values(by = ['가구생애주기', '성별'])
sns.catplot(data = df2, x = '가구생애주기', y = '매출액', hue = '년', col = '성별', kind = 'bar', 
            estimator = sum, ci = None, palette = 'Purples', legend_out = False);

In [None]:
# 요일별 매출액 변화를 시각화합니다.
df2 = df2.sort_values(by = ['요일', '업종명'])
sns.catplot(data = df2, x = '요일', y = '매출액', hue = '년', col = '업종명', kind = 'bar', 
            estimator = sum, ci = None, palette = 'Oranges', legend_out = False);

### 지역 경계 데이터 전처리

- 특정한 지리 현상(예를 들어, 인구 변동 등)을 선택적으로 표현한 것을 '주제도'라고 합니다. 
- 주제도를 표현할 때, 지도를 행정구역으로 나누고 색상의 음영을 다르게 한 것으로 '단계구분도'라고 합니다.
- 단계구분도를 시각화하려면 지역 경계 데이터가 필요합니다.


- 지역 경계 데이터는 **법정동 및 행정동**으로 제공되며, **shape 또는 GeoJSON** 파일이 필요합니다.
- 이번 강의에서는 **행정동 경계** 데이터를 포함하는 **GeoJSON** 파일을 읽고 전처리하는 방법을 소개합니다.

#### [참고] 법정동과 행정동의 차이
- 법정동 : 법으로 지정된 대한민국 행정구역의 일종. 거의 변동 없음
- 행정동 : 법정동으로 지역의 통제가 되지 않으므로 지방자치단체가 분할/통합/조정한 행정구역. 수시로 변동

#### [참고] shape 파일이란?
- 확장자가 .shp인 파일로, 행정구역의 경계 좌표를 포함하고 있습니다.
- .shp 외에 .shx, .dbf, .prj 등이 함께 포함되어 있어야 제대로 읽을 수 있습니다.
 - Python에서 **geopandas** 라이브러리를 이용하면 .shp 파일을 쉽게 읽을 수 있습니다.


- **shape 파일**을 제공하는 사이트를 소개합니다.
 - [공간정보시스템](http://www.gisdeveloper.co.kr/?p=2332)에서 법정동의 행정경계 데이터를 제공하고 있습니다. (회원가입 필요 없는 가장 간단한 방법!)
 - 최신 '시군구' 행정경계 데이터를 압축파일로 다운로드합니다.
 - 압축파일을 풀면 **EMD_yyyymm** 폴더가 들어 있습니다.

#### [참고] GeoJSON 파일이란?
- 위치 정보를 갖는 점(경도, 위도)으로 체계적으로 지형을 표현하기 위해 설계된 개방형 공개 표준 형식입니다. (위키피디아 참조)
- **GeoJSON** 파일을 출력하면 **key:value**를 원소로 갖는 **Python 딕셔너리** 자료구조와 같습니다.
- JSON(JavaScript Object Notation)은 데이터를 송수신할 때 인간이 읽을 수 있는 개방행 표준 포맷입니다. (위키피디아 참조)


- 이번 강의에서 사용할 행정동 경계 데이터를 포함하는 GeoJSON 파일 원본은 [여기](https://raw.githubusercontent.com/vuski/admdongkor/master/ver20210401/HangJeongDong_ver20210401.geojson)에서 확인하세요.

### geopandas 라이브러리

* Python에서 지역 경계 데이터(shp 파일)을 읽을 때 주로 사용되는 라이브러리입니다.


* pandas 라이브러리의 데이터프레임과 유사합니다.
 - GeoDataFrame 및 GeoJSON 자료형을 다룰 수 있습니다.


* **Geometry** 자료형을 지원하므로, 여러 좌표를 하나로 묶은 **다각형(Polygon)** 처리가 쉽습니다.

### Windows에서 geopandas 라이브러리를 설치하려면 4개의 의존성 라이브러리를 먼저 설치해야 합니다.
- 4개의 의존성 라이브러리는 **GDAL, Fiona, pyproj, Rtree**이며, 설치하는 순서가 중요합니다!
- 문제는 의존성 라이브러리의 용량이 매우 커서 <u>**pip 또는 conda로 설치할 수 없다**</u>는 것입니다.
- 따라서 **Python 버전에 맞는 최신 whl 파일** 내려받고, whl 파일로 설치해야 합니다. (cp39 또는 cp38)
 - [GDAL](https://www.lfd.uci.edu/~gohlke/pythonlibs/#gdal)
 - [pyproj](https://www.lfd.uci.edu/~gohlke/pythonlibs/#pyproj)
 - [Fiona](https://www.lfd.uci.edu/~gohlke/pythonlibs/#fiona)
 - [Shapely](https://www.lfd.uci.edu/~gohlke/pythonlibs/#shapely)
 - [geopandas](https://www.lfd.uci.edu/~gohlke/pythonlibs/#geopandas)

In [None]:
# 현재 사용 중인 파이썬 버전을 확인합니다.
import sys
sys.version

In [None]:
# 라이브러리를 호출합니다.
from urllib.request import urlopen
import json
from shapely import geometry
import geopandas as gpd

In [None]:
# GeoJSON 파일이 포함된 URL을 지정합니다.
url = 'https://raw.githubusercontent.com/vuski/admdongkor/master/ver20210401/HangJeongDong_ver20210401.geojson'

In [None]:
# HTTP 요청을 통해 URL 데이터를 읽고, HTTP 응답을 받습니다.
res = urlopen(url)

In [None]:
# HTTP 응답 데이터로부터 GeoJSON 데이터를 읽습니다.
data = json.load(res)

In [None]:
# data의 feature만 선택하고, data에 재할당합니다.
data = data['features']

In [None]:
# geometry를 shape으로 변환합니다.
for d in data:
    d['geometry'] = geometry.shape(d['geometry'])

In [None]:
# data로 데이터프레임 shpDong를 생성합니다.
shpDong = pd.json_normalize(data)

In [None]:
# shpDong의 클래스를 확인합니다.
type(shpDong)

In [None]:
# shpDong의 행과 열 길이를 확인합니다.
shpDong.shape

In [None]:
# shpDong의 일부를 출력합니다.
shpDong.head()

In [None]:
# 서울특별시 강남구만 남깁니다.
shpDong = shpDong.loc[shpDong['properties.sgg'] == '11680']

In [None]:
# 필요한 열만 남깁니다.
shpDong = shpDong[['properties.adm_cd2', 'properties.adm_nm', 'geometry']]

In [None]:
# shpDong의 행과 열 길이를 다시 확인합니다.
shpDong.shape

In [None]:
# shpDong의 일부를 출력합니다.
shpDong.head()

In [None]:
# shpDong의 행이름을 초기화합니다.
shpDong = shpDong.reset_index(drop = True)

In [None]:
# shpDong의 열이름을 변경합니다.
shpDong.columns = ['ADM_CD', 'ADM_NM', 'geometry']

In [None]:
# ADM_NM을 시도(SIDO), 시군구(SIGG), 행정동(DONG)으로 분리합니다.
# expand = True를 추가하면 데이터프레임으로 반환합니다.
dong = shpDong['ADM_NM'].str.split(pat = ' ', expand = True)

In [None]:
# dong의 일부를 출력합니다.
dong.head()

In [None]:
# dong의 열이름을 변경합니다.
dong.columns = ['SIDO', 'SIGG', 'DONG']

In [None]:
# shpDong에 dong을 삽입합니다.
# [참고] dataframe.insert() 함수로는 시리즈만 삽입할 수 있습니다!
shpDong = pd.concat(objs = [shpDong[['ADM_CD']], dong, shpDong[['geometry']]], axis = 1)

In [None]:
# shpDong의 일부를 출력합니다.
shpDong.head()

In [None]:
# shpDong를 GeoDataFrame으로 변환합니다.
shpDong = gpd.GeoDataFrame(shpDong)

In [None]:
# shpDong의 클래스를 확인합니다.
type(shpDong)

#### [참고] shape 파일을 읽는 방법을 소개합니다.

In [None]:
# shpDong의 일부를 출력합니다.
shpDong.head()

#### 좌표계 (위도와 경도) 종류

* **WGS84** : GPS가 사용하는 좌표계 (EPSG: 4326)
* **UTM-K(Bessel)** : 새주소지도에서 사용 중인 좌표계 (EPSG: 5178)
* **UTM-K(GRS80)** : 네이버 지도에서 사용 중인 좌표계 (EPSG: 5179)


* 출처 : https://www.osgeo.kr/17

In [None]:
# shpDong의 좌표계를 확인합니다. (값이 없을 수 있습니다!)
shpDong.crs

#### 단계구분도 시각화용 GeoJSON 파일 저장

In [None]:
# 현재 작업경로를 확인합니다.
os.getcwd()

In [None]:
# shpDong를 GeoJSON 파일로 저장합니다. 
shpDong.to_file(filename = 'shpDong.json', driver = 'GeoJSON')

#### 단계구분도 시각화용 요약 데이터셋 생성

In [None]:
# 요약 데이터셋을 생성하는 함수를 정의합니다.
# 이 함수는 행정동별 전년 대비 2021년 매출액 차이를 데이터프레임으로 반환합니다.
def smrfunc(upjong):
    
    # 업종명을 포함하는 부분집합을 생성합니다.
    sub = df.loc[df['업종명'] == upjong]
    
    # 행정동, 년 기준으로 매출액 합계를 계산합니다.
    smr = sub.groupby(by = ['읍면동', '년']).sum()[['매출액']]
    
    # Long Type을 Wide Type으로 변환하고, 결측값을 갖는 행을 삭제합니다.
    smr = smr.unstack(fill_value = 0).dropna()
    
    # 열이름에서 0번 레벨과 1번 레벨의 Name을 제거합니다.
    smr.columns = smr.columns.droplevel(level = 0)
    smr.columns.name = None
    
    # 행이름을 초기화합니다.
    smr = smr.reset_index()
    
    # 전년 대비 2021년 매출액 차이를 새로운 변수로 생성합니다.
    smr['매출차이'] = smr[2021] - smr[2020]
    
    # smr에서 불필요한 열(2019~2021)을 삭제합니다.
    smr = smr.drop(labels = smr.columns[1:4], axis = 1)
    
    # 매출차이의 단위를 원에서 백만원으로 변경하고, 정수부분만 남도록 반올림합니다.
    smr['매출차이'] = (smr['매출차이'] / 1000000).round(0)
    
    # 단계구분도에서 마우스를 올렸을 때 출력할 정보를 생성합니다.
    smr['HOVER'] = smr['읍면동'] + ' : ' + smr['매출차이'].astype('str')
    
    # smr을 반환합니다.
    return smr

In [None]:
# 일반한식 업종의 요약 데이터셋을 생성합니다.
smr1 = smrfunc(upjong = '일반한식')
smr1.sort_values(by = ['매출차이'], ascending = False)

In [None]:
# 서양음식 업종의 요약 데이터셋을 생성합니다.
smr2 = smrfunc(upjong = '서양음식')
smr2.sort_values(by = ['매출차이'], ascending = False)

In [None]:
# 편의점 업종의 요약 데이터셋을 생성합니다.
smr3 = smrfunc(upjong = '편의점')
smr3.sort_values(by = ['매출차이'], ascending = False)

In [None]:
# 노래방 업종의 요약 데이터셋을 생성합니다.
smr4 = smrfunc(upjong = '노래방')
smr4.sort_values(by = ['매출차이'], ascending = False)

### 지도 시각화 : folium 라이브러리

#### folium 라이브러리

* 웹 상에서 지도를 표현할 때 많이 사용되는 leaflet.js를 Python에서 구현한 라이브러리입니다.

* WGS84 좌표계의 위도와 경도를 지정하면, 해당 지점을 중심으로 하는 지도를 호출합니다.

* 지도 위에 단계구분도 표현이 가능하므로 쉽고 깔끔한 지도 시각화가 가능합니다.

In [None]:
# 라이브러리를 호출합니다.
import folium

In [None]:
# shpDong의 total_bounds를 확인합니다.
shpDong.geometry.total_bounds

# 전체 좌표의 왼쪽 하단, 오른쪽 상단의 좌표가 포함되어 있습니다.

In [None]:
# 좌표의 전체 범위를 각각 지정합니다.
x1, y1, x2, y2 = shpDong.geometry.total_bounds

In [None]:
# 전체 범위의 중간 지점을 계산하여 중심 좌표로 설정합니다.
# [주의] 위도, 경도 순으로 지정해야 합니다!
center = (y1 + y2) / 2, (x1 + x2) / 2
center

In [None]:
# GeoJSON 파일을 읽고 출력합니다.
raw = open(file = 'shpDong.json', mode = 'rb')
jsonData = json.load(raw)

#### 지도 생성 : folium.Map() 함수의 tiles 매개변수에 지도 타입 설정
- 'OpenStreetmap'(기본값)
- 'Stamen Terrain'
- 'Stamen Toner' 등

In [None]:
# 지도를 생성합니다.
# [주의] 중심 좌표는 위도, 경도 순으로 지정되어야 합니다.
Map = folium.Map(location = center, zoom_start = 13, tiles = 'Stamen Terrain')

# 지도를 출력합니다.
Map

In [None]:
# 지도에 행정동 경계를 추가합니다.
Choro = folium.Choropleth(
    geo_data = jsonData,
    key_on = 'feature.properties.DONG',
    fill_color = 'white',
    fill_opacity = 0.5,
    line_color = 'red',
    line_opacity = 1,
    name = '행정경계',
    highlight = True
).add_to(Map)

# 행정동 위에 마우스를 올렸을 때 출력할 데이터를 설정합니다.
Choro.geojson.add_child(
    folium.features.GeoJsonTooltip(fields = ['DONG'], labels = False)
)

# 지도를 출력합니다.
Map

In [None]:
# 지도에 첫 번째 단계구분도를 추가합니다. (일반한식)
Choro = folium.Choropleth(
    geo_data = jsonData,
    data = smr1,
    columns = ['읍면동', '매출차이'],
    key_on = 'feature.properties.DONG',
    fill_color = 'Reds',
    nan_fill_color = 'Gray',
    line_color = 'black',
    fill_opacity = 1,
    line_opacity = 1,
    name = '일반한식',
    legend_name = '매출차이(일반한식)',
    highlight = True
).add_to(Map)

# 행정동 위에 마우스를 올렸을 때 출력할 데이터를 설정합니다.
Choro.geojson.add_child(
    folium.features.GeoJsonTooltip(fields = ['DONG'], labels = False)
)

# 지도를 출력합니다.
Map

In [None]:
# 지도에 두 번째 단계구분도를 추가합니다. (서양음식)
Choro = folium.Choropleth(
    geo_data = jsonData,
    data = smr2,
    columns = ['읍면동', '매출차이'],
    key_on = 'feature.properties.DONG',
    fill_color = 'Blues',
    nan_fill_color = 'Gray',
    line_color = 'black',
    fill_opacity = 1,
    line_opacity = 1,
    name = '서양음식',
    legend_name = '매출차이(서양음식)',
    highlight = True
).add_to(Map)

# 행정동 위에 마우스를 올렸을 때 출력할 데이터를 설정합니다.
Choro.geojson.add_child(
    folium.features.GeoJsonTooltip(fields = ['DONG'], labels = False)
)

# 지도를 출력합니다.
Map

In [None]:
# 지도에 세 번째 단계구분도를 추가합니다. (편의점)
Choro = folium.Choropleth(
    geo_data = jsonData,
    data = smr3,
    columns = ['읍면동', '매출차이'],
    key_on = 'feature.properties.DONG',
    fill_color = 'Greens',
    nan_fill_color = 'Gray',
    line_color = 'black',
    fill_opacity = 1,
    line_opacity = 1,
    name = '편의점',
    legend_name = '매출차이(편의점)',
    highlight = True
).add_to(Map)

# 행정동 위에 마우스를 올렸을 때 출력할 데이터를 설정합니다.
Choro.geojson.add_child(
    folium.features.GeoJsonTooltip(fields = ['DONG'], labels = False)
)

# 지도를 출력합니다.
Map

In [None]:
# 지도에 네 번째 단계구분도를 추가합니다. (노래방)
Choro = folium.Choropleth(
    geo_data = jsonData,
    data = smr4,
    columns = ['읍면동', '매출차이'],
    key_on = 'feature.properties.DONG',
    fill_color = 'Purples',
    nan_fill_color = 'Gray',
    line_color = 'black',
    fill_opacity = 1,
    line_opacity = 1,
    name = '노래방',
    legend_name = '매출차이(노래방)',
    highlight = True
).add_to(Map)

# 행정동 위에 마우스를 올렸을 때 출력할 데이터를 설정합니다.
Choro.geojson.add_child(
    folium.features.GeoJsonTooltip(fields = ['DONG'], labels = False)
)

# 지도를 출력합니다.
Map

In [None]:
# 지도에 추가된 레이어를 제어하는 메뉴 버튼을 추가합니다.
folium.LayerControl().add_to(Map)

# 지도를 출력합니다.
Map

In [None]:
# 현재 작업경로의 상위 폴더에 image 폴더가 없으면 생성합니다.
# image 폴더에 시각화 결과를 png 파일로 저장합니다.
if 'image' not in os.listdir(path = '..'):
    os.mkdir(path = '../image')

In [None]:
# image 폴더로 작업경로를 변경합니다.
os.chdir(path = '../image')

In [None]:
# HTML 파일로 저장합니다.
Map.save(outfile = 'Choropleth.html')

<p style="font-family:verdana;font-size:200%;text-align:center">End of Document</p>