<p style="font-family:verdana;font-size:200%;text-align:center;">아파트가격 데이터 분석</p>

### 부제 : Python을 활용한 아파트가격 결정모형

### 이번 시간 강의 내용

1. 실습 데이터셋 준비 : **requests**, **chardet** & **pandas** 라이브러리
1. 탐색적 데이터 분석
1. 데이터 시각화 : **seaborn** & **matplotlib** 라이브러리
1. 회귀모형 적합 : **statsmodels** & **sklearn** 라이브러리

### 강의자료 준비

* 작업경로로 사용할 폴더를 생성합니다.
 - 문서(Documents) 폴더에 **BC_Korea**라는 폴더를 생성합니다.
 - Windows : 'C:/Users/User_name/Documents/BC_Korea'
 - MacOS : '/Users/User_name/Documents/BC_Korea'


* 이번 강의에 사용될 [코드 및 데이터](https://codeload.github.com/MrKevinNa/BC_Korea/zip/refs/heads/main)를 압축파일로 내려받습니다.
 - 일반적으로 압축파일은 다운로드(Downloads) 폴더에 저장되어 있습니다.
 - 압축파일에는 **code** 및 **data** 폴더가 포함되어 있습니다.
 - 압축파일을 풀고 **code** 및 **data** 폴더를 작업경로인 **BC_Korea** 폴더로 옮깁니다.


* [서울 강남 아파트가격 데이터](http://bit.ly/Gangnam_APT_Price_2020_txt)를 읽고 데이터프레임으로 생성합니다.
 - price : 거래금액 (단위: 억원)
 - date : 거래일자
 - aptName : 아파트단지명
 - dongName : 법정동
 - householdCnt : 아파트단지 세대수
 - floorAreaRate : 아파트단지 용적률
 - parkingLotCnt : 아파트단지 주차대수
 - exclusiveArea : 전용면적
 - floor : 층

### 실습 데이터셋 준비 : requests, chardet & pandas 라이브러리

In [None]:
# 라이브러리를 호출합니다.
import requests, chardet
import numpy as np
import pandas as pd

In [None]:
# 실습 데이터셋이 저장된 URL을 지정합니다.
url = 'http://bit.ly/Gangnam_APT_Price_2020_txt'

In [None]:
# HTTP 요청을 실행합니다.
res = requests.get(url = url)

In [None]:
# HTTP 응답 헤더를 확인합니다. 
# 'Content-Length'와 'Content-Type' 위주로 내용을 확인합니다.
res.headers

In [None]:
# HTTP 응답 상태코드를 확인합니다.
# 200이면 정상입니다.
res.status_code

In [None]:
# HTTP 응답에 포함된 Body(텍스트)의 일부를 문자열(str)로 출력합니다.
# 구분자가 세미콜론인 것을 알 수 있습니다.
res.text[:200]

In [None]:
# HTTP 응답에 포함된 Body(텍스트)의 일부를 바이너리(bytes)로 출력합니다.
res.content[:200]

In [None]:
# 바이너리의 인코딩 방식을 확인합니다.
chardet.detect(res.content[:200])

In [None]:
# 텍스트 파일을 읽고, 데이터프레임 df를 생성합니다.
# 구분자(separator)가 세미콜론(;)이므로 추가해야 합니다. (기본값 : ',')
# 인코딩 방식은 'UTF-8'이므로 추가할 필요 없습니다. 
# 만약 인코딩 방식이 'EUC-KR'이면 encoding = 'EUC-KR'를 추가해야 합니다.
df = pd.read_csv(filepath_or_buffer = url, sep = ';')

In [None]:
# df의 일부를 출력합니다. n 매개변수에 전달되는 인자의 기본값은 5입니다.
df.head(n = 10)

In [None]:
# df의 정보를 확인합니다.
# 행 길이, 열 길이, 열별 결측값 아닌 개수 및 자료형(data type)을 확인합니다.
df.info()

In [None]:
# 열이름을 한글로 변경합니다.
df.columns = ['거래금액', '거래일자', '아파트명', '법정동명', '세대수', '용적률', '주차대수', '전용면적', '층']

In [None]:
# 거래일자를 날짜형으로 변환합니다.
df['거래일자'] = df['거래일자'].astype('str').astype('datetime64')

In [None]:
# df의 열별 자료형을 확인합니다.
df.dtypes

In [None]:
# 거래일자별 빈도수를 확인합니다.
df['거래일자'].value_counts().sort_index().reset_index()

In [None]:
# 거래일자에서 요일을 추출합니다.
df['요일정수'] = df['거래일자'].dt.day_of_week.astype('str')
df['요일'] = df['거래일자'].dt.day_name()

In [None]:
# df의 일부를 출력합니다.
df.head()

- 거래요일이 영문으로 생성되었습니다. 
- 이는 로케일 문제이므로 한글 로케일로 변경하고 변수를 다시 생성해야 합니다.

In [None]:
# 라이브러리를 호출합니다.
import locale

In [None]:
# 현재 설정된 날짜/시간 로케일을 확인합니다.
locale.getlocale(category = locale.LC_TIME)

In [None]:
# 날짜/시간 로케일을 '한국'으로 변경합니다.
# MacOS는 'ko_KR', Windows는 'korean'으로 지정하세요.
locale.setlocale(category = locale.LC_TIME, locale = 'ko_KR')

In [None]:
# 거래일자에서 한글 요일을 추출합니다. '%A'는 '요일'에 해당하는 포맷입니다.
df['요일'] = df['거래일자'].dt.strftime('%A')

In [None]:
# 데이터프레임의 일부를 출력합니다.
df.head()

In [None]:
# 요일정수와 요일을 하나의 문자열로 결합하고, 요일정수를 삭제합니다.
cols = ['요일정수', '요일']
df['요일'] = df[cols].apply(lambda x: '-'.join(x), axis = 1)
df = df.drop(labels = ['요일정수'], axis = 1)

In [None]:
# 데이터프레임의 일부를 출력합니다.
df.head()

In [None]:
# 세대당 주차대수 변수를 생성합니다.
# 반올림하여 소수점 둘째자리까지 남깁니다.
df['세대주차'] = (df['주차대수'] / df['세대수']).round(2)

In [None]:
# 데이터프레임의 일부를 출력합니다.
df.head()

### 탐색적 데이터 분석

- 숫자형 변수와 문자형 변수의 기술통계량 확인
- 숫자형 입력변수와 목표변수(거래금액)의 상관관계 확인
- 숫자형 입력변수간 상관관계 확인 : 다중공선성 입력변수 탐색

In [None]:
# 지수표현식으로 출력되지 않도록 하는 설정합니다.
# [참고] 모든 실수가 소수점 넷째 자리까지 출력되므로 불편할 수 있습니다.
# pd.options.display.float_format = '{:.4f}'.format

# 숫자형 변수(열)의 기술통계량을 확인합니다.
df.describe()

In [None]:
# 문자형 변수(열)의 기술통계량을 확인합니다.
df.describe(include = 'object')

#### 피어슨 상관분석

In [None]:
# 라이브러리를 호출합니다.
from scipy import stats

In [None]:
# 입력변수명을 리스트로 생성합니다.
cols = ['세대수', '용적률', '주차대수', '전용면적', '층', '세대주차']

In [None]:
# 입력변수와 목표변수의 피어슨 상관분석 결과를 데이터프레임으로 생성합니다.
# apply() 함수를 이용하여 입력변수별로 반복 실행합니다.
corr = df[cols].apply(lambda x: stats.pearsonr(x = x, y = df['거래금액']), axis = 0).round(4)

In [None]:
# corr을 출력합니다.
corr

In [None]:
# corr의 행이름을 변경합니다.
corr.index = ['상관계수', '유의확률']

In [None]:
# corr을 다시 출력합니다.
corr

In [None]:
# 숫자형 입력변수간 피어슨 상관계수 행렬 출력합니다. (다중공선성 입력변수 탐색)
# 주대각원소는 자기 자신과의 상관계수이므로 1이 됩니다.
df[cols].corr()

In [None]:
# 상관계수가 0.8 이상인 관계가 있는지 확인합니다.
# True에 해당하는 입력변수는 '세대수와 주차대수'입니다.
df[cols].corr() >= 0.8

### 데이터 시각화 : seaborn & matplotlib 라이브러리

### 그래프 옵션 및 폰트 설정

In [None]:
# 라이브러리를 호출합니다.
import seaborn as sns
import matplotlib.pyplot as plt
import matplotlib.font_manager as fm
%matplotlib inline

In [None]:
# 그래프의 크기와 해상도를 설정합니다.
plt.rcParams['figure.figsize'] = (8, 4)
plt.rcParams['figure.dpi'] = 100

#### 구글 폰트에 등록된 한글 폰트를 설치하는 방법을 소개합니다.

- [구글 폰트](https://fonts.google.com/?subset=korean)에서 원하는 한글 폰트를 선택합니다.
- 한글 폰트를 압축파일을 내려받습니다.
- 다운로드 폴더로 이동하여 압출파일을 풀면 **ttf(true type font)** 파일이 포함되어 있습니다.
- **ttf** 파일에서 마우스 오른쪽 버튼을 클릭하고, **설치** 메뉴를 선택하면 폰트가 설치됩니다.

In [None]:
# 사용 중인 컴퓨터에 설치된 폰트 목록을 생성합니다.
fontList = fm.findSystemFonts(fontext = 'ttf')

In [None]:
# 설치된 폰트 개수를 확인합니다.
len(fontList)

In [None]:
# 폰트 목록의 일부를 출력합니다.
fontList[0:10]

In [None]:
# 원하는 한글 폰트명으로 폰트 경로를 찾습니다.
fontPath = [font for font in fontList if 'GamjaFlower' in font]

In [None]:
# 한글 폰트 경로를 출력하고, 원하는 것을 선택합니다.
for i, e in enumerate(fontPath):
    print(i, e)

In [None]:
# 한글 폰트 정보를 생성합니다.
fontProp = fm.FontProperties(fname = fontPath[0])

In [None]:
# 한글 폰트와 글자 크기를 설정합니다.
plt.rcParams['font.family'] = fontProp.get_name()
plt.rcParams['font.size'] = 12

#### 목표변수의 분포 확인

In [None]:
# 목표변수의 최소값과 최대값을 확인합니다.
df['거래금액'].describe()[['min', 'max']]

In [None]:
# 히스토그램의 계급(경계)을 설정합니다.
# 히스토그램의 계급은 최소값보다 작은 숫자로 시작하고, 최대값보다 큰 숫자로 끝나야 합니다.
bins = np.arange(0, 68, 1)

In [None]:
# 히스토그램을 그립니다.
sns.histplot(data = df, x = '거래금액', bins = bins, color = 'pink')
plt.title(label = '아파트 거래금액 분포')
plt.xlabel(xlabel = '거래금액(억원)')
plt.ylabel(ylabel = '거래건수');

#### 입력변수와 목표변수의 선형관계 확인 (산점도 & 회귀직선)

In [None]:
# 산점도와 회귀직선을 시각화하는 함수를 정의합니다.
# 매개변수로 data(데이터프레임), x(입력변수명) 및 y(목표변수명)을 설정합니다.
def drawScatter(data, x, y):
    sns.regplot(data = data, x = x, y = y, color = 'black')
    sns.scatterplot(data = data, x = x, y = y, color = 'darkred', alpha = 0.5)
    plt.title(label = f'{x} 및 {y}의 관계');

In [None]:
# 세대수와 거래금액의 선형관계를 확인합니다.
drawScatter(data = df, x = '세대수', y = '거래금액')

In [None]:
# 용적률과 거래금액의 선형관계를 확인합니다.
drawScatter(data = df, x = '용적률', y = '거래금액')

In [None]:
# 주차대수와 거래금액의 선형관계를 확인합니다.
drawScatter(data = df, x = '주차대수', y = '거래금액')

In [None]:
# 전용면적과 거래금액의 선형관계를 확인합니다.
drawScatter(data = df, x = '전용면적', y = '거래금액')

In [None]:
# 층과 거래금액의 선형관계를 확인합니다.
drawScatter(data = df, x = '층', y = '거래금액')

In [None]:
# 세대주차와 거래금액의 선형관계를 확인합니다.
drawScatter(data = df, x = '세대주차', y = '거래금액')

In [None]:
# 요일별 거래금액의 평균을 계산합니다.
weekdayMeanPrice = df.groupby('요일').mean()[['거래금액']].sort_index().reset_index()

In [None]:
# weekdayMeanPrice를 출력합니다.
weekdayMeanPrice

In [None]:
# 상자수염그림으로 요일별 거래금액의 분포를 비교합니다.
sns.boxplot(data = df, x = '요일', y = '거래금액', 
            order = weekdayMeanPrice['요일'], palette = 'Spectral')
sns.scatterplot(data = weekdayMeanPrice, x = '요일', y = '거래금액', 
                color = 'red', edgecolor = 'black', s = 50)
plt.axhline(y = df['거래금액'].mean(), color = 'red', linewidth = 2)
plt.title(label = '요일별 거래금액의 분포 비교');

### 다중선형 회귀분석 : statsmodels & sklearn 라이브러리

#### 실습 데이터셋 분할

In [None]:
# 관련 라이브러리를 호출합니다.
from sklearn.model_selection import train_test_split

In [None]:
# 데이터프레임의 열이름을 출력합니다.
df.columns

In [None]:
# 필요 없는 변수를 삭제합니다.
df = df.drop(labels = ['거래일자', '아파트명', '법정동명', '요일'], axis = 1)

In [None]:
# 목표변수를 지정합니다.
yvar = '거래금액'

In [None]:
# 입력변수 행렬 X와 목표변수 벡터 y를 각각 생성합니다.
X, y = df.drop(labels = [yvar], axis = 1), df[yvar]

In [None]:
# 전체 데이터의 70%를 훈련셋, 30%를 시험셋으로 분할합니다.
X_trn, X_tst, y_trn, y_tst = train_test_split(X, y, test_size = 0.3, random_state = 1234)

In [None]:
# 훈련셋과 시험셋의 목표변수 평균을 확인합니다.
print(y_trn.mean())
print(y_tst.mean())

#### 다중선형 회귀모형 적합

In [None]:
# 라이브러리를 호출합니다.
import statsmodels.api as sm

In [None]:
# 훈련셋 입력변수 행렬에 y절편의 역할을 수행할 상수 1을 추가합니다.
X_trn = sm.add_constant(data = X_trn)

In [None]:
# 다중선형 회귀모형을 반환하는 함수를 정의합니다.
def ols(y, X):
    model = sm.OLS(endog = y, exog = X)
    return model.fit()

In [None]:
# 훈련셋으로 다중선형 회귀모형 적합 결과를 확인합니다.
ols(y = y_trn, X = X_trn).summary()

#### 분산팽창지수 확인 : 다중공선성 입력변수 탐색

In [None]:
# 입력변수별 분산팽창지수를 출력하는 함수를 정의합니다.
def vif(X):
    
    # 라이브러리를 호출합니다.
    from statsmodels.stats import outliers_influence as oi
    
    # 입력변수별 분산팽창지수를 계산하는 함수를 설정합니다.
    func = oi.variance_inflation_factor
    
    # X의 열 길이를 ncol에 지정합니다.
    ncol = X.shape[1]
    
    # X의 두 번째 열부터 끝까지 반복하며 분산팽창지수를 계산합니다.
    vifs = [func(exog = X.values, exog_idx = i) for i in range(1, ncol)]
    
    # 분산팽창지수를 데이터프레임으로 생성합니다. 열이름은 입력변수명으로 설정합니다.
    result = pd.DataFrame(data = vifs, index = X.columns[1:]).T
    
    # 결과를 반환합니다.
    return result

In [None]:
# 훈련셋의 입력변수별 분산팽창지수를 출력합니다.
vif(X = X_trn)

In [None]:
# 분산팽창지수가 5 이상인 입력변수 중 가장 큰 입력변수를 훈련셋에서 삭제합니다.
X_trn = X_trn.drop(labels = ['주차대수'], axis = 1)

In [None]:
# 훈련셋의 일부를 출력합니다.
X_trn.head()

In [None]:
# 훈련셋의 입력변수별 분산팽창지수를 다시 출력합니다.
vif(X = X_trn)

In [None]:
# 변경된 훈련셋으로 다중선형 회귀모형 적합 결과를 확인합니다.
ols(y = y_trn, X = X_trn).summary()

In [None]:
# 회귀계수의 유의성 검정을 통과하지 못한 입력변수가 없습니다.
# 최종모형을 fit1으로 생성합니다.
fit1 = ols(y = y_trn, X = X_trn)

#### 표준화 회귀계수 확인

In [None]:
# 다중선형 회귀모형의 회귀계수만 출력합니다.
fit1.params

In [None]:
# 입력변수의 표준편차를 목표변수의 표준편차로 나눈 값을 출력합니다.
X_trn.std() / y_trn.std()

In [None]:
# 표준화 회귀계수를 생성합니다.
beta_z = fit1.params * (X_trn.std() / y_trn.std())

In [None]:
# 표준화 회귀계수의 절대값을 오름차순으로 정렬하여 출력합니다.
beta_z.abs().sort_values()

#### 목표변수의 추정값 생성

In [None]:
# 훈련셋에서 삭제했던 입력변수를 시험셋에서도 삭제합니다.
X_tst = X_tst.drop(labels = ['주차대수'], axis = 1)

In [None]:
# 시험셋에 상수항을 추가합니다.
X_tst = sm.add_constant(data = X_tst)

In [None]:
# 훈련셋과 시험셋으로 다중선형 회귀모형의 추정값을 생성합니다.
y_trn_pred1 = fit1.predict(exog = X_trn)
y_tst_pred1 = fit1.predict(exog = X_tst)

#### 회귀모형 성능 평가 : MSE, RMSE, MAE, MAPE

In [None]:
# 라이브러리를 호출합니다.
from sklearn.metrics import *

In [None]:
# 훈련셋과 시험셋의 MSE를 비교합니다.
print(mean_squared_error(y_true = y_trn, y_pred = y_trn_pred1).round(4))
print(mean_squared_error(y_true = y_tst, y_pred = y_tst_pred1).round(4))

In [None]:
# 훈련셋과 시험셋의 RMSE를 비교합니다.
print((mean_squared_error(y_true = y_trn, y_pred = y_trn_pred1)**(1/2)).round(4))
print((mean_squared_error(y_true = y_tst, y_pred = y_tst_pred1)**(1/2)).round(4))

In [None]:
# 훈련셋과 시험셋의 MAE를 비교합니다.
print(mean_absolute_error(y_true = y_trn, y_pred = y_trn_pred1).round(4))
print(mean_absolute_error(y_true = y_tst, y_pred = y_tst_pred1).round(4))

In [None]:
# 훈련셋과 시험셋의 MAPE를 비교합니다.
print(mean_absolute_percentage_error(y_true = y_trn, y_pred = y_trn_pred1).round(4))
print(mean_absolute_percentage_error(y_true = y_tst, y_pred = y_tst_pred1).round(4))

### 회귀나무 : sklearn & graphviz 라이브러리

### graphviz 라이브러리

* Python에서 의사결정나무모형을 시각화할 때 사용하는 라이브러리 입니다.


* OS에 상관없이 **Jupyter 초기 화면에서 Terminal**을 열고 아래와 같이 설치하면 됩니다.
 - Python을 설치했다면 **pip install graphviz** 코드를 실행합니다.
 - Anaconda를 설치했다면 **conda install graphviz** 코드를 추가 실행합니다.


* Windows 사용자는 아래 가이드를 따라서 추가 실행하시기 바랍니다. ([관련 블로그](https://kbj96.tistory.com/26)를 참고하세요.)
 - Anaconda에서 설치된 패키지 폴더를 덮어쓰기 해야 합니다.
   - **C:/Users/User_ID/anaconda3/Library/bin/graphviz** 폴더를 복사합니다. (User_ID는 사용자 계정입니다!)
   - **C:/Users/User_ID/anaconda3/Lib/site-packages** 폴더에 덮어씁니다.
   
   
 - [Graphviz](https://graphviz.org/download)에 접속하여 Windows용 exe 파일을 내려 받습니다.
   - Windows 10 (64-bit): **stable_windows_10_cmake_Release_x64_graphviz-install-2.47.3-win64.exe**
   - Windows 10 (32-bit): stable_windows_10_cmake_Release_Win32_graphviz-install-2.47.3-win32.exe
   
   
 - 내려받은 exe 파일을 설치합니다. 프로그램을 설치할 위치를 **C:/Program Files (x86)/Graphviz**로 변경합니다.
 
 
 - 제어판에서 **시스템 환경 변수 편집**을 열고, 환경변수에 Graphviz 경로를 추가합니다.
   - Windows 화면 왼쪽 아래에 있는 돋보기 아이콘 검색창에서 **환경 변수**를 입력하면 쉽게 찾을 수 있습니다.
   - 환경 변수는 **사용자 변수**와 **시스템 변수** 등 2가지가 있습니다.
   
   
 - **사용자 변수**의 **Path**를 선택하고 **편집** 버튼을 클릭하면 열리는 팝업 창의 오른쪽 **새로 만들기** 버튼을 클릭합니다.
   - **C:/Program Files (x86)/Graphviz/bin**을 입력하고 **확인** 버튼을 클릭합니다.
   
   
 - **시스템 변수**의 **Path**를 선택하고 **편집** 버튼을 클릭하면 열리는 팝업 창의 오른쪽 **새로 만들기** 버튼을 클릭합니다.
   - **C:/Users/User_ID/anaconda3/Lib/site-packages/graphviz**를 입력하고 **확인** 버튼을 클릭합니다.

In [None]:
# 라이브러리를 호출합니다.
from sklearn.tree import DecisionTreeRegressor
import os
from sklearn.tree import export_graphviz
import graphviz
from IPython.display import Image

#### 실습 데이터셋 분할

In [None]:
# 다중선형 회귀모형을 적합할 때, 일부 입력변수를 제거했으므로 실습 데이터셋 분할을 다시 실행합니다.
# 전체 데이터의 70%를 훈련셋, 30%를 시험셋으로 분할합니다.
X_trn, X_tst, y_trn, y_tst = train_test_split(X, y, test_size = 0.3, random_state = 1234)

#### 회귀나무모형 적합

In [None]:
# 가지치기 전 회귀나무모형을 설정합니다.
fit2 = DecisionTreeRegressor(
    max_depth = 10,
    min_samples_split = 20,
    min_samples_leaf = 10,
    random_state = 1234
)

In [None]:
# 가지치기 전 회귀나무모형을 적합합니다.
fit2.fit(X = X_trn, y = y_trn)

In [None]:
# 가지치기 전 회귀나무모형의 파라미터를 확인합니다.
fit2.get_params()

In [None]:
# 가지치기 전 회귀나무모형의 끝마디 개수를 출력합니다.
fit2.get_n_leaves()

#### 회귀나무모형의 시각화

In [None]:
# 현재 작업경로를 확인합니다.
os.getcwd()

In [None]:
# 현재 작업경로의 상위 폴더에 image 폴더가 없으면 생성합니다.
# image 폴더에 시각화 결과를 png 파일로 저장합니다.
if 'image' not in os.listdir(path = '..'):
    os.mkdir(path = '../image')

In [None]:
# image 폴더로 작업경로를 변경합니다.
os.chdir(path = '../image')

In [None]:
# dot 파일을 생성합니다.
# filled = True : 노드의 채우기 색을 목표변수의 비중에 따라 다르게 설정합니다.
# leaves_parallel = False : 끝마디를 맨 아래로 정렬하지 않습니다.
# impurity = True : 노드에 분산(mse)을 출력합니다.
export_graphviz(
    decision_tree = fit2,
    out_file = 'reg_tree2.dot',
    feature_names = X_trn.columns,
    filled = True,
    leaves_parallel = False,
    impurity = True,
)

In [None]:
# dot 파일을 읽습니다.
dot_graph = open(file = 'reg_tree2.dot', mode = 'rt', encoding = 'UTF8').read()

In [None]:
# png 파일로 저장합니다.
graph = graphviz.Source(source = dot_graph, format = 'png').render(filename = 'reg_tree2')

In [None]:
# 작은 이미지로 출력합니다.
Image(data = 'reg_tree2.png')

#### 변수의 중요도 시각화

In [None]:
# 변수의 중요도를 시각화하는 함수를 정의합니다.
def plot_feature_importance(model, column_names):
    
    # 변수의 중요도를 데이터프레임으로 생성합니다.
    imp = pd.DataFrame(
        data = model.feature_importances_.round(2), 
        index = column_names, 
        columns = ['Imp']
    )
    
    # 변수의 중요도 기준으로 내림차순 정렬하고, 행이름을 초기화합니다.
    imp = imp.sort_values(by = ['Imp'], ascending = False).reset_index()
    
    # 변수의 중요도로 가로 방향의 막대그래프를 그립니다.
    sns.barplot(data = imp, x = 'Imp', y = 'index')
    
    # 막대그래프의 오른쪽 끝에 변수의 중요도를 텍스트로 추가합니다.
    for index, row in imp.iterrows():
        plt.text(x = row['Imp']+0.01, y = index, s = row['Imp'], 
                 ha = 'left', va = 'center', fontsize = 11)
    
    # x축의 범위를 제한합니다.
    plt.xlim(0, imp['Imp'].max()*1.1)
    
    # 막대그래프의 제목, x축명 및 y축명을 설정합니다.
    plt.title(label = '입력변수의 중요도')
    plt.xlabel(xlabel = 'Feature Importances')
    plt.ylabel(ylabel = 'Feature');

In [None]:
# 변수의 중요도를 시각화합니다.
plot_feature_importance(model = fit2, column_names = X_trn.columns)

#### 회귀모형 성능 평가 : MSE, RMSE, MAE, MAPE

In [None]:
# 훈련셋과 시험셋으로 가지치기 전 회귀나무모형의 추정값을 생성합니다.
y_trn_pred2 = fit2.predict(X = X_trn)
y_tst_pred2 = fit2.predict(X = X_tst)

In [None]:
# 훈련셋과 시험셋의 MSE를 비교합니다.
print(mean_squared_error(y_true = y_trn, y_pred = y_trn_pred2).round(4))
print(mean_squared_error(y_true = y_tst, y_pred = y_tst_pred2).round(4))

In [None]:
# 훈련셋과 시험셋의 RMSE를 비교합니다.
print((mean_squared_error(y_true = y_trn, y_pred = y_trn_pred2)**(1/2)).round(4))
print((mean_squared_error(y_true = y_tst, y_pred = y_tst_pred2)**(1/2)).round(4))

In [None]:
# 훈련셋과 시험셋의 MAE를 비교합니다.
print(mean_absolute_error(y_true = y_trn, y_pred = y_trn_pred2).round(4))
print(mean_absolute_error(y_true = y_tst, y_pred = y_tst_pred2).round(4))

In [None]:
# 훈련셋과 시험셋의 MAPE를 비교합니다.
print(mean_absolute_percentage_error(y_true = y_trn, y_pred = y_trn_pred2).round(4))
print(mean_absolute_percentage_error(y_true = y_tst, y_pred = y_tst_pred2).round(4))

#### 사후 가지치기

In [None]:
# 회귀나무모형에 대해 사후 가지치기 필요 여부를 확인합니다.
prune = fit2.cost_complexity_pruning_path(X = X_trn, y = y_trn)

In [None]:
# prune을 출력합니다.
# prune은 비용 복잡도 파라미터(ccp_alphas)와 대응하는 순수도(impurities)를 갖습니다.
prune

In [None]:
# 비용 복잡도 파라미터만 따로 선택합니다.
alphas = prune.ccp_alphas

In [None]:
# 비용 복잡도 파라미터에 따라 회귀나무모형을 적합하고, 리스트로 저장합니다.
trees = []
for alpha in alphas:
    tree = DecisionTreeRegressor(
        max_depth = 10,
        min_samples_split = 20,
        min_samples_leaf = 10,
        random_state = 1234, 
        ccp_alpha = alpha
    )
    tree.fit(X = X_trn, y = y_trn)
    trees.append(tree)

In [None]:
# 시험셋으로 개별 회귀나무모형의 정확도(accuracy)를 계산하고, 리스트로 저장합니다.
tst_score = [tree.score(X = X_tst, y = y_tst) for tree in trees]

In [None]:
# 사후 가지치기를 시각화하는 함수를 정의합니다.
def plot_ccp(alphas, score):
    
    # 비용 복잡도 파라미터와 시험셋의 정확도로 데이터프레임을 생성합니다.
    tst_error = pd.DataFrame({'alphas': alphas, 'score': score})
    
    # 선그래프를 그립니다.
    sns.pointplot(data = tst_error, x = 'alphas', y = 'score', scale = 0.5)
    
    # 그래프 제목과 x축명을 설정합니다.
    plt.title(label = '비용 복잡도 파라미터에 따른 시험셋의 성능 변화')
    plt.xlabel(xlabel = '비용 복잡도 파라미터')
    
    # x축 눈금을 30도 회전시킵니다.
    plt.xticks(rotation = 30);

In [None]:
# 비용 복잡도 파라미터에 대응하는 시험셋의 정확도를 선그래프로 그립니다.
plot_ccp(alphas = alphas.round(0), score = tst_score)

In [None]:
# 시험셋의 정확도가 가장 높은 비용 복잡도 파라미터 값을 확인합니다.
alpha = alphas[tst_score == max(tst_score)]
print(alpha)

In [None]:
# 가지치기 후 회귀나무모형을 설정합니다.
# [참고] 알파가 여러 개일 때 최대값을 선택하여, 끝마디 개수를 최소화합니다.
fit3 = DecisionTreeRegressor(
    max_depth = 10,
    min_samples_split = 20,
    min_samples_leaf = 10,
    random_state = 1234, 
    ccp_alpha = alpha.max()
)

In [None]:
# 가지치기 후 회귀나무모형을 적합합니다.
fit3.fit(X = X_trn, y = y_trn)

In [None]:
# 가지치기 후 회귀나무모형의 파라미터를 확인합니다.
fit3.get_params()

In [None]:
# 가지치기 후 회귀나무모형의 끝마디 개수를 출력합니다.
fit3.get_n_leaves()

In [None]:
# 가지치기 후 회귀나무모형을 시각화합니다.
export_graphviz(
    decision_tree = fit3,
    out_file = 'reg_tree3.dot',
    feature_names = X_trn.columns,
    filled = True,
    leaves_parallel = False,
    impurity = True,
)

In [None]:
# dot 파일을 읽습니다.
dot_graph = open(file = 'reg_tree3.dot', mode = 'rt', encoding = 'UTF8').read()

In [None]:
# png 파일로 저장합니다.
graph = graphviz.Source(source = dot_graph, format = 'png').render(filename = 'reg_tree3')

In [None]:
# 작은 이미지로 출력합니다.
Image(data = 'reg_tree3.png')

In [None]:
# 변수의 중요도를 출력합니다.
plot_feature_importance(model = fit3, column_names = X_trn.columns)

In [None]:
# 시험셋으로 가지치기 후 회귀나무모형의 추정값을 생성합니다.
y_tst_pred3 = fit3.predict(X = X_tst)

In [None]:
# 가지치기 전후 회귀나무모형의 RMSE를 비교합니다.
print((mean_squared_error(y_true = y_tst, y_pred = y_tst_pred2)**(1/2)).round(4))
print((mean_squared_error(y_true = y_tst, y_pred = y_tst_pred3)**(1/2)).round(4))

In [None]:
# 가지치기 전후 회귀나무모형의 MAPE를 비교합니다.
print(mean_absolute_percentage_error(y_true = y_tst, y_pred = y_tst_pred2).round(4))
print(mean_absolute_percentage_error(y_true = y_tst, y_pred = y_tst_pred2).round(4))

<p style="font-family:verdana;font-size:200%;text-align:center;">End of Document</p>