0. 학습 환결 설정하기
1. 데이터셋 불러오기
2. 모델 회귀계수 확인하기
3. 모델 피처 중요도 분석하기
* 출제자: 최민정 강사 (패스트캠퍼스)

## 0. 학습 환경 설정하기

In [None]:
import numpy as np  
import pandas as pd
import matplotlib.pyplot as plt

import pickle ## 데이터 모델 저장하기, 불러오기
import gzip ## 파일 압축하기, 압축풀기
%matplotlib inline

import warnings
warnings.filterwarnings('ignore')

In [None]:
datapath = 'https://github.com/mchoimis/financialML/raw/main/xai/'

In [None]:
from google.colab import drive
drive.mount('/content/gdrive')

In [None]:
! mkdir financialml

In [None]:
! pwd

In [None]:
!cd /content/gdrive/My Drive/Colab Notebooks/

## 1. 데이터셋 불러오기

모델 및 데이터 설명

- `data00` : 이진분류용 데이터

- `data01` : 다중분류용 데이터

- `logreg` : Logistic Regression Classifier (`00`)

- `rfc`    : Random Forest Classifier (`00`, `01`)

- `gbc`    : Gradient Boosting Classifier (`00`)

- `lgbm`   : LightGBM Classifier (`00`, `01`)

In [None]:
modelpath = '/content/gdrive/My Drive/Colab Notebooks/'

with gzip.open(modelpath + 'data00.pickle','rb') as f:
    data00 =  pickle.load(f)
with gzip.open(modelpath + 'data00_X_train.pickle','rb') as f:
    X_train = pickle.load(f)
with gzip.open(modelpath + 'data00_X_test.pickle','rb') as f:
    X_test =  pickle.load(f)    
with gzip.open(modelpath + 'data00_y_train.pickle','rb') as f:
    y_train = pickle.load(f)    
with gzip.open(modelpath + 'data00_y_test.pickle','rb') as f:
    y_test = pickle.load(f)

## 2. 모델 회귀계수 확인하기

In [None]:
# Logistic Regression 이진분류 모델 불러오기
with open(modelpath + 'logreg00.pkl', 'rb') as file:
    logreg =  pickle.load(file)

In [None]:
# X_test 의 컬럼명 확인하기

X_test.columns

In [None]:
# Logistic Regression 이진분류 모델의 회귀계수 확인하기

logreg.coef_

In [None]:
# 데이터 형태 바꾸기

coef = sum(logreg.coef_)
coef

In [None]:
# Logistic Regression 이진분류 모델의 회귀계수 시각화 하기

indices =  np.argsort(coef)  # 회귀계수 크기 순으로 정렬

plt.figure(figsize=(12, 8))
plt.barh(X_test.columns, coef[indices], .35, color='orange', align='center')
plt.yticks(X_test.columns, X_test.columns[indices], fontsize=12)
plt.xlabel('Coefficients (beta)', fontsize=12)
plt.title('Feature Importances - Logistic Regression Coefficients\n', fontsize=15)
plt.show()

## 3. 모델 피처 중요도 분석하기

In [None]:
# 학습에 사용할 데이터를 로드하고 압축 풀기
with gzip.open(modelpath + 'data00_X_train.pickle','rb') as f:
    X_train = pickle.load(f)
with gzip.open(modelpath + 'data00_X_test.pickle','rb') as f:
    X_test = pickle.load(f)    

In [None]:
# Random Forest Classifier를 이용하여 모델 fitting 하기 

from sklearn.ensemble import RandomForestClassifier

rfc =  RandomForestClassifier(random_state = 42).fit(X_train, y_train) ###

In [None]:
# 모델 저장하기

pickle.dump(rfc, open(modelpath + 'rfc00.pkl', 'wb' ))

In [None]:
# 모델 불러오기
with open(modelpath + 'rfc00.pkl', 'rb') as file:
    rfc =  pickle.load(file)

In [None]:
# Random Forest 이진분류 모델의 피처 중요도 확인하기 # MDI

importances =  rfc.feature_importances_
importances 

In [None]:
# Random Forest 이진분류 모델의 피처 중요도 시각화 하기

indices = np.argsort(importances)     # 중요도 크기 순으로 정렬

plt.figure(figsize=(10, 8))

plt.barh(X_test.columns, importances[indices], .35, color='purple', align='center')
plt.yticks(X_test.columns, X_test.columns[indices], fontsize=12)

plt.xlabel('Relative Importance (MDI)', fontsize=12)
plt.title('Feature Importances -- Random Forest Classifier (binary)\n', fontsize=15)
plt.show()

In [None]:
# Gradient Boosting 이진분류 모델 불러오기

with open(modelpath + 'gbc00.pkl', 'rb') as file:
    gbc = pickle.load(file) 

In [None]:
# Gradient Boosting 이진분류 모델의 피처 중요도 확인하기

importances =  gbc.feature_importances_
importances  ###

In [None]:
# Gradient Boosting 이진분류 모델의 피처 중요도 시각화 하기

indices = np.argsort(importances)  # 중요도 크기 순으로 정렬

plt.figure(figsize=(10, 8))

plt.barh(X_test.columns, importances[indices], .35, color='lightgreen', align='center')
plt.yticks(X_test.columns, X_test.columns[indices], fontsize=12)

plt.xlabel('Relative Importance (MDI)', fontsize=12)
plt.title('Feature Importances -- Gradient Boosting Classifier (binary)\n', fontsize=15)
plt.show()

In [None]:
# LightGBM 이진분류 모델 불러오기

with open(modelpath + 'lgbm00.pkl', 'rb') as file:
    lgbm =  pickle.load(file)

In [None]:
# LightGBM 이진분류 모델의 피처 중요도 확인하기 ## 피처별 분기한 회수

importances =  lgbm.feature_importances_
importances ###

In [None]:
# LightGBM 이진분류 모델의 피처 중요도 시각화 하기

indices = np.argsort(importances)   # 중요도 크기 순으로 정렬

plt.figure(figsize=(10, 8))

plt.barh(X_test.columns, importances[indices], .35, color='lightblue', align='center')
plt.yticks(X_test.columns, X_test.columns[indices], fontsize=12)

plt.xlabel('Feature Importance (# of splits)', fontsize=12)
plt.title('Feature Importances -- LGBM Classifier (binary)\n', fontsize=15)
plt.show()

In [None]:
# subplot을 이용하여 4개 이진분류 모델(logreg, gbc, rfc, lgbm)의 회귀계수 및 피처 중요도 시각화 비교하기

plt.figure(figsize=(18, 15))

plt.subplot(2, 2, 1) 
indices_logreg = np.argsort(coef)   ###

plt.title('Logistic Regression Coefficients')
plt.barh(X_test.columns, coef[indices_logreg], .25, color='orange')
plt.yticks(X_test.columns, X_test.columns[indices_logreg])
plt.xlabel('Coefficients (beta)')

plt.subplot(2, 2, 2)
importances_rfc = rfc.feature_importances_  ###
indices_rfc = np.argsort(importances_rfc)  ###

plt.title('Feature Importances -- Random Forest Classifier (binary)')
plt.barh(X_test.columns, importances_rfc[indices_rfc], .25, color='purple')
plt.yticks(X_test.columns, X_test.columns[indices_rfc])
plt.xlabel('Relative Importance (MDI)')

plt.subplot(2, 2, 3)
importances_gbc = gbc.feature_importances_  ###
indices_gbc =  np.argsort(importances_gbc)  ###

plt.title('Feature Importances -- Gradient Boosting Classifier (binary)')
plt.barh(X_test.columns, importances_gbc[indices_gbc], .25, color='lightgreen')
plt.yticks(X_test.columns, X_test.columns[indices_gbc])
plt.xlabel('Relative Importance (MDI)')

plt.subplot(2, 2, 4)
importances_lgbm = lgbm.feature_importances_  ###
indices_lgbm = np.argsort(importances_lgbm)  ###

plt.title('Feature Importances -- LGBM Classifier (binary)')
plt.barh(X_test.columns, importances_lgbm[indices_lgbm], .25, color='lightblue')
plt.yticks(X_test.columns, X_test.columns[indices_lgbm])
plt.xlabel('Feature Importance (# of splits)')

plt.show()

In [None]:
# 분석에 사용할 데이터 불러오기

with gzip.open(modelpath + 'data01.pickle','rb') as f:
    data01 =  pickle.load(f)
with gzip.open(modelpath + 'data01_X_train.pickle','rb') as f:
    x_train = pickle.load(f)
with gzip.open(modelpath + 'data01_X_test.pickle','rb') as f:
    x_test =  pickle.load(f)
with gzip.open(modelpath + 'data01_y_train.pickle','rb') as f:
    y_train01 =  pickle.load(f)     ## 
with gzip.open(modelpath + 'data01_y_test.pickle','rb') as f:
    y_test01 =   pickle.load(f)     ##

In [None]:
# 모델을 선언하고 fitting 하기

rfc1 = RandomForestClassifier().fit(x_train, y_train01)

In [None]:
# x_test의 컬럼명 확인하기

x_test.columns

In [None]:
# Random Forest 다중분류 모델의 피처 중요도 확인하기
importances =  rfc1.feature_importances_
importances

In [None]:
# Random Forest 다중분류 모델의 피처 중요도 시각화 하기

indices = np.argsort(importances)  # 중요도 크기 순으로 정렬

plt.figure(figsize=(10, 8))
plt.barh(x_test.columns, importances[indices], .35, color='purple', align='center')
plt.yticks(x_test.columns, x_test.columns[indices], fontsize=12)
plt.xlabel('Relative Importance', fontsize=12)
plt.title('Feature Importances -- Random Forest Classifier (multiclass)\n', fontsize=15)
plt.show()

In [None]:
# 미리 저장한 LGBM 다중분류 모델 불러오기

with open(modelpath + 'lgbm01.pkl', 'rb') as file:
    lgbm1 =  pickle.load(file)

In [None]:
# LGBM 다중분류 모델의 피처 중요도 확인하기

importances =  lgbm1.feature_importances_
importances

In [None]:
# LGBM 다중분류 모델의 피처 중요도 시각화 하기

indices =  np.argsort(importances)                  # 중요도 크기 순으로 정렬

plt.figure(figsize=(10, 8))
plt.barh(x_test.columns, importances[indices], .35, color='lightblue', align='center')
plt.yticks(x_test.columns, x_test.columns[indices], fontsize=12)

plt.xlabel('Feature Importance', fontsize=12)
plt.title('Feature Importances -- LGBM Classifier (multiclass)\n', fontsize=15)
plt.show()

In [None]:
# subplot을 이용하여 2개 이진분류 모델(rfc1, lgbm1)의 피처 중요도 시각화 비교하기

plt.figure(figsize=(18, 10))

plt.subplot(1, 2, 1) 
importances_rfc = rfc1.feature_importances_  ###
indices_rfc = np.argsort(importances_rfc)  ###

plt.title('Feature Importances -- Random Forest Classifier (multiclass)')
plt.barh(x_test.columns, importances_rfc[indices_rfc], .25, color='purple')
plt.yticks(x_test.columns, x_test.columns[indices_rfc])
plt.xlabel('Relative Importance (MDI)')

plt.subplot(1, 2, 2)
importances_lgbm = lgbm1.feature_importances_  ###
indices_lgbm = np.argsort(importances_lgbm)  ###

plt.title('Feature Importances -- LGBM Classifier (multiclass)')
plt.barh(x_test.columns, importances_lgbm[indices_lgbm], .25, color='lightblue')
plt.yticks(x_test.columns, x_test.columns[indices_lgbm])
plt.xlabel('Feature Importance (# of splits)')

plt.show()