# < 필요한 기본 패키지 임포트 및 환경 설정 > 

In [488]:
import pandas as pd
import numpy as np

import warnings
import platform
import matplotlib.pyplot as plt

path = "c:/Windows/Fonts/malgun.ttf"
from matplotlib import font_manager, rc
if platform.system() == 'Darwin':
    rc('font', family='AppleGothic')
elif platform.system() == 'Windows':
    font_name = font_manager.FontProperties(fname=path).get_name()
    rc('font', family=font_name)
else:
    print('Unknown system... sorry~~~~')    

plt.rcParams['axes.unicode_minus'] = False

warnings.filterwarnings(action='ignore') 

import warnings
warnings.filterwarnings(module='sklearn*', action='ignore', category=DeprecationWarning)

# 1. 입학초 신입생 중도탈락 예측모형 개발
## 1-1) 과거(前) 입학초신입생데이터 수집
* 엑셀(excel)에 저장되어 있는 예측모형구축용 과거 입학초신입생 원천데이터셋을 데이터프레임으로 읽어들임
* 고교학업역량이나 일부 사회심리적기초조사 항목(자신감결여, 의욕저하, 경제여건 등)에서 역코딩(reverse coding)은 반영되었다고 가정함
* 과거 입학초신입생은 21/22학년도 2개년 신입생이며, 사회심리적기초조사는 입학초에 실시한 결과이고 중도탈락여부는 당해 9월 1일 기준임 

In [489]:
# 예측모형구축용 과거 입학초신입생 원천데이터셋을 데이터프레임으로 읽어들임
rawData_org = pd.read_excel('과거_입학초신입생_원천데이터셋.xlsx', sheet_name = '예측모형구축용')

# 과거 입학초신입생 원천데이터셋을 저장하는 데이터프레임 확인
rawData_org

Unnamed: 0,학생ID,소속학과,성별,나이,거주지,입학전형차수,입학전형구분,출신고교유형,고교학업역량,대학만족,학과만족,진로확신,대학생활,정서안정,경제여건,주변지지,중도탈락여부
0,2756,건축과,남,23,서울특별시 구로구,수시1차,특별전형-일반고,일반고,1.8007,5.0,5.0,5.0,5.0,5.0,5.0,5.0,0
1,2757,건축과,남,19,경기도 광명시,수시1차,특별전형-일반고,일반고,4.8083,4.5,4.3,4.3,3.7,1.0,2.5,5.0,0
2,2758,건축과,남,23,경기도 안양시,수시1차,특별전형-일반고,일반고,3.6185,3.8,3.7,3.7,4.0,3.5,2.0,4.0,0
3,2759,건축과,남,19,전라북도 전주시,수시1차,특별전형-일반고,일반고,2.0236,3.0,5.0,4.3,5.0,5.0,3.0,5.0,1
4,2760,건축과,남,20,경기도 화성시,수시1차,특별전형-일반고,일반고,3.2368,5.0,4.3,4.0,3.7,3.0,3.0,5.0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4733,8121,유통물류과,여,25,경기도 안양시,후기편입학,편입학 1학년,일반고,,,,,,,,,0
4734,8122,경영학과,남,21,경기도 안산시,후기편입학,편입학 1학년,일반고,,,,,,,,,0
4735,8123,영상콘텐츠과 영상콘텐츠제작전공,여,20,경기도 군포시,후기편입학,편입학 1학년,일반고,,,,,,,,,0
4736,8124,게임콘텐츠과,남,44,경기도 안양시,후기편입학,편입학 1학년,일반고,,,,,,,,,0


## 1-2) 예측모형구축용 데이터셋 EDA 및 전처리
(1) 원천데이터셋을 구성하는 각 변수(특성)의 값 분포를 파악<br>
(2) 원천데이터셋에 존재하는 결측치(missing value) 처리<br>
(3) 원천데이터셋을 구성하는 각 변수 간의 상관 관계를 파악<br>
(4) 원천데이터셋의 변수가 너무 많을 경우, 분석차원의 축소(또는 제거)<br>
(5) 범주형 특성(categrical feature)에 대한 인코딩<br>

### (1-2-1) 원천데이터셋을 구성하는 각 변수(특성)의 값 분포 파악

In [490]:
# NULL값의 개수 구하기
rawData_org.isnull().sum()

학생ID        0
소속학과        0
성별          0
나이          0
거주지        17
입학전형차수      0
입학전형구분      0
출신고교유형      0
고교학업역량    214
대학만족      245
학과만족      245
진로확신      245
대학생활      245
정서안정      245
경제여건      245
주변지지      245
중도탈락여부      0
dtype: int64

In [491]:
# 수치형 컬럼 각각에 대한 건수, 평균, 표준편차, 최소값, 25분위값, 50분위값, 75분위값, 최대값 구하기
rawData_org[['나이','고교학업역량','대학만족','학과만족','진로확신','대학생활','정서안정','경제여건','주변지지']].describe()

Unnamed: 0,나이,고교학업역량,대학만족,학과만족,진로확신,대학생활,정서안정,경제여건,주변지지
count,4738.0,4524.0,4493.0,4493.0,4493.0,4493.0,4493.0,4493.0,4493.0
mean,19.515407,4.421369,3.995615,4.190452,4.212953,4.292321,3.526041,3.196083,4.389272
std,3.023145,1.081218,0.735396,0.723111,0.780256,0.674788,0.955424,1.044454,0.85843
min,16.0,0.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0
25%,19.0,3.75,3.5,3.7,3.7,4.0,3.0,2.5,4.0
50%,19.0,4.4601,4.0,4.3,4.3,4.3,3.5,3.0,5.0
75%,19.0,5.15195,4.5,5.0,5.0,5.0,4.0,4.0,5.0
max,77.0,8.3148,5.0,5.0,5.0,5.0,5.0,5.0,5.0


In [492]:
# 범주형 컬럼 각각에 대한 값의 분포
# 소속학과별 건수 (건수 내림차순으로 정렬)
rawData_org[['소속학과','학생ID']].groupby('소속학과').학생ID.agg(['count']).sort_values(by=['count'], ascending=False)

Unnamed: 0_level_0,count
소속학과,Unnamed: 1_level_1
호텔외식조리과 호텔조리전공,264
항공서비스과,238
유아교육과,228
뷰티스타일리스트과 헤어디자인전공,171
사회복지과 사회복지전공,170
보건의료행정과,165
관광과 호텔관광전공,162
컴퓨터소프트웨어과,153
실내건축과,148
건축과,144


In [493]:
# 성별 건수 (건수 내림차순으로 정렬)
rawData_org[['성별','학생ID']].groupby('성별').학생ID.agg(['count']).sort_values(by=['count'], ascending=False)

Unnamed: 0_level_0,count
성별,Unnamed: 1_level_1
여,2646
남,2092


In [494]:
# 거주지별 건수 (건수 내림차순으로 정렬)
rawData_org[['거주지','학생ID']].groupby('거주지').학생ID.agg(['count']).sort_values(by=['count'], ascending=False)

Unnamed: 0_level_0,count
거주지,Unnamed: 1_level_1
경기도 안양시,615
경기도 시흥시,273
경기도 수원시,267
경기도 안산시,242
경기도 군포시,240
...,...
부산광역시 북구,1
전라남도 해남군,1
경상남도 창녕군,1
전라북도 김제시,1


In [495]:
# 입학전형차수별 건수 (건수 내림차순으로 정렬)
rawData_org[['입학전형차수','학생ID']].groupby('입학전형차수').학생ID.agg(['count']).sort_values(by=['count'], ascending=False)

Unnamed: 0_level_0,count
입학전형차수,Unnamed: 1_level_1
수시1차,2758
수시2차,1333
정시,423
정시 자율,133
산업체위탁,75
후기편입학,16


In [496]:
# 입학전형구분별 건수 (건수 내림차순으로 정렬)
rawData_org[['입학전형구분','학생ID']].groupby('입학전형구분').학생ID.agg(['count']).sort_values(by=['count'], ascending=False)

Unnamed: 0_level_0,count
입학전형구분,Unnamed: 1_level_1
특별전형-일반고,3017
특별전형-특성화고,808
일반전형,633
기초수급자/차상위계층전형,128
산업체위탁교육전형,75
농어촌전형,35
편입학 1학년,16
연계고교전형,15
대졸자전형,11


In [497]:
# 출신고교유형별 건수 (건수 내림차순으로 정렬)
rawData_org[['출신고교유형','학생ID']].groupby('출신고교유형').학생ID.agg(['count']).sort_values(by=['count'], ascending=False)

Unnamed: 0_level_0,count
출신고교유형,Unnamed: 1_level_1
일반고,3648
특성화고,930
검정고시,82
기타,46
산업수요맞춤형고,17
예술고,6
외고,6
체육고,2
국제고,1


In [498]:
# 중도탈락여부별 건수 (건수 내림차순으로 정렬)
rawData_org[['중도탈락여부','학생ID']].groupby('중도탈락여부').학생ID.agg(['count']).sort_values(by=['count'], ascending=False)

Unnamed: 0_level_0,count
중도탈락여부,Unnamed: 1_level_1
0,4271
1,467


### (1-2-2) 원천데이터셋에 존재하는 결측치(missing value) 처리
* 총 4,738건 중 424건이 결측치로 인한 제거 대상 건(row)으로 제거 대상 건이 크지 않고 결측치를 채움으로 인한 왜곡현상도 있을 수 있어 제거 방식을 택함

In [499]:
# 결측치 제거 (row-wise deletion)
rawData_org.dropna(inplace=True)
rawData_org

Unnamed: 0,학생ID,소속학과,성별,나이,거주지,입학전형차수,입학전형구분,출신고교유형,고교학업역량,대학만족,학과만족,진로확신,대학생활,정서안정,경제여건,주변지지,중도탈락여부
0,2756,건축과,남,23,서울특별시 구로구,수시1차,특별전형-일반고,일반고,1.8007,5.0,5.0,5.0,5.0,5.0,5.0,5.0,0
1,2757,건축과,남,19,경기도 광명시,수시1차,특별전형-일반고,일반고,4.8083,4.5,4.3,4.3,3.7,1.0,2.5,5.0,0
2,2758,건축과,남,23,경기도 안양시,수시1차,특별전형-일반고,일반고,3.6185,3.8,3.7,3.7,4.0,3.5,2.0,4.0,0
3,2759,건축과,남,19,전라북도 전주시,수시1차,특별전형-일반고,일반고,2.0236,3.0,5.0,4.3,5.0,5.0,3.0,5.0,1
4,2760,건축과,남,20,경기도 화성시,수시1차,특별전형-일반고,일반고,3.2368,5.0,4.3,4.0,3.7,3.0,3.0,5.0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4709,7747,K-POP과,남,19,경상남도 창원시,수시2차,일반전형,일반고,3.8432,4.3,4.7,4.3,4.3,2.5,2.0,3.0,0
4710,7748,K-POP과,여,20,경기도 안양시,수시2차,일반전형,일반고,2.4028,3.5,3.7,3.0,3.3,3.5,4.5,5.0,0
4711,7749,K-POP과,남,19,경기도 안성시,수시2차,일반전형,일반고,3.3192,2.8,4.3,3.7,3.7,3.5,4.0,5.0,0
4725,7763,반려동물보건과,여,19,경기도 안양시,수시1차,특별전형-일반고,일반고,5.5953,5.0,5.0,5.0,4.7,4.5,3.5,5.0,1


In [500]:
# 인덱스 재설정
rawData_org.reset_index(inplace=True, drop=True)
rawData_org

Unnamed: 0,학생ID,소속학과,성별,나이,거주지,입학전형차수,입학전형구분,출신고교유형,고교학업역량,대학만족,학과만족,진로확신,대학생활,정서안정,경제여건,주변지지,중도탈락여부
0,2756,건축과,남,23,서울특별시 구로구,수시1차,특별전형-일반고,일반고,1.8007,5.0,5.0,5.0,5.0,5.0,5.0,5.0,0
1,2757,건축과,남,19,경기도 광명시,수시1차,특별전형-일반고,일반고,4.8083,4.5,4.3,4.3,3.7,1.0,2.5,5.0,0
2,2758,건축과,남,23,경기도 안양시,수시1차,특별전형-일반고,일반고,3.6185,3.8,3.7,3.7,4.0,3.5,2.0,4.0,0
3,2759,건축과,남,19,전라북도 전주시,수시1차,특별전형-일반고,일반고,2.0236,3.0,5.0,4.3,5.0,5.0,3.0,5.0,1
4,2760,건축과,남,20,경기도 화성시,수시1차,특별전형-일반고,일반고,3.2368,5.0,4.3,4.0,3.7,3.0,3.0,5.0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4309,7747,K-POP과,남,19,경상남도 창원시,수시2차,일반전형,일반고,3.8432,4.3,4.7,4.3,4.3,2.5,2.0,3.0,0
4310,7748,K-POP과,여,20,경기도 안양시,수시2차,일반전형,일반고,2.4028,3.5,3.7,3.0,3.3,3.5,4.5,5.0,0
4311,7749,K-POP과,남,19,경기도 안성시,수시2차,일반전형,일반고,3.3192,2.8,4.3,3.7,3.7,3.5,4.0,5.0,0
4312,7763,반려동물보건과,여,19,경기도 안양시,수시1차,특별전형-일반고,일반고,5.5953,5.0,5.0,5.0,4.7,4.5,3.5,5.0,1


### (1-2-3) 원천데이터셋을 구성하는 각 변수 간의 상관 관계를 파악
* 독립변수와 종속변수(중도탈락여부)와의 상관관계 파악
 * 수치형 독립변수 : 로지스틱 회귀분석
  * 결정계수가 1에 가까울수록 계수의 절대값이 클수록 p값이 낮을수록 상관관계가 높음 (계수값이 양수이면 양의 상관관계, 음수이면 음의 상관계)
 * 범주형 독립변수 : 카이제곱 검정
  * 측정한 카이제곱통계량과 자유도를 카이제곱분포표에 적용한 결과 도출된 유의확률이 미리 설정한 유의수준(상관성의 판단기준)보다 작을 때 상관성이 있다고 판단
* 독립변수들 간의 다중공선성 파악 : 분산팽창계수
 * 다중공선성 : 하나의 독립변수가 다른 여러 개의 독립변수들로 잘 예측되는 성질
  * 분산팽창계수(VIF, Variance Inflation Factor)다)가 보통 10보다 크면 다중공선성이 있다고 판단 -> 다중공선성이 있는 독립변수는 예측모형의 최종 독립변수에서 제외

In [501]:
# 수치형 독립변수와 종속변수(중도탈락여부)와의 상관성 파악을 위한 로지스틱 회귀분석(Logistic Regression)
# features : 독립변수 데이터프레임
# dropout : 종속변수 리스트
features = rawData_org[['나이','고교학업역량','대학만족','학과만족','진로확신','대학생활','정서안정','경제여건','주변지지']]  
dropout = rawData_org['중도탈락여부']

In [502]:
# train/test set 분리하기
from sklearn.model_selection import train_test_split  
  
X_train, X_test, y_train, y_test = train_test_split(features, dropout)

In [503]:
# 데이터 정규화(표준화) : 각 독립변수의 scale이 달라서 생길 수 있는 종속변수에 끼칠 영향도의 차이를 없애기 위해 동일 scale로 표준화 진행
from sklearn.preprocessing import StandardScaler  
  
scaler = StandardScaler()  
  
X_train_std = scaler.fit_transform(X_train)  
X_test_std = scaler.fit_transform(X_test)

In [505]:
# 로지스틱 분석 시행
import statsmodels.api as sm

logreg = sm.Logit(y_train, sm.add_constant(X_train_std)).fit()
logreg.summary()

Optimization terminated successfully.
         Current function value: 0.295861
         Iterations 7


0,1,2,3
Dep. Variable:,중도탈락여부,No. Observations:,3235.0
Model:,Logit,Df Residuals:,3225.0
Method:,MLE,Df Model:,9.0
Date:,"Sat, 22 Jun 2024",Pseudo R-squ.:,0.05485
Time:,16:41:49,Log-Likelihood:,-957.11
converged:,True,LL-Null:,-1012.7
Covariance Type:,nonrobust,LLR p-value:,8.806e-20

0,1,2,3,4,5,6
,coef,std err,z,P>|z|,[0.025,0.975]
const,-2.4123,0.068,-35.561,0.000,-2.545,-2.279
x1,-0.1268,0.113,-1.125,0.261,-0.348,0.094
x2,-0.1882,0.063,-2.977,0.003,-0.312,-0.064
x3,-0.1590,0.078,-2.044,0.041,-0.311,-0.007
x4,-0.0263,0.103,-0.255,0.798,-0.228,0.176
x5,-0.1182,0.095,-1.242,0.214,-0.305,0.068
x6,-0.3735,0.081,-4.591,0.000,-0.533,-0.214
x7,0.1519,0.071,2.132,0.033,0.012,0.292
x8,-0.1571,0.067,-2.354,0.019,-0.288,-0.026


* '나이'(x1),'고교학업역량'(x2),'대학만족'(x3),'학과만족'(x4),'진로확신'(x5),'대학생활'(x6),'정서안정'(x7),'경제여건'(x8),'주변지지'(x9)
* 결정계수(Pseudo R-squ.)는 0.04608로 모델의 설명력은 약한 편임
* coef는 각 독립변수의 계수로 '정서안정'(x7)을 제외하고는 값이 클수록 중도탈락을 하지 않은 경향성을 띰
* P-value 관점에서는 '학과만족'(x4), '주변지지'(x9)의 상대적으로 설명력이 크게 약함
* 로지스틱 분석 통계 상으로는 신뢰도 높은 강건한 모델로 보기는 어려움

In [506]:
# 로지스틱 회귀모델 생성 및 평가
from sklearn.linear_model import LogisticRegression  
  
model = LogisticRegression()  
model.fit(X_train_std, y_train)

LogisticRegression()

In [507]:
print(model.score(X_train_std, y_train))
print(model.score(X_test_std, y_test))

0.9051004636785163
0.9147358665430955


* 트레이닝셋과 테스트셋에서 정확도는 0.9 이상으로 상당히 높은 편이나 정확도만으로 모델 성능을 속단하기는 이름

In [508]:
# 범주형 독립변수와 종속변수(중도탈락여부)와의 상관성 파악을 위한 카이제곱 검정(Chi-square Validation)
# 카이제곱검정을 위한 패키지 임포트
from scipy.stats import chi2_contingency

# 소속학과와 중도탈락여부 상관성 파악
# 검증함수 활용을 위한 데이터셋 재구조화
features = rawData_org[['소속학과','중도탈락여부','학생ID']]
cnt_df_1 = features.loc[features['중도탈락여부']==1].groupby(['소속학과','중도탈락여부']).학생ID.agg(['count'])
cnt_df_0 = features.loc[features['중도탈락여부']==0].groupby(['소속학과','중도탈락여부']).학생ID.agg(['count'])
cnt_df = pd.merge(cnt_df_1,cnt_df_0, how='inner',on='소속학과')
cnt_df.rename(columns={'count_x':'탈락','count_y':'지속'}, inplace=True)

# 검증함수 수행
chiresult = chi2_contingency(cnt_df, correction=False)
print('(소속학과, 중도탈락여부)')
print('Chi square: {}'.format(chiresult[0]))
print('p-value: {}'.format(chiresult[1]))
if chiresult[1] <= 0.05 :  # 유의수준 설정은 사용자정의인데, 대체로 0.05로 설정
    print(' -> 유의확률(p-value)이 유의수준(0.05) 이하이므로 소속학과는 중도탈락여부와 상관성이 있다')
else :
    print(' -> 유의확률(p-value)이 유의수준(0.05) 초과이므로 소속학과는 중도탈락여부와 상관성이 없다(독립변수에서 제외 검토)')

(소속학과, 중도탈락여부)
Chi square: 95.35746382447442
p-value: 1.7016140585790064e-07
 -> 유의확률(p-value)이 유의수준(0.05) 이하이므로 소속학과는 중도탈락여부와 상관성이 있다


In [509]:
# 성별과 중도탈락여부 상관성 파악
# 검증함수 활용을 위한 데이터셋 재구조화
features = rawData_org[['성별','중도탈락여부','학생ID']]
cnt_df_1 = features.loc[features['중도탈락여부']==1].groupby(['성별','중도탈락여부']).학생ID.agg(['count'])
cnt_df_0 = features.loc[features['중도탈락여부']==0].groupby(['성별','중도탈락여부']).학생ID.agg(['count'])
cnt_df = pd.merge(cnt_df_1,cnt_df_0, how='inner',on='성별')
cnt_df.rename(columns={'count_x':'탈락','count_y':'지속'}, inplace=True)

# 검증함수 수행
chiresult = chi2_contingency(cnt_df, correction=False)
print('(성별, 중도탈락여부)')
print('Chi square: {}'.format(chiresult[0]))
print('p-value: {}'.format(chiresult[1]))
if chiresult[1] <= 0.05 :  # 유의수준 설정은 사용자정의인데, 대체로 0.05로 설정
    print(' -> 유의확률(p-value)이 유의수준(0.05) 이하이므로 성별은 중도탈락여부와 상관성이 있다')
else :
    print(' -> 유의확률(p-value)이 유의수준(0.05) 초과이므로 성별은 중도탈락여부와 상관성이 없다(독립변수에서 제외 검토)')

(성별, 중도탈락여부)
Chi square: 17.4356939751243
p-value: 2.971924936439076e-05
 -> 유의확률(p-value)이 유의수준(0.05) 이하이므로 성별은 중도탈락여부와 상관성이 있다


In [510]:
# 거주지와 중도탈락여부 상관성 파악
# 검증함수 활용을 위한 데이터셋 재구조화
features = rawData_org[['거주지','중도탈락여부','학생ID']]
cnt_df_1 = features.loc[features['중도탈락여부']==1].groupby(['거주지','중도탈락여부']).학생ID.agg(['count'])
cnt_df_0 = features.loc[features['중도탈락여부']==0].groupby(['거주지','중도탈락여부']).학생ID.agg(['count'])
cnt_df = pd.merge(cnt_df_1,cnt_df_0, how='inner',on='거주지')
cnt_df.rename(columns={'count_x':'탈락','count_y':'지속'}, inplace=True)

# 검증함수 수행
chiresult = chi2_contingency(cnt_df, correction=False)
print('(거주지, 중도탈락여부)')
print('Chi square: {}'.format(chiresult[0]))
print('p-value: {}'.format(chiresult[1]))
if chiresult[1] <= 0.05 :  # 유의수준 설정은 사용자정의인데, 대체로 0.05로 설정
    print(' -> 유의확률(p-value)이 유의수준(0.05) 이하이므로 거주지는 중도탈락여부와 상관성이 있다')
else :
    print(' -> 유의확률(p-value)이 유의수준(0.05) 초과이므로 거주지는 중도탈락여부와 상관성이 없다(독립변수에서 제외 검토)')

(거주지, 중도탈락여부)
Chi square: 66.13578559416896
p-value: 0.5754583418799706
 -> 유의확률(p-value)이 유의수준(0.05) 초과이므로 거주지는 중도탈락여부와 상관성이 없다(독립변수에서 제외 검토)


In [511]:
# 입학전형차수와 중도탈락여부 상관성 파악
# 검증함수 활용을 위한 데이터셋 재구조화
features = rawData_org[['입학전형차수','중도탈락여부','학생ID']]
cnt_df_1 = features.loc[features['중도탈락여부']==1].groupby(['입학전형차수','중도탈락여부']).학생ID.agg(['count'])
cnt_df_0 = features.loc[features['중도탈락여부']==0].groupby(['입학전형차수','중도탈락여부']).학생ID.agg(['count'])
cnt_df = pd.merge(cnt_df_1,cnt_df_0, how='inner',on='입학전형차수')
cnt_df.rename(columns={'count_x':'탈락','count_y':'지속'}, inplace=True)

# 검증함수 수행
chiresult = chi2_contingency(cnt_df, correction=False)
print('(입학전형차수, 중도탈락여부)')
print('Chi square: {}'.format(chiresult[0]))
print('p-value: {}'.format(chiresult[1]))
if chiresult[1] <= 0.05 :  # 유의수준 설정은 사용자정의인데, 대체로 0.05로 설정
    print(' -> 유의확률(p-value)이 유의수준(0.05) 이하이므로 입학전형차수는 중도탈락여부와 상관성이 있다')
else :
    print(' -> 유의확률(p-value)이 유의수준(0.05) 초과이므로 입학전형차수는 중도탈락여부와 상관성이 없다(독립변수에서 제외 검토)')

(입학전형차수, 중도탈락여부)
Chi square: 39.079833809943196
p-value: 1.669372070719313e-08
 -> 유의확률(p-value)이 유의수준(0.05) 이하이므로 입학전형차수는 중도탈락여부와 상관성이 있다


In [512]:
# 입학전형구분와 중도탈락여부 상관성 파악
# 검증함수 활용을 위한 데이터셋 재구조화
features = rawData_org[['입학전형구분','중도탈락여부','학생ID']]
cnt_df_1 = features.loc[features['중도탈락여부']==1].groupby(['입학전형구분','중도탈락여부']).학생ID.agg(['count'])
cnt_df_0 = features.loc[features['중도탈락여부']==0].groupby(['입학전형구분','중도탈락여부']).학생ID.agg(['count'])
cnt_df = pd.merge(cnt_df_1,cnt_df_0, how='inner',on='입학전형구분')
cnt_df.rename(columns={'count_x':'탈락','count_y':'지속'}, inplace=True)

# 검증함수 수행
chiresult = chi2_contingency(cnt_df, correction=False)
print('(입학전형구분, 중도탈락여부)')
print('Chi square: {}'.format(chiresult[0]))
print('p-value: {}'.format(chiresult[1]))
if chiresult[1] <= 0.05 :  # 유의수준 설정은 사용자정의인데, 대체로 0.05로 설정
    print(' -> 유의확률(p-value)이 유의수준(0.05) 이하이므로 입학전형구분은 중도탈락여부와 상관성이 있다')
else :
    print(' -> 유의확률(p-value)이 유의수준(0.05) 초과이므로 입학전형구분은 중도탈락여부와 상관성이 없다(독립변수에서 제외 검토)')

(입학전형구분, 중도탈락여부)
Chi square: 34.84610129838123
p-value: 1.6148900854336863e-06
 -> 유의확률(p-value)이 유의수준(0.05) 이하이므로 입학전형구분은 중도탈락여부와 상관성이 있다


In [513]:
# 출신고교유형과 중도탈락여부 상관성 파악
# 검증함수 활용을 위한 데이터셋 재구조화
features = rawData_org[['출신고교유형','중도탈락여부','학생ID']]
cnt_df_1 = features.loc[features['중도탈락여부']==1].groupby(['출신고교유형','중도탈락여부']).학생ID.agg(['count'])
cnt_df_0 = features.loc[features['중도탈락여부']==0].groupby(['출신고교유형','중도탈락여부']).학생ID.agg(['count'])
cnt_df = pd.merge(cnt_df_1,cnt_df_0, how='inner',on='출신고교유형')
cnt_df.rename(columns={'count_x':'탈락','count_y':'지속'}, inplace=True)

# 검증함수 수행
chiresult = chi2_contingency(cnt_df, correction=False)
print('(출신고교유형, 중도탈락여부)')
print('Chi square: {}'.format(chiresult[0]))
print('p-value: {}'.format(chiresult[1]))
if chiresult[1] <= 0.05 :  # 유의수준 설정은 사용자정의인데, 대체로 0.05로 설정
    print(' -> 유의확률(p-value)이 유의수준(0.05) 이하이므로 출신고교유형은 중도탈락여부와 상관성이 있다')
else :
    print(' -> 유의확률(p-value)이 유의수준(0.05) 초과이므로 출신고교유형은 중도탈락여부와 상관성이 없다(독립변수에서 제외 검토)')

(출신고교유형, 중도탈락여부)
Chi square: 5.390031481316125
p-value: 0.2495662354496021
 -> 유의확률(p-value)이 유의수준(0.05) 초과이므로 출신고교유형은 중도탈락여부와 상관성이 없다(독립변수에서 제외 검토)


In [514]:
# 분산팽창계수를 구하기 위한 패키지(모듈) 임포트
from statsmodels.stats.outliers_influence import variance_inflation_factor
        
# 다중공선성 파악을 위한 분산팽창계수 구하기
data = rawData_org[['나이','고교학업역량','대학만족','학과만족','진로확신','대학생활','정서안정','경제여건','주변지지']]

# 데이터 정규화(표준화) : 각 독립변수의 scale이 달라서 생길 수 있는 종속변수에 끼칠 영향도의 차이를 없애기 위해 동일 scale로 표준화 진행
from sklearn.preprocessing import StandardScaler  

# 정규화(표준화) 수행
scaler = StandardScaler()  
data_std = scaler.fit_transform(data)  

# VIF 출력을 위한 데이터 프레임 형성
vif = pd.DataFrame()

# VIF 값과 각 Feature 이름에 대해 설정
vif["VIF Factor"] = [variance_inflation_factor(data_std, i) for i in range(data_std.shape[1])]
vif["features"] = data.columns 

# VIF 값이 높은 순으로 정렬
vif = vif.sort_values(by="VIF Factor", ascending=False)
vif = vif.reset_index().drop(columns='index')
vif

Unnamed: 0,VIF Factor,features
0,3.092147,학과만족
1,2.705802,진로확신
2,2.065703,대학생활
3,1.795925,대학만족
4,1.333651,주변지지
5,1.317274,정서안정
6,1.151225,경제여건
7,1.069753,고교학업역량
8,1.010899,나이


* 각 독립변수에 대해서 분산팽창계수가 10 미만이므로 모두 유의미한 독립변수로 간주할 수 있음

### (1-2-4) 분석차원의 축소(또는 제거)
* 특성 선택(feature selection) : 여러 특성(변수) 중에서 종속변수에 영향도가 높은 일부 특성군을 선택하여 최종 독립변수로 활용
 * 로지스틱 회귀분석 결과 p값이 작고 계수(coef)의 절대값이 큰 변수 위주로 선택 가능 
  * 본 예제에서 고교학업역량'(x2),'대학만족'(x3),'대학생활'(x6),'정서안정'(x7) 등이 우선 고려 대상
* 특성 추출(feature extraction) : 여러 특성(변수)를 합성하여 저차원의 새로운 특성을 추출해서 최종 독립변수로 활용
  * 대표적으로 주성분분석(PCA) 기법이 있음

In [515]:
# 주성분분석
# 주성분분석을 위한 수치형 독립변수 선택 (신입생기초조사를 통해 얻은 결과로 한점)
data = rawData_org[['대학만족','학과만족','진로확신','대학생활','정서안정','경제여건','주변지지']]

# 데이터 정규화(표준화) : 각 독립변수의 scale이 달라서 생길 수 있는 종속변수에 끼칠 영향도의 차이를 없애기 위해 동일 scale로 표준화 진행
from sklearn.preprocessing import StandardScaler  

# 정규화(표준화) 수행
scaler = StandardScaler()  
data_std = scaler.fit_transform(data)  

features = ['대학만족','학과만족','진로확신','대학생활','정서안정','경제여건','주변지지']
pd.DataFrame(data_std, columns=features)

# 주성분분석을 위한 패키지(모듈) 임포트
from sklearn.decomposition import PCA

# 주성분 모형변수
pca = PCA(n_components=7)

# 원속성을 주성분으로 변환
printcipalComponents = pca.fit_transform(data_std)
principalDf = pd.DataFrame(data=printcipalComponents, columns = ['1', '2', '3','4','5','6','7'])

# 각 주성분의 설명력 출력 (설명력의 누적값을 활용하여 주성분의 갯수 결정. 대체로 90~95% 이상에서 결정)
print(pca.explained_variance_ratio_)

[0.47568829 0.17093334 0.10202552 0.08931665 0.07907691 0.05253728
 0.03042202]


* 설명력(설명가능한 분산량)이 0.9 이상이 되려면 5개의 주성분(PC) 필요
 * 0.47568829 + 0.17093334 + 0.10202552 + 0.08931665 + 0.07907691 = 0.91704071

In [516]:
# 주성분을 5개로 결정 (설명력 : 91.7%)
pca = PCA(n_components=5) 

printcipalComponents = pca.fit_transform(data_std)
principalDf = pd.DataFrame(data=printcipalComponents, columns = ['PC1', 'PC2', 'PC3', 'PC4', 'PC5'])
principalDf

Unnamed: 0,PC1,PC2,PC3,PC4,PC5
0,-2.911574,1.518106,0.134403,0.382742,-0.100323
1,0.547404,-2.276168,-1.176051,1.376973,-0.515179
2,1.252468,-0.536974,0.454543,-0.737233,-0.211493
3,-1.107992,0.705794,-0.254047,-1.695686,0.936128
4,-0.184854,-0.715990,-0.459546,0.464127,-0.800981
...,...,...,...,...,...
4309,0.453697,-1.575036,1.477271,0.719860,0.394125
4310,1.542285,1.379545,-1.469302,0.178190,-0.428102
4311,0.944499,0.847024,-1.510856,-0.215110,0.725885
4312,-2.366161,0.142526,0.233472,-0.099553,-0.006528


* 7개의 원속성이 5개의 주성분으로 변환되어 분석차원 축소효과를 거둠 (설명력 : 약 91.7%)

In [517]:
# 각 주성분(PC) 값을 결정하는데 있어서 원속성들의 영향력 파악 (주성분의 특성 파악을 위해 필요)
pca_df = pd.DataFrame(pca.components_, columns=['대학만족','학과만족','진로확신','대학생활','정서안정','경제여건','주변지지'])
pca_df.index = ['PC1','PC2','PC3','PC4','PC5']
pca_df

Unnamed: 0,대학만족,학과만족,진로확신,대학생활,정서안정,경제여건,주변지지
PC1,-0.409949,-0.470755,-0.450632,-0.445473,-0.265027,-0.145001,-0.342858
PC2,-0.155694,-0.18395,-0.199694,0.00794,0.588799,0.741122,-0.077693
PC3,0.323568,0.033892,-0.023179,0.239145,0.288479,-0.248771,-0.831457
PC4,0.285584,0.104579,0.16193,-0.107969,-0.635685,0.602135,-0.320881
PC5,-0.55435,0.410923,0.549312,-0.360884,0.146874,-0.007056,-0.265021


* PC1과 PC5는 대학만족, 학과만족, 진로확신, 대학생활 특성을 상대적으로 많이 반영
* PC2와 PC4는 정서안정, 경제여건 특성을 상대적으로 많이 반영
* PC3는 주변지지 특성을 월등하게 많이 반영
* -> 주성분 별로 서로 다른 특성들이 반영되어 특징을 구분할 수 있으나, 원속성의 특성이 조금씩은 반영되어 있어서 주성분으로 예측모형을 구축할 경우 예측 신뢰성과는 별도로 독립변수의 해석이 다소 모호할 수 있음

### (1-2-5) 범주형 특성(categrical feature)에 대한 인코딩
* 범주형 특성에 대해서 예측모형구축용과 예측용 데이터셋에서 동일한 범주값이 동일하게 인코딩됨을 보장하기 위해서 예측용 데이터셋도 미리 읽어들여 NULL값을 가진 건은 삭제하고 난 다음 예측모형구축용과 예측용 데이터셋을 한꺼번에 인코딩함

In [518]:
# 예측용 현 입학초신입생 원천데이터셋을 데이터프레임으로 읽어들임
# rawData_org : 예측모형구축용 원천데이터셋, rawData2_org : 예측용 원천데이터셋
rawData2_org = pd.read_excel('현재_입학초신입생_원천데이터셋.xlsx', sheet_name = '예측용')

rawData_org['구분'] = '예측모형구축용'
rawData2_org['구분'] = '예측용'

# 예측용 데이터셋에 대한 결측치 제거 (row-wise deletion)
rawData2_org.dropna(inplace=True)
rawData2_org.reset_index(inplace=True, drop=True)  # 인덱스 재설정

rawData_all = pd.concat([rawData_org, rawData2_org])

# 범주형 특성에 대한 레이블 인코딩(label encoding)
categorical_columns = ['소속학과', '성별', '거주지', '입학전형차수', '입학전형구분', '출신고교유형', '중도탈락여부']

In [519]:
# 레이블인코딩을 위한 패키지(모듈) 임포트
from sklearn.preprocessing import LabelEncoder

le = LabelEncoder()
for feature in categorical_columns:
    rawData_all[feature] = le.fit_transform(rawData_all[feature]) 

# rawData_e : 전처리된 예측모형구축용 데이터셋, rawData2_e : 전처리된 예측용 데이터셋
rawData_e = rawData_all[rawData_all['구분'] == '예측모형구축용'].iloc[:, :-1]
rawData2_e = rawData_all[rawData_all['구분'] == '예측용'].iloc[:, :-1]

## 1-3) 예측모형 설계·구축
(1) 독립변수와 종속변수의 확정<br>
(2) 분석대상데이터셋을 트레이닝셋과 테스트셋으로 분리<br>
(3) 종속변수인 중도탈락여부 클래스의 분포 불균형 해소<br>
(4) 트레이닝셋을 대상으로 분류예측알고리듬 별로 학습을 수행하고 성능 측정/비교하여 가장 우수한 알고리듬 선택<br>
(5) 독립변수 별 중도탈락예측 영향도 파악<br>

### (1-3-1) 독립변수와 종속변수의 확정
* 독립변수의 개수(차원수)가 지나치게 많다면 예측모형의 성능이 떨어지고 과적합(Overfitting)의 문제가 생길 수 있음
* -> 로지스틱회귀, 카이제곱검정, 공선성분석 등을 통해 독립적이면서 종속변수에 영향도가 높은 변수들을 선택하거나 주성분분석과 같이 차원축소 방식을 통해 독립변수의 개수를 줄일 필요 있음

In [544]:
# 독립변수+종속변수 확정
# 독립변수 : 소속학과,성별,나이, 거주지, 입학전형차수, 입학전형구분, 출신고교유형, 고교학업역량, 
#            대학만족, 학과만족, 진로확신, 대학생활, 정서안정, 경제여건, 주변지지
# 종속변수 : 중도탈락여부

# feature_set_shrink : EDA를 통해 유의미성이 낮거나 종속변수와의 상관성이 낮은 독립변수를 제거할 것인지 여부 (1:제거, 0:제거하지않음)
# 유의미성이 낮은 변수 : 나이, 진로확신, 주변지지
# 상관성이 낮은 변수 : 거주지, 출신고교유형
feature_set_shrink = 0

if feature_set_shrink == 1:
    feature_list = ['소속학과', '성별', '나이', '입학전형차수', '입학전형구분', '고교학업역량', 
                              '대학만족', '진로확신', '대학생활', '정서안정', '경제여건', '중도탈락여부']
else:
    feature_list = ['소속학과', '성별', '나이', '거주지', '입학전형차수', '입학전형구분', '출신고교유형', '고교학업역량', 
                              '대학만족', '학과만족', '진로확신', '대학생활', '정서안정', '경제여건', '주변지지', '중도탈락여부']
    
analData = rawData_e[feature_list]
analData

Unnamed: 0,소속학과,성별,나이,거주지,입학전형차수,입학전형구분,출신고교유형,고교학업역량,대학만족,학과만족,진로확신,대학생활,정서안정,경제여건,주변지지,중도탈락여부
0,1,0,23,110,0,6,5,1.8007,5.0,5.0,5.0,5.0,5.0,5.0,5.0,0
1,1,0,19,18,0,6,5,4.8083,4.5,4.3,4.3,3.7,1.0,2.5,5.0,0
2,1,0,23,31,0,6,5,3.6185,3.8,3.7,3.7,4.0,3.5,2.0,4.0,0
3,1,0,19,165,0,6,5,2.0236,3.0,5.0,4.3,5.0,5.0,3.0,5.0,1
4,1,0,20,45,0,6,5,3.2368,5.0,4.3,4.0,3.7,3.0,3.0,5.0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4309,0,0,19,54,1,3,5,3.8432,4.3,4.7,4.3,4.3,2.5,2.0,3.0,0
4310,0,1,20,31,1,3,5,2.4028,3.5,3.7,3.0,3.3,3.5,4.5,5.0,0
4311,0,0,19,30,1,3,5,3.3192,2.8,4.3,3.7,3.7,3.5,4.0,5.0,0
4312,9,1,19,31,0,6,5,5.5953,5.0,5.0,5.0,4.7,4.5,3.5,5.0,1


### (1-3-2) 분석대상데이터셋을 트레이닝셋과 테스트셋으로 분리
* 전처리된 데이터셋을 독립변수 데이터셋과 종속변수 데이터셋으로 분리
* 트레이닝셋과 테스트셋 비율을 7:3으로 하여 분석대상데이터셋 분리

In [545]:
# 예측모형구축
# 소스 데이터프레임에서 분류(classification)을 위한 속성 집합
X = analData.loc[:, feature_list[:-1]]  # 독립변수 데이터셋
y = analData.loc[:, '중도탈락여부']  # 종속변수 데이터셋

# 트레이닝셋과 테스트셋 분리에 관련된 모듈 임포트
from sklearn.model_selection import train_test_split
    
# 자동으로 데이터셋을 트레이닝셋과 테스트셋으로 분리해주는 함수로
# 트레이닝셋과 데이터셋의 비율을 7:3으로 세팅함
# X_train : 트레이닝셋의 독립변수 데이터셋, y_train : 트레이닝셋의 종속변수 데이터셋
# X_test : 테스트셋의 독립변수 데이터셋, y_test : 테스트셋의 종속변수 데이터셋
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)

### (1-3-3) 종속변수인 중도탈락여부 클래스의 분포 불균형 해소
* ∙ 중도탈락여부 변수값은 중도탈락(1)과 학업유지(0) 등 2가지 종류가 있는데, ‘학업유지’ 값을 갖는 경우가 ‘중도탈락’ 값을 갖는 경우보다 월등히 많아 분류성능지표(정확도 등)를 왜곡할 수 있음
* 이를 해결하기 위해서 적은 분포를 갖는 클래스의 투플을 인공적으로 만들어 클래스 분포의 균형을 이루는 오버샘플링(oversampling) 기법을 적용함. 대표적으로 SMOTE(Synthetic Minority Oversampling Technique) 기법이 있음
 * SMOTE(Synthetic Minority Oversampling Technique) : 데이터의 개수가 적은 클래스의 표본을 가져온 뒤 임의의 값을 추가하여 새로운 샘플을 만들어 데이터에 추가하는 오버샘플링 방식

In [546]:
# SMOTE기법(Over-sampling) 적용을 위한 패키지(모듈) 임포트
from imblearn.over_sampling import SMOTE

# 트레이닝셋에 대한 SMOTE 적용
smote = SMOTE(random_state=0)
X_train_over,y_train_over = smote.fit_sample(X_train,y_train)

print('SMOTE 적용 전 트레이닝셋의 행열 갯수: ', X_train.shape, y_train.shape)
print('SMOTE 적용 후 트레이닝셋의 행열 갯수: ', X_train_over.shape, y_train_over.shape)
print('SMOTE 적용 후 트레이닝셋의 종속변수 값 분포: \n', pd.Series(y_train_over).value_counts())

# 테스트셋에 대한 SMOTE 적용
X_test_over,y_test_over = smote.fit_sample(X_test,y_test)
print('SMOTE 적용 전 테스트셋의 행열 갯수: ', X_test.shape, y_test.shape)
print('SMOTE 적용 후 테스트셋의 행열 갯수: ', X_test_over.shape, y_test_over.shape)
print('SMOTE 적용 후 테스트셋의 종속변수 값 분포: \n', pd.Series(y_test_over).value_counts())

SMOTE 적용 전 트레이닝셋의 행열 갯수:  (3019, 15) (3019,)
SMOTE 적용 후 트레이닝셋의 행열 갯수:  (5494, 15) (5494,)
SMOTE 적용 후 트레이닝셋의 종속변수 값 분포: 
 1    2747
0    2747
Name: 중도탈락여부, dtype: int64
SMOTE 적용 전 테스트셋의 행열 갯수:  (1295, 15) (1295,)
SMOTE 적용 후 테스트셋의 행열 갯수:  (2338, 15) (2338,)
SMOTE 적용 후 테스트셋의 종속변수 값 분포: 
 1    1169
0    1169
Name: 중도탈락여부, dtype: int64


* SMOTE 적용 후 트레이닝셋의 1(중도탈락)군과 0(학업유지)군의 건수 분포는 각각 2,747건으로 동일함
* SMOTE 적용 후 테스트셋의 1(중도탈락)군과 0(학업유지)군의 건수 분포는 각각 1,169건으로 동일함

### (1-3-4) 트레이닝셋을 대상으로 분류예측알고리듬 별로 학습을 수행하고 성능 측정/비교하여 가장 우수한 알고리듬 선택
* 비교 대상 분류예측알고리듬 : 의사결정트리(decision tree), 랜덤포레스트(random forest), XGBoost, LightGBM

In [547]:
# 분류예측 성능측정을 위한 패키지(모듈) 임포트
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score

# 트레이닝셋 학습 및 테스트셋 검증
def f_model_fit(cls, model, X_train, X_test, y_train, y_test):
    model.fit(X_train, y_train)   # 트레이닝셋 학습
    pred = model.predict(X_test)  # 테스트셋 검증
    f_metrics(cls, y_test, pred)  # 성능 측정
    
# 분류예측 성능측정
def f_metrics(cls, y_test, pred):
    accuracy = accuracy_score(y_test, pred)    # 정확도(accuracy) 측정
    precision = precision_score(y_test, pred)  # 정밀도(precision) 측정
    recall = recall_score(y_test, pred)        # 재현율(recall) 측정
    f1 = f1_score(y_test, pred)                # f1-score 측정
    auc = roc_auc_score(y_test, pred)          # auc 측정
    print(cls + '정확도 : {0:.3f}, 정밀도 : {1:.3f}, 재현율 : {2:.3f}, f1-score : {3:.3f}, AUC : {4:.3f}'.format(accuracy, precision, recall, f1, auc))
    
# 분석기법 : 의사결정트리(Decision_tree) 
from sklearn.tree import DecisionTreeClassifier   # 의사결정트리 기법에 관련된 모듈 임포트

# DecisionTreeClassifier() : 의사결정트리 모형설정 함수
# 하이퍼패러미터(hyper parameter)
# criterion : 노드 분할을 위한 품질측정방법 (gini(default), log_loss, entropy 중 택1)
# max_depth : 트리의 최대 깊이 (default : None)
# random_state : 의사결정트리 생성 시 활용하는 데이터 패턴 지정. None(default)이면 트리를 만들 때마다 활용 데이터패턴이 달라져
# 결과가 달라지며, 특정 숫자를 준다면 활용 데이터패턴이 일정하여 동일한 결과를 냄
decision_tree = DecisionTreeClassifier(criterion='entropy', max_depth=4, random_state=0)
f_model_fit('Decision_tree(SMOTE적용 전) -> ', decision_tree, X_train, X_test, y_train, y_test)
f_model_fit('Decision_tree(SMOTE적용 후) -> ', decision_tree, X_train_over, X_test_over, y_train_over, y_test_over)
print('\n')

# 분석기법 : 랜덤포레스트(Random_forest Classification)
from sklearn.ensemble import RandomForestClassifier  # 랜덤포레스트 기법에 관련된 모듈

# RandomForestClassifier() : 랜덤포레스트 모형설정 함수
# 하이퍼패러미터(hyper parameter)
# n_estimators : 모델에서 사용할 트리 갯수(학습시 생성할 트리 갯수)
# random_state : 의사결정트리 생성 시 활용하는 데이터 패턴 지정. None(default)이면 트리를 만들 때마다 활용 데이터패턴이 달라져
# 결과가 달라지며, 특정 숫자를 준다면 활용 데이터패턴이 일정하여 동일한 결과를 냄
random_forest = RandomForestClassifier(n_estimators=20, random_state=0)
f_model_fit('Random_forest(SMOTE적용 전) -> ', random_forest, X_train, X_test, y_train, y_test)
f_model_fit('Random_forest(SMOTE적용 후) -> ', random_forest, X_train_over, X_test_over, y_train_over, y_test_over)
print('\n')

# 분석기법 : XGBoost
import xgboost as xgb # XGBoost 기법에 관련된 모듈

# XGBClassifier() : XGBoost 모형설정 함수
# 하이퍼패러미터(hyper parameter)
# max_depth : 트리의 최대 깊이(default:6)
# n_estimators : 모델에서 사용할 트리 갯수(학습시 생성할 트리 갯수)
# learning_rate : 학습 단계별로 이전의 결과 가중치를 얼만큼 사용할지 결정
# eval_metric : 오차 계산 방식 (rmse, mae, logloss, error, merror, mlogloss, auc)
gbm = xgb.XGBClassifier(max_depth=4, n_estimators=500, learning_rate=0.05, eval_metric='logloss')
f_model_fit('XGBoost(SMOTE적용 전) -> ', gbm, X_train, X_test, y_train, y_test)
f_model_fit('XGBoost(SMOTE적용 후) -> ', gbm, X_train_over, X_test_over, y_train_over, y_test_over)
print('\n')

# 분석기법 : LightGBM
from lightgbm import LGBMClassifier  # LightGBM 기법에 관련된 모듈

# LGBMClassifier() : LightGBM 모형설정 함수
# 하이퍼패러미터(hyper parameter)
# n_estimators : 모델에서 사용할 트리 갯수(학습시 생성할 트리 갯수)
# n_jobs : 학습을 위해 사용할 스레드 개수(-1은 모든 스레드를 사용함을 의미)
# boost_from_average : 불균형한 데이터 세트에서 예측 성능이 매우 저조할 경우 False로 설정 필요
lgb = LGBMClassifier(n_estimators=1000,num_leaves=64,n_jobs=-1,boost_from_average=False)
f_model_fit('LightGBM(SMOTE적용 전) -> ', lgb, X_train, X_test, y_train, y_test)
f_model_fit('LightGBM(SMOTE적용 후) -> ', lgb, X_train_over, X_test_over, y_train_over, y_test_over)

Decision_tree(SMOTE적용 전) -> 정확도 : 0.905, 정밀도 : 0.800, 재현율 : 0.032, f1-score : 0.061, AUC : 0.515
Decision_tree(SMOTE적용 후) -> 정확도 : 0.738, 정밀도 : 0.712, 재현율 : 0.798, f1-score : 0.753, AUC : 0.738


Random_forest(SMOTE적용 전) -> 정확도 : 0.901, 정밀도 : 0.250, 재현율 : 0.008, f1-score : 0.015, AUC : 0.503
Random_forest(SMOTE적용 후) -> 정확도 : 0.879, 정밀도 : 0.986, 재현율 : 0.769, f1-score : 0.864, AUC : 0.879


XGBoost(SMOTE적용 전) -> 정확도 : 0.900, 정밀도 : 0.333, 재현율 : 0.024, f1-score : 0.044, AUC : 0.509
XGBoost(SMOTE적용 후) -> 정확도 : 0.941, 정밀도 : 0.990, 재현율 : 0.891, f1-score : 0.938, AUC : 0.941


LightGBM(SMOTE적용 전) -> 정확도 : 0.897, 정밀도 : 0.300, 재현율 : 0.048, f1-score : 0.082, AUC : 0.518
LightGBM(SMOTE적용 후) -> 정확도 : 0.919, 정밀도 : 0.984, 재현율 : 0.851, f1-score : 0.913, AUC : 0.919


* 오버샘플링(SMOTE)을 적용한 결과가 그렇지 않은 결과에 비해 전반적으로 우수하고, 특히 재현율과 정밀도에 있어서 큰 효과를 보임
* 4개의 알고리듬 중에는 XGBoost가 가장 우수한 성능을 보임. 특히, 주요하게 봐야할 지표인 재현율(실제 중도탈락한 학생이 중도탈락으로 예측된 비율)에서 최고의 성능을 보였으며 AUC 값도 가장 우수함
* 그러므로, 성능측정 결과 XGBoost를 분류예측 알고리듬으로 채택하는 것이 바람직함

### (1-3-5) 독립변수 별 중도탈락예측 영향도 파악
* 중도탈락위험률 산정에 각 독립변수들이 어느 정도 영향을 미쳤는지에 대한 정량화된 수치로 중도탈락 예방을 위한 학생 관리 및 지원 프로그램에 대한 시사점(insight) 도출에 활용
* 성능측정 결과로 채택된 알고리듬 XGBoost를 기준으로 영향도가 큰 독립변수부터 출력

In [548]:
# 속성(feature) 별 영향도를 저장하는 데이터프레임 생성 
feature_imp_xgboost = pd.DataFrame({'영향도(xgboost)' : gbm.feature_importances_}, index = feature_list[:-1])
feature_imp_dtree = pd.DataFrame({'영향도(dtree)' : decision_tree.feature_importances_}, index = feature_list[:-1])
feature_imp_rforest = pd.DataFrame({'영향도(rforest)' : random_forest.feature_importances_}, index = feature_list[:-1])
feature_imp_lgbm = pd.DataFrame({'영향도(lgbm)' : lgb.feature_importances_}, index = feature_list[:-1])

feature_imp = pd.merge(feature_imp_xgboost, feature_imp_dtree, left_index=True, right_index=True, how='inner')
feature_imp = pd.merge(feature_imp, feature_imp_rforest, left_index=True, right_index=True, how='inner')
feature_imp = pd.merge(feature_imp, feature_imp_lgbm, left_index=True, right_index=True, how='inner')
feature_imp.sort_values('영향도(xgboost)', ascending=False)

Unnamed: 0,영향도(xgboost),영향도(dtree),영향도(rforest),영향도(lgbm)
성별,0.315592,0.212992,0.067124,612
주변지지,0.159594,0.0,0.107954,1417
대학생활,0.15041,0.330296,0.146136,2877
진로확신,0.075802,0.431346,0.117466,2597
학과만족,0.071961,0.0,0.107229,2465
경제여건,0.042036,0.0,0.063838,3159
정서안정,0.037645,0.0,0.058019,2829
출신고교유형,0.035649,0.0,0.022258,665
입학전형구분,0.033612,0.0,0.031474,726
대학만족,0.017097,0.019448,0.070547,3352


* XGBoost를 기준으로 가장 영향도가 큰 독립변수는 성별로 나타남 -> 중도탈락위험률이 상대적으로 높은 남학생들을 위한 지원프로그램 강화 모색 필요 (예, 군복무 기간 중 관리방안 등)
* 독립변수 별 중도탈락 영향도는 분류·예측 알고리듬에 따라 다르게 나타날 수 있기 때문에 절대적으로 해석하기 보다 참고정보로 활용하는 것이 바람직함. 다만, 여러 알고리듬에서 공통적으로 양향도가 높게 나타난다면, 충분히 유의미할 수 있기 때문에 중요 영향변수로 간주하고 학생지원 프로그램 설계에 반영할 필요 있음

# 2. 예측대상 데이터 수집 및 예측모형 적용
## 2-1) 현(現) 입학초 신입생 데이터 수집
* 데이터전처리 레이블인코딩 파트에서 NULL값을 가진 로우를 제거하고 범주형 특성을 레이블인코딩한 예측용 현 입학초신입생 데이터셋 활용
* 고교학업역량이나 일부 사회심리적기초조사 항목(자신감결여, 의욕저하, 경제여건 등)에서 역코딩(reverse coding)은 반영되었다고 가정함
* 현 입학초신입생은 2023학년도 신입생 기준이고 사회심리적기초조사는 입학초에 실시한 결과이며, 중도탈락여부는 당해 9월 1일 기준임 

## 2-2) 예측모형 적용
(1) 현(現) 입학초신입생 데이터셋을 대상으로 예측용 데이터셋 확보<br>
(2) 예측용 데이터셋을 예측모형에 적용하여 신입생별 중도탈락위험률과 중도탈락위험순위 구하기<br>
(3) 현 입학초신입생 중도탈락위험 예측결과와 실제 중도탈락여부(9/1일 기준) 비교<br>
(4) 현 입학초신입생별 중도탈락위험 예측결과를 엑셀(excel)로 저장<br>

### (2-2-1) 현(現) 입학초 신입생 데이터셋을 대상으로 예측용 데이터셋 확보
* 현(現) 신입생의 예측대상 원천데이터셋이 확보되면 예측모형 개발과정에서 적용했던 데이터전처리 과정을 거쳐 예측모형 적용대상 데이터셋을 확보함

In [549]:
# 전처리된 현 입학초신입생 데이터셋을 저장하는 데이터프레임 확인
rawData2_e

Unnamed: 0,학생ID,소속학과,성별,나이,거주지,입학전형차수,입학전형구분,출신고교유형,고교학업역량,대학만족,학과만족,진로확신,대학생활,정서안정,경제여건,주변지지,중도탈락여부
0,10000,15,1,19,115,0,6,5,2.2288,4.3,3.3,3.0,4.7,2.0,1.0,4.0,0
1,10001,15,1,19,128,0,6,0,1.6250,3.8,4.7,4.3,3.7,1.5,1.0,3.0,1
2,10002,15,0,19,27,0,6,5,4.7432,5.0,5.0,5.0,5.0,4.0,3.0,5.0,0
3,10003,15,0,19,45,0,6,5,4.5869,3.5,3.7,4.7,4.0,2.5,2.5,5.0,1
4,10004,15,1,19,29,0,6,5,5.7202,3.0,4.7,4.3,4.3,4.0,3.0,5.0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1971,9995,15,0,19,29,0,6,5,3.8643,4.8,4.3,4.0,4.3,2.5,1.5,3.0,1
1972,9996,15,0,19,31,0,6,5,4.7719,4.3,3.7,4.7,4.7,2.5,2.5,5.0,0
1973,9997,15,0,21,27,0,6,5,1.9231,3.0,3.7,4.0,5.0,5.0,4.5,5.0,0
1974,9998,15,1,19,18,0,6,5,4.1975,2.3,3.7,3.7,2.7,1.5,1.0,3.0,0


### (2-2-2) 예측용 데이터셋을 예측모형에 적용하여 신입생별 중도탈락위험률과 중도탈락위험순위 구하기
* 신입생 개인별 중도탈락예측 결과로 다음 항목을 도출할 수 있음
 * 신입생별 중도탈락위험률
   * 신입생별로 중도탈락 위험정도를 나타내는 백분위값
   * 예측모형의 함수를 활용하여 구할 수 있음
 * 신입생별 중도탈락위험순위
   * 학과/반별 중도탈락 위험순위 -> 순위가 높을수록 위험정도가 높으며, 반별 지도교수가 집중 지도 및 관리 신입생을 선별하는데 활용
   * 각 신입생들의 학생ID로 학번을 파악하고, 지도반별 신입생들의 중도탈락위험률을 내림차순 정렬하여 구할 수 있음

In [550]:
# 분석대상 특성리스트 (독립변수만)
if feature_set_shrink == 1:  # 차원축소한 경우
    feature_ind_list = ['소속학과', '성별', '나이', '입학전형차수', '입학전형구분', '고교학업역량', 
                              '대학만족', '진로확신', '대학생활', '정서안정', '경제여건']
else: # 차원축소하지 않은 경우
    feature_ind_list = ['소속학과', '성별', '나이', '거주지', '입학전형차수', '입학전형구분', '출신고교유형', '고교학업역량', 
                              '대학만족', '학과만족', '진로확신', '대학생활', '정서안정', '경제여건', '주변지지']

# 분석대상 특성으로 구성된 예측용 데이터셋
expData = rawData2_e[feature_ind_list]

# 예측용 데이터셋
expData

Unnamed: 0,소속학과,성별,나이,거주지,입학전형차수,입학전형구분,출신고교유형,고교학업역량,대학만족,학과만족,진로확신,대학생활,정서안정,경제여건,주변지지
0,15,1,19,115,0,6,5,2.2288,4.3,3.3,3.0,4.7,2.0,1.0,4.0
1,15,1,19,128,0,6,0,1.6250,3.8,4.7,4.3,3.7,1.5,1.0,3.0
2,15,0,19,27,0,6,5,4.7432,5.0,5.0,5.0,5.0,4.0,3.0,5.0
3,15,0,19,45,0,6,5,4.5869,3.5,3.7,4.7,4.0,2.5,2.5,5.0
4,15,1,19,29,0,6,5,5.7202,3.0,4.7,4.3,4.3,4.0,3.0,5.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1971,15,0,19,29,0,6,5,3.8643,4.8,4.3,4.0,4.3,2.5,1.5,3.0
1972,15,0,19,31,0,6,5,4.7719,4.3,3.7,4.7,4.7,2.5,2.5,5.0
1973,15,0,21,27,0,6,5,1.9231,3.0,3.7,4.0,5.0,5.0,4.5,5.0
1974,15,1,19,18,0,6,5,4.1975,2.3,3.7,3.7,2.7,1.5,1.0,3.0


In [551]:
# predict() : 모형변수의 함수로서 신입생 각각에 대한 중도탈락여부 예측
y_pred_dtree = decision_tree.predict(expData)    # 의사결정트리
y_pred_rforest = random_forest.predict(expData)  # 랜덤포레스트 
y_pred_xgboost = gbm.predict(expData)            # XGBoost
y_pred_lgbm = lgb.predict(expData)               # LightGBM

# predict_proba() : 모형변수의 함수로서 신입생 각각에 대한 중도탈락위험률 예측
y_pred_prob_dtree = decision_tree.predict_proba(expData)     # 의사결정트리
y_pred_prob_rforest = random_forest.predict_proba(expData)   # 랜덤포레스트
y_pred_prob_xgboost = gbm.predict_proba(expData)             # GBoost
y_pred_prob_lgbm = lgb.predict_proba(expData)                # LightGBM

In [552]:
expData['중도탈락여부예측(dtree)'] = y_pred_dtree
expData['중도탈락위험률(dtree)'] = y_pred_prob_dtree[:,1]

expData['중도탈락여부예측(rforest)'] = y_pred_rforest
expData['중도탈락위험률(rforest)'] = y_pred_prob_rforest[:,1]

expData['중도탈락여부예측(xgboost)'] = y_pred_xgboost
expData['중도탈락위험률(xgboost)'] = y_pred_prob_xgboost[:,1]

expData['중도탈락여부예측(lgbm)'] = y_pred_lgbm
expData['중도탈락위험률(lgbm)'] = y_pred_prob_lgbm[:,1]

expData

Unnamed: 0,소속학과,성별,나이,거주지,입학전형차수,입학전형구분,출신고교유형,고교학업역량,대학만족,학과만족,...,경제여건,주변지지,중도탈락여부예측(dtree),중도탈락위험률(dtree),중도탈락여부예측(rforest),중도탈락위험률(rforest),중도탈락여부예측(xgboost),중도탈락위험률(xgboost),중도탈락여부예측(lgbm),중도탈락위험률(lgbm)
0,15,1,19,115,0,6,5,2.2288,4.3,3.3,...,1.0,4.0,0,0.257895,0,0.10,0,0.095216,0,2.071559e-04
1,15,1,19,128,0,6,0,1.6250,3.8,4.7,...,1.0,3.0,0,0.257895,0,0.20,0,0.260838,0,2.051784e-04
2,15,0,19,27,0,6,5,4.7432,5.0,5.0,...,3.0,5.0,0,0.278075,0,0.10,0,0.125982,0,2.329148e-04
3,15,0,19,45,0,6,5,4.5869,3.5,3.7,...,2.5,5.0,1,0.699379,0,0.20,0,0.070098,0,7.490885e-07
4,15,1,19,29,0,6,5,5.7202,3.0,4.7,...,3.0,5.0,0,0.257895,0,0.05,0,0.016709,0,5.781905e-08
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1971,15,0,19,29,0,6,5,3.8643,4.8,4.3,...,1.5,3.0,1,0.699379,0,0.10,0,0.053353,0,5.093113e-07
1972,15,0,19,31,0,6,5,4.7719,4.3,3.7,...,2.5,5.0,1,0.699379,0,0.15,0,0.040105,0,5.408529e-07
1973,15,0,21,27,0,6,5,1.9231,3.0,3.7,...,4.5,5.0,0,0.186275,0,0.35,0,0.138883,0,1.510434e-03
1974,15,1,19,18,0,6,5,4.1975,2.3,3.7,...,1.0,3.0,1,0.536932,0,0.15,0,0.067551,0,2.866211e-09


### (2-2-3) 현 입학초신입생 중도탈락위험 예측결과와 실제 중도탈락여부(9/1일 기준) 비교
* 현 입학초신입생 데이터셋에 당해년도 9/1일 기준 중도탈락여부가 존재하므로 예측결과와 비교

In [553]:
# 예측용 데이터셋에 학생ID와 실제 중도탈락여부(9/1일기준) 컬럼 추가
expData['학생ID'] = rawData2_e['학생ID']
expData['중도탈락여부'] = rawData2_e['중도탈락여부']

In [554]:
# 예측결과와 실제결과가 일치하는 건수를 알고리듬별로 저장하는 변수 초기화
cnt_df = 0
cnt_rf = 0
cnt_xg = 0
cnt_lg = 0

# 일치여부 확인
for i in range(0, len(expData)) :
    if expData['중도탈락여부'].values[i] == expData['중도탈락여부예측(dtree)'].values[i] :
        cnt_df += 1

    if expData['중도탈락여부'].values[i] == expData['중도탈락여부예측(rforest)'].values[i] :
        cnt_rf += 1
    
    if expData['중도탈락여부'].values[i] == expData['중도탈락여부예측(xgboost)'].values[i] :
        cnt_xg += 1  
    
    if expData['중도탈락여부'].values[i] == expData['중도탈락여부예측(lgbm)'].values[i] :
        cnt_lg += 1    

# 결과 출력        
print("Decision tree : 적중개수 %d, 적중률 %.2f" % (cnt_df, cnt_df / len(expData) * 100))
print("Random Forest : 적중개수 %d, 적중률 %.2f" % (cnt_rf, cnt_rf / len(expData) * 100))
print("XGBoost : 적중개수 %d, 적중률 %.2f" % (cnt_xg, cnt_xg / len(expData) * 100))
print("Light GBM : 적중개수 %d, 적중률 %.2f" % (cnt_lg, cnt_lg / len(expData) * 100))

Decision tree : 적중개수 1259, 적중률 63.71
Random Forest : 적중개수 1731, 적중률 87.60
XGBoost : 적중개수 1750, 적중률 88.56
Light GBM : 적중개수 1740, 적중률 88.06


* 근소한 차이로 XGBoost의 적중률이 가장 높음

### (2-2-4) 현 입학초신입생별 중도탈락위험 예측결과를 엑셀(excel)로 저장

In [555]:
# XlsxWriter 엔진으로 Pandas writer 객체 만들기
if feature_set_shrink == 1:  # 차원축소한 경우
    writer = pd.ExcelWriter('2023신입생별_중도탈락위험예측(차원축소)결과.xlsx', engine='xlsxwriter')
else: # 차원축소하지 않은 경우
    writer = pd.ExcelWriter('2023신입생별_중도탈락위험예측결과.xlsx', engine='xlsxwriter')
    
# 데이터프레임 내용을 엑셀에 저장    
expData.to_excel(writer, sheet_name='예측결과')
 
# Pandas writer 객체 닫기
writer.close()

* 저장된 엑셀에 신입생별 중도탈락위험률이 기록되어 있고 학생ID로 학번을 찾을 수 있으므로 학과별/지도반별로 중도탈락위험률의 내림차순으로 정렬된(중도탈락위험순위) 배포자료 작성 가능 