In [59]:
import pandas as pd
import numpy as np

from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, roc_auc_score
from sklearn.model_selection import train_test_split

import warnings
warnings.filterwarnings('ignore')

### 분석 대상인 student_health 데이터 로드
data = pd.read_csv('student_health_3.csv', encoding = 'cp949')

### 사용할 독립변수(키, 몸무게, 수축기, 이완기)와 종속변수(학년)만을 추출
data = data[['키', '몸무게', '수축기', '이완기', '학년']]

### 독립변수(X)에 학년을 제외한 feature 지정 및 종속변수(y)에 학년을 지정
X = data.drop('학년', axis = 1)
y = data.학년

### 전체 데이터의 80%를 학습용, 20%를 검증용 데이터로 분할하고 이 때 층화추출을 위해 stratify 인자 지정
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size = 0.2, random_state = 42, stratify = y)

### 사용할 모델인 LogisticRegression 지정
model = LogisticRegression(random_state = 42)

### 분할해 둔 학습 데이터를 이용하여 모델 학습
model.fit(X_train, y_train)

### 검증용 데이터를 이용하여 예측값 생성(클래스 예측)
pred = model.predict(X_val)

### 모델의 정확도 계산
acc = accuracy_score(y_val, pred)
print(f'{model.__class__.__name__}의 ACCURACY는 {round(acc, 3)}')

### 검증용 데이터를 이용하여 예측 확률값 생성
proba = model.predict_proba(X_val)[:, 1]

### 모델의 ROC_AUC 계산
roc_auc = roc_auc_score(y_val, proba)
print(f'{model.__class__.__name__}의 ROC_AUC는 {round(roc_auc, 3)}')

LogisticRegression의 ACCURACY는 0.956
LogisticRegression의 ROC_AUC는 0.995
