### **🧠 머신러닝 실습 - 이진 분류**
#### Q1. 환자의 당뇨병 여부를 예측하시오.
- 제공된 데이터 : `diabetes_train.csv`, `diabetese_test.csv`
- 예측할 컬럼 : `Outcome` (0: 정상, 1: 당뇨병)


학습용 데이터(train)을 이용해 환자의 당뇨병을 예측하는 모델을 만든 후 이를 평가용 데이터(test)에 적용해 얻은 예측값을 다음과 같은 형식의 csv 파일로 생성하시오.


제출 파일은 다음 1개의 컬럼을 포함해야 한다.
- pred : 예측값 (당뇨병일 확률)
- 제출 파일명 : `new.csv`


제출한 모델의 성능은 ROC-AUC 평가지표에 따라 채점한다.

In [47]:
import pandas as pd

## 데이터 불러오기
train = pd.read_csv('diabetes_train.csv')
test = pd.read_csv('diabetes_test.csv')

## EDA
# print(train.shape, test.shape) # ((614, 9), (154, 8))
# train.info() # not object
# test.info()
# train.describe()
# print(train.isnull().sum())
# print(test.isnull().sum())
# print(train['Outcome'].value_counts()) # 0: 403 / 1: 211

## 데이터 전처리
y_train = train.pop('Outcome')
## - 스케일링
from sklearn.preprocessing import MinMaxScaler

minmax = MinMaxScaler()
train = minmax.fit_transform(train)
test = minmax.transform(test)


## 검증 데이터 나누기
from sklearn.model_selection import train_test_split

X_train, X_val, y_train, y_val = train_test_split(train, y_train, test_size=0.2, random_state=42)
# print(X_train.shape, X_val.shape, y_train.shape, y_val.shape) # (491, 8) (123, 8) (491,) (123,)

## 모델 학습 및 평가
from sklearn.ensemble import RandomForestClassifier

# 하이퍼파라미터 튜닝
rf = RandomForestClassifier(max_depth=5, n_estimators=500, random_state=0)
# rf = RandomForestClassifier(random_state=0) # 기본

rf.fit(X_train, y_train)
pred = rf.predict_proba(X_val)
# print(rf.classes_)
# print(pred)

from sklearn.metrics import roc_auc_score

roc_auc = roc_auc_score(y_val, pred[:,1])
print('roc_auc:', roc_auc)

## 예측 및 결과 파일 생성
pred = rf.predict_proba(test)
result = pd.DataFrame({'pred':pred[:,1]})
result.to_csv('new.csv', index=False)

pd.read_csv('new.csv').shape


roc_auc: 0.8234969663541093


(154, 1)

스케일링 전 roc_auc : 0.8167402095973524



스케일링 후 roc_auc : 0.8234969663541093


**[하이퍼파라미터 튜닝]**
- `max_depth` : 트리의 최대 깊이, 과적합 방지, 3~7 정도 적당
- `n_estimators` : 트리의 개수, 높을수록 안정적 예측 가능(학습 시간 소요), 200~500 정도 적당

---

#### Q2. 새로운 일자리를 찾을지 예측하시오.
- 제공된 데이터 : `hr_train.csv`, `hr_test.csv`
- 예측할 컬럼 : `target` (0: 새로운 일자리를 찾지 않음, 1: 새로운 일자리를 찾음)


학습용 데이터(train)을 이용해 새 일자리를 찾을지 예측하는 모델을 만든 후 이를 평가용 데이터(test)에 적용해 얻은 예측값을 다음과 같은 형식의 csv 파일로 생성하시오.


제출 파일은 다음 1개의 컬럼을 포함해야 한다.
- pred : 예측값 (이직할 확률)
- 제출 파일명 : `new2.csv`


제출한 모델의 성능은 ROC-AUC 평가지표에 따라 채점한다.