### 선형 모델을 활용한 이진 분류

### 학습 내용
 * 데이터 및 라이브러리의 사전 준비
 * 선형 모델의 구현 
 * 선형 모델의 학습 및 예측, 평가

### 데이터 및 라이브러리 사전 준비

In [1]:
import numpy as np
import pandas as pd

# train_x는 학습 데이터, train_y는 목적 변수, test_x는 테스트 데이터
# pandas의 DataFrame, Series로 유지합니다.(numpy의 array로 유지하기도 합니다)
# one-hot encoding된 것을 읽어오기

train = pd.read_csv('../input/sample-data/train_preprocessed_onehot.csv')
train_x = train.drop(['target'], axis=1)
train_y = train['target']
test_x = pd.read_csv('../input/sample-data/test_preprocessed_onehot.csv')

In [2]:
train_x.shape, train_y.shape, test_x.shape

((10000, 59), (10000,), (10000, 59))

### 학습 데이터와 검증 데이터 나누기

In [3]:
# 학습 데이터를 학습 데이터와 검증 데이터로 나눕니다.
from sklearn.model_selection import KFold

kf = KFold(n_splits=4, shuffle=True, random_state=71)
tr_idx, va_idx = list(kf.split(train_x))[0]
tr_x, va_x = train_x.iloc[tr_idx], train_x.iloc[va_idx]
tr_y, va_y = train_y.iloc[tr_idx], train_y.iloc[va_idx]

tr_x.shape, va_x.shape, tr_y.shape, va_y.shape

((7500, 59), (2500, 59), (7500,), (2500,))

### 선형 모델의 구현 및 예측, 평가

In [4]:
# -----------------------------------
# 선형 모델의 구현
# -----------------------------------
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import log_loss
from sklearn.preprocessing import StandardScaler

# 데이터의 스케일링
scaler = StandardScaler()
tr_x = scaler.fit_transform(tr_x)
va_x = scaler.transform(va_x)
test_x = scaler.transform(test_x)

# 선형 모델의 구축 및 학습
model = LogisticRegression(C=1.0)
model.fit(tr_x, tr_y)

# 평가 데이터의 점수 확인
# predict_proba로 확률 출력이 가능(predict에서는 두 값의 예측값(0,1)을 출력)
va_pred = model.predict_proba(va_x)
score = log_loss(va_y, va_pred)
print(f'logloss: {score:.4f}')

# 예측
pred = model.predict(test_x)
# print(pred)

logloss: 0.3720
