# 라이브러리 불러오기

In [1]:
import pandas as pd
import numpy as np
import random
import os

from sklearn.linear_model import LogisticRegression

# 데이터 불러오기

In [2]:
train = pd.read_csv('data/train.csv')
test = pd.read_csv('data/test.csv')

# 독립변수, 종속변수로 나누기
문자열은 머신러닝 모델에서 사용할 수 없으므로 제거합니다.

In [3]:
x_train = train.drop(columns=['ID', 'Outcome'])
y_train = train['Outcome']

test = test.drop(columns = ['ID'])

# 데이터 전처리  
### StandardScaler    

분석 시 변수들의 스케일이 다른 경우 피처별 단위 또는 범위를 통일시켜주기 위해 표준화를 진행합니다.  

StandardScaler는 데이터를 평균이 0이고 분산이 1인 정규 분포로 변환합니다.

In [4]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()

train_scaler = scaler.fit_transform(x_train)
test_scaler = scaler.transform(test)

# 모델정의
분석에 사용할 모델을 선언합니다.  
C는 규제의 강도를 결정하는 매개변수 입니다. C의 값이 높을 수록 규제가 감소합니다.

In [10]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
# 데이터 분할 (훈련 데이터를 훈련 세트와 검증 세트로 나눔)
X_train_split, X_val, y_train_split, y_val = train_test_split(train_scaler, y_train, test_size=0.2, random_state=42)

In [11]:
lr = LogisticRegression(C = 0.5)

# 모델 학습  
모델에 독립변수와 종속변수를 넣는 방법으로 학습을 수행할 수 있습니다.

In [12]:
# 모델 학습
lr.fit(X_train_split, y_train_split)

In [13]:
# 검증 세트로 모델 평가
val_predictions = lr.predict(X_val)
accuracy = accuracy_score(y_val, val_predictions)
print(f'Validation Accuracy: {accuracy}')

Validation Accuracy: 0.7786259541984732


# 예측

In [7]:
predict = lr.predict(test_scaler)

# 제출

In [8]:
submit = pd.read_csv('data/sample_submission.csv')

In [9]:
submit['Outcome'] = predict

In [10]:
submit.to_csv('./submit.csv', index = False)