In [2]:
import pandas as pd
import numpy as np
import random
import os

from sklearn.preprocessing import LabelEncoder
from sklearn.tree import DecisionTreeClassifier

In [3]:
def seed_everything(seed):
    random.seed(seed)
    os.environ['PYTHONHASHSEED'] = str(seed)
    np.random.seed(seed)

seed_everything(42) # Seed 고정

In [4]:
# pd.read_csv() 함수를 사용해서 데이터를 읽어오는 코드입니다.
train = pd.read_csv('data/train.csv')
test = pd.read_csv('data/test.csv')

# 데이터를 확인하기 위해 head() 함수를 사용합니다.
train.head(5)

Unnamed: 0,ID,나이,키(cm),몸무게(kg),BMI,시력,충치,공복 혈당,혈압,중성 지방,혈청 크레아티닌,콜레스테롤,고밀도지단백,저밀도지단백,헤모글로빈,요 단백,간 효소율,label
0,TRAIN_0000,35,170,70,24.22,1.1,1,98,40,80,1.3,211,75,120,15.9,1,1.53,1
1,TRAIN_0001,40,150,55,24.44,1.0,0,173,39,104,0.6,251,46,184,11.8,1,1.45,0
2,TRAIN_0002,60,170,50,17.3,0.75,0,96,40,61,0.8,144,43,89,15.3,1,1.04,0
3,TRAIN_0003,40,150,45,20.0,0.5,0,92,40,46,0.7,178,66,110,13.4,1,1.18,0
4,TRAIN_0004,55,155,65,27.06,1.0,0,87,42,95,0.9,232,62,151,13.8,1,1.32,0


In [5]:
x_train = train.drop(['ID', 'label'], axis = 1)
y_train = train['label']

x_test = test.drop('ID', axis = 1)

In [6]:
# 모델 인자에 random_state를 넣음으로써 시드고정의 효과를 얻을 수 있습니다.
model = DecisionTreeClassifier(random_state = 42)

In [7]:
model.fit(x_train, y_train)

In [8]:
# predict() 함수는 독립변수(테스트데이터)를 입력받았을 때 종속변수를 예측합니다.
pred = model.predict(x_test)

In [10]:
# 제출 파일을 읽어옵니다.
submit = pd.read_csv('data/sample_submission.csv')

In [11]:
# 예측한 값을 TARGET 컬럼에 할당합니다.
submit['label'] = pred
submit.head()

Unnamed: 0,ID,label
0,TEST_0000,0
1,TEST_0001,0
2,TEST_0002,1
3,TEST_0003,1
4,TEST_0004,0


In [12]:
# 예측한 결과를 파일로 저장합니다. index 인자의 값을 False로 설정하지 않으면 제출이 정상적으로 진행되지 않습니다.
submit.to_csv('results/submission.csv', index = False)