# 간단한 모델 생성
* 이제 여러분은 코드를 작성할 때, 두 가지를 고려해야 합니다.
    * 재사용 하려면 어떻게 작성해야 할까?
    * 물 흐르듯이 pipeline을 구성하려면 어떻게 작성해야 할까?

## 0.환경준비 

### 1) 라이브러리 

In [1]:
import pandas as pd
import numpy as np
import joblib

from sklearn.model_selection import train_test_split

from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import classification_report

### 2) 데이터 불러오기

In [2]:
data = pd.read_csv('data/titanic_simple.csv')
data.head()

Unnamed: 0,Survived,Pclass,Age,Sex
0,0,3,22.0,1
1,1,1,38.0,0
2,1,3,26.0,0
3,1,1,35.0,0
4,0,3,35.0,1


## 2.데이터 전처리

#### x, y 분할

In [3]:
target = 'Survived'
x0 = data.drop(target, axis = 1)
y0 = data.loc[:, target]

#### test 분할

여기서는 조금만 떼어 냅시다.

In [4]:
x, x_test, y, y_test = train_test_split(x0, y0, test_size = 5, random_state = 2022)

In [5]:
x_test

Unnamed: 0,Pclass,Age,Sex
264,3,21.77,0
69,3,26.0,1
297,1,2.0,0
639,3,32.37,1
26,3,32.37,1


#### train, val 분할

In [6]:
x_train, x_val, y_train, y_val = train_test_split(x, y, test_size = .3, random_state = 2022)

## 3.모델링

여기에서는 성능 최적화가 주안점이 아니므로 기본값으로 모델링을 수행합니다.

In [7]:
# SVM으로 모델링 수행
model = DecisionTreeClassifier(max_depth = 3)
model.fit(x_train, y_train)

DecisionTreeClassifier(max_depth=3)

In [8]:
# validation
pred = model.predict(x_val)
print(classification_report(y_val, pred))

              precision    recall  f1-score   support

           0       0.81      0.88      0.84       168
           1       0.75      0.64      0.69        97

    accuracy                           0.79       265
   macro avg       0.78      0.76      0.76       265
weighted avg       0.79      0.79      0.78       265



## 4.Data Pipeline 정리

* 이제 최적의 모델이 생성되어, 운영시스템에 배포되었습니다.
* 운영에서 new data가 주어졌을 때, 어떤 절차로 파이프라인을 구성해야 할까요?

In [9]:
# new data : x_test
x_test.head()

Unnamed: 0,Pclass,Age,Sex
264,3,21.77,0
69,3,26.0,1
297,1,2.0,0
639,3,32.37,1
26,3,32.37,1


In [10]:
# model 저장
joblib.dump(model, 'model/model_ti0.pkl')

['model/model_ti0.pkl']