# ML Process
- Data Acquisition
- Data Cleaning (데이터 전처리, feature engineering, EDA)
    - Data 나누기 과정(Hold out Test Dataset은 Evaluate Model에서 성능지표 만들 때, Test Dataset은 Test Model 만들 때 사용)
- Train Dataset
- Train ML Model <-> Test Model (Hyper parameter turning Ensemble method)
- Evaluate Model
- Deploy Model



## ML을 하기 위해 해야하는 것들
- 데이터 나누기 : Train, Validation, Test
- 데이터 전처리 하기
    - 탐색적 자료 분석 (EDA)
    - Feature engineering

## 데이터 모판
- Dataset을 Train data와 Test data으로 나누고 이를 한 판으로 만들어 주어야 함.
- Train과 Test 데이터 셋의 각 컬럼에는 같은 전처리 적용해야 함.
- 데이터에 따라 Train에만 있고 Test에는 존재하지 않는 경우도 있음.
    - 초기 데이터 전처리 시 규칙을 만들어야 함.
- 데이터의 분포를 좀 더 넓게 볼 수 있음
> $y = f(x_1, x_2, x_3, ... , x_n)$
- 실제 서비스에서는 모델 생성 시 사용한 전처리를 그대로 활용하여야 함.

In [1]:
import pandas as pd
import os
import matplotlib.pyplot as plt
import numpy as np

import seaborn as sns
sns.set(style="white") # white background style for seaborn plots
sns.set(style="whitegrid", color_codes = True)

In [16]:
DATA_DIR = './titanic'
data_files = reversed([os.path.join(DATA_DIR, filename) for filename in os.listdir(DATA_DIR)])
df_list = []
for filename in data_files:
    df_list.append(pd.read_csv(filename)) # csv 파일을 불러와서 df_list에 train, test 순으로 넣어줌
# train은 y가 있고 test는 y가 없음 (y는 'survived' column)

df = pd.concat(df_list, sort=False) # train과 test를 한 모판으로 만들어 주는 것
df = df.reset_index(drop=True) # index를 reset해주고 원래 index는 drop

number_of_train_dataset = df.Survived.notnull().sum() # train data의 y의 갯수
number_of_test_dataset = df.Survived.isnull().sum() # test data는 y가 없음, NaN의 갯수
y_true = df.pop("Survived")[:number_of_train_dataset] # train data의 y만 pop해서 따로 저장
df.tail() # train test 모판 완성, y는 따로 저장

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1304,1305,3,"Spector, Mr. Woolf",male,,0,0,A.5. 3236,8.05,,S
1305,1306,1,"Oliva y Ocana, Dona. Fermina",female,39.0,0,0,PC 17758,108.9,C105,C
1306,1307,3,"Saether, Mr. Simon Sivertsen",male,38.5,0,0,SOTON/O.Q. 3101262,7.25,,S
1307,1308,3,"Ware, Mr. Frederick",male,,0,0,359309,8.05,,S
1308,1309,3,"Peter, Master. Michael J",male,,1,1,2668,22.3583,,C
