# Contents 
- 1. 데이터셋 확인
    - 1.1 Null data check 
    - 1.2 Target label 확인
- 2. Exploratory data analysis
    - 2.1 Pclass 
    - 2.2 Sex
    - 2.3 Both Sex and Pclass
    - 2.4 Age
    - 2.5 Pclass, Sex, Age
    - 2.6 Embarked 
    - 2.7 Famliy - SibSp(형제 자매) + Parch(부모, 자녀) 
    - 2.8 Cabin
    
  
- 만약 데이터 사이언스, 머신러닝 또는 캐글에서 어떤 것을 해야 할지 잘 모르는 newbie라면, 타이타닉을 하는 게 가장 좋은 선택이다.<br>
- 타이타닉은 사상 최대 해난사고로써, 1,500여 명의 희생자가 생겼다.
- 우리는 이 튜토리얼에서 타이타닉에 탑승한 사람들의 신상정보를 활용하여, 승선한 사람들의 생존 여부를 예측하는 모델을 생성할 것이다.<br>

- 본 튜토리얼에서는 여러 시각화 도구(matplotlib, seaborn, plotly), 데이터 분석 도구(pandas, numpy), 머신 러닝 도구(sklearn)을 사용할 것이다.<br> 

- 본 튜토리얼은 캐글에 있는 여러 커널을 참조해 만들었다. 본 튜토리얼을 공부한 후, 캐글 타이타닉 컴퍼티션에 있는 여러 다른 커널들을 더 공부하면 된다.<br> 

- 본 튜토리얼은 파이썬 문법에 어려움이 없어야 수월할 것이다. 여기서 사용하는 라이브러리들을 써본 경험이 있으면 좋겠지만, 경험이 없다 하더라도 한줄씩 천천히 적어나가면 충분히 할 수 있다. 

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

plt.style.use('seaborn')
sns.set(font_scale=2.5) # 이 두 줄은 필자가 항상 쓰는 방법이다. matplotlib의 기본 scheme 말고 seaborn scheme을 세팅하고, 일일히 graph의 font size를 지정할 필요 없이 seaborn의 font_scale을 이용하면 편하다.

import missingno as msno

#ignore warnings
import warnings
warnings.filterwarnings('ignore')

%matplotlib inline

앞으로 우리가 해야 할 프로세스는 대략 아래와 같다. 
<p>
1. 데이터셋 확인 : 대부분의 캐글 데이터는 잘 정제되어 있다. 하지만 가끔 null data가 존재한다. 이를 확인하고, 향후 수정한다.
</p>
<p>
2. 탐색적 데이터 분석(exploratory data analysis) : 여러 feature들을 개별적으로 분석하고, feature들 간의 상관관계를 확인한다. 여러 시각화 툴을 사용하여 insight를 얻는다.
</p>
<p>
3. feature engineering : 모델을 만들기에 앞서, 모델의 성능을 높일 수 있도록 feature들을 engineering 한다. one-hot encoding, class로 나누기, 구간으로 나누기, 텍스트 데이터 처리 등을 한다. 
</p>
<p>
4. model 만들기 : sklearn을 사용해 모델을 만든다. 파이썬에서 머신 러닝을 할 때는 sklearn을 사용하면 수많은 알고리즘을 일관된 문법으로 사용할 수 있다.
</p>
<p>
5. 모델 학습 및 예측 : train set을 가지고 모델을 학습시킨 후, testset을 가지고 prediction 한다. 
</p>
<p>
6. 모델 평가 : 예측 성능이 원하는 수준인지 판단한다. 풀려는 문제에 따라 모델을 평가하는 방식도 달라진다. 학습된 모델이 어떤 것을 학습하였는지도 확인해본다.
</p>



## 1. Dataset 확인
- 파이썬에서 테이블화된 데이터를 다루는 데 가장 최적화되어 있으며, 가장 많이 쓰이는 라이브러리는 pandas이다. 
- 우리는 pandas를 사용하여 데이터셋의 간단한 통계적 분석부터 복잡한 처리들을 간단한 메소드를 사용하여 해낼 수 있다. 
- 파이썬으로 데이터 분석을 한다고 하면 반드시 능숙해져야 할 라이브러리이니, 여러 커널들을 공부하면서 사용법에 익숙해지도록 반복 또 반복하길 권장한다.
- 캐글에서 데이터셋은 보통 train, testset으로 나뉘어 있다. 

In [2]:
df_train = pd.read_csv('data/train.csv')
df_test = pd.read_csv('data/test.csv')

In [3]:
df_train.head(10)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C
