### Titanic Data Science Solutions

#### 이 노트북은 [Data Science Solutions](https://www.amazon.com/Data-Science-Solutions-Startup-Workflow/dp/1520545312)라는  책과 관련이 있습니다.

이 노트북은 Kaggle과 같은 데이터 관련 문제를 해결하기 위한 일반적인 워크플로우를 안내한다. 데이터 분석 관련 공부를 위한 몇 가지 훌륭한 노트북이 있다. 그러나 대부분은 전문가들을 위한 전문가들에 의해 만들어졌기 때문에 대다수의 설명이 생략되어 있다. 이 노트북의 목표는 과정 중 모든 결정에 대해 각 단계와 근거를 설명하는 단계별 워크플로우가 되는 것이다.

### Workflow stages

워크플로우는 책에 설명 되어 있듯이 7단계로 진행 된다.

1. 질문 또는 문제 정의
2. train, test data 확보
3. Data 준비 및 정리
4. 패턴 분석 및 데이터 탐색
5. 모델링 및 예측
6. 최종 솔루션 시각화, 보고 및 제시
7. 결과 제출

워크플로우는 각 단계가 다른 단계를 따를 수 있는 일반적인 순서를 나타낸다. 그러나 예외를 가진 경우도 존재한다.

- 여러 워크플로우 단계 결합 가능, 데이터를 시각화하여 분석할 수 있다.
- 단계별 먼저 나오는 경우도 있다. 데이터 전처리 전에도 분석 가능하다.
- 워크플로우에서 스테이지를 여러 번 수행 가능. 시각화 단계를 여러 번 사용할 수 있다.
- 결과를 제출할 필요가 없을 경우에는 마지막 단계를 빼도 된다.

### 질문 및 문제 정의

Kaggle과 같은 사이트는 데이터셋을 제공하는 동시에 해결해야 할 문자나 질문할 문제를 정의해준다. 이 대회의 질문이나 문제 정의는 [여기](https://www.kaggle.com/c/titanic)에 설명되어 있다.

> 타이타닉에서 생존했거나 생존하지 못한 승객의 training set을 통해 test dataset의 승객의 생존 여부를 파악해야 한다.

우리는 우리 문제의 domain에 대한 초기 이해를 발전시키고 싶을 수 있다. [여기](https://www.kaggle.com/c/titanic)에 설명되어 있다. 다음은 주목할 만한 사항이다.

- 1912년 4월 15일, 처녀 항해 중 타이타닉호는 빙산과 충돌한 후 침몰하여 승객과 승무원 2224명 중 1502명이 사망, 생존율은 32%이다.
- 난파선이 이처럼 인명피해를 낸 이유 중 하나는 승객과 승무원을 위한 구명보트가 부족했기 때문이다.
- 비록 침몰에서 살아남는 데는 운의 요소도 있었지만, 여성, 어린이, 상류층 등 다른 사람들보다 더 많이 살아남은 군집들이 존재했다.

### Workflow goals

Data science solution workflow는 7가지 주요 목표를 해결해야된다.

#### 1) Classifying
우리는 우리의 샘플을 분류하거나 분류하기를 원할 수 있다. 또한 다양한 클래스와 솔루션 목표의 상관 관계 또는 시사점을 이해하고 싶어할 수 있다.

#### 2) Correlating
Train data에서 사용 가능한 feature를 기준으로 문제에 접근할 수 있다. 어떤 feature가 우리의 solution 목표에 크게 기여할까? 통계적으로 feature와 solution 목표 사이에 상관관계가 있는지? feature 값이 변경 되면 solution 상태도 변경되고 반대의 경우도 변경이 되는지? 주어진 데이터셋의 연속형, 범주형 feature에 모두 테스트 할 수 있다. 또한 생존 이외의 후속 목표 또는 workflow stage에 대한 feature간 상관관계 확인 가능하다. 특정 feature를 상호 연결하면 feature를 생성, 완료, 수정하는데 도움이 될 수 있다.

#### 3) Converting
모델링 단계에서는 데이터를 준비해야 된다. 모델 선택에 따라 모든 feature를 수치형으로 변환해야 할 수도 있다. 예를 들어 텍스트 범주형 값을 수치형으로 변환한다.

#### 4) Completing
데이터 준비를 위해 feature 내에 결측값을 추정해야 할 수도 있다. 결측값이 없을 때 모델이 가장 잘 작동한다.

#### 5) Correcting
주어진 데이터셋에서 feature 내에 오류 또는 부정확한 값이 있는지 분석하고 이러한 값이 나타나거나 오류가 포함된 샘플을 제외할 수도 있다. 이를 위한 방법으로 샘플 또는 feature 중 outliers를 탐지하는 것이다. 분석에 도움이 되지 않거나 결과가 크게 왜곡될 수 있는 경우 feature를 완전히 버릴 수도 있다.

#### 6) Creating
기존 feature 또는 feature 세트의 기반으로 새로운 feature를 만들 수 있다. 예를 들어 새 feature는 상관관계, 변환, 완전성 목표를 따른다.

#### 7) Charting
데이터의 feature 및 솔루션 목표에 따라 올바른 시각화 그림 및 차트를 선택하는 방법이다.

In [1]:
import warnings
warnings.filterwarnings(action='ignore')

# data analysis and wrangling
import pandas as pd
import numpy as np
import random as rnd

# visualization
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

# machine learning
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC, LinearSVC
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.linear_model import Perceptron
from sklearn.linear_model import SGDClassifier
from sklearn.tree import DecisionTreeClassifier

### Data 획득
Pandas 패키지는 데이터셋을 사용하는데 도움이 된다. 먼저 Pandas DataFrame으로 train, test data를 불러오고 또한 두 dataset을 결합하여 함께 특정 작업을 실행한다.

In [2]:
train_df = pd.read_csv('train.csv')
test_df = pd.read_csv('test.csv')
combine = [train_df, test_df]

### Analyze by describing data
Pandas는 프로젝트 초기에 이어지는 질문에 대한 데이터셋을 설명하는 데 도움이 된다.

#### 데이터셋에서 사용 가능한 feature는 무엇일까?

이러한 feature를 조작하거나 분석하기 위해 이름을 기록한다. 이러한 feature 이름은 Kaggle data page에 설명되어 있다.

In [3]:
print(train_df.columns.values)

['PassengerId' 'Survived' 'Pclass' 'Name' 'Sex' 'Age' 'SibSp' 'Parch'
 'Ticket' 'Fare' 'Cabin' 'Embarked']


In [5]:
# preview the data
train_df.head(2)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C


In [6]:
train_df.info()
print('_'*40)
test_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
PassengerId    891 non-null int64
Survived       891 non-null int64
Pclass         891 non-null int64
Name           891 non-null object
Sex            891 non-null object
Age            714 non-null float64
SibSp          891 non-null int64
Parch          891 non-null int64
Ticket         891 non-null object
Fare           891 non-null float64
Cabin          204 non-null object
Embarked       889 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 83.6+ KB
________________________________________
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 418 entries, 0 to 417
Data columns (total 11 columns):
PassengerId    418 non-null int64
Pclass         418 non-null int64
Name           418 non-null object
Sex            418 non-null object
Age            332 non-null float64
SibSp          418 non-null int64
Parch          418 non-null int64
Ticket         418 non-null

### 표본에서 나온 수치형 데이터의 분포는?

이것은 실제 문제 영역의 trainset이 얼마나 대표적인지 파악할 수 있다.

- 주어진 데이터의 수는 타이타닉호에 탑승한 실제 승객 수(2,224명)의 40%인 891명이다.
- Survived는 값이 0, 1인 범주형 feature이다.
- 약 38%의 샘플이 32%의 실제 생존율을 나타냈다.
- 대부분의 승객(75% 이상)은 부모나 자녀와 함께 여행하지 않았다.
- 거의 30%의 승객들이 형제, 자매나 배우자와 함께 타고 있었다.
- 요금은 최재 512달러까지 지불하는 소수의 승객으로 상당히 다양하다.
- 65~80세의 노인 승객은 거의 없다.

In [7]:
train_df.describe()
# Review survived rate using `percentiles=[.61, .62]` knowing our problem description mentions 38% survival rate.
# Review Parch distribution using `percentiles=[.75, .8]`
# SibSp distribution `[.68, .69]`
# Age and Fare `[.1, .2, .3, .4, .5, .6, .7, .8, .9, .99]`

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


### 범주형 데이터의 분포는?

- dataset에서 이름은 고유값이다.
- Sex 변수는 두 개의 가능한 값으로 65%는 남성이다.
- Cabin값은 여러 표본이 중복되어 있다. 또는 여러 명의 승객이 한 객실을 함께 사용했다.
- Embarked는 3가지 값이 가능하다. 대부분 승객은 S port이다.
- Ticket feature은 중복 값 비율이 22%로 높다.

In [11]:
# 범주형 자료에 대한 요약
train_df.describe(include=['O'])

Unnamed: 0,Name,Sex,Ticket,Cabin,Embarked
count,891,891,891,204,889
unique,891,2,681,147,3
top,"Padro y Manent, Mr. Julian",male,1601,B96 B98,S
freq,1,577,7,4,644


#### [참고 링크](https://www.kaggle.com/startupsci/titanic-data-science-solutions)