# 타이타닉 생존자 데이터 분석

## 타이타닉호에서 어떤 승객이 생존했는지 데이터로부터 분석


1912년 4월 15일 타이타닉호 침몰로 2224명중 1502이 사망했다. 생존한 승객이 성별, 나이, 선실 등급과 어떤 관계가 있었는지를 분석한다.


## 주어진 데이터 내용

  * **Survival** - Survival. 0 = No, 1 = Yes
  * **Pclass** - Ticket class. 1 = 1st, 2 = 2nd, 3 = 3rd
  * **Sex** - Sex.
  * **Age** - Age in years.
  * **SibSp** - # of siblings / spouses aboard the Titanic.
  * **Parch** - # of parents / children aboard the Titanic.
  * **Ticket** - Ticket number.
  * **Fare** - Passenger fare.
  * **Cabin** - Cabin number.
  * **Embarked** - Port of Embarkation. C = Cherbourg, Q = Queenstown, S = Southampton


## Load Dataset

'titanic_train.csv' 파일을 읽어서 변수 train에 저장하고,

PassengerId를 index로 지정

In [1]:
import pandas as pd
seed = 37

In [16]:
test = pd.read_csv('titanic_data/titanic_test.csv')

test.index = test['PassengerId']

Unnamed: 0_level_0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
892,892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
893,893,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
894,894,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
895,895,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
896,896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S


'titanic_test.csv' 파일을 읽어서 변수 test에 저장하고,

PassengerId를 index로 지정

## Preprocessing

### Encode Sex

'Sex_encode'라는 이름의 column을 생성하고 성별이 남자면 0, 여자면 1로 코딩

(train, test 둘 다 적용)

- .loc 활용

In [22]:

test['Sex_encode'] = 0 if test['Sex'] == 'male' else '1'
# lambda a : if test['sex']=='male' : 0 else :1

ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().

### Fill in missing fare
#### - delete row or filling in missing fare(mean)


train, test 모두 'Fare_fillin'이라는 이름의 column을 생성

missing(null)가 있는지 확인하고, missing value를 Fare 전체의 평균값으로 코딩

In [None]:
train["Fare_fillin"] = train["Fare"]
test["Fare_fillin"] = test["Fare"]

### Encode Embarked

Embarked column의 값이 C일 때, Q일 때, S일 때 값이 1이 되도록 원핫인코딩

(train, test 둘 다 적용)
- .get_dummies 활용

## Train

In [None]:
feature_names = ["Pclass", "Sex_encode", "Fare_fillin", "SibSp", "Parch",
                 "Embarked_C", "Embarked_Q", "Embarked_S"]

X_train = train[feature_names]

print(X_train.shape)
X_train.head()

In [None]:
label_name = "Survived"

y_train = train[label_name]

print(y_train.shape)
y_train.head()

In [None]:
from sklearn.tree import DecisionTreeClassifier

model = DecisionTreeClassifier(max_depth=7,
                               random_state=seed)

In [None]:
model.fit(X_train, y_train)

In [None]:
import pandas as pd

train = pd.read_csv("data/titanic_train.csv", index_col="PassengerId")

train["Survived"].value_counts()

In [None]:
1 - (549 / 891) ** 2 - (342 / 891) ** 2

## Predict

In [None]:
X_test = test[feature_names]

print(X_test.shape)
X_test.head()

In [None]:
prediction = model.predict(X_test)

print(prediction.shape)
prediction[:20]