# Titanic Challenge

[캐글 타이타닉 챌린지](https://kaggle.com/c/titanic)

[판다스 기초정리 - 문범우](https://doorbw.tistory.com/172)



![](https://i.imgur.com/rRFchA8.png)

# 타이타닉 데이터 준비


## 1. 모듈(판다스와 넘파이) 임포트 하기

In [None]:
import numpy as np
import pandas as pd

# 시각화를 위한 모듈
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
plt.style.use('seaborn-whitegrid')
import missingno

# 너무 많이 발생하는 경고들을 제거
import sys
import warnings
warnings.filterwarnings('ignore')



## 2. CSV 파일로 부터 데이터프레임 얻기

### 코랩 위젯을 이용하여 파일 업로드

* test.csv 파일과 train.csv 파일을 업로드 한다.

In [None]:
#from google.colab import files
#uploaded = files.upload()

### 데이터프레임 생성하기

In [None]:
train = pd.read_csv('train.csv')
test = pd.read_csv('test.csv')

print(train)
print(test)

## 3. 데이터프레임 다루기

### `shape` 을 이용하여 train의 행과 열의 개수 구하기

In [None]:
 train.shape

### train 데이터프레임에서 첫 5행을 출력

`head()` 이용

In [None]:
train.head()

### train 데이터프레임에서 마지막 5행을 출력

`tail()` 이용

In [None]:
train.tail()

### train의 통계치 얻어내기

`describe()` 은 각 열의 통계적인 면을 보여 준다.

`include='all'` 인자를 추가하면, 연속형 데이터가 아닌 경우에도 보여준다.

In [None]:
train.describe(include='all')

### train의 모든열의 데이터 종류 알아내기

`dtypes` 모든 열의 데이터 종류를 보여준다.

In [None]:
train.dtypes

### info() 사용해 보기
`info()` 는 `dtypes` 의 좀  더 발전된 개념으로 데이터 타입뿐만 아니라 비어있지 않는 개수도 함께 보여준다.



In [None]:
train.info()

### train의 모든 열의 이름을 구하기
`columns`은 데이터 프레임의 열의 이름들을 보여준다.

In [None]:
train.columns

[참고: numpy array indexing](https://www.w3schools.com/python/numpy_array_indexing.asp)


In [None]:
train.columns[3:5]

### 10번 행 부터 20번 행까지 인덱싱하기

In [None]:
train.iloc[10:21]

### "Name", "Sex", "Age" 열만 가져오기

In [None]:
train[["Name", "Sex", "Age"]]

### 30세 이상의 남성만 가져오기

* [참고: DataFrame 필터링과 편집](https://wikidocs.net/46753)


In [None]:
train[(train["Age"] >= 30) & (train["Sex"] == "male")]

# 탐색적 데이터 분석


## 1. train 데이터와 test 데이터 합치기

* 데이터의 속성을 추가하거나 수정하여 새로운 속성을 만들기 위해 두 데이터를 합친다.
    1. train 의 크기와 test의 크기를 따로 저장해 둔다.
    1. y_train에는 train의 class 값들을 따로 저장해 둔다.
    1. passID 에는 test 데이터의 승객 아이디를 저장해 두었다가, 최종 결과를 만들 때 사용한다.
    1. train과 test를 합쳐서 data 를 만든다.


In [None]:
# train과 test 의 크기를 저장한다.
ntrain = train.shape[0]
ntest = test.shape[0]

# train 의 class 값과 test의 승객 아이디를 저장해둔다.
y_train = train['Survived'].values
passId = test['PassengerId']

# train과 test를 합친다
data = pd.concat((train, test))

# 전체 데이터의 크기를 출력한다.
print(f"data size is: {data.shape}")


.value_counts()를 이용하여 train 데이터에서 몇명이 죽었고 몇명이 살았는지 확인해 본다.


In [None]:
train['Survived'].value_counts()

## 2. 결측치(missing value) 확인하기

`missingno.matrix()` 를 이용하여 데이터가 얼마나 비어 있는지 그래프로 확인한다.

[참고: missingno 를 이용하여 결측치 살펴보기](https://m.blog.naver.com/PostView.nhn?blogId=youji4ever&logNo=221623491491&proxyReferer=https:%2F%2Fwww.google.com%2F)


In [None]:
missingno.matrix(data, figsize = (14,8))

`.isnull().sum()` 비어 있는 값들의 개수를 컬럼별로 확인해보기


In [None]:
data.isnull().sum() #비어 있는 값들을 체크해 본다.

.isnull().any() 하나라도 결손값이 있는 지 모든 컬럼을 확인하기


In [None]:
data.isnull().any()

## 3. 속성의 의미 확인

[캐글 타이타닉 컬럼 설명 링크](https://www.kaggle.com/c/titanic/data)


          Variable          정의                Key

          Survival          생존 여부            0 = No, 1 = Yes

          Pclass            선실 등급            1 = 1st, 2 = 2nd, 3 = 3rd

          Sex               성별    

          Age               나이  

          Sibsp             형재 자매의 수 + 배우자 수

          Parch             부모 수 + 자식 수

          Ticket            표 번호    

          Fare              요금

          Cabin             선실 번호   

          Embarked          승선한 항구         C = Cherbourg, Q = Queenstown, S = Southampton


### 데이터의 분류 
* 데이터의 속성에 따라
    1. 양적
        - 연속형: 키, 몸무게, ...
        - 이산형: 불량품 수, 성공 횟수, ...
    1. 질적(범주형): 성공 유무, 생존여부, ...
* 측정 수준에 따라
    1. 비율척도: 키, 몸무게, 길이 넓이
    1. 등간척도: 연령대, 등간격 소득 수준
    1. 순서척도: 등수, 평점
    1. 명목척도: 성별, 지역, 상품종류

### 타이타닉 데이터 속성 분류
* 질적 데이터 속성: Sex, Embark, Name, Ticket
* 순서척도 속성(정렬이 가능하다): PClass, Carbin
* 연속형 속성: Age, SipSp, Parch, Fare
    * 연속형 속성은 등간척도 속성으로 변환 시킬 수도 있다.



## 4. 속성들의 상관관계 살펴보기

* 상관관계 행렬을 이용하여 변수들간의 상관 계수를 살펴볼 수 있다. 속성들 간의 관계를 분석하는데 힌트를 얻을 수 있고, 전체 데이터를 요약하는데에도 사용된다.

참고: https://seaborn.pydata.org/examples/many_pairwise_correlations.html


### 상관관계 행렬 그리기

* [히트맵](https://seaborn.pydata.org/generated/seaborn.heatmap.html) 

* [판다스 코릴레이션 매트릭스](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.corr.html)  

* [씨본 콜릴레이션 히트맵](https://seaborn.pydata.org/generated/seaborn.heatmap.html)

In [None]:
corr = data.corr()
plt.figure(figsize=(14, 8))
plt.title('Overall Correlation of Titanic Features', fontsize=18)
sns.heatmap(corr, annot=True, vmin=-1, vmax=1, center=0) 
plt.show()

## 5. 종속변수 분석

Survived - Key: (0 - Not Survived, 1- Survived)

Survived는 숫자로 주어지지만, 범주형 속성이다. 

범주형인경우 countplot를 그려보면 데이터의 분포를 쉽게 눈으로 확인 할 수 있다.




In [None]:
f,ax=plt.subplots(figsize=(6, 6))
ax.set_title('Survived')
sns.countplot('Survived',data=train, ax=ax)
ax.set_title('Survived')
plt.show()

## 6. 독립변수 분석


### data 복사

* 데이터가 안전하게 유지될 수 있도록 복사하여 temp를 만다.
* temp에 새로운 속성을 추가 할 수 있다.


In [None]:
temp = data.copy()

### "Pclass" 분석

* Pclass는 값이 숫자이나 순서(서열)가 있는 값이다.
* Key:1 = 1st, 2= 2nd, 3 = 3rd
* Pclass의 값에 따라 생존이 어떻게 달라졌는지 살펴본다.

참고: [groupby() 사용법](https://jjangjjong.tistory.com/7)

`groupby()` 를 이용하여 Pclass 별로 생존/사망한 사람 수를 구하기

In [None]:
train.groupby(['Pclass','Survived'])['Survived'].count()

`groupby()` 를 이용하여 Pclass 별로 생존 비율 구하기

In [None]:
train.groupby(['Pclass'])['Survived'].mean()

`pd.crosstab()` 을 이용하여 빈도표 만들기

참고: [pandas crosstab](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.crosstab.html)

In [None]:
pd.crosstab(train.Pclass, train.Survived, margins=True).style.background_gradient(cmap='summer_r')

아래 함수를 이용하여 "Pclass"의 생존률 그래프와 생존자/사망자 수를 그리기


In [None]:
def plot_pct_counts(col, target, data):
    f,ax=plt.subplots(1,2,figsize=(12,5))
    data.groupby([col])[target].mean().plot(kind='bar', ax=ax[0])
    ax[0].set_title(f"{target} percent by {col}")
    sns.countplot(col, hue=target, data=data, ax=ax[1])
    ax[1].set_title(f"{target} counts by {col}")
    ax[1].set_xticklabels(ax[1].get_xticklabels(), rotation=90)
    plt.show()
    

In [None]:
plot_pct_counts("Pclass", "Survived", train)

### "Sex" 분석

생존률 그래프와 생존자/사망자 수를 그리기

In [None]:
plot_pct_counts("Sex", "Survived", train)

빈도수 데이블 그리기

In [None]:
pd.crosstab([train.Sex, train.Survived],train.Pclass,margins=True).style.background_gradient(cmap='summer_r')

### "Name" 분석
* 이름 분석은 굉장히 많은 경우의 수가 있을 수 있다.
* 아마도 겹치는 이름이 거의 없을 것으로 예상 할 수 있다.
* 이름에서 의미를 가지는 부분 예) Miss, Mr 등을 따로 처리 해줄 필요가 있다.
    * Mr. Miss. 등과 같이 `.`으로 끝나는 단어는 의미가 있을 것으로 추정 할 수 있다.
    * 정규식을 이용하여 `.`으로 끝나는 단어를 분리해 낼 수 있다.

    * 분리한 부분을 ['Initial']이란 새로운 속성으로 저장한다.

    * Mr. Miss. Mrs. 등과 같이 `.`으로 끝나는 단어를 분리하는 정규식은 `([A-Za-z]+)\.` 이다.
    str.extract(("뽑아낼 정규식"))
    [ ] 대괄호는 한글자 (or관계), + : 한 글자 이상
     
     [A-Za-z]+ : 대문자 혹은 소문자로 구성된 하나의 글자

참고: [정규식](https://wikidocs.net/4308)

In [None]:
data.Name.value_counts()

temp 데이터프레임에 승객의 이름에서 호칭(Mr, Miss, Dr 등)을 추출하여 "Initial" 속성으로 추가한다.

"Initial"의 빈도수를 살펴본다.

In [None]:
temp = data.copy()
temp['Initial'] = data.Name.str.extract('([A-Za-z]+)\.')
temp['Initial'].value_counts()

In [None]:
pd.crosstab(temp.Initial, temp.Sex).T.style.background_gradient(cmap='summer_r')

In [None]:
plot_pct_counts("Initial", "Survived", temp)

이니셜을 정리하여 단순화 시킨다.


In [None]:
initial_dict = {
    "Dr":"Other",
    "Rev":"Other",
    "Col":"Other",
    "Ms":"Miss",
    "Major":"Other",         
    "Mlle":"Nobles",
    "Countess":"Nobles",
    "Lady":"Other",
    "Capt":"Other",
    "Sir":"Nobles",
    "Don":"Mr",
    "Jonkheer":"Mr",
    "Dona":"Mrs",
    "Mme":"Nobles",
}

temp['Initial'].replace(initial_dict.keys(), initial_dict.values(), inplace=True)
pd.crosstab(temp.Initial,temp.Sex).T.style.background_gradient(cmap='summer_r')

"Name"에서 lastname을 추출하여 "LastName" 속성을 만든다.

In [None]:
temp['LastName'] = data.Name.str.extract('^([A-Za-z]+)')

In [None]:
pd.crosstab(temp.LastName, temp.Survived).T.style.background_gradient(cmap='summer_r')

"LastName"을 전부 숫자로 바꾼다.

In [None]:
temp['NumName'] = temp['LastName'].factorize()[0]

In [None]:
pd.crosstab(temp.NumName, temp.Survived).T.style.background_gradient(cmap='summer_r')

### "Age" 분석

* Age 는 결측치가 가장 많은 속성이기 때문에, 결측치를 잘 채워넣는 것이 분석의 핵심이다.

`describe()` "Age"의 기본 통계값을 살펴본다.

In [None]:
data['Age'].describe()

"Age"에 대해서 swarmplot 을 그려본다.

In [None]:
sns.swarmplot(x=train['Survived'], y=train['Age'])
plt.xlabel("Survived")
plt.ylabel("Age")
plt.show()

"Age"에 대해서 violinplot 을 그려본다.

In [None]:
f, ax = plt.subplots(1,2,figsize=(18,8))
sns.violinplot("Pclass", "Age", hue="Survived", data=train, split=True, ax=ax[0])
ax[0].set_title('Pclass and Age vs Survived')
ax[0].set_yticks(range(0, 110, 10))
sns.violinplot("Sex","Age", hue="Survived", data=train, split=True, ax=ax[1])
ax[1].set_title('Sex and Age vs Survived')
ax[1].set_yticks(range(0, 110, 10))
plt.show()

#### "Age"의 결측치 채우기

* 이니셜의 평균 연령으로 결측치를 채운다.



In [None]:
temp.groupby('Initial').agg({'Age': ['mean', 'count']}) #이니셜 별 평균 연령 체크

In [None]:
# 비어 있는 "Age" 값을 이니셜의 평균으로 채운다.
print(temp)
temp['Age'] = temp.groupby('Initial')['Age'].apply(lambda x: x.fillna(x.mean())).reset_index(drop=True)
temp

### "SibSp" (형제/배우자), "Parch"(부모/자식) 분석

* SibSp - 이 항목은 탑승자가 혼자인지 또는 가족과 함께 있는지를 나타낸다.
    * Sibling = 형제, 자매, 의붓 형제, 이복 누이
    * Spouse = 남편, 아내
* Parch는 부모와 함께 탔는지를 봅니다.
* 새로은 속성 추가
    * "Alone" 혼자서 배를 탑승했는지 여부 0- 혼자 탑승, 1-가족과 같승
    * "FamilySize" 가족의 명수

In [None]:
# 혼자 탔다면 "Alone" 값을 1로 수정한다.
temp['Alone'] = 0
temp.loc[(temp['SibSp'] == 0) & (temp['Parch'] == 0), 'Alone'] = 1

In [None]:
# 가족수를 구하여 "FamilySize" 속성 값으로 한다.
temp['FamilySize'] = temp['Parch'] + temp['SibSp'] + 1

In [None]:
temp.head(n=10)

In [None]:
# 가족수와 생존률 관계 살펴보기
plot_pct_counts("FamilySize", "Survived", temp)

In [None]:
# 가족수와 생존/사망이 "Pclass"에 따른 빈도표 생성
pd.crosstab([temp.FamilySize, temp.Survived], temp.Pclass, margins=True).style.background_gradient(cmap='summer_r')

### "Ticket" 분석

In [None]:
temp["Ticket"].head()

"Ticket"의 첫 부분 추출

In [None]:
temp.Ticket.str.split(" ").str[0]

In [None]:
temp['Initick'] = temp["Ticket"].str.split(" ").str[0] #티켓의 첫 글자 가져오기.
temp['NumTicket'] = temp['Initick'].factorize()[0]
temp

### "Fare" 분석

In [None]:
f,ax=plt.subplots(1, 3, figsize=(20, 6))
sns.distplot(train[train['Pclass'] == 1].Fare,ax=ax[0])
ax[0].set_title('Fares in Pclass 1')
sns.distplot(train[train['Pclass'] == 2].Fare,ax=ax[1])
ax[1].set_title('Fares in Pclass 2')
sns.distplot(train[train['Pclass'] == 3].Fare,ax=ax[2])
ax[2].set_title('Fares in Pclass 3')
plt.show()

#### "Fare"의 결측치 채우기
* "Pclass"의 평균을 이용하여 결측치를 채운다

In [None]:
temp['Fare'] = temp.groupby('Pclass')['Fare'].apply(lambda x: x.fillna(x.mean())).reset_index(drop=True)

### "Cabin" 분석
* cabin 의 위치에 따라 달라지는 것이 있는 지 살펴본다.

In [None]:
temp.Cabin.value_counts()

In [None]:
temp['Inicab'] = temp['Cabin'].str.extract('^([A-Za-z]+)')
temp['Inicab'].value_counts()

In [None]:
temp.Cabin.isnull().sum()

#### "Cabin" 결측치 채우기

In [None]:
temp.loc[temp['Cabin'].isnull(), "Inicab"] = "X"

In [None]:
temp['Inicab'].value_counts()

### "Embarked" 분석

In [None]:
pd.crosstab([temp.Embarked, temp.Pclass], [temp.Sex, temp.Survived], margins=True).style.background_gradient(cmap='summer_r')

In [None]:
plot_pct_counts("Embarked", "Survived", temp)

#### "Embarked" 의 결측치를 채운다.

In [None]:
temp.loc[temp['Embarked'].isnull(), "Embarked"] = "X"

In [None]:
temp['Embarked'].value_counts()

# Feature Egineering


## Feature 를 선택

In [None]:
temp.head()

In [None]:
selected_columns = ["Initial","Age", "NumName", "NumTicket", "FamilySize", "Embarked", "Sex", "Pclass", "Alone", "Fare", "Inicab"]
selected_columns

## Feature 인코딩

In [None]:
from sklearn.preprocessing import LabelEncoder

In [None]:
df_en = temp[selected_columns].copy()

In [None]:
# 결측치가 없는지 확인한다. 있다면 모든 결측치가 제거되어야 한다.
df_en.info()

### 문자열이 값인 feature들에 대해서 Label 인코딩을 수행한다.
* 모든 문자열이 정수로 치환된다.

In [None]:
encoding_columns = ["Initial","Embarked","Sex","Inicab"] #인코딩해야 할 컬럼들
df_en[encoding_columns] = df_en[encoding_columns].apply(LabelEncoder().fit_transform)
df_en

모든 컬럼들이 숫자형인지 확인

In [None]:
df_en.info()

# 머신러닝 모델 생성


In [None]:
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from xgboost import XGBClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.ensemble import ExtraTreesClassifier
from sklearn.ensemble import AdaBoostClassifier
from sklearn.gaussian_process import GaussianProcessClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.ensemble import BaggingClassifier
from sklearn.ensemble import VotingClassifier

from sklearn.model_selection import cross_val_score
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import cross_val_predict
from sklearn import model_selection

from statistics import mean #표준화

## 1. 표준화된 train, test 만들기

### Feature 들을 표준화 하기

In [None]:
scaler = StandardScaler()
X_train = scaler.fit_transform(df_en[:ntrain]) #ntrain : train.shape[0] (앞쪽) / train set만 분리 후 표준화
X_test = scaler.transform(df_en[ntrain:]) #test set 분리 후 표준화

In [None]:
X_train #평균 0으로 표준화됨.

## 2. 다양한 머신러닝 모델 만들기


In [None]:
models = {#모델이름 : 모델
    "Ran":RandomForestClassifier(),
    "KNN":KNeighborsClassifier(),
    "Log":LogisticRegression(),
    "GBC":GradientBoostingClassifier(),
    "XGB":XGBClassifier(),
    "SVC":SVC(probability=True),
    "Ada":AdaBoostClassifier(),
    "GNB":GaussianNB(),
    "Bag":BaggingClassifier(),
}


## 3. Cross validation 수행하기

* 성능평가 방법은 accuracy를 사용한다.(캐글에서 지정한 방법 사용)

참고: [scikit-learn 에서 모델 평가](https://scikit-learn.org/stable/modules/model_evaluation.html)

In [None]:
scores = {} # cross-validation 결과가 저장된다.
for model_name, model in models.items():
    model.fit(X_train, y_train)
    acc = cross_val_score(model, X_train, y_train, scoring = "accuracy", cv = 10)
    scores[model_name] = acc
    print(f"{model_name}: {mean(acc)}")


Cross validation 결과 정리


In [None]:
results = pd.DataFrame(scores).T
results
results['mean'] = results.mean(axis=1)
result_df = results.sort_values(by='mean', ascending=False)
result_df

## 4. 중요한 Feature들만 선택

### 모델들로 부터 feature 중요도 가져오기

* 모델의 속성중에서 "feature_importances_" 이 존재하면, feature들의 중요도를 얻을 수 있다.
* 모델들로 부터 각 feature들에 대해 중요도 평균을 구한다.
* 중요도 평균을 기준으로 내림차순 정렬한다.


In [None]:
#importance_dict = {m:models[m].feature_importances_ for m in models if hasattr(models[m], 'feature_importances_')}
importance_dict = {}
for model_name, model in models.items():
    if hasattr(model, 'feature_importances_'): # model의 속성중에서 feature_importances_ 가 있는지 확인
        importance_dict[model_name] = model.feature_importances_

importances = pd.DataFrame.from_dict(importance_dict, orient='columns')
importances.index = df_en.columns.tolist()
importances["mean"]= importances.mean(axis=1)
importances.sort_values("mean", inplace=True, ascending=False)
importances
#피처의 중요도를 만들어낼 수 있는 모델들만 출력


### 중요도가 높은 feature들을 선택한다.
* Alone 만 제외하고 모두 선택하시오.

In [None]:
important_features = importances.index.tolist()[:-1]
important_features

### 최종 선택된 feature들을 이용하여 train 데이터와 test 데이터를 표준화 한다.

In [None]:
scaler = StandardScaler()
X_train = scaler.fit_transform(df_en[:ntrain][important_features])
X_test = scaler.transform(df_en[ntrain:][important_features])

## 5. 다시 모델들을 fitting

### 모델 fitting과 cross-validation을 다시 수행하고, 결과를 정리한다.

In [None]:
models = {
    "Ran":RandomForestClassifier(),
    "KNN":KNeighborsClassifier(),
    "Log":LogisticRegression(),
    "GBC":GradientBoostingClassifier(),
    "XGB":XGBClassifier(),
    "SVC":SVC(probability=True),
    "Ada":AdaBoostClassifier(),
    "GNB":GaussianNB(),
    "Bag":BaggingClassifier(),
}

scores = {}
for model_name, model in models.items():
    model.fit(X_train, y_train)
    acc = cross_val_score(model, X_train, y_train, scoring = "accuracy", cv = 10)
    scores[model_name] = acc
    print(f"{model_name}: {mean(acc)}")

In [None]:
results = pd.DataFrame(scores).T
results
results['mean'] = results.mean(axis=1)
result_df = results.sort_values(by='mean', ascending=False)
result_df

### 여러 머신러닝 모델들을 이용하여 VotingClassifier 모델을 생성하고, fitting 한다.

In [None]:
soft_voting = VotingClassifier(estimators = list(models.items()), voting = 'soft')
soft_voting.fit(X_train, y_train)
soft_voting_cv = model_selection.cross_validate(soft_voting, X_train, y_train, cv=10)
print(f"Soft voting cross-validation score mean: {soft_voting_cv['test_score'].mean():.2f}")

## 6. 최종 모델 선택

In [None]:
final_model = soft_voting # models["SVC"]

# 제출 파일 만들기


In [None]:
predictions = final_model.predict(X_test)

submission = pd.concat([pd.DataFrame(passId), pd.DataFrame(predictions)], axis = 'columns') #columns방향으로 합친다.
submission.columns = ["PassengerId", "Survived"] #케글 지정 컬럼
print(submission)
submission.to_csv('titanic_submission.csv', header = True, index = False)