## **캐글 경진대회 도전 (1) : 타이타닉 생존자 예측**

### **3.1 캐글을 이용하여 실제 데이터 분석**
---

* 데이터 분석 흐름
    * 데이터 분석을 위한 파이썬 코드 익히기
    * 추가 분석 1: 승객을 그룹별로 분류하기
    * 추가 분석 2: 특정 타깃에 주목하기

### **3.2 타이타닉 생존자 예측 경진대회란**
---

이 경진대회는 1912년에 일어난 타이타닉호 침몰 사고를 소재로 하고 있다.

타이타닉 침몰 사고는 승객 2224명 중 1502명이 사망한 당시로서는 유례없는 해상 조난 사고였다.

이 경진 대회를 위한 데이터는 승객의 성별과 연령, 승선 티켓 등급 등 여러 정보가 들어 있고, 이들의 생사 여부도 함께 주어진다.
승객 정보를 보고 생사에 영향을 주는 속성이 무엇이며, 어떤 경향을 보이는지 파악한 후 생사 여부를 알 수 없는(생사 여부가 숨겨져 있는) 승객이 과연 생존했는지 사망했는지를 예측해보는 것이 대회 목적이다.

덧붙여 타이타닉호의 승객 데이터는 데이터 분석의 벤치마크 데이터셋으로 유명하다.
따라서 여러 가지 해법이나 정답 데이터들이 이미 공개되어 있다.
예컨대 캐글의 리더보드에는 예측 결과가 모두 맞았음을 의미하는 정확도가 1.0인 것들이 상위를 차지하고 있다.
따라서 어디까지나 학습용으로 준비된 것이며, 데이터 분석 흐름을 잡을 수 있는 경진대회라고 생각하기 바란다.

### **3.3 데이터 내려받기**
---

titanic.zip에는 gender_submission.csv, train.csv, test.csv 세 파일이 포함되어 있는데, 이는 보통 캐글 경진 대회에서 주어지는 형태의 데이터셋이다.

먼저 train.csv 파일에는 Sex(성별), Age(연령) 등 여러 설명 변수(속성)과 함께 예측해야할 목적 변수(클래스)인 Survived(생존 여부)가 포함되어 있다.

함께 포함된 test.csv 파일에는 train.csv 파일과 형식이 같은 변수들이 있지만 목적 변수인 Survived는 없다.

### **3.4 데이터 분석을 위한 준비 작업**
---

In [1]:
import pandas as pd
import numpy as np

In [2]:
# read data
train_df = pd.read_csv('./train.csv')
test_df = pd.read_csv('./test.csv')
submission_df = pd.read_csv('./gender_submission.csv')

In [3]:
# check data frame
train_df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [4]:
# check data frame
test_df

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0000,,S
2,894,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S
...,...,...,...,...,...,...,...,...,...,...,...
413,1305,3,"Spector, Mr. Woolf",male,,0,0,A.5. 3236,8.0500,,S
414,1306,1,"Oliva y Ocana, Dona. Fermina",female,39.0,0,0,PC 17758,108.9000,C105,C
415,1307,3,"Saether, Mr. Simon Sivertsen",male,38.5,0,0,SOTON/O.Q. 3101262,7.2500,,S
416,1308,3,"Ware, Mr. Frederick",male,,0,0,359309,8.0500,,S


In [5]:
# check data frame
submission_df

Unnamed: 0,PassengerId,Survived
0,892,0
1,893,1
2,894,0
3,895,0
4,896,1
...,...,...
413,1305,0
414,1306,1
415,1307,0
416,1308,0


#### **랜덤 시드 설정**

랜덤 시드는 난수를 생성하는 것으로, 이를 설정하면 고정된 난수를 사용할 수 있다.
비교적 적은 데이터를 사용하는 지금은 난수 값에 따라 결과가 크게 달라질 수 있으므로 난수 생성을 위한 값을 고정할 필요가 있다.
랜덤 시드 설정에 사용되는 숫자에는 특별한 의미가 없으므로 임의의 값을 이용하여 설정하면 된다.

In [6]:
# random seed 
import random
np.random.seed(1234)
random.seed(1234)

### **3.5 데이터 개요 파악**
---

불러온 데이터를 다양한 관점으로 파악하는 연습을 해보자.
이때 탐색적 데이터 해석(Exploratory Data Analysis; EDA)이라고 한다.

#### **데이터의 행과 열 확인하기**

In [7]:
print(train_df.shape)
print(test_df.shape)

(891, 12)
(418, 11)


#### **데이터 내용 미리보기**

In [8]:
# data content overview
pd.set_option('display.max_columns', 50)
pd.set_option('display.max_rows', 50)

In [9]:
train_df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [10]:
test_df.head()

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
2,894,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S


* Survived: 생존 여부-> 0 = No(사망), 1 = Yes(생존)
* Pclass: 티켓 등급-> 1 = 1st(1등석), 