# 타이타닉 생존자 예측 경진대회 탐색적 데이터 분석(EDA)

# 1. 라이브러리 임포트
- 가장 먼저, 기본적인 라이브러리를 불러옵니다.

In [1]:
# 데이터 분석을 위한 라이브러리
import numpy as np
import pandas as pd

# 2. 데이터 불러오기
- `pd.read_csv` : csv 파일을 불러오는 메서드

In [3]:
# 훈련 데이터, 테스트 데이터 불러오기
train = pd.read_csv('C:\\vscode\\kaggle\\dataset\\titanic_dat\\train.csv')
test = pd.read_csv('C:\\vscode\\kaggle\\dataset\\titanic_dat\\test.csv')
submission = pd.read_csv('C:\\vscode\\kaggle\\dataset\\titanic_dat\\gender_submission.csv')

# 3. 간단히 데이터 훑어보기

In [4]:
train

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


#### 피처: `PassengerId`, `Pclass`, `Name`, `Sex`, `Age`, `SibSp`, `Parch`, `Ticket`, `Fare`, `Cabin`, `Embarked`
#### 타깃값: `Survived`
#### **<font color='orange'>PassengerId는 순번을 나타내는 값으로 아무 의미 없는 데이터이므로, 모델 훈련할 때는 제거</font>**
#### **<font color='orange'>머신러닝 모델은 숫자값만 인식하므로, 문자열은 숫자로 바꿔주기(데이터 인코딩)</font>**

In [5]:
test

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0000,,S
2,894,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S
...,...,...,...,...,...,...,...,...,...,...,...
413,1305,3,"Spector, Mr. Woolf",male,,0,0,A.5. 3236,8.0500,,S
414,1306,1,"Oliva y Ocana, Dona. Fermina",female,39.0,0,0,PC 17758,108.9000,C105,C
415,1307,3,"Saether, Mr. Simon Sivertsen",male,38.5,0,0,SOTON/O.Q. 3101262,7.2500,,S
416,1308,3,"Ware, Mr. Frederick",male,,0,0,359309,8.0500,,S


In [6]:
submission

Unnamed: 0,PassengerId,Survived
0,892,0
1,893,1
2,894,0
3,895,0
4,896,1
...,...,...
413,1305,0
414,1306,1
415,1307,0
416,1308,0


In [7]:
# 숫자값으로 구성된 피처의 기초 통계값을 구해줌
train.describe()
# 평균 중앙값 차이 -> 데이터 불균형 파악 

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


- 평균값과 다르게 중앙값은 이상치에 영향을 받지 않는다.

In [None]:
# 각 피처의 결측값이 몇 개인지, 데이터 타입은 무엇인지 파악할 수 있음
train.info()

#### train의 결측값
- `Age`: 177개,`Cabin`: 687개, `Embarked`:2개  
#### 추후 결측값을 적절히 처리해야 함

#### 데이터 타입
- 정수형: `PassengerId`, `Survived`, `Pclass`, `SibSp`, `Parch`
- 문자열: `Name`, `Sex`, `Ticket`, `Cabin`, `Embarked`
- 실수형: `Age`, `Fare`

In [None]:
test.info()

#### test의 결측값
- `Age`: 86개, `Cabin`: 327개, `Fare`:1개  

#### **<font color='orange'>Fare의 결측값은, Pclass를 기준으로 그룹화하여 Fare의 평균으로 대체 </font>**

In [None]:
train.columns

# 4. 데이터 시각화

In [None]:
# 데이터 시각화 라이브러리
import matplotlib.pyplot as plt
import seaborn as sns

# plt.style.use('fivethirtyeight')

## 4.1 타깃값 비율 시각화

In [None]:
sns.countplot(x='Survived', data=train);

#### 사망자:생존자 비율은 약 6:4

## 4.2 피처별 비율 시각화
### 4.2.1 Pclass(티켓 등급)별 생존율

In [None]:
sns.barplot(x='Pclass', y='Survived', data=train); # EDA를 통해 검증

#### 티켓 등급이 높을수록 생존율도 높다.

# EDA를 통해 검증 

### 4.2.2 Name(이름)별 생존율(?)

In [None]:
train['Name']

#### 이름에 따른 생존율은 의미없는 수치다.
#### 그러나 영문 성명 특성상 Mr., Miss., Mrs. 등의 타이틀을 추출하면 의미있는 정보가 될 수 있다.

In [None]:
# 이름에서 타이틀 추출
train['Title'] = train['Name'].str.extract('([A-Za-z]+)\.')

In [None]:
train['Title'].unique()

In [None]:
# 너무 많은 타이틀이 있으므로 적절히 4개 그룹으로 묶기
train['Title'] = train['Title'].replace(
    ['Mlle', 'Mme',  'Ms',   'Dr', 'Major', 'Sir', 'Capt', 'Lady', 'Countess', 'Jonkheer', 'Col',   'Rev',   'Don'],
    ['Miss', 'Miss', 'Miss', 'Mr', 'Mr',    'Mr',  'Mr',   'Mrs',  'Mrs',      'Other',    'Other', 'Other', 'Other']
) #마스터 - 도련님 - 어린남자 

In [None]:
train['Title'].unique()

In [None]:
sns.barplot(x='Title', y='Survived', data=train);

#### **<font color='orange'>Name에서 Title 추출</font>**
#### **<font color='orange'>그다음 Name 피처 삭제</font>**

### 4.2.3 Sex(성별)별 생존율

In [None]:
sns.barplot(x='Sex', y='Survived', data=train);

#### 여성의 생존율이 훨씬 높다.

### 4.2.4 Age(나이)별 생존율

In [None]:
# sns.barplot(x='Age', y='Survived', data=train);

In [None]:
# Age 피처에는 177개의 결측값이 있어서 결측값을 모두 -0.5로 바꾸기
train['Age'] = train['Age'].fillna(-0.5)

bins = [-1, 0, 5, 12, 18, 24, 35, 60, np.inf] # 카테고리로 나눌 구간
labels = ['Unknown', 'Baby', 'Child', 'Teenager', 'Student', 'Young Adult', 'Adult', 'Senior'] # 카테고리명

train['Age_Group'] = pd.cut(train['Age'], bins=bins, labels=labels)

In [None]:
train.head()

In [None]:
plt.figure(figsize=(10, 6))
sns.barplot(x='Age_Group', y='Survived', data=train);

#### 아기의 생존율이 가장 높고, 어르신들의 생존율이 가장 낮다.
#### **<font color='orange'> 우선, Age 결측값 처리 필요</font>**
#### **<font color='orange'>Age_Group 피처를 만들고, 기존에 있던 Age 피처는 제거</font>**

### 4.2.5 SibSp(함께 탑승한 형제자매/배우자 수)별 생존율

In [None]:
sns.barplot(x='SibSp', y='Survived', data=train);

#### 형제자매/배우자 수가 1명 이상일 때는 그 수가 많을수록 생존율이 낮다.

### 4.2.6 Parch(함께 탑승한 부모/자식 수)별 생존율

In [None]:
sns.barplot(x='Parch', y='Survived', data=train);

#### 부모/자식 수가 1~3명 이상일 때 대체로 생존율이 높다.

In [None]:
# sns.barplot(x='Ticket', y='Survived', data=train);

### 4.2.7 Ticket(티켓 번호)별 생존율(?)

In [None]:
train['Ticket']

#### 티켓 번호별 생존율은 의미없는 수치다.
#### **<font color='orange'>따라서 Ticket 피처는 제거</font>**

### 4.2.8 Fare(여객 운임)별 생존율

In [None]:
# sns.barplot(x='Fare', y='Survived', data=train);

In [None]:
# Fare를 4개의 카테고리 구간으로 나눔
bins = [-np.inf, 8, 14, 31, np.inf] # 카테고리로 나눌 구간
labels = ['low', 'medium', 'high', 'super-high'] # 카테고리명

train['Fare_Group'] = pd.cut(train['Fare'], bins=bins, labels=labels)

In [None]:
sns.barplot(x='Fare_Group', y='Survived', data=train);

#### 높은 운임을 지불한 승객의 생존율이 높다.
#### **<font color='orange'>Fare_Group으로 피처를 그룹화한 뒤, 기존에 있던 Fare 피처는 제거</font>**

### 4.2.9 Cabin(객실 번호)별 생존율

In [None]:
# sns.barplot(x='Cabin', y='Survived', data=train);

In [None]:
train['Cabin']

In [None]:
train['Cabin'].isnull().sum()

#### Cabin 피처는 전체 891개 데이터 687개가 결측값이다.
#### **<font color='orange'>결측값이 너무 많아 Cabin 피처는 제거하는 게 바람직하다.</font>**

### 4.2.10 Embarked(승선 항구)별 생존율

In [None]:
sns.barplot(x='Embarked', y='Survived', data=train);

#### C > Q > S순으로 생존율이 높다.

In [None]:
sns.countplot(x='Embarked', data=train);

#### **<font color='orange'>Embarked 피처의 결측값을 최빈값인 S로 대체하는 게 적절하다.</font>**