## Titanic Case

Dataset yang digunakan merupakan data real dari 887 penumpang kapal Titanic. Masing-masing baris menggambarkan satu penumpang kapal Titanic dan dimasing-masing kolom menggambarkan karakteristik penumpang kapal Titanic. Case ini akan membahas script dari pertanyaan yang harus diselesaikan.

**Import Library dan Load Dataset**

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [9]:
tnc = pd.read_csv('titanic.csv')
tnc.head()

Unnamed: 0,Survived,Pclass,Name,Sex,Age,Siblings/Spouses Aboard,Parents/Children Aboard,Fare
0,0,3,Mr. Owen Harris Braund,male,22.0,1,0,7.25
1,1,1,Mrs. John Bradley (Florence Briggs Thayer) Cum...,female,38.0,1,0,71.2833
2,1,3,Miss. Laina Heikkinen,female,26.0,0,0,7.925
3,1,1,Mrs. Jacques Heath (Lily May Peel) Futrelle,female,35.0,1,0,53.1
4,0,3,Mr. William Henry Allen,male,35.0,0,0,8.05


## 1. DIMENSI DATA

In [22]:
tnc = pd.read_csv('titanic.csv')
tnc.shape

(887, 8)

Pada dataset Titanic terdapat **887 baris dan 8 kolom**

## 2. Tipe Data dari Masing-Masing Variabel

In [26]:
tnc.dtypes

Survived                     int64
Pclass                       int64
Name                        object
Sex                         object
Age                        float64
Siblings/Spouses Aboard      int64
Parents/Children Aboard      int64
Fare                       float64
dtype: object

Dataset Titanic memiliki 4 tipe data dari masing-masing variabel yakni **integer, float, dan string**

## 3. Jumlah penumpang yang selamat (Survived=1) dan Tidak Selamat (Survived =0)

In [27]:
tnc.groupby('Survived').size()

Survived
0    545
1    342
dtype: int64

Jumlah penumpang **selamat : 342 dan tidak selamat : 545**

## 4. Drop Kolom Name dari Dataframe

In [28]:
tnc.drop(columns=['Name'], inplace=True)
tnc.head()

Unnamed: 0,Survived,Pclass,Sex,Age,Siblings/Spouses Aboard,Parents/Children Aboard,Fare
0,0,3,male,22.0,1,0,7.25
1,1,1,female,38.0,1,0,71.2833
2,1,3,female,26.0,0,0,7.925
3,1,1,female,35.0,1,0,53.1
4,0,3,male,35.0,0,0,8.05


## 5. Menambah kolom baru (Family) yang menjelaskan Jumlah Anggota Keluarga

Kolom family merupakan hasil penjumlahan dari kolom siblings dengan parents

In [29]:
tnc['family'] = tnc['Siblings/Spouses Aboard'] + tnc['Parents/Children Aboard']
tnc.head()

Unnamed: 0,Survived,Pclass,Sex,Age,Siblings/Spouses Aboard,Parents/Children Aboard,Fare,family
0,0,3,male,22.0,1,0,7.25,1
1,1,1,female,38.0,1,0,71.2833,1
2,1,3,female,26.0,0,0,7.925,0
3,1,1,female,35.0,1,0,53.1,1
4,0,3,male,35.0,0,0,8.05,0


## 6. Menambah kolom untuk mengetahui keberadaan missing value

Pada kolom **age** terdapat data yang miss. Untuk mengetahui keberadaan missing value pada masing-masing baris di kolom **age** maka akan dibuat kolom baru dimana **Yes** menjelaskan bahwa terdapat missing value dibaris tersebut dari kolom **age** dan **No** menjelaskan bahwa terdapat missing value dari kolom **age** dibaris tersebut

In [32]:
tnc.isnull().sum()
Age_miss = []
for i in range(len(tnc)):
    if np.isnan(tnc['Age'])[i]:
        Age_miss.append('Yes')
    else:
        Age_miss.append('No')
tnc['Age_miss'] = Age_miss

In [36]:
tnc.head()

Unnamed: 0,Survived,Pclass,Sex,Age,Siblings/Spouses Aboard,Parents/Children Aboard,Fare,family,Age_miss
0,0,3,male,22.0,1,0,7.25,1,No
1,1,1,female,38.0,1,0,71.2833,1,No
2,1,3,female,26.0,0,0,7.925,0,No
3,1,1,female,35.0,1,0,53.1,1,No
4,0,3,male,35.0,0,0,8.05,0,No


## 7. Mengatasi Missing Value pada Kolom "Age"

Diketahui terdapat missing value pada kolom **age**. Pada case ini, untuk mengatasi missing value akan dilakukan imputasi menggunakan rata-rata dari kolom tersebut.

In [38]:
tnc['Age'] = tnc['Age'].fillna(tnc['Age'].mean())
tnc.head()

Unnamed: 0,Survived,Pclass,Sex,Age,Siblings/Spouses Aboard,Parents/Children Aboard,Fare,family,Age_miss
0,0,3,male,22.0,1,0,7.25,1,No
1,1,1,female,38.0,1,0,71.2833,1,No
2,1,3,female,26.0,0,0,7.925,0,No
3,1,1,female,35.0,1,0,53.1,1,No
4,0,3,male,35.0,0,0,8.05,0,No


## 8. Usia maksimal penumpang yang selamat dari tragedi kapal Titanic

In [39]:
tnc[tnc['Survived']==1]['Age'].max()

80.0

Diketahui usia maksimal penumpang yang selamat adalah **80 tahun.**

## 9. Jumlah Penumpang selamat berdasarkan kategori PClass

In [41]:
tnc[tnc['Survived']==1].groupby('Pclass')['Survived'].count()

Pclass
1    136
2     87
3    119
Name: Survived, dtype: int64

Jumlah penumpang kapal Titanic yang **selamat paling banyak** berada pada **class 1 sebanyak 136**. Dilanjutkan oleh class 3 sebanyak 119 penumpang dan **paling sedikit class 2 dengan jumlah 87 penumpang**.

## 10. Membagi Dataframe menjadi Titanic 1 dan Titanic 2

Pada case ini, untuk membagi data Titanic menjadi 2 bagian, akan dibagi secara random dengan proporsi 0,7 untuk titanic 1 dan 0,3 titanic 2.

In [42]:
titanic_1 = tnc.sample(frac=0.7).reset_index()
titanic_2 = tnc.sample(frac=0.3).reset_index()

In [43]:
titanic_1.head()

Unnamed: 0,index,Survived,Pclass,Sex,Age,Siblings/Spouses Aboard,Parents/Children Aboard,Fare,family,Age_miss
0,537,1,1,female,36.0,0,2,71.0,2,No
1,814,0,3,male,43.0,0,0,6.45,0,No
2,538,0,3,female,9.0,4,2,31.275,6,No
3,280,0,3,male,16.0,0,0,9.5,0,No
4,767,0,3,male,48.0,0,0,7.8542,0,No


In [44]:
titanic_2.head()

Unnamed: 0,index,Survived,Pclass,Sex,Age,Siblings/Spouses Aboard,Parents/Children Aboard,Fare,family,Age_miss
0,559,0,2,male,28.0,0,0,13.5,0,No
1,307,1,1,female,30.0,0,0,56.9292,0,No
2,540,1,2,male,32.0,1,0,26.0,1,No
3,789,0,1,male,43.0,0,0,30.6958,0,No
4,345,1,3,female,34.0,1,0,16.1,1,No
