In [1]:
import pandas as pd

In [2]:
df = pd.read_csv('/Users/jojomac/introduction_python/dataset/titanic/train.csv')

In [3]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


## 1. Data Cleaning 

Data Cleaning merupakan proses untuk membersihkan data menjadi lebih mudah dimengerti menjadi lebih informatif, dan menghapus data data yang rusak atau data data yang tidak terlalu diperlukan dalam proses analysis. Data Cleaning dapat meliputi menghapus data null, mengganti data dan nilai tertentu, dll

In [None]:
# Mengecek berapa jumlah null value pada masing masing kolom. 
jumlah_missing = pd.isnull(df).sum()
jumlah_missing

In [6]:
jumlah_missing = pd.isnull(df).sum()
jumlah_missing

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

In [None]:
# menghitung ratio missing value pada metrics cabin
rasio = jumlah_missing.div(len(df))
rasio

In [None]:
#hapus kolom cabin
# Kolom Cabin memiliki jumlah missing value hingga 77% sehingga kolom Kabin lebih baik dihilangkan (drop) dari table
df = df.drop(['Cabin'], axis=1)

In [None]:
df.head()

In [None]:
# Statistik descriptif dari variabel age
df['Age'].describe()

In [None]:
# menghitung ratio missing value pada metrics cabin
rasio = jumlah_missing.div(len(df))
rasio

### 1.1 Handling Kolom Numerikal

Setelah mengahapus kolom cabin nyatanya masih terdapat beberapa missing value pada dataset kita, ada beberapa hal yang bisa dilakukan, untuk data numerikal yaitu dengan menghapus datanull tersebut, atau melakukan inputation. Apabila nilai mean dengan median tidak terlalu jauh maka efektifnya adlaah dengan inputation, biasanya dengan mengganti dengan nilai rata rata kolom tersebut

In [None]:
# Mengubah NaNs dengan nilai Mean 
df['Age'].fillna(int(df['Age'].mean()), inplace=True)

In [None]:
# Cek kembali apakah masih terdapat missing value
pd.isnull(df).sum()

### 1.2 Handling Kategorikal

Handling Kategorikal biasanya dilakukan dengan nilai modus / data yang paling sering langsung

In [None]:
df['Embarked'].mode()

In [None]:
df['Embarked'].fillna(df['Embarked'].mode()[0], inplace=True)

In [None]:
# Cek kembali apakah masih terdapat missing value
pd.isnull(df).sum()

### 1.3 Check Duplicate Value

In [None]:
# Mengidentifikasi apakah terdapat duplicate value pada tabel dengan acuan kolom PassengerId
df[df["PassengerId"].duplicated(keep=False)].sort_values("PassengerId")

## 2. Data Manipulation

### 2.1 Mengganti tipe data

In [None]:
df.head()

In [None]:
df.info()

In [None]:
# Mengecek tipe data salah satu kolom
df["Parch"].dtypes

In [None]:
# Mengubah data type
df['Parch_string'] = df['Parch'].astype(str)
df['PassengerId_string'] = df['PassengerId'].astype(str)

In [None]:
# Cek kembali tipe data
df["Parch_string"].dtypes

In [None]:
df["PassengerId_string"].dtypes

In [None]:
df.info()

### 2.2 Rename Column

In [None]:
df = df.rename(columns={"Pclass": "PassengerClass", "Sex": "Gender", "SibSp":"Sibling", "Parch":"Parent"})

In [None]:
df.head()

### 2.3 Remove kolom yang tidak diperlukan

In [None]:
df = df.drop(['Parch_string','PassengerId_string'],axis = 1)

In [None]:
df.head()

In [None]:
# Memfilter seluruh data penumpang laki-laki
male = df[df['Gender'] == 'male']

In [None]:
male

In [None]:
# Memfilter seluruh data penumpangan balita (usia 5 tahun ke bawah)
balita = df[df['Age'] <= 5]

In [None]:
balita.head(10)

## 3. Data Wrangling

### 3.1 Merging

In [None]:
survived = df[['PassengerId','Survived']]
age = df[['PassengerId','Age']]

In [None]:
# Menggabungkan Tabel survived dengan tabel Age dengan PassengerId menjadi key nya
df_new = survived.merge(age, how='left', on='PassengerId')

In [None]:
df_new

### 3.2 Group by

In [None]:
df.groupby(by=["Survived", "Gender"], dropna=False).count()[['PassengerId']]

### 3.3 Correlation

In [None]:
df.corr()