In [24]:
import pandas as pd
import numpy as np

Kali ini, kita akan menggunakan data survivor Titanic.
* Perlu diketahui bahwa proses data cleansing data Titanic ini memiliki tujuan untuk membuat model dari data.
* Sehingga dalam proses ini kita akan melihat beberapa proses seperti transformasi data menjadi nilai numerik, membuang kolom yang tidak penting, dll.
* Pertama, kita coba load datanya

In [25]:
df = pd.read_csv('titanic.csv')

Pertama, kita lihat seperti apa data yang kita miliki.

In [26]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


Dari data tersebut kita dapat melihat 5 data teratas beserta kolom-kolomnya. Berikut adalah penjelasan singkat mengenai makna kolom-kolom tersebut:
- PassengerId: Kolom ini adalah kolom yang berisi Id dari tiap penumpang. Untuk kebutuhan model Machine Learning, kolom ID biasanya tidak terlalu berguna dan tidak memiliki korelasi apapun dengan kolom lainnya. Sehingga nanti dapat kita buang.
- Survived: Adalah kolom _output feature_ yang menjadi target yang ingin diprediksi. Nilai 1 berarti penumpang selamat, 0 tidak.
- Pclass: adalah kelas dari penumpang, memiliki nilai 1,2, dan 3
- Name:Nama dari tiap penumpang. Karena nama dari tiap-tiap orang banyak yang berbeda, dan tidak memiliki korelasi dengan _survived_, kolom ini dapat kita buang nantinya.
- Sex: Adalah jenis kelamin dari penumpang, male atau female.
- SibSp: Adalah jumlah sibling dan spouse dari tiap penumpang.
- Parch: Adalah jumlah dari parents dan children
- Ticket: Adalah nomor tiket penumpang.
- Fare: Adalah harga tiket penumpang
- Cabin: Adalah nomor kamar/kabin penumpang.
- Embarked: Adalah lokasi keberangkatan penumpang
    - C = Cherbourg
    - Q = Queenstown
    - S = Southampton

## Cek Nilai Kosong 

Cek apakah ada nilai kosong pada tiap kolom.

In [27]:
df.isna().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

Melihat kolom yang kosong dengan lebih spesifik.

In [28]:
null_columns = ['Age', 'Cabin', 'Embarked']

In [29]:
df[null_columns].T

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,881,882,883,884,885,886,887,888,889,890
Age,22.0,38.0,26.0,35.0,35.0,,54.0,2.0,27.0,14.0,...,33.0,22.0,28.0,25.0,39.0,27.0,19.0,,26.0,32.0
Cabin,,C85,,C123,,,E46,,,,...,,,,,,,B42,,C148,
Embarked,S,C,S,S,S,Q,S,S,S,C,...,S,S,S,S,Q,S,S,S,C,Q


Untuk Age, akan kita isi dengan nilai median

In [30]:
age_median = df['Age'].median()

In [31]:
age_null_index = df['Age'].isna()

In [32]:
df.loc[age_null_index,'Age'] = age_median

In [33]:
df[null_columns].isna().sum()

Age           0
Cabin       687
Embarked      2
dtype: int64

Bagaimana untuk data kategori seperti Cabin dan Embarked?

* Untuk kasus seperti ini dapat dilakukan beberapa pendekatan:
    * Kita dapat menghapus kolom yang memiliki banyak nilai kosong.
    * Kita dapat menghapus row yang memiliki nilai kosong.
    * Kita dapat membuat asumsi untuk mengisi dengan nilai terbanyak.
    * Kita dapat melakukan riset lebih lanjut mengenai data yang kosong.

### Cabin
* Untuk kasus cabin, terdapat lebih dari 650 data yang kosong.
* Padahal, jumlah total data ada sekitar 890. Yang berarti lebih dari 73% kosong.
* Untuk mengisi data ini, kita butuh riset lebih lanjut mengenai lokasi orang-orang di titanic.
* Namun hal ini akan sangat memakan waktu.
* Sehingga untuk studi kasus ini lebih baik data dibuang.

In [34]:
df.drop(['Cabin'], axis=1, inplace=True)

In [None]:
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,S
...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,28.0,1,2,W./C. 6607,23.4500,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C


### Embarked
* Untuk kasus embarked, hanya terdapat dua data yang kosong.
* Sehingga, untuk kasus ini kita cukup aman untuk berasumsi dengan mengganti data yang kosong dengan data paling banyak.
* Kita lihat dulu data mana yang paling banyak:

In [35]:
df.Embarked.value_counts()

S    644
C    168
Q     77
Name: Embarked, dtype: int64

* Ternyata data yang paling banyak adalah S
* Sehingga kita bisa mengisi data yang kosong dengan S

In [36]:
df['Embarked'] = df['Embarked'].fillna('S')
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,S
...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,28.0,1,2,W./C. 6607,23.4500,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C


* Sekarang coba kita cek lagi apakah masih ada data yang kosong.

In [37]:
df.isna().sum()

PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Embarked       0
dtype: int64

## Manipulasi data pada kolom. 

* Pada penjelasan tentang masing-masing kolom, ada 2 kolom yang sepertinya tidak terlalu berguna untuk model yaitu `PassangerID` dan `Ticket`.
* Jika kita perhatikan, variabel ini hanayalah sebatas _identifier_ untuk tiap penumpang.
* Sehingga tidak akan memiliki pengaruh besar atau bahkan tidak mempengaruhi suatu penumpang selamat atau tidak.
* Sehingga, 2 kolom tersebut dapat kita hapus.

In [40]:
df.drop(['PassengerId','Ticket'], axis=1, inplace=True)

In [None]:
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Fare,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,7.2500,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,71.2833,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,7.9250,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,53.1000,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,8.0500,S
...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,13.0000,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,30.0000,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,28.0,1,2,23.4500,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,30.0000,C


### Mengubah Data Menjadi Numerik
* Pada data tersebut, beberapa data masih berupa kategori:
    * Sex: male dan female.
    * Embarked: C, S, Q
* Untuk proses lebih lanjut dalam pembuatan model, akan lebih baik jika data seperti ini dapat kita ubah menjadi numerik

In [None]:
sex_dict = {'male':0, 'female':1}
df = df.replace({"Sex": sex_dict})
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Fare,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",0,22.0,1,0,7.2500,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",1,38.0,1,0,71.2833,C
2,3,1,3,"Heikkinen, Miss. Laina",1,26.0,0,0,7.9250,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",1,35.0,1,0,53.1000,S
4,5,0,3,"Allen, Mr. William Henry",0,35.0,0,0,8.0500,S
...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",0,27.0,0,0,13.0000,S
887,888,1,1,"Graham, Miss. Margaret Edith",1,19.0,0,0,30.0000,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",1,28.0,1,2,23.4500,S
889,890,1,1,"Behr, Mr. Karl Howell",0,26.0,0,0,30.0000,C


* Lakukan hal yang sama juga untuk Embarked

In [None]:
embark_dict = {'S':0, 'C':1, 'Q':2}
df = df.replace({"Embarked": embark_dict})
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Fare,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",0,22.0,1,0,7.2500,0.0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",1,38.0,1,0,71.2833,1.0
2,3,1,3,"Heikkinen, Miss. Laina",1,26.0,0,0,7.9250,0.0
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",1,35.0,1,0,53.1000,0.0
4,5,0,3,"Allen, Mr. William Henry",0,35.0,0,0,8.0500,0.0
...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",0,27.0,0,0,13.0000,0.0
887,888,1,1,"Graham, Miss. Margaret Edith",1,19.0,0,0,30.0000,0.0
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",1,28.0,1,2,23.4500,0.0
889,890,1,1,"Behr, Mr. Karl Howell",0,26.0,0,0,30.0000,1.0


* Sampai sejauh ini kita telah melakukan pembersihan cukup banyak.
* Namun, tidak sampai situ saja, sebelum membuat model kita juga perlu melakukan Exploratory Data Analysis.
* Dalam analisis tersebut kita ingin melihat bagaimana distribusi suatu variabel, interaksi antar variabel, dan juga bagaimana variabel dapat mempengaruhi variabel target.
* Namun, untuk kasus data cleansing. Sampai sejauh ini sudah cukup.

Jika sudah selesai proses data cleansing kita ingin menyimpan data tersebut dalam csv maka kita bisa lakukan dengan:

In [None]:
df.to_csv('filetest.csv')