In [1]:
pip install scikit-learn
# menginstal pustaka atau paket Python yang disebut "scikit-learn." Scikit-learn
# pip: pip adalah alat manajemen paket yang digunakan dalam bahasa pemrograman Python. 
# digunakan untuk mengunduh, menginstal, dan mengelola paket-paket Python dari repositori PyPI (Python Package Index) dan repositori paket-paket lainnya.

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip available: 22.2.2 -> 23.2.1
[notice] To update, run: python.exe -m pip install --upgrade pip


Langkah 0 - Load Library

In [2]:
import pandas as pd
# mengimpor pustaka pandas dan inisial "pd" untuk proses pemanggilan
from sklearn.preprocessing import LabelEncoder, StandardScaler
# engimpor dua modul atau kelas dari pustaka scikit-learn (sklearn), yaitu LabelEncoder dan StandardScaler
# LabelEncoder: mengubah data kategorikal menjadi data numerik
# StandardScaler(menyeragamkan fitur): melakukan penskalaan fitur (feature scaling) pada data. 
# Penskalaan fitur : nilai-nilai fitur dalam dataset sehingga memiliki rata-rata nol dan deviasi standar satu.

Langkah 1 - Load Data

In [5]:
dpath = 'Titanic-Dataset-fixed.csv'
# variabel dpath untuk menyimpan nama atau path file CSV yang ingin dibaca
df = pd.read_csv(dpath)
# membaca file CSV dan menyimpan data ke DataFrame
# pd.read_csv() adalah fungsi pandas yang digunakan untuk membaca file CSV
# memberikannya path ke file CSV sebagai argumen
# hasilnya disimpan dalam variabel df.
df.head()
# menampilkan beberapa baris pertama dari DataFrame
# "head()" => mengambil lima baris pertama secara default

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,DECK,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,DECK,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,DECK,S


Langkah 2 - Slice Data

In [6]:
df = df[['Survived', 'Pclass', 'Age', 'Sex', 'Cabin']]
# mengambil hanya kolom-kolom tertentu dari DataFrame df yang telah dibaca sebelumnya dan menyimpannya kembali dalam DataFrame df.
df.head()
# menampilkan beberapa baris pertama dari DataFrame yang sudah diubah.
# Fungsi head() masih digunakan untuk menampilkan lima baris pertama (secara default)

Unnamed: 0,Survived,Pclass,Age,Sex,Cabin
0,0,3,22.0,male,DECK
1,1,1,38.0,female,C85
2,1,3,26.0,female,DECK
3,1,1,35.0,female,C123
4,0,3,35.0,male,DECK


Langkah 3 - Encoding

In [7]:
le = LabelEncoder() # membuat objek dari LabelEncoder untuk mengubah nilai kategori menjadi bilangan bulat
df['Sex'] = le.fit_transform(df['Sex']) # proses encoding
# ('le') untuk melakukan transformasi pada kolom 'Sex' dalam DataFrame 'df'.
# fit_transform dari LabelEncoder digunakan di sini. Ini akan menggantikan nilai-nilai dalam kolom 'Sex' dengan bilangan bulat
df['Cabin'] = le.fit_transform(df['Cabin']) # proses encoding

Langkah 4 - Verifikasi Hasil

In [8]:
df.head()
# menampilkan beberapa baris pertama dari DataFrame yang sudah diubah.
# Fungsi head() masih digunakan untuk menampilkan lima baris pertama (secara default)

Unnamed: 0,Survived,Pclass,Age,Sex,Cabin
0,0,3,22.0,1,115
1,1,1,38.0,0,81
2,1,3,26.0,0,115
3,1,1,35.0,0,55
4,0,3,35.0,1,115


Langkah 5 - Standarisasi

In [9]:
std = StandardScaler()
# objek yang akan digunakan untuk melakukan penskalaan data.
df['Age'] = std.fit_transform(df[['Age']])
# fit_transform() pada objek StandardScaler untuk menghitung rata-rata dan deviasi standar dari data di kolom 'Age' 
# std.fit(), objek StandardScaler akan menghitung rata-rata dan deviasi standar dari data yang disediakan
# menggantikan setiap nilai dalam kolom 'Age' dengan nilai-z yang sesuai. Nilai-z adalah seberapa jauh nilai tersebut dari rata-rata dalam satuan deviasi standar. 

Langkah 6 - Verifikasi Hasil Standarisasi

In [10]:
df.head()
# menampilkan beberapa baris pertama dari DataFrame yang sudah diubah.
# Fungsi head() masih digunakan untuk menampilkan lima baris pertama (secara default)

Unnamed: 0,Survived,Pclass,Age,Sex,Cabin
0,0,3,-0.592481,1,115
1,1,1,0.638789,0,81
2,1,3,-0.284663,0,115
3,1,1,0.407926,0,55
4,0,3,0.407926,1,115
