# Praktikum 2
## Pra Pengolahan Data - Seleksi Fitur

Pada tahap ini kita akan melakukan Pre- Processing sebelum melakukan seleksi Fitur. Pre processing akan melakukan encoding pada data-data kategorikal, yaitu "Sex" dan "Cabin", imputasi data pada "Age", standarisasi pada fitur "Age". Hal ini perlu dilakukan karena algoritma pembelajaran mesin melakukan proses kalkulasi secara matematis. Salah satu strategi yang bisa di gunakan adalah Label Encoding. Label Encoding serupa dengan Ordinal Encoding, bedanya hanya pada proses pengurutan. Label Encoding tidak mengurutkan data terlebih dahulu.

Setelah pre Processing selesai, langkah selanjutnya memilih variabel mana saja yang akan kita gunakan sebagai fitur. Pada bagian dasar teori, kita sudah mempelajari bahwa tidak selalu semua variabel dapat digunakan sebagai fitur. Oleh karena itu, kita dapat memilih fitur yang sekiranya penting untuk tujuan yang ingin kita capai dalam membuat model pembelajaran mesin. Kita akan menggunakan kasus yang sama, yaitu kita kita mengetahui ciri-ciri penumpang kapal Titanic yang selamat. Sehingga, fitur yang kita gunakan adalah,

1. "Survived"

2. "Pclass"

3. "Sex"

4. "Age"

5. "Cabin"

Kita akan memisahkan variabel-variabel tersebut dari variabel yang lain.

Data yang akan kita gunakan adalah data Titanic yang sudah diperbaiki dengan proses imputasi.

### Langkah 0 - Load Library

In [61]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder, StandardScaler

### Langkah 1 - Load Data

In [62]:
dpath = 'assets/Titanic-Dataset-fixed.csv'
df = pd.read_csv(dpath)
print("=== Hasil Preprocessing Data (5 baris pertama) ===")
df.head()



=== Hasil Preprocessing Data (5 baris pertama) ===


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,DECK,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,DECK,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,DECK,S


### Langkah 2 - Pre Processing Encoding Sex

Pada tahap ini akan melakukan encoding pada data-data kategorikal, yaitu "Sex"

### Langkah 3 - Verifikasi hasil encoding "sex"

In [63]:
# --- 2. Encoding fitur 'Sex' ---
df['Sex'] = df['Sex'].map({'male': 1, 'female': 0})
print("=== Hasil Setelah Encoding 'Sex' ===")
print(df[['Sex']].head(), "\n")

=== Hasil Setelah Encoding 'Sex' ===
   Sex
0    1
1    0
2    0
3    0
4    1 



### Langkah 4- Pre Processing Encoding "Cabin".

Pada tahap ini akan melakukan encoding pada data-data kategorikal, yaitu "Cabin"

In [64]:
# --- 3. Encoding fitur 'Cabin' ---
# Ganti nilai 'DECK' menjadi NaN supaya bisa diproses
df['Cabin'] = df['Cabin'].replace('DECK', np.nan)

# Fill NaN
df['Cabin'] = df['Cabin'].fillna('Unknown')
print("=== Hasil Setelah Fill NaN pada 'Cabin' ===")
print(df[['Cabin']].head(5), "\n")

# Ambil huruf pertama
df['Cabin'] = df['Cabin'].apply(lambda x: x[0] if x != 'Unknown' else 'U')
print("=== Hasil Ambil huruf pertama 'Cabin' (Deck) ===")
print(df[['Cabin']].head(5), "\n")


=== Hasil Setelah Fill NaN pada 'Cabin' ===
     Cabin
0  Unknown
1      C85
2  Unknown
3     C123
4  Unknown 

=== Hasil Ambil huruf pertama 'Cabin' (Deck) ===
  Cabin
0     U
1     C
2     U
3     C
4     U 



### Langkah 5 - Pre Processing Imputasi Data

Pada tahapan ini kita akan melakukan imputasi data pada "Age". Tujuan dari langkah ini adalah untuk demonstrasi proses imputasi data dengan nilai median.

### Langkah 6 - Verifikasi Hasil Imputasi Data 

In [65]:
# --- 4. Standarisasi fitur 'Age' ---
df['Age'] = df[['Age']].fillna(df['Age'].median())
print("=== Hasil Setelah Imputasi Data pada Usia dengan median ===")
print(df[['Age']].head(10), "\n")

=== Hasil Setelah Imputasi Data pada Usia dengan median ===
         Age
0  22.000000
1  38.000000
2  26.000000
3  35.000000
4  35.000000
5  29.699118
6  54.000000
7   2.000000
8  27.000000
9  14.000000 



### Langkah 7 - Pre Processing Standarisasi

Pada tahapan ini kita akan melakukan standarisasi pada "Age". Hal ini sebetulnya tidak terlalu diperlukan karena nilai pada "Age" tidak terlalu jauh. Tujuan dari langkah ini adalah untuk demonstrasi proses standarisasi.

In [66]:
scaler = StandardScaler()
df['Age'] = scaler.fit_transform(df[['Age']])
print("=== Hasil Setelah Standardisasi 'Age' ===")
print(df[['Age']].head(10), "\n")

=== Hasil Setelah Standardisasi 'Age' ===
        Age
0 -0.592481
1  0.638789
2 -0.284663
3  0.407926
4  0.407926
5  0.000000
6  1.870059
7 -2.131568
8 -0.207709
9 -1.208115 



### Langkah 8 - Hasil setelah Pre Processing

Pada tahapan ini, akan melakukan pengecekan hasil Pre Processing yang sudah dilakukan yaitu Encoding pada fitur "Sex" dan "Cabin", imputasi data pada "Age", standarisasi pada fitur "Age".

In [67]:
# --- 5. Cek hasil akhir ---
print("=== Hasil Preprocessing (5 baris pertama) ===")
#print(df[['Sex', 'Cabin', 'Age']].head(5))
df.head()

=== Hasil Preprocessing (5 baris pertama) ===


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",1,-0.592481,1,0,A/5 21171,7.25,U,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",0,0.638789,1,0,PC 17599,71.2833,C,C
2,3,1,3,"Heikkinen, Miss. Laina",0,-0.284663,0,0,STON/O2. 3101282,7.925,U,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",0,0.407926,1,0,113803,53.1,C,S
4,5,0,3,"Allen, Mr. William Henry",1,0.407926,0,0,373450,8.05,U,S


### Langkah 9 - Seleksi Fitur

pada tahap ini akan dipilih 5 variabel sebagai fitur penting yaitu fitur "Survived". "Pclass", "Age", "Sex", dan "Cabin".

In [68]:
df = df[['Survived', 'Pclass', 'Age', 'Sex', 'Cabin']]
df.head()

Unnamed: 0,Survived,Pclass,Age,Sex,Cabin
0,0,3,-0.592481,1,U
1,1,1,0.638789,0,C
2,1,3,-0.284663,0,U
3,1,1,0.407926,0,C
4,0,3,0.407926,1,U
