<a href="https://colab.research.google.com/github/JunetzMasihBelajar/2025_AI_TI1B/blob/main/Jobsheet7.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Jobsheet 7: Data Pre-processing

## Latihan


### Latihan 1: Data Preparation dengan One Hot Encoding

In [7]:
import pandas as pd
from sklearn.preprocessing import OneHotEncoder

# membuat data array gender
gender = ['perempuan', 'laki-laki', 'laki-laki', 'perempuan', 'perempuan']

# membuat data frame dari data gender
df = pd.DataFrame({'gender': gender})

# membuat instance dari OneHotEncoder
encoder = OneHotEncoder()

# melakukan encoding pada data frame
encoded_df = pd.DataFrame(
    encoder.fit_transform(df[['gender']]).toarray(),
    columns=encoder.get_feature_names_out(['gender'])
)

# menggabungkan data frame yang sudah di-encode dengan data frame awal
df_encoded = pd.concat([df, encoded_df], axis=1)

# menampilkan hasil
print(df_encoded)


      gender  gender_laki-laki  gender_perempuan
0  perempuan               0.0               1.0
1  laki-laki               1.0               0.0
2  laki-laki               1.0               0.0
3  perempuan               0.0               1.0
4  perempuan               0.0               1.0


### Latihan 2: Data Preparation dengan Outlier Removal

In [8]:
import pandas as pd
import numpy as np

# membuat data frame contoh
df = pd.DataFrame({
    'A': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
    'B': [15, 20, 25, 30, 35, 40, 45, 50, 55, 500]
})

# mencari nilai z-score untuk setiap data point pada kolom B
z_scores = np.abs((df['B'] - df['B'].mean()) / df['B'].std())

# menghilangkan data point yang memiliki z-score lebih besar dari 3
df_clean = df.loc[round(z_scores) < 3]

# menampilkan data frame yang telah di-clean
print(df_clean)




   A   B
0  1  15
1  2  20
2  3  25
3  4  30
4  5  35
5  6  40
6  7  45
7  8  50
8  9  55


### Latihan 3: Data Preparation dengan Normalization

In [9]:
import pandas as pd
from sklearn.preprocessing import MinMaxScaler

# membuat data frame contoh
df = pd.DataFrame({
    'Nama': ['Andi', 'Budi', 'Cindy', 'Diana', 'Eka', 'lala'],
    'Gaji': [3000000, 5000000, 7000000, 9000000, 11000000, 9000000],
    'Umur': [25, 30, 35, 40, 45, 30]
})

# normalisasi data gaji dan umur menggunakan MinMaxScaler
scaler = MinMaxScaler()
df[['Gaji', 'Umur']] = scaler.fit_transform(df[['Gaji', 'Umur']])

# menampilkan data frame hasil normalisasi
df

Unnamed: 0,Nama,Gaji,Umur
0,Andi,0.0,0.0
1,Budi,0.25,0.25
2,Cindy,0.5,0.5
3,Diana,0.75,0.75
4,Eka,1.0,1.0
5,lala,0.75,0.25


### Latihan 4: Data Preparation dengan Standarization

In [10]:
import pandas as pd
from sklearn.preprocessing import StandardScaler

# membuat data frame contoh
df = pd.DataFrame({
    'Nama': ['Andi', 'Budi', 'Cindy', 'Diana', 'Eka', 'lala'],
    'Gaji': [3000000, 5000000, 7000000, 9000000, 11000000, 9000000],
    'Umur': [25, 30, 35, 40, 45, 30]
})

# normalisasi data gaji dan umur menggunakan MinMaxScaler
scaler = StandardScaler()
df[['Gaji', 'Umur']] = scaler.fit_transform(df[['Gaji', 'Umur']])

# menampilkan data frame hasil normalisasi
df

Unnamed: 0,Nama,Gaji,Umur
0,Andi,-1.612452,-1.364382
1,Budi,-0.868243,-0.620174
2,Cindy,-0.124035,0.124035
3,Diana,0.620174,0.868243
4,Eka,1.364382,1.612452
5,lala,0.620174,-0.620174


### Latihan 5: Pembuatan DataSet

In [11]:
from sklearn.model_selection import train_test_split
import pandas as pd

# membuat data frame contoh
df = pd.DataFrame({
    'X': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
    'Y': [15, 20, 25, 30, 35, 40, 45, 50, 55, 60]
})

# membagi data menjadi data latih dan data uji dengan rasio 80:20
X_train, X_test, y_train, y_test = train_test_split(df[['X']], df[['Y']], test_size=0.2, random_state=42)

# menampilkan data latih
print('Data Latih')
print('X_train:', X_train)
print('y_train:', y_train)

# menampilkan data uji
print('\nData Uji')
print('X_test:', X_test)
print('y_test:', y_test)


Data Latih
X_train:     X
5   6
0   1
7   8
2   3
9  10
4   5
3   4
6   7
y_train:     Y
5  40
0  15
7  50
2  25
9  60
4  35
3  30
6  45

Data Uji
X_test:    X
8  9
1  2
y_test:     Y
8  55
1  20


### Implementasi Pembagian data pada data heart.csv


In [14]:
from sklearn.model_selection import train_test_split
import pandas as pd

# Import data heart.csv
df = pd.read_csv('heart.csv');
df

# ambil 13 data dan masukan kedalam variabel data
data = df.iloc[:, :13]
data

# Rubah data ke array
data = data.values
data

# Masukan data pada kolom terakhir dan masukan kedalam variabel label
label = df.iloc[:, -1]
label

# Rubah data ke array
label = label.values
label

# Bagi data menjadi data training dan data testing
data_train, data_test, label_train, label_test = train_test_split(data, label, test_size=0.2, random_state=42)

print('Ukuran data latih:', data_train.shape)
print('Ukuran data uji:', data_test.shape)

Ukuran data latih: (734, 12)
Ukuran data uji: (184, 12)


### Cross Validation

## Tugas Praktikum

### Dataset Loading & Overview

In [16]:
import pandas as pd

# Load dataset
df = pd.read_csv("datakeluarga.csv")

# Tampilkan beberapa baris awal
df.head()


Unnamed: 0,id,kode_provinsi,nama_provinsi,kode_kabupaten_kota,nama_kabupaten_kota,jumlah_keluarga,satuan,tahun
0,0,32,JAWA BARAT,3201,KABUPATEN BOGOR,10228,KEPALA KELUARGA,2020
1,1,32,JAWA BARAT,3202,KABUPATEN SUKABUMI,3,KEPALA KELUARGA,2020
2,2,32,JAWA BARAT,3203,KABUPATEN CIANJUR,4,KEPALA KELUARGA,2020
3,3,32,JAWA BARAT,3204,KABUPATEN BANDUNG,2215,KEPALA KELUARGA,2020
4,4,32,JAWA BARAT,3205,KABUPATEN GARUT,0,KEPALA KELUARGA,2020


### Data Preparation dengan One Hot Encoding

In [17]:
# Salin data agar tidak merusak dataset asli
df_onehot = df.copy()

# Tampilkan kolom bertipe object (categorical)
categorical_cols = df_onehot.select_dtypes(include='object').columns
print("Kolom kategori:", list(categorical_cols))

# Lakukan one-hot encoding
df_encoded = pd.get_dummies(df_onehot, columns=categorical_cols)

# Tampilkan hasil
df_encoded.head()


Kolom kategori: ['nama_provinsi', 'nama_kabupaten_kota', 'satuan']


Unnamed: 0,id,kode_provinsi,kode_kabupaten_kota,jumlah_keluarga,tahun,nama_provinsi_JAWA BARAT,nama_kabupaten_kota_KABUPATEN BANDUNG,nama_kabupaten_kota_KABUPATEN BANDUNG BARAT,nama_kabupaten_kota_KABUPATEN BEKASI,nama_kabupaten_kota_KABUPATEN BOGOR,...,nama_kabupaten_kota_KABUPATEN KUNINGAN,nama_kabupaten_kota_KABUPATEN MAJALENGKA,nama_kabupaten_kota_KABUPATEN PANGANDARAN,nama_kabupaten_kota_KABUPATEN PURWAKARTA,nama_kabupaten_kota_KABUPATEN SUBANG,nama_kabupaten_kota_KABUPATEN SUKABUMI,nama_kabupaten_kota_KABUPATEN SUMEDANG,nama_kabupaten_kota_KABUPATEN TASIKMALAYA,nama_kabupaten_kota_KOTA BANJAR,satuan_KEPALA KELUARGA
0,0,32,3201,10228,2020,True,False,False,False,True,...,False,False,False,False,False,False,False,False,False,True
1,1,32,3202,3,2020,True,False,False,False,False,...,False,False,False,False,False,True,False,False,False,True
2,2,32,3203,4,2020,True,False,False,False,False,...,False,False,False,False,False,False,False,False,False,True
3,3,32,3204,2215,2020,True,True,False,False,False,...,False,False,False,False,False,False,False,False,False,True
4,4,32,3205,0,2020,True,False,False,False,False,...,False,False,False,False,False,False,False,False,False,True


### Data Preparation dengan Outlier Removal

In [21]:
from scipy import stats
import numpy as np

# Salin data
df_outlier = df.copy()

# Pakai kolom numerik yang benar
kolom_cek = ['jumlah_keluarga']

# Hitung Z-score
z_scores = np.abs(stats.zscore(df_outlier[kolom_cek]))

# Tetapkan threshold
threshold = 3

# Hapus outlier berdasarkan kolom tersebut
df_no_outliers = df_outlier[(z_scores < threshold).all(axis=1)]

print(f"Sebelum: {df_outlier.shape}, Sesudah: {df_no_outliers.shape}")
df_no_outliers.head()


Sebelum: (95, 8), Sesudah: (91, 8)


Unnamed: 0,id,kode_provinsi,nama_provinsi,kode_kabupaten_kota,nama_kabupaten_kota,jumlah_keluarga,satuan,tahun
0,0,32,JAWA BARAT,3201,KABUPATEN BOGOR,10228,KEPALA KELUARGA,2020
1,1,32,JAWA BARAT,3202,KABUPATEN SUKABUMI,3,KEPALA KELUARGA,2020
2,2,32,JAWA BARAT,3203,KABUPATEN CIANJUR,4,KEPALA KELUARGA,2020
3,3,32,JAWA BARAT,3204,KABUPATEN BANDUNG,2215,KEPALA KELUARGA,2020
4,4,32,JAWA BARAT,3205,KABUPATEN GARUT,0,KEPALA KELUARGA,2020


### Data Preparation dengan Normalization

In [22]:
from sklearn.preprocessing import MinMaxScaler

# Salin data
df_norm = df.copy()

# Pilih kolom numerik
numeric_cols = df_norm.select_dtypes(include=np.number).columns

# Normalisasi
scaler = MinMaxScaler()
df_norm[numeric_cols] = scaler.fit_transform(df_norm[numeric_cols])

df_norm.head()

Unnamed: 0,id,kode_provinsi,nama_provinsi,kode_kabupaten_kota,nama_kabupaten_kota,jumlah_keluarga,satuan,tahun
0,0.0,0.0,JAWA BARAT,0.0,KABUPATEN BOGOR,0.851624,KEPALA KELUARGA,0.0
1,0.010638,0.0,JAWA BARAT,0.012821,KABUPATEN SUKABUMI,0.00025,KEPALA KELUARGA,0.0
2,0.021277,0.0,JAWA BARAT,0.025641,KABUPATEN CIANJUR,0.000333,KEPALA KELUARGA,0.0
3,0.031915,0.0,JAWA BARAT,0.038462,KABUPATEN BANDUNG,0.18443,KEPALA KELUARGA,0.0
4,0.042553,0.0,JAWA BARAT,0.051282,KABUPATEN GARUT,0.0,KEPALA KELUARGA,0.0


### Data Preparation dengan Standarization

In [23]:
from sklearn.preprocessing import StandardScaler

# Salin data
df_std = df.copy()

# Pilih kolom numerik
numeric_cols = df_std.select_dtypes(include=np.number).columns

# Standardisasi
scaler = StandardScaler()
df_std[numeric_cols] = scaler.fit_transform(df_std[numeric_cols])

df_std.head()

Unnamed: 0,id,kode_provinsi,nama_provinsi,kode_kabupaten_kota,nama_kabupaten_kota,jumlah_keluarga,satuan,tahun
0,-1.713914,0.0,JAWA BARAT,-0.744968,KABUPATEN BOGOR,2.925674,KEPALA KELUARGA,-1.414214
1,-1.677447,0.0,JAWA BARAT,-0.683693,KABUPATEN SUKABUMI,-0.558275,KEPALA KELUARGA,-1.414214
2,-1.640981,0.0,JAWA BARAT,-0.622419,KABUPATEN CIANJUR,-0.557934,KEPALA KELUARGA,-1.414214
3,-1.604515,0.0,JAWA BARAT,-0.561144,KABUPATEN BANDUNG,0.195417,KEPALA KELUARGA,-1.414214
4,-1.568049,0.0,JAWA BARAT,-0.49987,KABUPATEN GARUT,-0.559297,KEPALA KELUARGA,-1.414214


### Pembuatan DataSet

In [26]:
df_final.to_csv("dataset_final.csv", index=False)
df = pd.read_csv("dataset_final.csv")

# Tampilkan beberapa baris awal
print("Isi Dataset Final:")
df.head()


Isi Dataset Final:


Unnamed: 0,id,kode_provinsi,kode_kabupaten_kota,jumlah_keluarga,tahun,nama_provinsi_JAWA BARAT,nama_kabupaten_kota_KABUPATEN BANDUNG,nama_kabupaten_kota_KABUPATEN BANDUNG BARAT,nama_kabupaten_kota_KABUPATEN BEKASI,nama_kabupaten_kota_KABUPATEN BOGOR,...,nama_kabupaten_kota_KABUPATEN KUNINGAN,nama_kabupaten_kota_KABUPATEN MAJALENGKA,nama_kabupaten_kota_KABUPATEN PANGANDARAN,nama_kabupaten_kota_KABUPATEN PURWAKARTA,nama_kabupaten_kota_KABUPATEN SUBANG,nama_kabupaten_kota_KABUPATEN SUKABUMI,nama_kabupaten_kota_KABUPATEN SUMEDANG,nama_kabupaten_kota_KABUPATEN TASIKMALAYA,nama_kabupaten_kota_KOTA BANJAR,satuan_KEPALA KELUARGA
0,0,32,3201,10228,2020,True,False,False,False,True,...,False,False,False,False,False,False,False,False,False,True
1,1,32,3202,3,2020,True,False,False,False,False,...,False,False,False,False,False,True,False,False,False,True
2,2,32,3203,4,2020,True,False,False,False,False,...,False,False,False,False,False,False,False,False,False,True
3,3,32,3204,2215,2020,True,True,False,False,False,...,False,False,False,False,False,False,False,False,False,True
4,4,32,3205,0,2020,True,False,False,False,False,...,False,False,False,False,False,False,False,False,False,True
