<a href="https://colab.research.google.com/github/Dhlih/SMT2_AI/blob/main/jobsheet07.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# IMPORT LIBRARY

In [1]:
import pandas as pd
from sklearn.preprocessing import OneHotEncoder
import numpy as np
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import LeaveOneOut
import matplotlib.pyplot as plt
import seaborn as sns


# LATIHAN

## 1. Data Preparation dengan One Hot Encoding

In [25]:
gender = ['perempuan', 'laki-laki', 'laki-laki', 'perempuan', 'perempuan']

# membuat data frame dari data gender
df = pd.DataFrame({'gender': gender})

# membuat instance dari OneHotEncoder
encoder = OneHotEncoder()

# melakukan encoding pada data frame
encoded_df = pd.DataFrame(encoder.fit_transform(df[['gender']]).toarray(), columns=encoder.get_feature_names_out(['gender']))

# menggabungkan data frame yang sudah di-encode dengan data frame awal
df_encoded = pd.concat([df, encoded_df], axis=1)

# menampilkan hasil
df_encoded




Unnamed: 0,gender,gender_laki-laki,gender_perempuan
0,perempuan,0.0,1.0
1,laki-laki,1.0,0.0
2,laki-laki,1.0,0.0
3,perempuan,0.0,1.0
4,perempuan,0.0,1.0


## 2. Data Preparation dengan Oultier Removal

In [None]:
df = pd.DataFrame({
    'A': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
    'B': [15, 20, 25, 30, 35, 40, 45, 50, 55, 500]
})
# mencari nilai z-score untuk setiap data point pada kolom B
z_scores = np.abs((df['B'] - df['B'].mean()) / df['B'].std())

# menghilangkan data point yang memiliki z-score lebih besar dari 3
df_clean = df.loc[round(z_scores) < 3]

# menampilkan data frame yang telah di-clean
print(df_clean)



   A   B
0  1  15
1  2  20
2  3  25
3  4  30
4  5  35
5  6  40
6  7  45
7  8  50
8  9  55


## 3. Data Preparation dengan Normalization

In [None]:
# membuat data frame contoh
df = pd.DataFrame({
    'Nama': ['Andi', 'Budi', 'Cindy', 'Diana', 'Eka', 'lala'],
    'Gaji': [3000000, 5000000, 7000000, 9000000, 11000000, 9000000],
    'Umur': [25, 30, 35, 40, 45, 30]
})

# normalisasi data gaji dan umur menggunakan MinMaxScaler
scaler = MinMaxScaler()
df[['Gaji', 'Umur']] = scaler.fit_transform(df[['Gaji', 'Umur']])

# menampilkan data frame hasil normalisasi
df



Unnamed: 0,Nama,Gaji,Umur
0,Andi,0.0,0.0
1,Budi,0.25,0.25
2,Cindy,0.5,0.5
3,Diana,0.75,0.75
4,Eka,1.0,1.0
5,lala,0.75,0.25


## 4. Data Preparation dengan Standarization

In [None]:
# membuat data frame contoh
df = pd.DataFrame({
    'Nama': ['Andi', 'Budi', 'Cindy', 'Diana', 'Eka', 'lala'],
    'Gaji': [3000000, 5000000, 7000000, 9000000, 11000000, 9000000],
    'Umur': [25, 30, 35, 40, 45, 30]
})

# normalisasi data gaji dan umur menggunakan MinMaxScaler
scaler = StandardScaler()
df[['Gaji', 'Umur']] = scaler.fit_transform(df[['Gaji', 'Umur']])

# menampilkan data frame hasil normalisasi
df


Unnamed: 0,Nama,Gaji,Umur
0,Andi,-1.612452,-1.364382
1,Budi,-0.868243,-0.620174
2,Cindy,-0.124035,0.124035
3,Diana,0.620174,0.868243
4,Eka,1.364382,1.612452
5,lala,0.620174,-0.620174


## 5. Pembuatan Dataset

In [13]:
# membuat data frame contoh
df = pd.DataFrame({
    'X': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
    'Y': [15, 20, 25, 30, 35, 40, 45, 50, 55, 60]
})

# membagi data menjadi data latih dan data uji dengan rasio 80:20
X_train, X_test, y_train, y_test = train_test_split(df[['X']], df[['Y']], test_size=0.2, random_state=42)

# menampilkan data latih
print('Data Latih')
print('X_train:', X_train)
print('y_train:', y_train)

# menampilkan data uji
print('\nData Uji')
print('X_test:', X_test)
print('y_test:', y_test)




Data Latih
X_train:     X
5   6
0   1
7   8
2   3
9  10
4   5
3   4
6   7
y_train:     Y
5  40
0  15
7  50
2  25
9  60
4  35
3  30
6  45

Data Uji
X_test:    X
8  9
1  2
y_test:     Y
8  55
1  20


In [14]:
# ambil 13 data dan masukan kedalam variabel data
data = df.iloc[:, :13]
data


Unnamed: 0,X,Y
0,1,15
1,2,20
2,3,25
3,4,30
4,5,35
5,6,40
6,7,45
7,8,50
8,9,55
9,10,60


In [15]:

# Rubah data ke array
data = data.values
data

array([[ 1, 15],
       [ 2, 20],
       [ 3, 25],
       [ 4, 30],
       [ 5, 35],
       [ 6, 40],
       [ 7, 45],
       [ 8, 50],
       [ 9, 55],
       [10, 60]])

In [20]:
# Masukan data pada kolom terakhir dan masukan kedalam variabel label
label = df.iloc[:, -1]

In [17]:
# Rubah data ke array
label = label.values
label

array([15, 20, 25, 30, 35, 40, 45, 50, 55, 60])

In [18]:
# Bagi data menjadi data training dan data testing
data_train, data_test, label_train, label_test = train_test_split(data, label, test_size=0.2, random_state=42)

print('Ukuran data latih:', data_train.shape)
print('Ukuran data uji:', data_test.shape)



Ukuran data latih: (8, 2)
Ukuran data uji: (2, 2)


## Cross Validation

In [19]:
# membuat model Decision Tree
dt = DecisionTreeClassifier()

loo = LeaveOneOut()
scores = cross_val_score(dt, data, label, cv=loo)

print('Hasil cross validation (LOO):', scores)
print('Rata-rata akurasi:', scores.mean())


Hasil cross validation (LOO): [0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
Rata-rata akurasi: 0.0


# TUGAS PRAKTIKUM

## 1. Data Preparation dengan One Hot Encoding

In [5]:
# Load data
df = pd.read_csv("data.csv")

# Kolom kategori yang akan di-encode
categorical_cols = ['nama_provinsi', 'bps_nama_kabupaten_kota']

encoder = OneHotEncoder(sparse_output=False, drop='first')  # drop='first' untuk menghindari dummy variable trap
encoded_array = encoder.fit_transform(df[categorical_cols])
encoded_df = pd.DataFrame(encoded_array, columns=encoder.get_feature_names_out(categorical_cols))

# Gabungkan hasil encode dengan data asli, hapus kolom kategori asli
df_encoded = pd.concat([df.drop(columns=categorical_cols), encoded_df], axis=1)

print(df_encoded.head())


   kode_provinsi  bps_kode_kabupaten_kota  bps_kode_kecamatan  \
0             32                     3201             3201190   
1             32                     3201             3201190   
2             32                     3201             3201190   
3             32                     3201             3201190   
4             32                     3201             3201190   

  bps_nama_kecamatan  bps_kode_desa_kelurahan bps_nama_desa_kelurahan  \
0       GUNUNG PUTRI               3201190006              WANAHERANG   
1       GUNUNG PUTRI               3201190010            BOJONG KULUR   
2       GUNUNG PUTRI               3201190009               CIANGSANA   
3       GUNUNG PUTRI               3201190002            GUNUNG PUTRI   
4       GUNUNG PUTRI               3201190004           BOJONG NANGKA   

  kemendagri_kode_kecamatan kemendagri_nama_kecamatan  \
0                  32.01.02              GUNUNG PUTRI   
1                  32.01.02              GUNUNG PUTRI   

## 2. Data Preparation dengan Outlier Removal

In [6]:
# Hitung Q1, Q3 dan IQR
Q1 = df_encoded['jumlah_guru_sd'].quantile(0.25)
Q3 = df_encoded['jumlah_guru_sd'].quantile(0.75)
IQR = Q3 - Q1

# Tentukan batas bawah dan atas
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

# Filter data yang tidak outlier
df_no_outlier = df_encoded[(df_encoded['jumlah_guru_sd'] >= lower_bound) & (df_encoded['jumlah_guru_sd'] <= upper_bound)]

print(df_no_outlier.shape)
print(df_no_outlier['jumlah_guru_sd'].describe())


(30204, 32)
count    30204.000000
mean        30.448782
std         15.169180
min          0.000000
25%         20.000000
50%         30.000000
75%         40.000000
max         75.000000
Name: jumlah_guru_sd, dtype: float64


## 3. Data Preparation dengan Normalization

In [10]:
scaler_norm = MinMaxScaler()
df_no_outlier.loc[:,'jumlah_guru_sd_norm'] = scaler_norm.fit_transform(df_no_outlier[['jumlah_guru_sd']])

print(df_no_outlier[['jumlah_guru_sd', 'jumlah_guru_sd_norm']].head())

    jumlah_guru_sd  jumlah_guru_sd_norm
1               48             0.640000
2               64             0.853333
5                8             0.106667
7               70             0.933333
10              40             0.533333


## 4. Data Preparation dengan Standarization

In [23]:
scaler_std = StandardScaler()
df_no_outlier.loc[:,'jumlah_guru_sd_std'] = scaler_std.fit_transform(df_no_outlier[['jumlah_guru_sd']])

print(df_no_outlier[['jumlah_guru_sd', 'jumlah_guru_sd_std']].head())

    jumlah_guru_sd  jumlah_guru_sd_std
1               48            1.157051
2               64            2.211838
5                8           -1.479919
7               70            2.607384
10              40            0.629657


## 4. Pembuatan Dataset

In [21]:
# Dataset akhir sudah di df_no_outlier, dengan kolom numerik dan hasil encoding
# Kamu bisa simpan ke CSV jika perlu

df_no_outlier.to_csv('data.csv', index=False)

print("Dataset final sudah siap dan disimpan sebagai 'data.csv'")


Dataset final sudah siap dan disimpan sebagai 'data.csv'
