In [None]:
# Import pustaka
import joblib
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, accuracy_score
import numpy as np

In [None]:
# 1. Memuat dataset Iris
print("=== Memuat Dataset Iris ===")
iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(
    iris.data, iris.target, test_size=0.3, random_state=42
)

print("Dimensi data latih:", X_train.shape)
print("Dimensi data uji:", X_test.shape)


=== Memuat Dataset Iris ===
Dimensi data latih: (105, 4)
Dimensi data uji: (45, 4)


Kode ini menunjukkan proses pembagian dataset Iris menggunakan fungsi train_test_split dari library Scikit-learn. Dataset Iris merupakan dataset yang sering digunakan untuk pembelajaran mesin, dengan total 150 sampel data yang memiliki 4 fitur (sepal length, sepal width, petal length, petal width) dan 3 kelas target (setosa, versicolor, virginica). Pada kode ini, dataset dibagi menjadi data latih (X_train dan y_train) yang digunakan untuk melatih model, dan data uji (X_test dan y_test) yang digunakan untuk mengevaluasi performa model. Proporsi pembagian data diatur dengan test_size=0.3, artinya 30% data digunakan sebagai data uji, sementara 70% sisanya menjadi data latih.

Hasil output menunjukkan bahwa data latih memiliki dimensi (105, 4), yang berarti 105 sampel dengan 4 fitur masing-masing, sedangkan data uji memiliki dimensi (45, 4) untuk 45 sampel dengan 4 fitur. Dengan pembagian ini, data uji tetap cukup besar untuk mengevaluasi model secara akurat, sementara data latih memiliki cukup banyak sampel untuk melatih model agar dapat mengenali pola dengan baik. Penggunaan parameter random_state=42 memastikan bahwa pembagian data dilakukan secara acak tetapi dapat direplikasi untuk hasil yang konsisten. Hal ini penting dalam eksperimen pembelajaran mesin agar hasil analisis tetap stabil dan dapat dibandingkan.

In [None]:
# 2. Melatih Model Random Forest
print("\n=== Melatih Model Random Forest ===")
rf = RandomForestClassifier(n_estimators=100, random_state=42)
rf.fit(X_train, y_train)

# Evaluasi model
y_pred = rf.predict(X_test)
print("\nClassification Report:")
print(classification_report(y_test, y_pred))


=== Melatih Model Random Forest ===

Classification Report:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        19
           1       1.00      1.00      1.00        13
           2       1.00      1.00      1.00        13

    accuracy                           1.00        45
   macro avg       1.00      1.00      1.00        45
weighted avg       1.00      1.00      1.00        45



Algoritma Random Forest digunakan untuk melatih model klasifikasi pada dataset Iris. Random Forest adalah metode ensemble yang menggabungkan beberapa pohon keputusan (decision trees) untuk membuat prediksi yang lebih akurat dan robust. Pada kode ini, model dilatih dengan parameter n_estimators=100, yang berarti 100 pohon keputusan digunakan dalam ensemble, dan random_state=42 untuk memastikan hasil yang konsisten. Setelah model dilatih menggunakan data latih (X_train dan y_train), prediksi dilakukan pada data uji (X_test).

Hasil evaluasi model menunjukkan performa yang sempurna dengan nilai precision, recall, dan f1-score sebesar 1.00 untuk semua kelas (0, 1, dan 2). Hal ini berarti model berhasil memprediksi semua sampel dalam data uji dengan benar tanpa ada kesalahan. Akurasi keseluruhan juga mencapai 100% pada data uji yang terdiri dari 45 sampel. Meskipun hasil ini mengindikasikan bahwa model sangat baik untuk dataset ini, performa sempurna seperti ini perlu ditinjau dengan hati-hati, karena bisa jadi ini akibat kompleksitas dataset yang rendah atau ukuran dataset yang kecil. Untuk aplikasi dunia nyata, hasil seperti ini jarang terjadi karena data biasanya lebih kompleks dan mengandung lebih banyak noise.

In [None]:
# 3. Menyimpan Model ke File
print("\n=== Menyimpan Model ===")
joblib.dump(rf, "random_forest_model.pkl")
print("Model disimpan sebagai 'random_forest_model.pkl'")


=== Menyimpan Model ===
Model disimpan sebagai 'random_forest_model.pkl'


Model Random Forest yang telah dilatih disimpan ke dalam file menggunakan library joblib. Metode joblib.dump() digunakan untuk menyimpan objek model rf ke file dengan nama random_forest_model.pkl. Format file .pkl adalah format pickle yang memungkinkan penyimpanan objek Python sehingga dapat diakses kembali di masa depan tanpa perlu melatih ulang model. Hal ini sangat berguna untuk efisiensi waktu, terutama pada model yang membutuhkan proses pelatihan yang lama.

Output dari kode ini menunjukkan bahwa model berhasil disimpan dengan nama file random_forest_model.pkl. Penyimpanan model ke file mempermudah distribusi dan penggunaan ulang model dalam aplikasi dunia nyata, seperti implementasi prediksi berbasis web atau integrasi ke dalam sistem produksi. Model yang disimpan dapat dimuat kembali menggunakan joblib.load() kapan saja, memungkinkan pengguna untuk melanjutkan pekerjaan atau langsung melakukan prediksi tanpa harus melalui proses pelatihan model dari awal. Teknik ini merupakan praktik yang umum dalam pengembangan dan deployment model pembelajaran mesin.

In [None]:
# 4. Memuat Model dari File
print("\n=== Memuat Model ===")
loaded_rf = joblib.load("random_forest_model.pkl")


=== Memuat Model ===


Pada potongan kode ini, model Random Forest yang sebelumnya telah disimpan ke dalam file dengan nama random_forest_model.pkl dimuat kembali menggunakan fungsi joblib.load(). Dengan memuat model yang telah disimpan, pengguna dapat langsung menggunakan model tersebut untuk berbagai keperluan, seperti melakukan prediksi tanpa perlu melatih ulang model dari awal. Hal ini sangat efisien terutama untuk model yang membutuhkan waktu pelatihan yang lama atau yang diterapkan dalam lingkungan produksi.

Output dari kode ini menunjukkan bahwa proses pemuatan model berhasil, meskipun tidak ada output eksplisit yang dihasilkan selain pesan konfirmasi "Memuat Model". Model yang dimuat kembali ini (loaded_rf) memiliki semua atribut dan parameter yang sama seperti saat model disimpan, sehingga siap digunakan seperti model yang dilatih langsung. Teknik ini memungkinkan fleksibilitas dan penghematan waktu dalam pengembangan dan deployment model pembelajaran mesin, karena model dapat dibagi, digunakan ulang, atau diintegrasikan ke aplikasi lain dengan mudah.

In [None]:

# Evaluasi model yang dimuat
y_pred_loaded = loaded_rf.predict(X_test)
accuracy = accuracy_score(y_test, y_pred_loaded)
print("Akurasi Model yang Dimuat: {:.2f}".format(accuracy))

Akurasi Model yang Dimuat: 1.00


Model Random Forest yang sebelumnya dimuat dari file (loaded_rf) diuji ulang dengan menggunakan data uji (X_test) untuk memastikan model yang dimuat tetap berfungsi sebagaimana mestinya. Prediksi dilakukan dengan metode predict, dan akurasi model dihitung menggunakan fungsi accuracy_score dari Scikit-learn dengan membandingkan hasil prediksi (y_pred_loaded) terhadap label aktual data uji (y_test). Hasil akurasi kemudian ditampilkan dengan format dua angka desimal.

Output menunjukkan bahwa akurasi model yang dimuat adalah 1.00 (100%), yang sama dengan akurasi saat model awalnya diuji setelah pelatihan. Hal ini menunjukkan bahwa proses penyimpanan dan pemuatan model tidak mengubah performa model. Kemampuan untuk memuat model tanpa kehilangan akurasi sangat penting, terutama dalam aplikasi dunia nyata, karena memungkinkan pengembang untuk menyimpan model yang sudah optimal dan menggunakannya kembali tanpa memerlukan pelatihan ulang. Teknik ini juga memastikan efisiensi dalam pipeline pembelajaran mesin, terutama untuk model dengan proses pelatihan yang mahal dalam hal waktu atau sumber daya.

In [None]:
# 5. Menggunakan Model untuk Prediksi Baru
print("\n=== Prediksi dengan Model ===")
new_data = np.array([[5.1, 3.5, 1.4, 0.2],  # Contoh 1: Setosa
                     [6.7, 3.1, 4.7, 1.5],  # Contoh 2: Versicolor
                     [7.2, 3.6, 6.1, 2.5]])  # Contoh 3: Virginica

predictions = loaded_rf.predict(new_data)
predicted_classes = [iris.target_names[p] for p in predictions]

print("Data Baru:")
print(new_data)
print("Prediksi:")
print(predicted_classes)



=== Prediksi dengan Model ===
Data Baru:
[[5.1 3.5 1.4 0.2]
 [6.7 3.1 4.7 1.5]
 [7.2 3.6 6.1 2.5]]
Prediksi:
['setosa', 'versicolor', 'virginica']



Kode ini menggunakan model Random Forest yang telah dimuat sebelumnya untuk melakukan prediksi pada data baru. Data baru (new_data) terdiri dari tiga sampel dengan fitur-fitur yang mencerminkan panjang dan lebar kelopak (sepal) serta panjang dan lebar mahkota bunga (petal). Setiap sampel direpresentasikan sebagai array numerik yang berisi empat fitur. Model memprediksi kelas target untuk masing-masing sampel, kemudian hasil prediksi diterjemahkan ke dalam nama spesies bunga yang sesuai dengan dataset Iris (setosa, versicolor, virginica).

Hasil output menunjukkan bahwa model berhasil memprediksi spesies bunga dengan benar berdasarkan data baru. Untuk sampel pertama, model memprediksi setosa, untuk sampel kedua versicolor, dan untuk sampel ketiga virginica. Hal ini menunjukkan bahwa model yang telah dimuat tetap bekerja dengan baik dalam memprediksi data baru, konsisten dengan performa model saat diuji sebelumnya. Ini mencerminkan keandalan model Random Forest dalam mengenali pola pada dataset Iris, bahkan untuk data yang belum pernah dilihat sebelumnya. Teknik ini relevan untuk aplikasi dunia nyata, seperti sistem klasifikasi otomatis berdasarkan data masukan baru.

In [None]:
# 6. Eksperimen: Menyimpan dan Memuat dengan Versi yang Berbeda
print("\n=== Eksperimen: Simpan dan Muat Model dengan Versi Berbeda ===")
# Simpan model dalam format kompresi
joblib.dump(rf, "random_forest_model_compressed.pkl", compress=3)
print("Model disimpan dengan kompresi sebagai 'random_forest_model_compressed.pkl'")

# Memuat model yang dikompresi
loaded_rf_compressed = joblib.load("random_forest_model_compressed.pkl")

# Evaluasi model yang dikompresi
y_pred_compressed = loaded_rf_compressed.predict(X_test)
accuracy_compressed = accuracy_score(y_test, y_pred_compressed)
print("Akurasi Model yang Dimuat (dengan kompresi): {:.2f}".format(accuracy_compressed))


=== Eksperimen: Simpan dan Muat Model dengan Versi Berbeda ===
Model disimpan dengan kompresi sebagai 'random_forest_model_compressed.pkl'
Akurasi Model yang Dimuat (dengan kompresi): 1.00


Kode ini menunjukkan eksperimen penyimpanan model Random Forest dalam format terkompresi menggunakan library joblib. Model disimpan dengan nama file random_forest_model_compressed.pkl dan menggunakan parameter compress=3, yang memungkinkan file model dikompresi untuk mengurangi ukuran file. Kompresi ini berguna ketika model perlu disimpan atau dikirimkan dalam lingkungan dengan keterbatasan penyimpanan atau bandwidth, seperti deployment di sistem berbasis cloud. Setelah disimpan, model yang terkompresi dimuat kembali menggunakan fungsi joblib.load(), dan evaluasi dilakukan untuk memastikan performa model tetap sama.

Hasil evaluasi menunjukkan bahwa model yang disimpan dalam format terkompresi tetap memberikan akurasi 1.00 (100%) saat diuji dengan data uji. Ini menunjukkan bahwa kompresi tidak memengaruhi performa model dan hanya berdampak pada ukuran file. Proses ini sangat relevan dalam pengembangan dan deployment pembelajaran mesin karena memungkinkan efisiensi penyimpanan tanpa mengorbankan kualitas model. Eksperimen ini menegaskan fleksibilitas penggunaan joblib untuk berbagai kebutuhan penyimpanan model dengan opsi penghematan ruang penyimpanan.

In [None]:
# 7. Simpan Model dengan Metadata (Custom Object)
print("\n=== Menyimpan Model dengan Metadata ===")
metadata = {
    "model": rf,
    "description": "Random Forest model untuk dataset Iris",
    "version": "1.0",
    "date": "2025-01-02"
}

# Simpan objek metadata
joblib.dump(metadata, "model_with_metadata.pkl")
print("Model dengan metadata disimpan sebagai 'model_with_metadata.pkl'")

# Muat model dengan metadata
loaded_metadata = joblib.load("model_with_metadata.pkl")
print("\nDeskripsi Model:")
print(loaded_metadata["description"])
print("Versi:", loaded_metadata["version"])
print("Tanggal:", loaded_metadata["date"])

# Gunakan model dari metadata
loaded_model_from_metadata = loaded_metadata["model"]
y_pred_metadata = loaded_model_from_metadata.predict(X_test)
accuracy_metadata = accuracy_score(y_test, y_pred_metadata)
print("Akurasi Model dari Metadata: {:.2f}".format(accuracy_metadata))


=== Menyimpan Model dengan Metadata ===
Model dengan metadata disimpan sebagai 'model_with_metadata.pkl'

Deskripsi Model:
Random Forest model untuk dataset Iris
Versi: 1.0
Tanggal: 2025-01-02
Akurasi Model dari Metadata: 1.00


Model Random Forest disimpan bersama dengan metadata tambahan dalam satu objek menggunakan joblib. Metadata ini berisi informasi tambahan seperti deskripsi model, versi, dan tanggal, yang membantu mendokumentasikan model untuk referensi di masa depan. Metadata dan model disimpan dalam file model_with_metadata.pkl. Teknik ini berguna untuk melacak informasi penting mengenai model, seperti konteks penggunaannya, versi yang digunakan, dan waktu pembuatan, yang sangat membantu dalam manajemen model pada proyek besar.

Output menunjukkan bahwa file berhasil disimpan dan metadata berhasil dimuat kembali. Metadata yang dimuat menampilkan informasi seperti deskripsi ("Random Forest model untuk dataset Iris"), versi ("1.0"), dan tanggal ("2025-01-02"). Selain itu, model yang disimpan di dalam metadata diuji kembali menggunakan data uji, dan hasil akurasi tetap 1.00 (100%), menunjukkan bahwa proses penyimpanan dengan metadata tidak memengaruhi performa model. Pendekatan ini memastikan dokumentasi model yang lengkap dan tetap menjaga keandalannya untuk digunakan dalam aplikasi selanjutnya. Teknik ini sangat relevan untuk lingkungan kolaboratif atau produksi, di mana pengelolaan model yang terorganisasi sangat penting.