##Eksplorasi Dataset Iris

Nama: Divia Shinta Sukarsaatmadja

NIM : 24060121140104

Lab : ML A1

###Deskripsi Dataset

Pada tugas praktikum *machine learning* pertemuan 2 ini, saya menggunakan dataset klasifikasi Bunga Iris yang bersumber dari UC Irvine Machine Learning Repository.

Dataset ini berisi 150 pengamatan bunga Iris. Terdapat empat kolom pengukuran bunga dalam centimeter. Kolom kelima adalah spesies bunga yang diamati. Dataset ini merupakan dataset yang paling umum digunakan, sehingga sering disebut sebagai dataset “hello word” dalam machine learning.

Informasi detail mengenai dataset tersebut dapat diakses melalui [tautan berikut](https://archive.ics.uci.edu/dataset/53/iris).

###Membuat Validasi Dataset

In [20]:
import pandas as pd

Kode tersebut mengimpor pustaka `pandas` dengan alias `pd`, memungkinkan penggunaan fungsi-fungsi pandas dengan lebih singkat.

In [21]:
url = "http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"
names = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'class']
dataset = pd.read_csv(url, names=names)
dataset.head(5)

Unnamed: 0,sepal-length,sepal-width,petal-length,petal-width,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


Kode ini membaca dataset Iris dari URL yang diberikan ke dalam DataFrame menggunakan pandas. Dataset ini memiliki kolom-kolom seperti `sepal-length`, `sepal-width`, `petal-length`, `petal-width`, dan `class`. Data ini diambil dari UCI Machine Learning Repository. `dataset.head(5)` digunakan untuk menampilkan lima baris pertama dari dataset tersebut.

In [22]:
dataset.shape

(150, 5)

Kode `dataset.shape` digunakan untuk mengetahui ukuran dataset, yaitu jumlah baris dan kolom. Outputnya akan berupa tuple dengan dua angka, di mana angka pertama adalah jumlah baris (instances) dan angka kedua adalah jumlah kolom (features).

In [23]:
from sklearn import model_selection

Kode `from sklearn import model_selection` mengimpor modul `model_selection` dari pustaka Scikit-Learn. Modul ini menyediakan berbagai fungsi dan kelas yang berguna untuk pemodelan dan evaluasi model, termasuk fungsi untuk melakukan pemisahan dataset menjadi data pelatihan dan pengujian menggunakan cross-validation.

In [24]:
array = dataset.values

X = array[:,0:4]
Y = array[:,4]

validation_size = 0.20

seed = 7

X_train, X_validation, Y_train, Y_validation = model_selection.train_test_split(X, Y, test_size=validation_size, random_state=seed)

Kode di atas melakukan beberapa langkah untuk menyiapkan dataset untuk pemodelan:

1. `array = dataset.values`: Mengambil nilai-nilai dari dataset dan menyimpannya dalam bentuk array NumPy. Ini memisahkan fitur (X) dan label (Y).

2. `X = array[:,0:4]`: Memilih kolom 0 hingga 3 sebagai fitur (sepal-length, sepal-width, petal-length, dan petal-width).

3. `Y = array[:,4]`: Memilih kolom ke-4 sebagai label (class).

4. `validation_size = 0.20`: Menentukan ukuran dataset pengujian (20% dari total data) untuk digunakan dalam evaluasi model.

5. `seed = 7`: Menentukan nilai seed untuk memastikan hasil yang konsisten saat menggunakan fungsi-fungsi yang melibatkan elemen acak.

6. `X_train, X_validation, Y_train, Y_validation = model_selection.train_test_split(X, Y, test_size=validation_size, random_state=seed)`: Membagi dataset menjadi data pelatihan dan data pengujian menggunakan fungsi `train_test_split` dari modul `model_selection`. `random_state` diatur untuk memastikan reproduktibilitas hasil.

Dengan langkah-langkah ini, sekarang terdapat empat variabel: `X_train` (fitur pelatihan), `X_validation` (fitur pengujian), `Y_train` (label pelatihan), dan `Y_validation` (label pengujian) untuk digunakan dalam pemodelan dan evaluasi.

In [25]:
print("X_train :", X_train.shape)
print("X_validation :", X_validation.shape)
print("Y_train :", Y_train.shape)
print("Y_validation :", Y_validation.shape)

X_train : (120, 4)
X_validation : (30, 4)
Y_train : (120,)
Y_validation : (30,)


Kode di atas digunakan untuk mencetak bentuk (shape) dari masing-masing variabel, memberikan informasi tentang jumlah baris dan kolom dari setiap dataset. Outputnya akan memberikan gambaran tentang seberapa besar dataset pelatihan dan pengujian yang telah dibagi sebelumnya.

###K-Folds Cross Validation

In [26]:
seed = 7
scoring = 'accuracy'

Kode tersebut menetapkan seed untuk hasil yang dapat direproduksi (untuk kestabilan eksperimen) dan memilih metrik evaluasi sebagai akurasi untuk mengukur sejauh mana model dapat memprediksi dengan benar selama validasi.

###Membangun Model

In [29]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression

models = []
models.append(('Decision Tree', DecisionTreeClassifier()))
models.append(('Random Forest', RandomForestClassifier()))
models.append(('Logistic Regression', LogisticRegression(max_iter=1000)))

results = []
names = []
for name, model in models:
  kfold = model_selection.KFold(n_splits=10, random_state=seed, shuffle=True)
  cv_results = model_selection.cross_val_score(model, X_train, Y_train, cv=kfold, scoring=scoring)
  results.append(cv_results)
  names.append(name)
  msg = "%s: %f (%f)" % (name, cv_results.mean(), cv_results.std())
  print(msg)

Decision Tree: 0.958333 (0.076830)
Random Forest: 0.966667 (0.040825)
Logistic Regression: 0.983333 (0.033333)


Kode tersebut membangun, melatih, dan mengevaluasi tiga model machine learning: Decision Tree, Random Forest, dan Logistic Regression. Evaluasinya dilakukan menggunakan metode cross-validation dengan 10 lipatan (folds), dan akurasi diukur sebagai metrik evaluasi. Hasil evaluasi untuk setiap model (mean dan standard deviation) ditampilkan.

###Memilih Model Terbaik

In [28]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

# Inisialisasi model Logistic Regression
log_reg = LogisticRegression(max_iter=1000)

# Latih model dengan data pelatihan
log_reg.fit(X_train, Y_train)

# Prediksi pada data validasi
predictions = log_reg.predict(X_validation)

# Menampilkan metrik evaluasi
print(accuracy_score(Y_validation, predictions))
print(confusion_matrix(Y_validation, predictions))
print(classification_report(Y_validation, predictions))


0.8666666666666667
[[ 7  0  0]
 [ 0 10  2]
 [ 0  2  9]]
                 precision    recall  f1-score   support

    Iris-setosa       1.00      1.00      1.00         7
Iris-versicolor       0.83      0.83      0.83        12
 Iris-virginica       0.82      0.82      0.82        11

       accuracy                           0.87        30
      macro avg       0.88      0.88      0.88        30
   weighted avg       0.87      0.87      0.87        30



Kode tersebut menggunakan Logistic Regression untuk membuat model, melatihnya dengan data pelatihan (`X_train`, `Y_train`), melakukan prediksi pada data validasi (`X_validation`), dan menampilkan beberapa metrik evaluasi seperti akurasi, confusion matrix, dan classification report.

###Kesimpulan

Dari eksplorasi dataset iris dengan menggunakan model Decision Tree, Random Forest, dan Logistic Regression, kita dapat menarik kesimpulan sebagai berikut:

1. **Decision Tree:**
   - Decision Tree memberikan akurasi tertentu pada dataset iris, tetapi akurasi ini mungkin tidak sebaik model lain.
   - Decision Tree memiliki kecenderungan untuk overfitting, terutama pada dataset kecil.

2. **Random Forest:**
   - Random Forest memberikan peningkatan dari Decision Tree karena memanfaatkan ensemble learning.
   - Meskipun Random Forest dapat mengatasi overfitting, hasilnya mungkin tidak sebaik Logistic Regression pada dataset tertentu.

3. **Logistic Regression:**
   - Logistic Regression memberikan akurasi tertinggi di antara model yang diuji pada dataset iris ini.
   - Logistic Regression cocok untuk masalah klasifikasi biner dan dapat memberikan hasil yang baik terutama pada dataset dengan fitur yang linear.

Dengan demikian, untuk dataset iris, Logistic Regression bisa menjadi pilihan terbaik jika prioritasnya adalah akurasi tertinggi. Namun, pilihan model juga tergantung pada konteks dan tujuan spesifik dari analisis yang dilakukan.