**Kamal Ariq**

Dataset : Balance Scale

Link :https://archive.ics.uci.edu/dataset/12/balance+scale

**Evaluasi Algoritma (Iris) dengan menggunakan Logistic Regression**

In [2]:
import pandas as pd

In [3]:
# Mendapatkan dataset dari URL
url = "http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"
names = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'class']
dataset = pd.read_csv(url, names=names)

In [4]:
dataset.head()

Unnamed: 0,sepal-length,sepal-width,petal-length,petal-width,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


In [10]:
# Import library yang diperlukan
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report
from sklearn.preprocessing import LabelEncoder

In [14]:
# Memisahkan fitur dan label
X = dataset.drop('class', axis=1)
y = dataset['class']

X: Menyimpan fitur-fitur (sepal-length, sepal-width, petal-length, petal-width)
 dengan menghapus kolom 'class'.

y: Menyimpan label/target (class) dari dataset.

In [15]:
# Encode label menjadi angka
le = LabelEncoder()
y = le.fit_transform(y)

LabelEncoder(): Digunakan untuk mengubah label (class) menjadi bentuk numerik.

In [16]:
# Membagi data menjadi data training dan data uji
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

train_test_split(): Memisahkan dataset menjadi data training dan data uji. Pada percobaan ini, 80% data digunakan untuk latihan dan 20% untuk pengujian.

In [17]:
# Inisialisasi model Logistic Regression
model = LogisticRegression(max_iter=1000)

Membuat objek model untuk Logistic Regression dengan pengaturan tertentu (misalnya, max_iter=1000 menentukan jumlah iterasi maksimum untuk penyesuaian model).

In [18]:
# Melatih model menggunakan data latih
model.fit(X_train, y_train)

Melakukan training model Logistic Regression menggunakan data latih (X_train dan y_train).

In [19]:
# Memprediksi kelas untuk data uji
y_pred = model.predict(X_test)

Menggunakan model yang telah dilatih untuk memprediksi kelas/target menggunakan data uji (X_test).

In [20]:
# Evaluasi model
accuracy = accuracy_score(y_test, y_pred)
print(f"Akurasi: {accuracy:.2f}")

print("\nLaporan Klasifikasi:")
print(classification_report(y_test, y_pred, target_names=le.classes_))

Akurasi: 1.00

Laporan Klasifikasi:
                 precision    recall  f1-score   support

    Iris-setosa       1.00      1.00      1.00        10
Iris-versicolor       1.00      1.00      1.00         9
 Iris-virginica       1.00      1.00      1.00        11

       accuracy                           1.00        30
      macro avg       1.00      1.00      1.00        30
   weighted avg       1.00      1.00      1.00        30



accuracy_score(): Menghitung tingkat akurasi dari model terhadap data uji.

classification_report(): Menghasilkan laporan klasifikasi yang mencakup presisi, recall, f1-score, dan support untuk setiap kelas.

Dari laporan klasifikasi tersebut, hasilnya menunjukkan bahwa model memiliki performa yang sangat baik pada semua kelas dalam dataset Iris. Setiap kelas memiliki precision, recall, dan f1-score yang sempurna (1.00), yang menandakan bahwa model dapat memprediksi setiap kelas dengan akurasi yang tinggi.

Kesimpulannya, model Logistic Regression yang Anda latih berhasil dengan sangat baik dalam mengklasifikasikan data Iris, mencapai akurasi yang tinggi dan kinerja yang optimal pada setiap kelas.

**Evaluasi Algoritma Balance Scale**

In [21]:
# Impor library yang dibutuhkan
import pandas as pd

In [22]:
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/balance-scale/balance-scale.data"

names = ['class name', 'left-weight', 'left-distance', 'right-weight', 'right-distance']

dataset = pd.read_csv(url, names=names)

In [23]:
# Mengganti nilai 'L', 'B', 'R' dengan 1, 2, 3 dalam kolom 'class name'
class_mapping = {'L': 1, 'B': 2, 'R': 3}
dataset['class name'] = dataset['class name'].map(class_mapping)

In [57]:
dataset.shape

(625, 5)

In [24]:
dataset.head()

Unnamed: 0,class name,left-weight,left-distance,right-weight,right-distance
0,2,1,1,1,1
1,3,1,1,1,2
2,3,1,1,1,3
3,3,1,1,1,4
4,3,1,1,1,5


### Train-Test Split

In [34]:
# import library yang dibutuhkan
from sklearn import model_selection

In [47]:
# Split-out validation dataset
array = dataset.values

X = array[:,1:4]
Y = array[:,0]

validation_size = 0.20

seed = 7

X_train, X_validation, Y_train, Y_validation = model_selection.train_test_split(X, Y, test_size=validation_size, random_state=seed)

Membagi data training dan data validasi dengan parameter X = atribut ['left-weight', 'left-distance', 'right-weight', 'right-distance'] dan Y = class name

In [48]:
print("X_train :", X_train.shape)
print("X_validation :", X_validation.shape)
print("Y_train :", Y_train.shape)
print("Y_validation :", Y_validation.shape)

X_train : (500, 3)
X_validation : (125, 3)
Y_train : (500,)
Y_validation : (125,)


Pada percobaan ini data training yang dihasilkan adalah 80% dari data keseluruhan yaitu sejumlah 500 data training.Sedangkan untuk data testingnya adalah 20% dari data keselurahan yaitu sejumlah 125 data testing.

### K-Folds Cross Validation

In [49]:
# Test options and evaluation metric
seed = 7

scoring = 'accuracy'

### Membangun Model

In [50]:
# Import Library berisi algoritma klasifikasi yang akan digunakan
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.svm import SVC

In [51]:
# Spot Check Algorithms
models = []
models.append(('KNN', KNeighborsClassifier()))
models.append(('NB', GaussianNB()))
models.append(('SVM', SVC()))

In [52]:
# evaluate each model in turn
results = []

names = []

for name, model in models:
  kfold = model_selection.KFold(n_splits=10, random_state=seed, shuffle=True)
  cv_results = model_selection.cross_val_score(model, X_train, Y_train, cv=kfold, scoring=scoring)
  results.append(cv_results)
  names.append(name)
  msg = "%s: %f (%f)" % (name, cv_results.mean(), cv_results.std())
  print(msg)

KNN: 0.750000 (0.054589)
NB: 0.796000 (0.059867)
SVM: 0.780000 (0.052915)


### Memilih Model Terbaik

Dari hasil evaluasi model di atas, maka diperoleh nilai akurasi tertinggi adalah Naive Bayes yaitu sebesar 0,796000

In [53]:
#import
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

In [54]:
# Make predictions on validation dataset
nb_model = GaussianNB()

nb_model.fit(X_train, Y_train)

predictions = nb_model.predict(X_validation)

print(accuracy_score(Y_validation, predictions))

print(confusion_matrix(Y_validation, predictions))
print(classification_report(Y_validation, predictions, zero_division=1))

0.712
[[49  0 15]
 [ 4  0  4]
 [13  0 40]]
              precision    recall  f1-score   support

           1       0.74      0.77      0.75        64
           2       1.00      0.00      0.00         8
           3       0.68      0.75      0.71        53

    accuracy                           0.71       125
   macro avg       0.81      0.51      0.49       125
weighted avg       0.73      0.71      0.69       125



Analisis Singkat:

*   Untuk kelas 1, precision sebesar 0.74 menunjukkan bahwa dari contoh yang diprediksi sebagai kelas 1, sekitar 74% adalah kelas 1 yang sebenarnya. Recall sebesar 0.77 menunjukkan bahwa model berhasil menemukan sekitar 77% dari keseluruhan contoh kelas 1.
*   Untuk kelas 2, precision dan recall sangat rendah (1.00 dan 0.00). Hal ini mungkin disebabkan oleh jumlah sampel yang terlalu sedikit untuk kelas 2 (hanya 8), yang membuat model tidak mampu mempelajari pola dengan baik.
*   Untuk kelas 3, precision dan recall sekitar 68% dan 75%, menunjukkan performa yang baik dalam mengidentifikasi contoh dari kelas tersebut.




Kesimpulan:

Model memiliki akurasi yang wajar (0.712), namun ada kelas (kelas 2) yang tidak dapat diprediksi dengan baik karena jumlah sampel yang terlalu sedikit. Dalam evaluasi model, selalu penting untuk memperhatikan precision, recall, dan f1-score terutama pada kelas-kelas dengan jumlah sampel yang rendah.