<a href="https://colab.research.google.com/github/Auvarmf/Artificial-Intelligence/blob/main/2117051027_AuvarMahsaFahlevi_KuisAI.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Kuis Artificial Intelligence


---


Membuat klasifikasi kualitas Wine menggunakan model klasifikasi linear dengan minimal akurasi 60%

## Library

In [274]:
import pandas as pd
import numpy as np
import sklearn 
from sklearn.cluster import AgglomerativeClustering
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import OneHotEncoder
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

## Dataset
Menggunakan dataset csv dari github:

https://raw.githubusercontent.com/adivii/datasets/main/Artificial%20Intelligence/Pertemuan%205/Wine_Quality_Data.csv 

untuk mencari nilai akurasi kualitas pada Wine

In [275]:
# melakukan pengambilan data
df = pd.read_csv("https://raw.githubusercontent.com/adivii/datasets/main/Artificial%20Intelligence/Pertemuan%205/Wine_Quality_Data.csv")
df

Unnamed: 0,fixed_acidity,volatile_acidity,citric_acid,residual_sugar,chlorides,free_sulfur_dioxide,total_sulfur_dioxide,density,pH,sulphates,alcohol,quality,color
0,7.4,0.70,0.00,1.9,0.076,11.0,34.0,0.99780,3.51,0.56,9.4,5,red
1,7.8,0.88,0.00,2.6,0.098,25.0,67.0,0.99680,3.20,0.68,9.8,5,red
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.99700,3.26,0.65,9.8,5,red
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.99800,3.16,0.58,9.8,6,red
4,7.4,0.70,0.00,1.9,0.076,11.0,34.0,0.99780,3.51,0.56,9.4,5,red
...,...,...,...,...,...,...,...,...,...,...,...,...,...
6492,6.2,0.21,0.29,1.6,0.039,24.0,92.0,0.99114,3.27,0.50,11.2,6,white
6493,6.6,0.32,0.36,8.0,0.047,57.0,168.0,0.99490,3.15,0.46,9.6,5,white
6494,6.5,0.24,0.19,1.2,0.041,30.0,111.0,0.99254,2.99,0.46,9.4,6,white
6495,5.5,0.29,0.30,1.1,0.022,20.0,110.0,0.98869,3.34,0.38,12.8,7,white


## Preprocessing


*   Pada proses ini dilakukan penghapusan data duplikat dan nilai NaN (Jika diperlukan) pada kasus ini tidak diperlukan.
*   Dilakukan juga pemilihan feature untuk membuat klasifikasi kualitas wine





In [276]:
# # menghapus data duplikat
# df = df.drop_duplicates()
# df

In [277]:
# # kemungkinan tidak terdapat nilai NaN pada dataset tersebut, tapi disini saya tetap memasukan fungsi penghapusan untuk nilai NaN
# # berjaga-jaga jika terjadi penambahan data dan terdapat nilai NaN
# # menghilangkan nilai NaN pada dataset
# df = df.dropna()
# df

# pada kasus ini tidak diperlukan

In [278]:
# # melakukan pemilihan feature untuk membuat klasifikasi kualitas wine
# X = df.drop(["quality"], axis=1)
# Y = df["quality"]

# # melakukan standarisasi pada dataset
# scaler = StandardScaler()
# X = scaler.fit_transform(X)

# karena terjadi ValueError: could not convert string to float: 'red'
# hal ini terjadi karena kolom pada dataframe yang berisi string tidak dapat diubah menjadi float. 
# Pada kasus ini, kolom "color" pada dataframe mengandung string "red" dan "white" yang tidak dapat diubah menjadi int.

# error ini dapat diatasi dengan melakukan encoding pada kolom "color" menjadi angka menggunakan label encoding atau one-hot encoding.
one_hot = pd.get_dummies(df["color"])

# menggabungkan one-hot encoding dengan dataframe
df = pd.concat([df, one_hot], axis=1)
df

Unnamed: 0,fixed_acidity,volatile_acidity,citric_acid,residual_sugar,chlorides,free_sulfur_dioxide,total_sulfur_dioxide,density,pH,sulphates,alcohol,quality,color,red,white
0,7.4,0.70,0.00,1.9,0.076,11.0,34.0,0.99780,3.51,0.56,9.4,5,red,1,0
1,7.8,0.88,0.00,2.6,0.098,25.0,67.0,0.99680,3.20,0.68,9.8,5,red,1,0
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.99700,3.26,0.65,9.8,5,red,1,0
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.99800,3.16,0.58,9.8,6,red,1,0
4,7.4,0.70,0.00,1.9,0.076,11.0,34.0,0.99780,3.51,0.56,9.4,5,red,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6492,6.2,0.21,0.29,1.6,0.039,24.0,92.0,0.99114,3.27,0.50,11.2,6,white,0,1
6493,6.6,0.32,0.36,8.0,0.047,57.0,168.0,0.99490,3.15,0.46,9.6,5,white,0,1
6494,6.5,0.24,0.19,1.2,0.041,30.0,111.0,0.99254,2.99,0.46,9.4,6,white,0,1
6495,5.5,0.29,0.30,1.1,0.022,20.0,110.0,0.98869,3.34,0.38,12.8,7,white,0,1


In [279]:
# melakukan drop kolom "color"
df.drop("color", axis=1, inplace=True)

# memisahkan feature dan target
X = df.drop("quality", axis=1)
y = df["quality"]

# mealkukan split/memisahkan menjadi data train dan test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=2)

# random_state adalah argumen opsional yang digunakan untuk menentukan seed atau biji secara acak yang digunakan dalam pembagian data.
# test_size digunakan untuk menentukan ukuran data test sebagai proporsi dari keseluruhan dataset.
# test_size = 0.2, maka 20% dari data akan digunakan sebagai data test, sementara 80% sisanya akan digunakan sebagai data training.
# ukuran test_size bisa disesuaikan dengan data yang dimiliki.

## Modeling
Modeling yang digunakan adalah model klasifikasi linear, melakukan klasifikasi pada data dengan output yang bersifat biner (bernilai 0 atau 1). 

Metode ini menggunakan fungsi logistik (sigmoid function) untuk menghitung probabilitas kelas dan kemudian menentukan kelas yang paling mungkin berdasarkan nilai probabilitas tersebut.

In [268]:
# menggunakan model klasifikasi linear
model = LogisticRegression(max_iter=6496)

# melatih model data
model.fit(X_train, y_train)

# memprediksi label pada data test
y_prediksi = model.predict(X_test)

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [269]:
# melakukan perhitungan akurasi pada data
akurasi = accuracy_score(y_test, y_prediksi)
akurasi

0.5592307692307692

In [270]:
# mengubah akurasi data menjadi percent %
akurasi = accuracy_score(y_test, y_prediksi)
akurasi_percent = akurasi * 100
print("Akurasi :", akurasi_percent, "%")

Akurasi : 55.92307692307692 %


Karena akurasi minimal adalah 60%, disini saya akan mencoba menggunakan model lain agar hasinya sesuai dengan yang diharapkan.

In [271]:
# model yang digunakan adalah Random Forest 
# Random Forest Classifier digunakan dengan 500 estimators (jumlah pohon keputusan yang dibangun) dan random state sebesar 2.
model = RandomForestClassifier(n_estimators=500, random_state=2)
model

In [272]:
# melatih model menggunakan data train
model.fit(X_train, y_train)

# melakukan prediksi pada data test
y_prediksi = model.predict(X_test)
y_prediksi

array([5, 6, 6, ..., 6, 6, 5])

In [273]:
# menghitung akurasi pada data test
akurasi = accuracy_score(y_test, y_prediksi)

# mengubah akurasi ke percent
akurasi_percent = akurasi * 100
print("Akurasi :", akurasi_percent, "%")

Akurasi : 69.61538461538461 %


Nilai akurasi yang bisa saya dapatkan setelah menggunakan Random Forest Classifier adalah 69.61538461538461 %