# **DATASET - RICE CAMMEO AND OSMANCIK**

**DESKRIPSI DATASET**

Di antara padi bersertifikat yang ditanam di Turki, spesies Osmancik, yang memiliki area penanaman besar sejak 1997 dan spesies Cammeo yang ditanam sejak 2014 telah dipilih untuk penelitian ini. Ketika melihat karakteristik umum spesies Osmancik, mereka memiliki penampilan yang lebar, panjang, kaca dan kusam. Ketika melihat karakteristik umum dari spesies Cammeo, mereka memiliki penampilan yang lebar dan panjang, seperti kaca dan kusam. Sebanyak 3810 gambar butiran beras diambil untuk dua spesies, diproses dan kesimpulan fitur dibuat. 7 fitur morfologis diperoleh untuk setiap butir beras. Pada dataset ini tidak ada data yang missing value. Dataset ini adalah dataset klasifikasi.

**INFORMASI FITUR**

- Area atau Daerah : Mengembalikan jumlah piksel dalam batas butir beras. Tipe data pada fitur ini adalah numerik.
- Perimeter : Menghitung keliling dengan menghitung jarak antara piksel di sekitar batas butir beras. Tipe data pada fitur ini adalah numerik.
- Major Axis Length atau Panjang Sumbu Utama : Garis terpanjang yang dapat ditarik pada butiran beras, yaitu jarak sumbu utama. Tipe data pada fitur ini adalah numerik.
- Minor Axis Length atau Panjang Sumbu Kecil : Garis terpendek yang dapat ditarik pada butiran beras, yaitu jarak sumbu kecil. Tipe data pada fitur ini adalah numerik.
- Eccentricity atau Eksentrisitas : Ini mengukur seberapa bulat elips, yang memiliki momen yang sama dengan butiran beras. Tipe data pada fitur ini adalah numerik.
- Convex Area atau Daerah Cembung : Mengembalikan jumlah piksel cangkang cembung terkecil dari wilayah yang dibentuk oleh butiran beras. Tipe data pada fitur ini adalah numerik.
- Extent atau Luas : Mengembalikan rasio wilayah yang dibentuk oleh butiran beras ke piksel kotak pembatas. Tipe data pada fitur ini adalah numerik.
- Class atau Kelas : Beras Cammeo dan Osmancik. Tipe data pada fitur ini adalah kategori. Diubah menjadi data biner, yaitu 0 = Cammeo dan 1 = Osmancik.

In [None]:
import pandas as pd
import numpy as np
import pickle
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score

In [None]:
# membaca data dari file csv
df = pd.read_csv("https://raw.githubusercontent.com/NabilaAtiraQurratulAini/PsdA/main/Rice_Osmancik_Cammeo_Dataset.csv")
df

Unnamed: 0,AREA,PERIMETER,MAJORAXIS,MINORAXIS,ECCENTRICITY,CONVEX_AREA,EXTENT,CLASS
0,15231,525.578979,229.749878,85.093788,0.928882,15617,0.572896,Cammeo
1,14656,494.311005,206.020065,91.730972,0.895405,15072,0.615436,Cammeo
2,14634,501.122009,214.106781,87.768288,0.912118,14954,0.693259,Cammeo
3,13176,458.342987,193.337387,87.448395,0.891861,13368,0.640669,Cammeo
4,14688,507.166992,211.743378,89.312454,0.906691,15262,0.646024,Cammeo
...,...,...,...,...,...,...,...,...
3805,11441,415.858002,170.486771,85.756592,0.864280,11628,0.681012,Osmancik
3806,11625,421.390015,167.714798,89.462570,0.845850,11904,0.694279,Osmancik
3807,12437,442.498993,183.572922,86.801979,0.881144,12645,0.626739,Osmancik
3808,9882,392.296997,161.193985,78.210480,0.874406,10097,0.659064,Osmancik


### **PRE-POCESSING**

Prepocessing pada dataset ini adalah sebagai berikut :
- Normalisasi

**NORMALISASI**

Normalisasi yang digunakan adalah StandardSacler pada data latih. Lalu disimpan di dalam scaler.pkl menggunakan pickle. Normalisasi data uji menggunakan scaler yang telah disimpan tadi. Setelah itu menampilkan hasil normalisasi data uji.



In [None]:
df['CLASS'].replace('Cammeo', 0,inplace=True)
df['CLASS'].replace('Osmancik', 1,inplace=True)

In [None]:
# split data menjadi fitur (X) dan target (y)
X = df.drop(columns=['CLASS'])
y = df['CLASS']

# membagi data menjadi data latih dan data uji
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# melakukan normalisasi data menggunakan StandardScaler pada data latih
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)

# simpan objek scaler ke dalam file "scaler.pkl" menggunakan pickle
with open('scaler.pkl', 'wb') as scaler_file:
  pickle.dump(scaler, scaler_file)

# load kembali scaler dari file "scaler.pkl" menggunakan pickle
with open('scaler.pkl', 'rb') as scaler_file:
  scalerr = pickle.load(scaler_file)

# normalisasi data uji menggunakan scaler yang telah disimpan
X_test_scaler = scalerr.transform(X_test)

# tampilkan hasil normalisasi data uji
df_test_scaler = pd.DataFrame(X_test_scaler, columns=X.columns)
print(df_test_scaler.head())

       AREA  PERIMETER  MAJORAXIS  MINORAXIS  ECCENTRICITY  CONVEX_AREA  \
0 -0.122339   0.159576  -0.059372   0.149823     -0.057173     0.001470   
1 -0.141908  -0.471779  -0.503448   0.435926     -0.819160    -0.191000   
2  0.122271  -0.133521  -0.391430   0.873444     -1.052013     0.119869   
3  0.250619   0.535513   0.803475  -0.539541      1.201708     0.220313   
4 -1.321215  -1.242800  -0.869517  -1.646526      0.465005    -1.362653   

     EXTENT  
0 -0.973365  
1 -0.336382  
2 -0.179766  
3  1.449568  
4 -1.153967  


### **PERHITUNGAN AKURASI MENGGUNAKAN BEBERAPA MODEL**

Dari dataset yang telah di normalisasi di simpan menggunakan scaler, menghitung dataset tersbeut dengan menggunakan beberapa metode seperti ini bawah ini :

- Random Forest
- SVM (Support Vector Machine)
- Logistic Regression
- Decision Tree
- Naive Bayes

**RANDOM FOREST**

In [None]:
from sklearn.ensemble import RandomForestClassifier

random_forest_model = RandomForestClassifier()
random_forest_model.fit(X_train_scaled, y_train)

with open('random_forest_model.pkl', 'wb') as rf_model_file:
  pickle.dump(random_forest_model, rf_model_file)

with open('random_forest_model.pkl', 'rb') as rf_model_file:
  loaded_rf_model = pickle.load(rf_model_file)

y_pred_rf = loaded_rf_model.predict(X_test_scaler)

accuracy_rf = accuracy_score(y_test, y_pred_rf)
print("akurasi Random Forest :", accuracy_rf)

rf_results_df = pd.DataFrame({'Actual Label': y_test, 'Prediksi Random Forest': y_pred_rf})
rf_results_df

akurasi Random Forest : 0.9225721784776902


Unnamed: 0,Actual Label,Prediksi Random Forest
1011,0,1
3185,1,1
3698,1,1
897,0,0
3245,1,1
...,...,...
1366,0,0
644,0,0
2634,1,1
1171,0,0


**SVM**

Support Vector Machine adalah algoritma machine learning yang digunakan untuk masalah klasifikasi dan regresi. Bekerja dengan mencari hiperlane terbaik yang memisahkan dua kelas data dalam ruang berdimensi tinggi. Misalkan memiliki dua kelas data, yaitu kelas 0 dan kelas 1. Untuk menentukan sebuah data termasuk dalam kelas 0 atau kelas 1 dilakukan dengan menghitung prediksi berdasarkan posisi data terhadap hiperplane. Rumus untuk memprediksi kelas data baru :

**f(x) = w * x + b**

Keterangan :
- **f(x)** adalah nilai prediksi untuk data input x.
- **w** adalah vektor bobot yang telah ditemukan selama pelatihan SVM.
- **x** adalah vektor fitur dari data yang ingin di klasifikasikan.
- **b** adalah bias yang juga ditemukan selama pelatihan SVM.

Hasil prediksi f(x) digunakan untuk menetukan kelas data sebagai berikut :
- Jika f(x) > 0, maka data akan diklasifikasikan ke dalam kelas 1.
- Jika f(x) < 0, maka data akan diklasifikasikan ke dalam kelas 0.

Dalam implementasi praktis, nilai ambang (threshold) 0 digunakan, yang berarti jika f(x) sama dengan atau lebih besar dari 0, data diklasifikasikan ke dalam kelas 1; jika kurang dari 0, data diklasifikasikan ke dalam kelas 0.



In [None]:
from sklearn.svm import SVC

svm_model = SVC()
svm_model.fit(X_train_scaled, y_train)

with open('svm_model.pkl', 'wb') as svm_model_file:
  pickle.dump(svm_model, svm_model_file)

with open('svm_model.pkl', 'rb') as svm_model_file:
  loaded_svm_model = pickle.load(svm_model_file)

y_pred_svm = loaded_svm_model.predict(X_test_scaler)

accuracy_svm = accuracy_score(y_test, y_pred_svm)
print("akurasi SVM :", accuracy_svm)

svm_results_df = pd.DataFrame({'Actual Label': y_test, 'Prediksi SVM': y_pred_svm})
svm_results_df

akurasi SVM : 0.937007874015748


Unnamed: 0,Actual Label,Prediksi SVM
1011,0,1
3185,1,1
3698,1,1
897,0,0
3245,1,1
...,...,...
1366,0,0
644,0,0
2634,1,1
1171,0,0


**LOGISTIC REGRESSION**

In [None]:
from sklearn.linear_model import LogisticRegression

logistic_regression_model = LogisticRegression()
logistic_regression_model.fit(X_train_scaled, y_train)

with open('logistic_regression_model.pkl', 'wb') as lr_model_file:
  pickle.dump(logistic_regression_model, lr_model_file)

with open('logistic_regression_model.pkl', 'rb') as lr_model_file:
  loaded_lr_model = pickle.load(lr_model_file)

y_pred_lr = loaded_lr_model.predict(X_test_scaler)

accuracy_lr = accuracy_score(y_test, y_pred_lr)
print("akurasi Logistic Regression:", accuracy_lr)

lr_results_df = pd.DataFrame({'Actual Label': y_test, 'Prediksi Logistic Regression': y_pred_lr})
lr_results_df

akurasi Logistic Regression: 0.9291338582677166


Unnamed: 0,Actual Label,Prediksi Logistic Regression
1011,0,1
3185,1,1
3698,1,1
897,0,0
3245,1,1
...,...,...
1366,0,0
644,0,0
2634,1,1
1171,0,0


**DECISION TREE**

In [None]:
from sklearn.tree import DecisionTreeClassifier

decision_tree_model = DecisionTreeClassifier()
decision_tree_model.fit(X_train_scaled, y_train)

with open('decision_tree_model.pkl', 'wb') as dt_model_file:
  pickle.dump(decision_tree_model, dt_model_file)

with open('decision_tree_model.pkl', 'rb') as dt_model_file:
  loaded_dt_model = pickle.load(dt_model_file)

y_pred_dt = loaded_dt_model.predict(X_test_scaler)

accuracy_dt = accuracy_score(y_test, y_pred_dt)
print("akurasi Decision Tree:", accuracy_dt)

dt_results_df = pd.DataFrame({'Actual Label': y_test, 'Prediksi Decision Tree': y_pred_dt})
dt_results_df

akurasi Decision Tree: 0.8753280839895013


Unnamed: 0,Actual Label,Prediksi Decision Tree
1011,0,0
3185,1,1
3698,1,1
897,0,0
3245,1,1
...,...,...
1366,0,0
644,0,0
2634,1,1
1171,0,0


**NAIVE BAYES**

In [None]:
from sklearn.naive_bayes import GaussianNB

naive_bayes_model = GaussianNB()
naive_bayes_model.fit(X_train_scaled, y_train)

with open('naive_bayes_model.pkl', 'wb') as nb_model_file:
  pickle.dump(naive_bayes_model, nb_model_file)

with open('naive_bayes_model.pkl', 'rb') as nb_model_file:
  loaded_nb_model = pickle.load(nb_model_file)

y_pred_nb = loaded_nb_model.predict(X_test_scaler)

accuracy_nb = accuracy_score(y_test, y_pred_nb)
print("akurasi Naive Bayes:", accuracy_nb)

nb_results_df = pd.DataFrame({'Actual Label': y_test, 'Prediksi Naive Bayes': y_pred_nb})
nb_results_df

akurasi Naive Bayes: 0.9238845144356955


Unnamed: 0,Actual Label,Prediksi Naive Bayes
1011,0,1
3185,1,1
3698,1,1
897,0,0
3245,1,1
...,...,...
1366,0,0
644,0,0
2634,1,1
1171,0,0


### **INPUTAN DATA**

In [None]:
# untuk memasukkan nilai-nilai fitur
AREA = float(input("masukkan nilai area : "))
PERIMETER = float(input("masukkan nilai perimeter : "))
MAJORAXIS = float(input("masukkan nilai majoraxis : "))
MINORAXIS = float(input("masukkan nilai minoraxis : "))
ECCENTRICITY = float(input("masukkan nilai eccentricity: "))
CONVEX_AREA = float(input("masukkan nilai convex area: "))
EXTENT = float(input("masukkan nilai extent : "))

# buat data baru untuk prediksi
new_data = np.array([[AREA, PERIMETER, MAJORAXIS, MINORAXIS, ECCENTRICITY, CONVEX_AREA, EXTENT]])

# normalisasi d146ata baru menggunakan scaler yang telah disimpan
new_data_scaled = scalerr.transform(new_data)

# prediksi CLASS untuk data baru menggunakan model SVM
prediction = loaded_svm_model.predict(new_data_scaled)

# hasil prediksi
if prediction[0] == 1:
  print("hasil prediksi : beras osmancik")
else:
  print("hasil Prediksi : beras cammeo")

masukkan nilai area : 14656
masukkan nilai perimeter : 494.3110046
masukkan nilai majoraxis : 206.0200653
masukkan nilai minoraxis : 91.73097229
masukkan nilai eccentricity: 0.895404994
masukkan nilai convex area: 15072
masukkan nilai extent : 0.615436316
hasil Prediksi: beras cammeo


