# KNN Classifier atau Klasifikasi pada Data Iris

**Nama  : Shohibun Naufal**

**NIM   : 210411100013**

**Kelas : Penambangan Data-C**

KNN pada dasarnya adalah algoritma supervised machine learning yang digunakan untuk mencari pola dalam data guna membuat prediksi. Secara sederhana, algoritma ini mengidentifikasi titik data yang memiliki fitur yang mirip dengan titik data yang diberikan, dan memilih k jumlah titik data yang paling mirip. Proses ini melibatkan perhitungan metrik kemiripan yang membandingkan satu set fitur numerik tetap antara dua pengamatan. Hasilnya kemudian dapat digunakan untuk melakukan prediksi dengan mengambil rata-rata atau mean dari fitur-fitur pada titik data yang terpilih. Inilah inti dari algoritma KNN.

1. Mengimport library yang diperlukan

In [None]:
import pandas as pd
import numpy as np
from sklearn.neighbors import KNeighborsRegressor 
from sklearn.preprocessing import LabelEncoder

2. Import data yang digunakan

In [None]:
df = pd.read_csv('data_iris.csv')

jumlah_baris = df.shape[0]
df.head(jumlah_baris)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,,3.5,1.4,0.2,setosa
1,?,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


3. melakukan pengecekan nilai yang kosong/hilang pada data

In [None]:
df_copy = df.copy()
df_copy.isnull().sum()

sepal_length    1
sepal_width     0
petal_length    0
petal_width     0
species         0
dtype: int64

4. Mengganti nilai yang mengandung tanda tanya (?) menjadi nilai kosong

In [None]:
df_copy = df_copy.replace('?',np.nan)

5. pengecekan nilai kosong/hilang kembali

In [None]:
df_copy.isnull().sum()

sepal_length    2
sepal_width     0
petal_length    0
petal_width     0
species         0
dtype: int64

6. Setelah itu kita lihat type datanya, jika type datanya bukan numerik/float maka perlu diganti type datanya

In [None]:
df_copy.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   sepal_length  148 non-null    object 
 1   sepal_width   150 non-null    float64
 2   petal_length  150 non-null    float64
 3   petal_width   150 non-null    float64
 4   species       150 non-null    object 
dtypes: float64(3), object(2)
memory usage: 6.0+ KB


7. Mengubah semuanya tipe data pada fitur menjadi tipe data numerik/float

In [None]:
# mengubah fitur sepal_length menjadi tipe data float
df_copy['sepal_length'] = df_copy['sepal_length'].astype(float)

# mengubah fitur species menjadi tipe data int yang awalnya categorical
le = LabelEncoder()
df_copy['species'] = le.fit_transform(df_copy['species'])

8. pengecekan kembali tipe data pada semua fitur




In [None]:
df_copy.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   sepal_length  148 non-null    float64
 1   sepal_width   150 non-null    float64
 2   petal_length  150 non-null    float64
 3   petal_width   150 non-null    float64
 4   species       150 non-null    int64  
dtypes: float64(4), int64(1)
memory usage: 6.0 KB


9. Mengisi nilai yang hilang/kosong. Disini kita menggunakan mean, mean tidak selalu menjadi nilai yang baik untuk mengisi nilai yang hilang. Kita juga bisa menggunakan rumus untuk mengisinya.

In [None]:
df_copy = df_copy.fillna(df_copy.mean(numeric_only=True))

10. mengecek apakah masih ada data yang kosong

In [None]:
df_copy.isnull().sum()

sepal_length    0
sepal_width     0
petal_length    0
petal_width     0
species         0
dtype: int64

11. menampilkan data yang terbaru

In [None]:
df_copy.head(jumlah_baris)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.85473,3.5,1.4,0.2,0
1,5.85473,3.0,1.4,0.2,0
2,4.70000,3.2,1.3,0.2,0
3,4.60000,3.1,1.5,0.2,0
4,5.00000,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.70000,3.0,5.2,2.3,2
146,6.30000,2.5,5.0,1.9,2
147,6.50000,3.0,5.2,2.0,2
148,6.20000,3.4,5.4,2.3,2


12. Melakukan normalisasi data adalah proses mengubah setiap nilai dalam data ke dalam rentang antara 0 hingga 1. Salah satu metode normalisasi yang umum digunakan adalah metode min-max, yang menggunakan rumus: (x - min) / (max - min). Terdapat juga metode lain yang dapat digunakan, seperti metode simple feature scaling atau metode z-score. Namun, penting untuk diingat bahwa kolom target (dalam contoh tersebut, kolom species) tidak akan dinormalisasi.

In [None]:
species_column = df_copy['species']
df_copy = df_copy[['sepal_length', 'sepal_width', 'petal_length', 'petal_width']].copy()
df_copy = (df_copy - df_copy.min())/(df_copy.max() - df_copy.min())
df_copy['species'] = species_column.copy()
df_copy.head(jumlah_baris)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,0.431869,0.625000,0.067797,0.041667,0
1,0.431869,0.416667,0.067797,0.041667,0
2,0.111111,0.500000,0.050847,0.041667,0
3,0.083333,0.458333,0.084746,0.041667,0
4,0.194444,0.666667,0.067797,0.041667,0
...,...,...,...,...,...
145,0.666667,0.416667,0.711864,0.916667,2
146,0.555556,0.208333,0.677966,0.750000,2
147,0.611111,0.416667,0.711864,0.791667,2
148,0.527778,0.583333,0.745763,0.916667,2


13. Setelah itu , menginisialisasi objek knn dari kelas KNeighborsRegressor yang merupakan algoritma K-Nearest Neighbors untuk melakukan regresi. Kemudian, kita melakukan randomisasi indeks dari dataset menggunakan np.random.permutation() dengan seed 1 untuk memastikan hasil yang konsisten.

> Selanjutnya, kita membagi dataset menjadi 75% data untuk training dan 25% untuk testing menggunakan variabel train_index. Data training disimpan di training_data, dan data testing disimpan di testing_data.

> Setelah itu, kita melakukan training model menggunakan data training dengan memanggil method fit() pada objek knn dengan argumen input berupa fitur-fitur yang digunakan (dalam hal ini sepal_length, sepal_width, petal_length, dan petal_width) dan label yaitu species.

> Kemudian, kita melakukan prediksi pada data testing dengan memanggil method predict() pada objek knn dengan argumen input berupa fitur-fitur dari data testing yang ingin diprediksi.

> Setelah itu, kita menghitung akurasi model dengan mengukur berapa persen data testing yang berhasil diprediksi dengan (threshold default 0.5.).

> Terakhir, kita mencetak hasil akurasi model.

In [None]:
knn = KNeighborsRegressor()

# before we split, make sure you randomize the dataset
np.random.seed(1)
index_shuffled = np.random.permutation(df_copy.index)
shuffled_car_data = df_copy.loc[index_shuffled]

# We will use 75% of the data for training and the remaining 25% for testing
train_index = int(shuffled_car_data.shape[0] * 0.75)
training_data = shuffled_car_data.iloc[0:train_index]
testing_data = shuffled_car_data.iloc[train_index:]

# fit the model with the training data
knn.fit(training_data[['sepal_length', 'sepal_width', 'petal_length', 'petal_width']], training_data['species'])

# predict the species of the testing data
prediction = knn.predict(testing_data[['sepal_length', 'sepal_width', 'petal_length', 'petal_width']])

# calculate the accuracy of the model
accuracy = np.mean(np.abs(prediction - testing_data['species']) <= 0.5)

print(f"Akurasi model KNN: {accuracy:.2%}")


Akurasi model KNN: 92.11%


## Kesimpulan
Berdasarkan hasil di atas, model KNN yang menggunakan beberapa fitur seperti 'sepal_length', 'sepal_width', 'petal_length', dan 'petal_width' pada dataset iris mencapai tingkat akurasi sebesar 92.11%. Hal ini menunjukkan bahwa model KNN mampu dengan baik dalam melakukan klasifikasi pada data iris menggunakan fitur-fitur tersebut, dan dapat memprediksi klasifikasi dengan tingkat keakuratan yang tinggi.