### 2. K-Nearest Neighbor

   Merupakan algoritma dari jenis <b>Machine Learning Supervised Learning</b> yang bertujuan untuk <i>klasifikasi data suatu objek berdasarkan sejumlah k-data training yang memiliki jarak yang paling dekat (nearest neighbor) dengan objek tersebut</i>.
    
   Jauh dekatnya tetangga biasanya dihitung berdasarkan jarak <b>Euclidean(d)</b>.
   
   
   <b>CONTOH:</b>
   Memprediksi apakah seseorang bisa lulus S2 tepat waktu berdasarkan variabel IPK S1 dan usia masuk kuliah S2.
   Ada 2 variabel yaitu IPK S1 dan usia masuk kuliah S2, variabel ini akan digunakan untuk memprediksi apakah seseorang dapat lulus tepat waktu atau tidak dengan metode KNN.
   
   
   <i>Catatan: untuk neighbor nya diusahakan jumlah nya tidak genap, karena dapat mengeluarkan hasil 50%-50%.</i>

### Langkah-langkah KNN:

1. Menentukan parameter K, bilangan bulat positif sebagai nearest neighbor (banyaknya tetangga terdekat).
2. Hitung jarak antara data baru dan semua data yang ada di data training.
3. Menentukan K tetangga terdekat berdasarkan jarak minimum.
4. Tetangga yang memiliki frekuensi terbanyak diambil sebagai nilai prediksi atau hasil klasifikasi dari data yang baru tersebut.


### Contoh kasus lain

Terdapat 3 jenis bunga iris yang susah untuk dikenali, yaitu bunga sentosa, bunga versicolor dan bunga virginica. Agar mempermudah mengetahui bunga iris itu jenisnya apa, maka dibuatlah sebuah program dengan menggunakan metode KNN untuk memprediksi jenis bunga iris masuk dalam jenis yang mana.

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
from sklearn import datasets

In [2]:
bunga = datasets.load_iris()
bunga

{'data': array([[5.1, 3.5, 1.4, 0.2],
        [4.9, 3. , 1.4, 0.2],
        [4.7, 3.2, 1.3, 0.2],
        [4.6, 3.1, 1.5, 0.2],
        [5. , 3.6, 1.4, 0.2],
        [5.4, 3.9, 1.7, 0.4],
        [4.6, 3.4, 1.4, 0.3],
        [5. , 3.4, 1.5, 0.2],
        [4.4, 2.9, 1.4, 0.2],
        [4.9, 3.1, 1.5, 0.1],
        [5.4, 3.7, 1.5, 0.2],
        [4.8, 3.4, 1.6, 0.2],
        [4.8, 3. , 1.4, 0.1],
        [4.3, 3. , 1.1, 0.1],
        [5.8, 4. , 1.2, 0.2],
        [5.7, 4.4, 1.5, 0.4],
        [5.4, 3.9, 1.3, 0.4],
        [5.1, 3.5, 1.4, 0.3],
        [5.7, 3.8, 1.7, 0.3],
        [5.1, 3.8, 1.5, 0.3],
        [5.4, 3.4, 1.7, 0.2],
        [5.1, 3.7, 1.5, 0.4],
        [4.6, 3.6, 1. , 0.2],
        [5.1, 3.3, 1.7, 0.5],
        [4.8, 3.4, 1.9, 0.2],
        [5. , 3. , 1.6, 0.2],
        [5. , 3.4, 1.6, 0.4],
        [5.2, 3.5, 1.5, 0.2],
        [5.2, 3.4, 1.4, 0.2],
        [4.7, 3.2, 1.6, 0.2],
        [4.8, 3.1, 1.6, 0.2],
        [5.4, 3.4, 1.5, 0.4],
        [5.2, 4.1, 1.5, 0.1],
  

In [3]:
# Lihat informasi dari data bunga
bunga.data.shape

(150, 4)

In [4]:
# Cari tau jenis-jenis bunga ada apa saja
bunga.target_names

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

In [5]:
# Buat data frame
data = bunga.data # Karena data berupa array maka ambil datanya saja

df = pd.DataFrame(data, columns=bunga.feature_names)
df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


In [6]:
# Jenis bunga iris dapat diketahui berdasarkan sepal dan petalnya.
#Sepal adalah kelopak bunga yang besar sedangkan petal adalah kelopak bunga yang kecil

from sklearn.neighbors import KNeighborsClassifier

In [7]:
# Cari tetangganya dulu, n_neighbors=7
# weights adalah satuan berat yang digunakan untuk prediksi, default nya uniform yaitu bobotnya diseragamkan
# algorithm digunakan untuk menghotung tetangga terdekat nanti
# auto berarti nanti dia akan memutuskan logaritma yang paling tepat berdasarkan nilai yg diteruskan kedalam proses

knn = KNeighborsClassifier(n_neighbors=7, weights='uniform', algorithm='auto', metric='euclidean')

x_train = bunga['data']
y_train = bunga['target']

knn.fit(x_train, y_train) # Machine belajar

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='euclidean',
                     metric_params=None, n_jobs=None, n_neighbors=7, p=2,
                     weights='uniform')

In [9]:
dataBaru = [[6.2, 1.5, 4.2, 2.6]] # 6.2 utk sepal length, 1.5 sepat width, 4.2 petal length, 2.6 petal width

prediksi = knn.predict(dataBaru)
prediksi

array([2])

In [10]:
if(prediksi == 0):
    print("Ini adalah bunga sentosa")
elif(prediksi == 1):
    print("Ini adalah bunga versicolor")
else:
    print("Ini adalah bunga virginica")

Ini adalah bunga virginica
