<img src="../images/ilmudatapy-logo.png" width="350" align="center">
<br>

<center><h1>Prediksi Tujuan Peminjaman Dana dengan K-Nearest Neighbors (KNN)</h1></center>
<hr>

__Halo, Learners!__ Di notebook ini, kita akan mempraktekkan pemodelan <i>machine learning</i> dengan algoritma __K-Nearest Neighbors__ atau __KNN__. Disini kita juga akan mengaplikasikan beberapa jenis visualisasi data dan teknik <i>preprocessing</i> data sebelum dilakukan pemodelan. Kita juga akan membuat kode untuk menentukan nilai K yang dapat menghasilkan akurasi terbaik.

<h2>Table of Contents</h2>
<div class="alert alert-block alert-info" style="margin-top: 25px">
    <ul>
        <li>
            K-Nearest Neighbors (KNN)
        </li>
        <li>
            Dataset
        </li>
        <li>
            Analisis dan visualisasi data
        </li>
        <li>
            Preprocessing
            <ul>
                <li>Encoding</li>
                <li>Normalisasi</li>
                <li>Train test split</li>
            </ul>
        </li>
        <li>
            Modeling
            <ul>
                <li>Klasifikasi dengan K-Nearest Neighbors (KNN)</li>
                <li>Prediksi</li>
                <li>Evaluasi</li>
                <li>Mencari nilai K terbaik</li>
            </ul>
        </li>
    </ul>
</div>

<hr>
<div class="alert alert-success" style="margin-top: 20px">
    <strong>Catatan:</strong> Untuk menjalankan kode program Python di Jupyter Notebook, klik pada <i>cell</i> yang ingin di-<i>run</i> lalu tekan <kbd>Shift</kbd> + <kbd>Enter</kbd>.
</div>

<div class="alert alert-danger" style="margin-top: 20px">
    <strong>Warning!:</strong> Jika ada kode program yang <i>error</i> atau output yang dihasilkan tidak sesuai, silahkan <b>Restart & Run All</b> kernel pada bagian menu <b>Kernel</b> di menu bar Jupyter Notebook, atau <b>Restart & Clear Output</b> kernel kemudian jalankan satu per satu <i>cell</i> secara berurutan dari atas ke bawah.
</div>
<hr>

## K-Nearest Neighbors (KNN)

__K-Nearest Neighbors__ atau yang biasa disingkat dengan __KNN__ adalah salah satu algoritma <i>supervised learning</i> yang paling sederhana. Algoritma ini bekerja mengklasifikasikan data baru berdasarkan kemiripan dengan sejumlah K tetangga terdekatnya. Dengan kata lain, data baru akan diklasifikasikan ke dalam kategori berdasarkan mayoritas kategori tetangganya. Perhatikan ilustrasi berikut.

![alt text](../images/knn.png "Ilustrasi Algoritma KNN")

Pada gambar di atas, ada dua kategori yaitu kategori A (kuning) dan kategori B (hijau), serta data baru yang berwarna merah. Jika kita mengambil nilai K = 3, maka data baru tersebut akan diklasifikasikan sebagai kategori A. Sementara itu, jika mengambil nilai K = 5, maka data baru tersebut akan diklasifikasikan sebagai kategori B.

<hr>

## Dataset

Dataset yang digunakan untuk praktek pemodelan dengan algoritma K-Nearest Neighbors kali ini adalah dataset <a href='https://www.kaggle.com/uciml/german-credit'>German Credit Risk</a> yang terdiri dari 1000 baris data dan 9 kolom.

__Attribute Information :__

* __Age__ (numeric)
* __Sex__ (text: male, female)
* __Job__ (numeric: 0 - unskilled and non-resident, 1 - unskilled and resident, 2 - skilled, 3 - highly skilled)
* __Housing__ (text: own, rent, or free)
* __Saving accounts__ (text - little, moderate, quite rich, rich)
* __Checking account__ (numeric, in DM - Deutsch Mark)
* __Credit amount__ (numeric, in DM)
* __Duration__ (numeric, in month)
* __Purpose__ (text: car, furniture/equipment, radio/TV, domestic appliances, repairs, education, business, vacation/others)

Kita nantinya akan membuat sebuah model untuk memprediksi jenis __Purpose__ dari data baru menggunakan algoritma K-Nearest Neighbors (KNN).

Pertama kita <i>import</i> <i>library</i> yang akan digunakan terlebih dahulu seperti Pandas, Numpy, Matplotlib, dan Seaborn.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

Kemudian kita <i>load</i> dataset ke dalam dataframe Pandas dengan <code>read_csv()</code>.

In [None]:
# Load dataset ke dataframe Pandas

df = pd.read_csv('../datasets/german_credit_data.csv')
df.head(10)

Seperti yang dapat kita lihat dari output di atas, kolom pertama yaitu <code>Unnamed: 0</code> tidak merepresentasikan data. Oleh karena itu kita akan hapus kolom tersebut dengan <code>drop()</code> dan memberikan parameter <code>axis = 1</code> yang menandakan bahwa kita ingin menghapus kolom.

In [None]:
# Menghapus kolom 'Unnamed: 0'

df.drop('Unnamed: 0', axis=1, inplace=True)

Sekarang kita lihat dataframe setelah penghapusan kolom.

In [None]:
# Menampilkan 5 data teratas di dataframe df

df.head()

Setelah itu, mari kita analisis data tersebut.

<hr>

## Analisis dan visualisasi data

Pertama kita akan melihat jumlah data untuk masing-masing kategori di kolom target, yaitu kolom <code>Purpose</code>, dengan menggunakan <code>value_counts()</code>.

In [None]:
# Menampilkan jumlah data pada masing-masing kategori pada kolom 'Purpose'

df['Purpose'].value_counts()

Kita juga dapat melihat jumlah data untuk masing-masing kategori pada kolom lainnya yang bertipe __object__ seperti <code>Saving accounts</code>, <code>Checking account</code>, dan <code>Housing</code>.

In [None]:
# Menampilkan jumlah data pada masing-masing kategori pada kolom 'Saving accounts'

df['Saving accounts'].value_counts()

In [None]:
# Menampilkan jumlah data pada masing-masing kategori pada kolom 'Checking account'

df['Checking account'].value_counts()

In [None]:
# Menampilkan jumlah data pada masing-masing kategori pada kolom 'Housing'

df['Housing'].value_counts()

Untuk kolom yang bertipe numerik seperti integer atau float, kita dapat memvisualisasikannya dengan histogram untuk melihat sebarannya.

In [None]:
# Menampilkan histogram Age, Credit amount, dan Duration

fig, ax = plt.subplots(ncols=3, nrows=1, figsize=(16, 5)) 

# Menambahkan subplot dengan indexing
ax0 = fig.add_subplot(ax[0]) 
ax1 = fig.add_subplot(ax[1])  
ax2 = fig.add_subplot(ax[2])   

# Subplot ax[0]: Age
df.hist(column='Age', bins=50, ax=ax0)

# Subplot ax[1]: Credit amount
df.hist(column='Credit amount', bins=50, ax=ax1)

# Subplot ax[2]: Duration
df.hist(column='Duration', bins=50, ax=ax2)

plt.subplots_adjust(wspace=0.2)
plt.show()

Jika ingin memvisualisasikan jumlah data untuk tiap kategori, kita dapat menggunakan <code>countplot()</code> dari Seaborn seperti di bawah ini.

In [None]:
# Menampilkan visualisasi perbandingan jumlah data untuk tiap jenis kelamin pada kolom 'Sex'

sns.countplot(x='Sex', data=df)

Kita juga dapat dengan mudah membuat visualisasi kolom yang berisi nilai kategori berdasarkan kolom kategori lainnya. Misalnya disini kita menampilkan visualisasi kolom <code>Housing</code> berdasarkan kolom <code>Sex</code>.

In [None]:
# Menampilkan visualisasi perbandingan jumlah data untuk tiap jenis 'Housing' berdasarkan kolom 'Sex'

sns.countplot(x='Housing', hue='Sex', data=df)

Lakukan hal yang sama untuk kolom <code>Purpose</code> dengan mengatur ukuran <i>figure</i> dengan Matplotlib dan warna <i>colormap</i> dengan parameter <code>palette</code>.

In [None]:
# Visualisasi 'Purpose' berdasarkan 'Sex'

plt.figure(figsize=(13,7))
sns.countplot(x='Purpose', hue='Sex', data=df, palette='Set2')

Sekarang kita lihat visualisasi <code>Housing</code> berdasarkan <code>Purpose</code>.

In [None]:
# Visualisasi 'Housing' berdasarkan 'Purpose'

plt.figure(figsize=(13,7))
sns.countplot(x='Housing', hue='Purpose', data=df, palette='coolwarm')

Dengan Seaborn, kita juga dapat melihat korelasi antar atribut yang memiliki nilai numerik. Untuk men-<i>generate</i> korelasi, kita menggunakan <code>corr()</code>, setelah itu tampilkan korelasi tersebut pada <i>heatmap</i> seperti di bawah ini.

In [None]:
# Menampilkan korelasi antar atribut dengan Heatmap

plt.figure(figsize=(12,7))

corr = df.corr()
sns.heatmap(corr, annot=True, fmt='.2f')

Kita juga dapat menampilkan <code>pairplot()</code> dengan Seaborn.

In [None]:
sns.pairplot(df)

<hr>

## Preprocessing

<i>Data preparation</i> atau <i>preprocessing</i> perlu dilakukan sebelum dilakukan pemodelan. Pada umumnya, yang dicek pertama kali adalah info singkat dari dataset yang sedang dikerjakan dengan <code>info()</code>. Disini kita dapat melihat apakah ada missing values atau nilai yang <i>null</i> pada dataframe dan juga tipe datanya.

In [None]:
# Menampilkan info dataframe df

df.info()

Seperti yang kita lihat, dari 1000 baris data ada 2 kolom yang jumlah nilai <i>non-null</i>-nya tidak sampai 1000, yaitu kolom <code>Saving accounts</code> dan <code>Checking account</code>. Itu berarti ada <i>missing values</i> disitu. Sekarang kita akan mengisi nilai <i>null</i> tersebut dengan nilai __'little'__ yang merupakan nilai terbanyak pada 2 kolom tersebut dengan <i>method</i> <code>fillna()</code>.

In [None]:
# Menangani missing values 

df['Saving accounts'].fillna('little', inplace=True)
df['Checking account'].fillna('little', inplace=True)

Mari kita lihat <code>info()</code> setelah penanganan missing values tersebut.

In [None]:
# Menampilkan info dataframe

df.info()

Kemudian disini kita akan memisahkan kolom fitur dan kolom target. Kolom target adalah kolom <code>Purpose</code>, sedangkan sisanya merupakan kolom fitur.

In [None]:
# Mendefinisikan kolom fitur dan target

df_features = df.drop('Purpose', axis=1)
df_target = df['Purpose']

Mari kita lihat hasil dari <code>df_features</code> yang telah kita buat untuk menampung kolom fitur.

In [None]:
# Menampilkan kolom fitur

df_features

### Encoding

Selanjutnya adalah melakukan <i>encoding</i> terhadap data yang memiliki nilai kategori seperti pada kolom <code>Sex</code>, <code>Housing</code>, <code>Saving accounts</code>, dan <code>Checking account</code>. Disini kita akan menggunakan atribut Pandas <code>.cat.codes</code> untuk <i>encoding</i> data tersebut.

Nah, seperti yang kita lihat dari hasil <code>info()</code>, tipe data untuk kolom-kolom tersebut adalah <i>object</i>, sementara <code>.cat.codes</code> hanya dapat diaplikasikan pada kolom dengan tipe __category__. Karena itu, kita harus mengubah dulu tipe data dari kolom-kolom tersebut dengan <i>method</i> <code>astype()</code>. Perhatikan kode berikut.

In [None]:
# Mengubah tipe data menjadi category
df_features[['Sex', 'Housing', 'Saving accounts', 'Checking account']] = df_features[['Sex', 'Housing', 'Saving accounts', 'Checking account']].astype('category')

# Cek hasil perubahan tipe data
df_features[['Sex','Housing', 'Saving accounts', 'Checking account']].info()

Setelah tipe data diubah menjadi <i>category</i>, kita dapat langsung mengaplikasikan atribut <code>.cat.codes</code> untuk tiap kolom seperti di bawah ini.

In [None]:
# Encoding data dengan .cat.codes

df_features['Sex'] = df_features['Sex'].cat.codes
df_features['Housing'] = df_features['Housing'].cat.codes
df_features['Saving accounts'] = df_features['Saving accounts'].cat.codes
df_features['Checking account'] = df_features['Checking account'].cat.codes

Mari kita lihat hasil <i>encoding</i>-nya.

In [None]:
# Menampilkan 5 data terbawah

df_features.tail()

### Normalisasi

Meskipun sekarang semua kolom fitur sudah berisi nilai numerik, tetapi selisih nilai antarkolom terlalu jauh, seperti pada kolom <code>Credit amount</code> yang memiliki nilai ratusan dan ribuan, sementara kolom lainnya bernilai satuan dan ada pula yang puluhan. Agar hasil model nantinya dapat lebih maksimal, sebaiknya kita menormalisasi terlebih dahulu dataframe tersebut sehingga nilai antarkolomnya tidak berbeda jauh.

Disini kita akan melakukan normalisasi dengan <code>StandardScaler()</code> dari Scikit-Learn.

In [None]:
# Normalisasi data

from sklearn.preprocessing import StandardScaler

X = StandardScaler().fit(df_features).transform(df_features.astype(float))
X[0:5]

Data fitur sudah siap digunakan dan disimpan dalam variabel <code>X</code>. Sekarang kita definisikan data targetnya, misalnya disini kita masukkan dalam variabel <code>y</code>.

In [None]:
# Mendefinisikan data target

y = df_target
y[0:5]

### Train test split

Setelah data fitur dan target telah siap digunakan untuk pemodelan, tahap selanjutnya adalah membagi data tersebut menjadi <i>training data</i> dan <i>testing data</i>. Disini kita akan menggunakan <code>train_test_split()</code> dari Scikit-Learn.

__Train test split__ membagi data tersebut menjadi <i>training data</i> yang digunakan untuk melatih model <i>machine learning</i> dan <i>testing data</i> yang digunakan untuk mengevaluasi kinerja <i>machine learning</i> tersebut.

Kita akan memberikan proporsi untuk data testing sebesar __20%__ yang didefinisikan pada parameter <code>test_size = 0.2</code>.

In [None]:
# Train test split untuk membagi data training dan testing

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=10)

print ('Train set:', X_train.shape,  y_train.shape)
print ('Test set:', X_test.shape,  y_test.shape)

<hr>

## Modeling

### Klasifikasi dengan K-Nearest Neighbors (KNN)

Mari kita <i>import</i> dulu <i>library</i>-nya.

In [None]:
from sklearn.neighbors import KNeighborsClassifier

Misalnya disini kita menentukan jumlah tetangganya adalah __5__. Maka algoritma KNN akan mencari jumlah mayoritas kategori target dari 5 tetangga terdekat masing-masing data baru untuk kemudian mengklasifikasikan data baru tersebut ke dalam kategori yang mayoritas.

In [None]:
k = 5

# Train Model
model_knn = KNeighborsClassifier(n_neighbors = k).fit(X_train, y_train)
model_knn

### Prediksi

Setelah dilakukan <i>training</i> terhadap data latih <code>X_train</code> dan <code>y_train</code>, selanjutnya kita dapat mengujinya menggunakan data testing <code>X_test</code> dengan <i>method</i> <code>predict()</code>.

In [None]:
# Menguji model dengan data testing

y_pred = model_knn.predict(X_test)
y_pred[0:5]

Sekarang kita telah mendapatkan hasil pengujian model yang disimpan pada variabel <code>y_pred</code>.

Sebagai perbandingan, mari kita tampilkan nilai target sesungguhnya, yaitu <code>y_test</code>.

In [None]:
# Menampilkan data testing

y_test[0:5]

### Evaluasi

Untuk mengevaluasi kinerja model <i>machine learning</i>, kita dapat menggunakan <code>accuracy_score()</code> seperti di bawah ini.

In [None]:
# Mengukur kinerja model machine learning

from sklearn.metrics import accuracy_score

print('Akurasi Train set: ', accuracy_score(y_train, model_knn.predict(X_train)))
print('Akurasi Test set: ', accuracy_score(y_test, y_pred))

### Mencari nilai K terbaik

Pada contoh di atas, kita menentukan sendiri nilai <code>K</code> yang akan digunakan. Perbedaan nilai <code>K</code> atau jumlah tetangga sangat menentukan akurasi model. Oleh karena itu, sebaiknya kita membuat model dengan mencari nilai <code>K</code> yang dapat menghasilkan akurasi terbaik.

Misalnya disini kita akan mencari nilai <code>K</code> terbaik dari 1 sampai 14.

In [None]:
# Mencari nilai K dengan akurasi terbaik

Ks = 15
mean_acc = np.zeros((Ks-1))

for n in range(1, Ks):
    
    #Train Model and Predict  
    model_knn = KNeighborsClassifier(n_neighbors = n).fit(X_train, y_train)
    y_pred = model_knn.predict(X_test)
    
    mean_acc[n-1] = accuracy_score(y_test, y_pred)

mean_acc

Kita dapat memvisualisasikan hasil tersebut dengan <i>line plot</i> seperti di bawah ini.

In [None]:
# Visualisasi hasil K 

plt.plot(range(1,Ks), mean_acc, 'r')
plt.ylabel('Akurasi')
plt.xlabel('Jumlah Tetangga (K)')
plt.tight_layout()
plt.show()

In [None]:
# Print akurasi terbaik

print( 'Akurasi terbaik adalah ', mean_acc.max(), 'dengan nilai k =', mean_acc.argmax()+1)

Dapat kita lihat bahwa untuk dataset ini dengan menggunakan algoritma KNN, nilai K yang menghasilkan akurasi terbaik untuk data testing adalah K = 13 dengan akurasi 0.45.

<hr>

Copyright @ <a href="https://ilmudatapy.com/">ilmudatapy.com</a>