# Tugas 1 | Hitung Jarak Antar Data

## Konsep Dasar

Penghitungan jarak antar data nantinya akan digunakan untuk memprediksi suatu data termasuk ke dalam kelas apa. 

Penghitungan ini disebut sebagai algoritma K-NN (*K-Nearest Neighbors*) dimana menggunakan perhitungan jarak terdekat dari suatu data. Jadi, objek ini akan mencari objek terdekat dengan objek baru yang baru saja diinput. Dalam ini memperhatikan kemiripan antardata.


## Macam-macam Rumus Penghitungan Jarak Terdekat



1. *Euclidean Distance*
$$ d(x, y) = \sqrt{\sum_{i=1}^m(x_i-y_i)^2} $$


> Keterangan:
- *d(x,y)* dibaca *distance* antara x dan y.




2. *Manhattan Distance*

$$ d(x,y) = \sum_{i=1}^m|x_i - y_i| $$

> Rumus ini digunakan untuk mecari jarak dengan hanya menjumlahkan seluruh selisih jarak pada $ x_i $ dan $ y_i $ tanpa menggunakan konsep pythagoras (menghitung jarak antara 2 titik).

3. *Minkowsky Distance*
$$ d(x,y) = (\sum_{i=1}^m|X_i - y_i|^r)^{1/r} $$

> Rumus ini beradasarkan konsep aljabar berupa vektor yang memiliki n. Akan tetapi, r tidak bernilai 1 maupun 2. Hal ini dikarenakan jika $r = 1$ akan menjadi rumus *Manhattan Distance* dan $r = 2$ akan menjadi rumus *Euclidean Distance*.

4. *Chebychev Distance*
$$ d(x,y) = \max_{i=1}^n|x_i - y_i| $$

> Merupakan algoritma yang sangat sederhana dari semua algoritma *machine learning*. Dimana rumus ini menghitung jarak terbesar antara $x_i$ dan $y_i$.

## Implementasi pada Kode Python

In [None]:
import pandas as pd
import numpy as np
import math

import matplotlib.pyplot as plt
import seaborn as sns

Mengambil data yang ada pada dataset csv

In [None]:
Data_BanjirJakarta = pd.read_csv("https://raw.githubusercontent.com/astnrhy30/datamining/main/Data_BencanaBanjir_Jakarta_Desember2017.csv")

Menampilkan data banjir 5 baris teratas.

In [None]:
Data_BanjirJakarta.head()

Unnamed: 0,kota_administrasi,kecamatan,kelurahan,rw,jumlah_terdampak_rw,jumlah_terdampak_rt,jumlah_terdampak_kk,jumlah_terdampak_jiwa,ketinggian_air,tanggal_kejadian,lama_genangan,jumlah_meninggal,jumlah_hilang,jumlah_luka_berat,jumlah_luka_ringan,jumlah_pengungsi_tertinggi,jumlah_tempat_pengungsian,nilai_kerugian
0,Jakarta Barat,KALIDERES,KAMAL,"01, 04",2,6,0,0,20 s/d 30 cm,"tgl. 03, 04, 06, 20",0,0,0,0,0,0,0,0
1,Jakarta Barat,GROGOL PETAMBURAN,JELAMBAR BARU,"01,06, 07",3,2,0,0,10 s/d 20 cm,"tgl. 05, 06, 07, 09",0,0,0,0,0,0,0,0
2,Jakarta Selatan,PASAR MINGGU,JATI PADANG,6,1,1,8,35,5 - 50 cm,"tgl. 01, 11, 16, 20",0,0,0,0,35,1,0,0
3,Jakarta Selatan,PANCORAN,KALIBATA,"05, 09, 10",3,3,0,0,20 s/d 30 cm,tgl. 12,0,0,0,0,0,0,0,0
4,Jakarta Selatan,SETIABUDI,KUNINGAN TIMUR,5,1,1,0,0,20 s/d 25 cm,tgl. 12,0,0,0,0,0,0,0,0


Mengetahui total jumlah baris dan kolom pada tabel tersebut.

In [None]:
Data_BanjirJakarta.shape

(26, 18)

Menampilkan data yang kolomnya bertipe data nominal.

In [None]:
Data_BanjirJakarta[["kota_administrasi","kecamatan","kelurahan","rw","ketinggian_air","tanggal_kejadian"]].head()

Unnamed: 0,kota_administrasi,kecamatan,kelurahan,rw,ketinggian_air,tanggal_kejadian
0,Jakarta Barat,KALIDERES,KAMAL,"01, 04",20 s/d 30 cm,"tgl. 03, 04, 06, 20"
1,Jakarta Barat,GROGOL PETAMBURAN,JELAMBAR BARU,"01,06, 07",10 s/d 20 cm,"tgl. 05, 06, 07, 09"
2,Jakarta Selatan,PASAR MINGGU,JATI PADANG,6,5 - 50 cm,"tgl. 01, 11, 16, 20"
3,Jakarta Selatan,PANCORAN,KALIBATA,"05, 09, 10",20 s/d 30 cm,tgl. 12
4,Jakarta Selatan,SETIABUDI,KUNINGAN TIMUR,5,20 s/d 25 cm,tgl. 12


Menghitung kedekatan jarak antardata yang bertipe data nominal.

In [None]:
def Data_Banjir(a,b):
    P = 8 #Banyaknya variabel yang mempunyai atribut yang sama
    M = 0 #Variabel jarak antara dua objek
    for kolom in ["kota_administrasi","kecamatan","kelurahan","rw","ketinggian_air","tanggal_kejadian"]:
        if Data_BanjirJakarta[kolom][a] == Data_BanjirJakarta[kolom][b]:
            M += 1

    return (P-M)/P #Rumus Jarak Data Nominal

In [None]:
print(Data_Banjir(0,1))
print(Data_Banjir(0,2))
print(Data_Banjir(0,3))
print(Data_Banjir(0,4))
print()
print(Data_Banjir(1,2))
print(Data_Banjir(1,3))
print(Data_Banjir(1,4))
print()
print(Data_Banjir(2,3))
print(Data_Banjir(2,4))
print()
print(Data_Banjir(3,4))

0.875
1.0
0.875
1.0

1.0
1.0
1.0

0.875
0.875

0.75


Menampilkan data numerik.

In [None]:
Data_BanjirJakarta[["jumlah_terdampak_rw","jumlah_terdampak_rt","jumlah_terdampak_kk","jumlah_terdampak_jiwa","jumlah_meninggal","jumlah_hilang", "jumlah_luka_berat", "jumlah_luka_ringan", "jumlah_pengungsi_tertinggi", "jumlah_tempat_pengungsian", "nilai_kerugian"]]

Unnamed: 0,jumlah_terdampak_rw,jumlah_terdampak_rt,jumlah_terdampak_kk,jumlah_terdampak_jiwa,jumlah_meninggal,jumlah_hilang,jumlah_luka_berat,jumlah_luka_ringan,jumlah_pengungsi_tertinggi,jumlah_tempat_pengungsian,nilai_kerugian
0,2,6,0,0,0,0,0,0,0,0,0
1,3,2,0,0,0,0,0,0,0,0,0
2,1,1,8,35,0,0,0,35,1,0,0
3,3,3,0,0,0,0,0,0,0,0,0
4,1,1,0,0,0,0,0,0,0,0,0
5,1,1,0,0,0,0,0,0,0,0,0
6,3,3,0,0,0,0,0,0,0,0,0
7,1,1,0,0,0,0,0,0,0,0,0
8,1,1,0,0,0,0,0,0,0,0,0
9,1,1,0,0,0,0,0,0,0,0,0


Menghitung jarak data numerik dengan metode Minkowski.
> Kolom data yang dibuat perhitungan tidak semuanya karena kebanyakan kolom jumlah data numeriknya sama. Hal itu akan berdampak pada hasil perhitungan jarak dan kebanyakan akan pernilai sama.\

In [None]:
def DataBanjir(a,b,c):
    hasil = 0
    for kolom in ["jumlah_terdampak_rw","jumlah_terdampak_rt"]:
        hasil = math.pow(abs(Data_BanjirJakarta[kolom][a] - Data_BanjirJakarta[kolom][b]), c)
    return hasil**(1/c)

In [None]:
print(DataBanjir(0,1,6))
print(DataBanjir(0,10,6))
print(DataBanjir(6,4,20))

3.9999999999999996
4.999999999999999
2.0


Membuat perbandingan.

Jarak $ d(0,10) $

In [None]:
print(Data_Banjir(6,10)+DataBanjir(6,10,6))

9.0


Jarak $d(7,20)$

In [None]:
print(Data_Banjir(7,20)+DataBanjir(7,20,7))

5.999999999999999
