# Algoritma Clustering

13515089 - Vincent Hendryanto Halim
13515099 - Mikhael Artur Darmakesuma
13515107 - Roland Hartanto

## 1. Deskripsi Singkat

### 1.1 K-Means
K-Means mencari centroid yang akan digunakan sebagai titik tengah suatu cluster. Data akan dipasangkan pada cluster berdasarkan kedekatan pada cluster tersebut. Setelah memasangkan data pada cluster, titik tengah pada cluster akan dihitung ulang untuk melakukan pemasangan ulang data pada titik tengah cluster yang baru. Algoritma akan berhenti bila cluster tidak berpindah lagi.

```javascript
// K-Means pseudocode
initialize_centroid()
cluster_new = pair_data_with_centroid()
do    
    cluster_old = cluster_new
    find_new_centroid()
    cluster_new = pair_data_with_centroid()    
while(cluster_new != cluster_old)

```

### 1.2 K-Medoids
K-Medoids menggunakan medoid berdasarkan data yang dimiliki. Data akan dipasangkan pada cluster berdasarkan kedekatan dengan titik medoids. Setelah memasangkan data pada cluster, titik medoid akan dicoba dipindah menggunakan data lain pada cluster. Setelah itu akan dihitung nilai error dengan menggunakan rumus absolute error dan dibandingan dengan nilai error pada cluster saat ini

$ E = \sum_{j=1}^{k}\sum_{p\in C_j}\left|p-o_j\right| $

dengan $k$ adalah jumlah cluster, $p$ adalah data pada cluster, dan $o_j$ adalah medoid pada cluster

Jika didapatkan nilai error menurun, maka medoid akan berpindah ke data yang baru saja diubah.

```js
// K-Medoids pseudocode
initialize_medoid()
cluster_new = pair_data_with_medoid()
do    
    cluster_old = cluster_new
    old_error = count_error(cluster_old)
    for each (swappable_pair_of_medoid)
        cluster_swap = swap_cluster()
        swap_error = count_error(cluster_swap)
        if(old_error > swap_error)
            cluster_new = cluster_swap
while(cluster_new != cluster_old)

```

### 1.3 Agglomerative
Algoritma agglomerative memasangkan data berdasarkan kedekatan data dengan data yang lain.

Untuk memasangkan data pertama dihitung matriks jarak untuk N data. Kemudian dicari jarak minimum antara dua data untuk memasangkan antara dua data

$D(C_i,C_j)= \min_{1\leq m,l\lt N,m\neq l}  D(C_m, C_l)$

Matriks jarak kemudian diupdate untuk membandingkan jarak antara cluster dengan data yang lain. Proses terus diulang hingga membentuk jumlah cluster yang diinginkan atau satu cluster besar

```js
// Agglomerative pseudocode
dist_matrix = count_distance_matrix()
for [n_data..n_cluster]
    a,b = find_closest_pair(dist_matrix)
    dist_matrix = update_dist_matrix(dist_matrix)    

```

### 1.4 DBSCAN
DBSCAN memasangkan titik berdasarkan dua nilai, yaitu $\epsilon$ dan $minpts$. Titik core adalah titik yang memiliki tetangga dengan kurang dari $\epsilon$ lebih dari atau sama dengan nilai $minpts$. Titik yang berhasil dipasangkan dengan titik lain akan menjadi cluster

```js
// DBSCAN pesudocode
dist_matrix = count_distance_matrix(eps, min_pts)
for each data
    n_neighbors = count neighbors(eps)
    if (n_neighbors > min_pts)
        give_label_to_data()
        give_label_to_neighbors()
        adjust_density_reachable_data_label()
```

## 2. Source Code dan Penjelasan Source Code

### 2.1 K-Means

### 2.2 K-Medoids

### 2.3 Agglomerative

### 2.4 DBSCAN

## 3. Hasil Clustering

In [6]:
from sklearn import datasets
import pandas as pd
iris_data = pd.DataFrame(datasets.load_iris().data)
display(iris_data)

Unnamed: 0,0,1,2,3
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
5,5.4,3.9,1.7,0.4
6,4.6,3.4,1.4,0.3
7,5.0,3.4,1.5,0.2
8,4.4,2.9,1.4,0.2
9,4.9,3.1,1.5,0.1


In [None]:
# from rolearnd import clustering.lalala
# lalala = lalala()
# lalala.fit_predict(iris_data)

## Pembagian Tugas

```
13515089 : Agglomerative
13515099 : DBSCAN
13515107 : K-Means, K-Medoids
```