# Pengelompokan Data dengan AHC dan Manhattan Distance

Notebook ini akan mengelompokkan dataset skor kedisiplinan siswa menggunakan metode Agglomerative Hierarchical Clustering (AHC) dengan dua pendekatan:
1. Complete Linkage
2. Average Linkage

Jarak antar data dihitung menggunakan **Manhattan Distance**.

## Step 1: Import Library
Untuk perhitungan jarak dan pengelompokan, kita akan menggunakan library `pandas`, `numpy`, `scipy`, dan `matplotlib` untuk visualisasi dendrogram.

In [None]:

import numpy as np
import pandas as pd
from scipy.cluster.hierarchy import dendrogram, linkage
from scipy.spatial.distance import pdist, squareform
import matplotlib.pyplot as plt


## Step 2: Definisikan Dataset
Dataset yang digunakan adalah skor kedisiplinan siswa dengan 4 kriteria:

In [None]:

# Dataset
data = pd.DataFrame({
    'Siswa': [1, 2, 3, 4, 5],
    'DTW': [2, 3, 4, 1, 5],
    'DTT': [4, 4, 2, 5, 2],
    'DMT': [4, 3, 5, 4, 2],
    'DDB': [3, 5, 4, 2, 3]
}).set_index('Siswa')

# Tampilkan dataset
data


## Step 3: Hitung Jarak Manhattan
Menggunakan rumus Manhattan Distance untuk menghitung jarak antar data.

In [None]:

# Hitung jarak Manhattan
manhattan_dist = pdist(data, metric='cityblock')
manhattan_dist_matrix = squareform(manhattan_dist)

# Tampilkan matriks jarak
pd.DataFrame(manhattan_dist_matrix, index=data.index, columns=data.index)


## Step 4: Agglomerative Hierarchical Clustering (Complete Linkage)
Gunakan Complete Linkage untuk menentukan pengelompokan data.

In [None]:

# AHC dengan Complete Linkage
complete_linkage = linkage(manhattan_dist, method='complete')

# Visualisasi dendrogram
plt.figure(figsize=(10, 6))
dendrogram(complete_linkage, labels=data.index, color_threshold=0, leaf_rotation=45)
plt.title("Dendrogram (Complete Linkage)")
plt.xlabel("Siswa")
plt.ylabel("Jarak Manhattan")
plt.show()


## Step 5: Agglomerative Hierarchical Clustering (Average Linkage)
Gunakan Average Linkage untuk menentukan pengelompokan data.

In [None]:

# AHC dengan Average Linkage
average_linkage = linkage(manhattan_dist, method='average')

# Visualisasi dendrogram
plt.figure(figsize=(10, 6))
dendrogram(average_linkage, labels=data.index, color_threshold=0, leaf_rotation=45)
plt.title("Dendrogram (Average Linkage)")
plt.xlabel("Siswa")
plt.ylabel("Jarak Manhattan")
plt.show()
