#<b><span style='color:#3A6D8C'>CLUSTERING</span></b>

Clustering adalah metode dalam analisis data yang digunakan untuk mengelompokkan data ke dalam grup atau kluster berdasarkan kesamaan di antara data tersebut. Tujuannya adalah untuk mengidentifikasi pola atau struktur dalam dataset tanpa adanya label atau informasi sebelumnya mengenai kelompok mana yang harus dihasilkan.

#<b>A. <span style='color:#3A6D8C'>Data</span></b>

### <b>A.1. <span style='color:#3A6D8C'>Ekstrak Data</span></b>

In [None]:
import warnings
warnings.filterwarnings("ignore")

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# File path - Modified to access raw data
url = "https://raw.githubusercontent.com/MTOZZ/data_aspek_ikp/refs/heads/main/aspek_ikp_2022.csv"
  # Updated URL for raw data access

# Membaca file CSV dengan opsi tambahan untuk memastikan semua data terbaca
data_aspek_indonesia = pd.read_csv(
    url,
    delimiter=',',          # Sesuaikan delimiter (default: koma)
    encoding='utf-8',       # Encoding umum untuk file CSV
)

data_aspek_indonesia["tahun"] = 2022

# Menampilkan 10 baris pertama untuk verifikasi
display(data_aspek_indonesia.head())

Unnamed: 0,provinsi,ketersediaan,keterjangkauan,pemanfaatan,tahun
0,Aceh,80.17,69.34,66.25,2022
1,Sumatera Utara,80.19,75.02,64.44,2022
2,Sumatera Barat,87.53,84.23,71.84,2022
3,Riau,38.78,86.5,69.81,2022
4,Jambi,58.48,82.0,67.04,2022


### <b>A.2. <span style='color:#3A6D8C'>Informasi Umum Data</span></b>

In [None]:
data_aspek_indonesia.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 34 entries, 0 to 33
Data columns (total 5 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   provinsi        34 non-null     object 
 1   ketersediaan    34 non-null     float64
 2   keterjangkauan  34 non-null     float64
 3   pemanfaatan     34 non-null     float64
 4   tahun           34 non-null     int64  
dtypes: float64(3), int64(1), object(1)
memory usage: 1.5+ KB


#<b>B. <span style='color:#3A6D8C'>Exploratory Data Analysis</span></b>

### <b>B.1. <span style='color:#3A6D8C'>Filter Data dan Split Data</span></b>


In [None]:
# Inisialisasi kolom
kolom = [
    'provinsi',
    'tahun',
    'ketersediaan',
    'keterjangkauan',
    'pemanfaatan'

]

# Ambil kolom yang ditentukan saja
data_cluster_indo = data_aspek_indonesia[kolom]

# Tampilkan hasilnya
display(data_cluster_indo)

Unnamed: 0,provinsi,tahun,ketersediaan,keterjangkauan,pemanfaatan
0,Aceh,2022,80.17,69.34,66.25
1,Sumatera Utara,2022,80.19,75.02,64.44
2,Sumatera Barat,2022,87.53,84.23,71.84
3,Riau,2022,38.78,86.5,69.81
4,Jambi,2022,58.48,82.0,67.04
5,Sumatera Selatan,2022,81.57,74.11,61.29
6,Bengkulu,2022,69.92,75.18,61.53
7,Lampung,2022,94.94,79.62,67.72
8,Kep. Bangka Belitung,2022,36.38,92.47,77.54
9,Kepulauan Riau,2022,5.83,88.9,72.53


In [None]:
# Lakukan filter
data_cluster_aspek_2022 = data_cluster_indo[data_cluster_indo['tahun'] == 2022]

# Tampilkan hasilnya
data_cluster_aspek_2022.head()

Unnamed: 0,provinsi,tahun,ketersediaan,keterjangkauan,pemanfaatan
0,Aceh,2022,80.17,69.34,66.25
1,Sumatera Utara,2022,80.19,75.02,64.44
2,Sumatera Barat,2022,87.53,84.23,71.84
3,Riau,2022,38.78,86.5,69.81
4,Jambi,2022,58.48,82.0,67.04


Melakukan filter data aspek ketahanan pangan berdasarkan tahun 2022

### <b>B.2. <span style='color:#3A6D8C'>Identifikasi Missing Value</span></b>

In [None]:
# Buat dataframe kosong
data_kosong = pd.DataFrame(index = data_cluster_aspek_2022.columns.to_list())

# Lakukan perhitungan
for provinsi in data_cluster_aspek_2022['provinsi'].unique():
    condition = (data_cluster_aspek_2022['provinsi'] == provinsi)
    list_banyak_null = list()
    for col in data_cluster_aspek_2022.columns.to_list():
        banyak_nul = data_cluster_aspek_2022.loc[condition][col].isna().sum()
        list_banyak_null.append(banyak_nul)
    data_kosong[provinsi] = list_banyak_null

# Buat highlight merah untuk missing value > 0
styled_df = data_kosong.T.style.map(lambda val : 'background-color: red' if val > 0 else '')

display(styled_df)

Unnamed: 0,provinsi,tahun,ketersediaan,keterjangkauan,pemanfaatan
Aceh,0,0,0,0,0
Sumatera Utara,0,0,0,0,0
Sumatera Barat,0,0,0,0,0
Riau,0,0,0,0,0
Jambi,0,0,0,0,0
Sumatera Selatan,0,0,0,0,0
Bengkulu,0,0,0,0,0
Lampung,0,0,0,0,0
Kep. Bangka Belitung,0,0,0,0,0
Kepulauan Riau,0,0,0,0,0


Identifikasi missing value, data aspek ketahan pangan tidak terdapat missing value

### <b>B.3. <span style='color:#3A6D8C'>Identifikasi Duplikasi Data</span></b>

In [None]:
data_cluster_2022 = data_cluster_aspek_2022.drop_duplicates()

print(f'Jumlah duplikasi data = {data_cluster_2022.duplicated().sum()}')

Jumlah duplikasi data = 0


Tidak ada duplikasi dalam data aspek ketahanan pangan tahun 2022

### <b>B.4. <span style='color:#3A6D8C'>Identifikasi Outlier</span></b>

In [None]:
# Histogram Sales
import plotly.express as px

col_name = ['ketersediaan', 'keterjangkauan', 'pemanfaatan']
color_name = ['#FF8F00']

for column, color in zip(col_name, color_name):
    fig = px.box(
        data_cluster_2022,
        x = col_name,
        color_discrete_sequence  = [color],
    )

    fig.update_traces(
          marker_line_width = 1,
          marker_line_color = 'white'
    )

    fig.update_layout(
        width=1000,
        height=600,
        plot_bgcolor='rgba(0, 0, 0, 0)',
        title=dict(
            text=f"<b>Box Plot: <span style='color:{color}; font-size: 15px;'>Outliers Analysis</span>",
            font=dict(
                size=20,
                color='#757882'
            ),
            y=0.92,
            x=0.5
        ),
        yaxis=dict(
            title='',
            showgrid=True,
            zeroline=True,
        ),
        margin = dict(
            t = 80,
            b = 10,
            r = 20
        )
    )

    fig.show(renderer = 'colab')

Identifikasi *outlier* dengan boxplot menunjukkan bahwa terdapat *outlier *pada data pemanfaatan dan keterjangkauan dengan nilai *outlier* pemanfaatan **42.34** dan nilai *outlier* keterjangkauan **49.89**

#### <b>B.4.1. <span style='color:#3A6D8C'>Penanganan Outlier</span></b>

In [None]:
def replace_outliers_iqr(df):

    # Menghitung Q1 dan Q3
    Q1 = df.quantile(0.25)
    Q3 = df.quantile(0.75)
    IQR = Q3 - Q1

    # Menentukan batas bawah dan atas
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR

    # Mengganti outlier
    df = np.select(
        [df > upper_bound, df < lower_bound],
        [upper_bound, lower_bound],
        default = df
    )

    return df

In [None]:
# Daftar kolom yang ingin ditangani outlier-nya
columns_to_handle = ['pemanfaatan','keterjangkauan']  # Tambahkan kolom lain jika diperlukan, misalnya ['ikp', 'sales']

# Terapkan fungsi replace_outliers_iqr hanya pada kolom tertentu
for col in columns_to_handle:
    data_cluster_2022[col] = replace_outliers_iqr(data_cluster_2022[col])

# Visualisasi box plot setelah menangani outliers
import plotly.express as px

for column in columns_to_handle:
    fig = px.box(
        data_cluster_2022,
        x=column,
        color_discrete_sequence=['#FF8F00'],
    )

    fig.update_traces(
        marker_line_width=1,
        marker_line_color='white'
    )

    fig.update_layout(
        width=1000,
        height=600,
        plot_bgcolor='rgba(0, 0, 0, 0)',
        title=dict(
            text=f"<b>Box Plot<br><span style='color:#FF8F00; font-size: 15px;'>{column}</b>",
            font=dict(
                size=28,
                color='#757882'
            ),
            y=0.92,
            x=0.5
        ),
        yaxis=dict(
            title='',
            showgrid=False,
            showline=False,
            showticklabels=False,
            zeroline=False,
        ),
        margin=dict(
            t=80,
            b=10,
            r=20
        )
    )

    fig.show(renderer='colab')


Sebelumnya, terdapat *outlier* pada data pemanfaatan dan keterjangkauan. Oleh karena itu, perlu adanya penanganan pada *outlier* tersebut agar hasil analisisnya lebih akurat. Berdasarkan boxplot tersebut, dapat dilihat bahwa sudah tidak ada *outlier*, sehingga penanganan *outlier* berhasil dilakukan.

### <b>B.5. <span style='color:#3A6D8C'>Scaling Data</span></b>

In [None]:
# Import library yang dibutuhkan
from sklearn.preprocessing import MinMaxScaler

# Normalisasi data menggunakan StandardScaler
scaler = MinMaxScaler()
features = ['ketersediaan', 'keterjangkauan', 'pemanfaatan']
normalized_data = scaler.fit_transform(data_cluster_2022[features])

# Membuat DataFrame dari data yang telah dinormalisasi
normalized_df = pd.DataFrame(normalized_data, columns=[f"{col} normalize" for col in features])

# Menggabungkan kembali dengan kolom provinsi
normalized_df['provinsi'] = data_cluster_2022['provinsi']

# Menampilkan data yang telah dinormalisasi untuk verifikasi
normalized_df.head()

Unnamed: 0,ketersediaan normalize,keterjangkauan normalize,pemanfaatan normalize,provinsi
0,0.844428,0.225411,0.537084,Aceh
1,0.844639,0.403824,0.484154,Sumatera Utara
2,0.921951,0.693117,0.700552,Sumatera Barat
3,0.408469,0.764419,0.641189,Riau
4,0.615968,0.623071,0.560186,Jambi


Hasil normalisasi menggunakan MinMax Scaler pada data di atas menunjukkan bahwa setiap nilai pada kolom ketersediaan, keterjangkauan, dan pemanfaatan telah diubah ke rentang 0 hingga 1 berdasarkan nilai minimum dan maksimum masing-masing kolom.

Normalisasi data ini membantu memudahkan analisis perbandingan antarprovinsi dalam rentang yang sama, sehingga dapat digunakan untuk pengelompokan atau rekomendasi kebijakan berdasarkan indikator ketahanan pangan.

In [None]:
# Proses masukan data
for col in normalized_df.columns:
    data_cluster_2022[col] = normalized_df[col]

# Tampilkan hasilnya
display(data_cluster_2022)

Unnamed: 0,provinsi,tahun,ketersediaan,keterjangkauan,pemanfaatan,ketersediaan normalize,keterjangkauan normalize,pemanfaatan normalize
0,Aceh,2022,80.17,69.34,66.25,0.844428,0.225411,0.537084
1,Sumatera Utara,2022,80.19,75.02,64.44,0.844639,0.403824,0.484154
2,Sumatera Barat,2022,87.53,84.23,71.84,0.921951,0.693117,0.700552
3,Riau,2022,38.78,86.5,69.81,0.408469,0.764419,0.641189
4,Jambi,2022,58.48,82.0,67.04,0.615968,0.623071,0.560186
5,Sumatera Selatan,2022,81.57,74.11,61.29,0.859174,0.37524,0.392039
6,Bengkulu,2022,69.92,75.18,61.53,0.736465,0.40885,0.399057
7,Lampung,2022,94.94,79.62,67.72,1.0,0.548314,0.580071
8,Kep. Bangka Belitung,2022,36.38,92.47,77.54,0.383189,0.951942,0.867237
9,Kepulauan Riau,2022,5.83,88.9,72.53,0.061407,0.839805,0.72073


#<b>C. <span style='color:#3A6D8C'>Modelling dengan K-Means</span></b>
K-Means adalah algoritma unsupervised machine learning yang digunakan untuk clustering atau pengelompokan data. Algoritma ini bekerja dengan membagi data ke dalam sejumlah kelompok (cluster) berdasarkan kemiripan atau kedekatan fitur (atribut) dalam ruang multidimensi. Tujuannya adalah meminimalkan variasi dalam cluster dan memaksimalkan perbedaan antar cluster.


### <b>C.1. <span style='color:#3A6D8C'>Identifikasi Silhouette Score</span></b>

In [None]:
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score

# Definisikan kolom yang akan di clustering
X = data_cluster_2022[[
    'ketersediaan normalize',
    'keterjangkauan normalize',
    'pemanfaatan normalize'
]]

k_range = range(2, 16)
silhouette = list()

# Melakukan K-Means dan menghitung Silhouette Score
for k in k_range:
    kmeans = KMeans(n_clusters=k, random_state=0)
    cluster_labels = kmeans.fit_predict(X)
    score = silhouette_score(X, cluster_labels)
    silhouette.append(score)

In [None]:
import plotly.express as px

# Plot grafik
fig = px.line(
    x = k_range,
    y = silhouette,
    color_discrete_sequence = ['#FFAD60']
)

fig.update_layout(
    width = 1200,
    height = 500,
    showlegend = False,
    plot_bgcolor = 'rgba(0, 0, 0, 0)',
    title = dict(
        text = "<b>Nilai <span style='color:#FFAD60'>Silhouette Score</span>\
        </b><br><sup><sup>dengan Algoritma K-Means</sup></sup>",
        font = dict(
            size = 25,
            color = '#757882'
        ),
    ),
    xaxis = dict(
        showgrid = False,
        showline = True,
        linecolor = 'black',
        showticklabels = True,
        zeroline = True,
    ),
    yaxis = dict(
        showgrid = False,
        showline = True,
        linecolor='black',
        showticklabels = True,
        zeroline = True,
    ),
    margin = dict(
        l = 50
    )
)

fig.show(renderer = 'colab')

Dari hasil Silhouette Score didapatkan jumlah cluster terbaik yaitu (K) = 4 dengan nilai sebesar **0.3791**

### <b>C.2. <span style='color:#3A6D8C'>Penentuan Jumlah Cluster</span></b>

In [None]:
kmeans = KMeans(n_clusters = 4, random_state = 0)
cluster_labels = kmeans.fit_predict(X)

data_cluster_2022['cluster_kmeans'] = cluster_labels + 1
display(data_cluster_2022)

Unnamed: 0,provinsi,tahun,ketersediaan,keterjangkauan,pemanfaatan,ketersediaan normalize,keterjangkauan normalize,pemanfaatan normalize,cluster_kmeans
0,Aceh,2022,80.17,69.34,66.25,0.844428,0.225411,0.537084,1
1,Sumatera Utara,2022,80.19,75.02,64.44,0.844639,0.403824,0.484154,1
2,Sumatera Barat,2022,87.53,84.23,71.84,0.921951,0.693117,0.700552,3
3,Riau,2022,38.78,86.5,69.81,0.408469,0.764419,0.641189,2
4,Jambi,2022,58.48,82.0,67.04,0.615968,0.623071,0.560186,3
5,Sumatera Selatan,2022,81.57,74.11,61.29,0.859174,0.37524,0.392039,1
6,Bengkulu,2022,69.92,75.18,61.53,0.736465,0.40885,0.399057,1
7,Lampung,2022,94.94,79.62,67.72,1.0,0.548314,0.580071,3
8,Kep. Bangka Belitung,2022,36.38,92.47,77.54,0.383189,0.951942,0.867237,2
9,Kepulauan Riau,2022,5.83,88.9,72.53,0.061407,0.839805,0.72073,2


Berdasarkan output tersebut, dapat dilihat bahwa setiap provinsi berhasil
dikelompokkan ke dalam 4 cluster yang berbeda, yaitu cluster 1, 2, 3 dan 4. Hal ini menunjukkan bahwa algoritma K-Means berhasil mengelompokkan provinsi-provinsi berdasarkan kesamaan karakteristiknya.

### <b>C.3. <span style='color:#3A6D8C'>Silhouette Plot</span></b>

In [None]:
import numpy as np
import pandas as pd
import plotly.graph_objects as go
from sklearn.metrics import silhouette_samples, silhouette_score
from sklearn.cluster import KMeans

# Hitung silhouette score dan nilai untuk setiap titik
silhouette_avg = silhouette_score(X, cluster_labels)
silhouette_values = silhouette_samples(X, cluster_labels)

# Siapkan data untuk visualisasi
n_clusters = len(np.unique(cluster_labels))
silhouette_data = pd.DataFrame({
    'Cluster': cluster_labels + 1,
    'Silhouette Coefficient': silhouette_values
})

# Urutkan data berdasarkan klaster dan nilai silhouette
silhouette_data = silhouette_data.sort_values(by=['Cluster', 'Silhouette Coefficient'], ascending=[True, True])

# Tambahkan kolom posisi untuk membantu visualisasi
silhouette_data['Posisi'] = np.arange(len(silhouette_data))

# Membuat plot menggunakan Plotly
fig = go.Figure()

# Loop untuk setiap klaster
for cluster_id in range(1, n_clusters + 1):
    cluster_data = silhouette_data[silhouette_data['Cluster'] == cluster_id]
    fig.add_trace(go.Bar(
        x=cluster_data['Silhouette Coefficient'],
        y=cluster_data['Posisi'],
        orientation='h',
        marker=dict(color=px.colors.qualitative.Plotly[cluster_id % len(px.colors.qualitative.Plotly)]),
        name=f'Cluster {cluster_id}'
    ))

# Garis rata-rata silhouette score
fig.add_vline(
    x=silhouette_avg,
    line=dict(color='red', dash='dash'),
    annotation_text="Rata-rata Silhouette",
    annotation_position="top right"
)

# Layout
fig.update_layout(
    width=1200,
    height=600,
    title=dict(
        text="<b>Silhouette Plot</b><br><sup><sup>dengan Algoritma K-Means</sup></sup>",
        font=dict(size=25, color='#757882'),
    ),
    xaxis=dict(
        title="Nilai Silhouette Coefficient",
        linecolor="black",
        showgrid=False,
        zeroline=True
    ),
    yaxis=dict(
        title="Cluster",
        showticklabels=False,
        linecolor="black",
        showgrid=False
    ),
    plot_bgcolor='rgba(0, 0, 0, 0)',
    showlegend=False,
    margin=dict(l=50)
)

fig.show(renderer='colab')


Dari hasil Silhouette Plot, rata-rata Silhouette Score bernilai **0.37** nilai ini menunjukkan pengelompokkan cukup baik tetapi tidak optimal, karena mendekati batas bawah moderat.

### <b>C.4. <span style='color:#3A6D8C'>Plot Hasil Cluster</span></b>

In [None]:
import plotly.graph_objects as go

# Membuat plot 3D
fig = go.Figure(
    data = [
        go.Scatter3d(
            x = data_cluster_2022['ketersediaan'],
            y = data_cluster_2022['keterjangkauan'],
            z = data_cluster_2022['pemanfaatan'],
            mode = 'markers',
            marker = dict(
                size = 5,
                color = data_cluster_2022['cluster_kmeans'],
                opacity = 0.5,
                colorscale='Viridis',
                colorbar = dict(title='Color Legend')
            ),
            hovertext = data_cluster_2022['provinsi'],
            hovertemplate='<b>%{hovertext}</b><br>ketersediaan: %{x}<br>Keterjangkauan: %{y}<br>Pemanfaatan: %{z}<br>Cluster: %{marker.color}'
        )
    ]
)


fig.update_layout(
    width = 1200,
    height = 800,
    plot_bgcolor = 'rgba(0, 0, 0, 0)',
    title = dict(
        text = '',
        font = dict(
            size = 20
        )
    ),
    scene = dict(
        xaxis_title = 'Ketersediaan',
        yaxis_title = 'Keterjangkauaan',
        zaxis_title = 'Pemanfaatan',
        xaxis=dict(showgrid=False),
        yaxis=dict(showgrid=False),
        zaxis=dict(showgrid=False)
    )
)

# Tampilkan plot
fig.show()

Proses clustering ini menghasilkan 4 kelompok (cluster) berbeda berdasarkan karakteristik kesamaan dalam ketiga aspek tersebut. Setelah dilakukan clustering, setiap provinsi diberi label sesuai dengan kelompoknya. Berdasarkan hasil clustering, berikut adalah pembagian provinsi dalam masing-masing cluster:

Cluster 1 (Ungu): Daerah dengan ketersediaan dan keterjangkauan yang tinggi serta pemanfaatan yang stabil, meskipun terdapat variasi sedang pada ketersediaan.

Cluster 2 (Biru): Daerah dengan keterjangkauan yang sangat tinggi dan konsisten, tingkat pemanfaatan yang baik, namun tingkat ketersediaan masih rendah.

Cluster 3 (Hijau): Daerah dengan ketersediaan, keterjangkauan, dan pemanfaatan menunjukkan tingkat yang tinggi pada ketiganya, dengan variasi kecil hingga sedang.

Cluster 4 (Kuning) : Daerah dengan tingkat ketersediaan yang sangat rendah, keterjangkauan yang moderat tanpa variasi, dan pemanfaatan yang rendah hingga sedang dengan variasi kecil.

Hasil ini dapat digunakan untuk mengidentifikasi daerah yang membutuhkan perhatian khusus seperti daerah di Cluster 4.
Selain itu, cluster dengan nilai tinggi seperti Cluster 3 dapat dijadikan contoh atau perbandingan untuk daerah lainnya.

### <b>C.5. <span style='color:#3A6D8C'>Summary</span></b>

In [None]:
# Menghitung mean, median, dan simpangan baku untuk setiap cluster
cluster_statistics = data_cluster_2022.groupby('cluster_kmeans').agg({
    'ketersediaan': ['mean', 'median', 'std'],
    'keterjangkauan': ['mean', 'median', 'std'],
    'pemanfaatan': ['mean', 'median', 'std']
}).reset_index()

# Menampilkan hasil
display(cluster_statistics)

Unnamed: 0_level_0,cluster_kmeans,ketersediaan,ketersediaan,ketersediaan,keterjangkauan,keterjangkauan,keterjangkauan,pemanfaatan,pemanfaatan,pemanfaatan
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,median,std,mean,median,std,mean,median,std
0,1,73.995,80.18,14.776302,70.730625,71.725,5.091352,62.721667,61.9,2.181361
1,2,30.14875,37.58,20.416207,88.8175,89.445,2.90554,72.6,72.37,6.770172
2,3,83.006667,84.395,9.921597,82.418333,81.445,4.405731,71.025,71.32,6.342421
3,4,14.745,14.745,4.150717,62.16375,62.16375,0.0,52.026875,52.026875,5.859264


**Cluster 1 (Ungu)**

Ketersediaan rata-rata 73,99 (median 80,18), keterjangkauan 70,73 (median 71,73), dan pemanfaatan 62,72 (median 61,90). Menunjukkan wilayah dengan ketersediaan tinggi, keterjangkauan baik, dan pemanfaatan stabil, mencerminkan infrastruktur atau akses yang baik.


**Cluster 2 (Biru)**

Ketersediaan rata-rata 30,15 (median 37,58), keterjangkauan 88,82 (median 89,45), dan pemanfaatan 72,60 (median 72,37). Menunujukkan wilayah dengan keterjangkauan sangat tinggi, namun ketersediaan rendah membatasi, meskipun pemanfaatan cukup baik berkat optimasi sumber daya.

**Cluster 3 (Hijau)**

Ketersediaan rata-rata 83,01 (median 84,39), keterjangkauan 82,42 (median 81,45), dan pemanfaatan 71,03 (median 71,32). Menunujukkan wilayah dengan keseimbangan optimal antara ketersediaan, keterjangkauan, dan pemanfaatan sumber daya.

**Cluster 4 (Kuning)**

Ketersediaan rata-rata 14,75, keterjangkauan 62,16, dan pemanfaatan 52,03 (dengan median yang sama)  Hal ini mengindikasikan area ini memiliki akses yang terbatas, meskipun keterjangkauannya stabil.

In [None]:
!pip install scikit-learn-extra



#<b>D. <span style='color:#3A6D8C'>Modelling dengan K-Medoids</span></b>

Proses modelling dilakukan menggunakan K-Medoids. K-Medoids ialah algoritma clustering yang hampir sama dengan algoritma K-Means. Perbedaannya adalah K-Medoids mengunakan objek sebagai pusat cluster untuk setiap cluster, sedangkan K-Means menggunakan nilai rata-rata sebagai pusat cluster untuk setiap cluster.

### <b>D.1. <span style='color:#3A6D8C'>Proses Scalling</span></b>

In [None]:
data_cluster_kmedoids = data_cluster_2022.copy()
display(data_cluster_kmedoids)

Unnamed: 0,provinsi,tahun,ketersediaan,keterjangkauan,pemanfaatan,ketersediaan normalize,keterjangkauan normalize,pemanfaatan normalize,cluster_kmeans
0,Aceh,2022,80.17,69.34,66.25,0.844428,0.225411,0.537084,1
1,Sumatera Utara,2022,80.19,75.02,64.44,0.844639,0.403824,0.484154,1
2,Sumatera Barat,2022,87.53,84.23,71.84,0.921951,0.693117,0.700552,3
3,Riau,2022,38.78,86.5,69.81,0.408469,0.764419,0.641189,2
4,Jambi,2022,58.48,82.0,67.04,0.615968,0.623071,0.560186,3
5,Sumatera Selatan,2022,81.57,74.11,61.29,0.859174,0.37524,0.392039,1
6,Bengkulu,2022,69.92,75.18,61.53,0.736465,0.40885,0.399057,1
7,Lampung,2022,94.94,79.62,67.72,1.0,0.548314,0.580071,3
8,Kep. Bangka Belitung,2022,36.38,92.47,77.54,0.383189,0.951942,0.867237,2
9,Kepulauan Riau,2022,5.83,88.9,72.53,0.061407,0.839805,0.72073,2


Menampilkan data provinsi berdasarkan cluster pada tahun 2022.

In [None]:
# Check the actual column names in the DataFrame
data_cluster_kmedoids.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 34 entries, 0 to 33
Data columns (total 9 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   provinsi                  34 non-null     object 
 1   tahun                     34 non-null     int64  
 2   ketersediaan              34 non-null     float64
 3   keterjangkauan            34 non-null     float64
 4   pemanfaatan               34 non-null     float64
 5   ketersediaan normalize    34 non-null     float64
 6   keterjangkauan normalize  34 non-null     float64
 7   pemanfaatan normalize     34 non-null     float64
 8   cluster_kmeans            34 non-null     int32  
dtypes: float64(6), int32(1), int64(1), object(1)
memory usage: 2.4+ KB


In [None]:
# Import library yang dibutuhkan
from sklearn.preprocessing import StandardScaler

# Normalisasi data menggunakan StandardScaler
scaler = StandardScaler()
features = ['ketersediaan', 'keterjangkauan', 'pemanfaatan']
normalized_data = scaler.fit_transform(data_cluster_kmedoids[features])

# Membuat DataFrame dari data yang telah dinormalisasi
normalized_df = pd.DataFrame(normalized_data, columns=[f"{col} normalize" for col in features])

# Menggabungkan kembali dengan kolom provinsi
normalized_df['provinsi'] = data_cluster_2022['provinsi']

# Menampilkan data yang telah dinormalisasi untuk verifikasi
normalized_df.head()

Unnamed: 0,ketersediaan normalize,keterjangkauan normalize,pemanfaatan normalize,provinsi
0,0.541719,-1.353497,-0.329898,Aceh
1,0.542432,-0.674959,-0.562896,Sumatera Utara
2,0.803919,0.425277,0.38969,Sumatera Barat
3,-0.932797,0.696453,0.128373,Riau
4,-0.230986,0.158879,-0.228203,Jambi


Menormalisasi nilai pada fitur ketersediaan, keterjangkauan, dan pemanfaatan menggunakan *standardscaler*, kemudian menggabungkannya dengan provinsi untuk analisis lebih lanjut.

### <b>D.2. <span style='color:#3A6D8C'>Identifikasi Silhouette Score</span></b>

In [None]:
from sklearn_extra.cluster import KMedoids
from sklearn.metrics import silhouette_score
from sklearn.metrics import davies_bouldin_score
from sklearn.preprocessing import StandardScaler

# Definisikan kolom yang akan di clustering
X = normalized_df[[
    'ketersediaan normalize',
    'keterjangkauan normalize',
    'pemanfaatan normalize'
]]


k_range = range(2, 16)
silhouette = list()

# Melakukan K-Medoids dan menghitung Silhouette Score
for k in k_range:
    kmedoids = KMedoids(n_clusters=k, random_state=0)
    cluster_labels = kmedoids.fit_predict(X)
    score = silhouette_score(X, cluster_labels)
    silhouette.append(score)

In [None]:
import plotly.express as px

# Plot grafik
fig = px.line(
    x = k_range,
    y = silhouette,
    color_discrete_sequence = ['#FFAD60']
)

fig.update_layout(
    width = 1200,
    height = 500,
    showlegend = False,
    plot_bgcolor = 'rgba(0, 0, 0, 0)',
    title = dict(
        text = "<b>Nilai <span style='color:#FFAD60'>Silhouette Score</span>\
        </b><br><sup><sup>dengan Algoritma K-Medoids</sup></sup>",
        font = dict(
            size = 25,
            color = '#757882'
        ),
    ),
    xaxis = dict(
        showgrid = False,
        showline = True,
        linecolor = 'black',
        showticklabels = True,
        zeroline = True,
    ),
    yaxis = dict(
        showgrid = False,
        showline = True,
        linecolor='black',
        showticklabels = True,
        zeroline = True,
    ),
    margin = dict(
        l = 50
    )
)

fig.show(renderer = 'colab')

Dari hasil Silhouette Score didapatkan jumlah cluster terbaik yaitu (K) = 2 dengan nilai sebesar **0.35**

### <b>D.3. <span style='color:#3A6D8C'>Penentuan Jumlah Cluster</span></b>

In [None]:
kmedoids = KMedoids(n_clusters = 2, random_state = 0)
cluster_labels = kmedoids.fit_predict(X)

normalized_df['cluster_kmedoids'] = cluster_labels + 1

In [None]:
display(normalized_df)

Unnamed: 0,ketersediaan normalize,keterjangkauan normalize,pemanfaatan normalize,provinsi,cluster_kmedoids
0,0.541719,-1.353497,-0.329898,Aceh,1
1,0.542432,-0.674959,-0.562896,Sumatera Utara,1
2,0.803919,0.425277,0.38969,Sumatera Barat,1
3,-0.932797,0.696453,0.128373,Riau,2
4,-0.230986,0.158879,-0.228203,Jambi,1
5,0.591594,-0.783668,-0.968388,Sumatera Selatan,1
6,0.176564,-0.655845,-0.937494,Bengkulu,1
7,1.0679,-0.125438,-0.140668,Lampung,1
8,-1.018297,1.409635,1.123439,Kep. Bangka Belitung,2
9,-2.106639,0.98316,0.478513,Kepulauan Riau,2


Berdasarkan output tersebut, dapat dilihat bahwa setiap provinsi berhasil dikelompokkan ke dalam 2 kluster yang berbeda, yaitu cluster 1 dan 2. Hal ini menunjukkan bahwa algoritma K-Medoids berhasil mengelompokkan provinsi-provinsi berdasarkan kesamaan karakteristiknya.

### <b>D.4. <span style='color:#3A6D8C'>Silhouette Plot</span></b>

In [None]:
import numpy as np
import pandas as pd
import plotly.graph_objects as go
import plotly.express as px  # Import plotly.express untuk akses warna
from sklearn.metrics import silhouette_samples, silhouette_score
from sklearn_extra.cluster import KMedoids

# Menggunakan KMedoids dengan 3 cluster
kmedoids = KMedoids(n_clusters=2, random_state=0)
cluster_labels = kmedoids.fit_predict(X)

# Menambahkan kolom 'cluster_kmedoids' ke DataFrame
normalized_df['cluster_kmedoids'] = cluster_labels + 1

# Hitung silhouette score rata-rata dan nilai untuk setiap titik
silhouette_avg = silhouette_score(X, cluster_labels)
silhouette_values = silhouette_samples(X, cluster_labels)

# Siapkan data untuk visualisasi
n_clusters = len(np.unique(cluster_labels))
silhouette_data = pd.DataFrame({
    'cluster_kmedoids': cluster_labels + 1,
    'Silhouette Coefficient': silhouette_values
})

# Urutkan data berdasarkan klaster dan nilai silhouette
silhouette_data = silhouette_data.sort_values(by=['cluster_kmedoids', 'Silhouette Coefficient'], ascending=[True, True])

# Tambahkan kolom posisi untuk membantu visualisasi
silhouette_data['Posisi'] = np.arange(len(silhouette_data))

# Membuat plot menggunakan Plotly
fig = go.Figure()

# Loop untuk setiap klaster
for cluster_id in range(1, n_clusters + 1):
    cluster_data = silhouette_data[silhouette_data['cluster_kmedoids'] == cluster_id]
    fig.add_trace(go.Bar(
        x=cluster_data['Silhouette Coefficient'],
        y=cluster_data['Posisi'],
        orientation='h',
        marker=dict(color=px.colors.qualitative.Plotly[cluster_id % len(px.colors.qualitative.Plotly)]),
        name=f'Cluster {cluster_id}'
    ))

# Garis rata-rata silhouette score
fig.add_vline(
    x=silhouette_avg,
    line=dict(color='red', dash='dash'),
    annotation_text="Rata-rata Silhouette",
    annotation_position="top right"
)

# Layout
fig.update_layout(
    width=1200,
    height=600,
    title=dict(
        text="<b>Silhouette Plot</b><br><sup><sup>dengan Algoritma K-Medoids</sup></sup>",
        font=dict(size=25, color='#757882'),
    ),
    xaxis=dict(
        title="Nilai Silhouette Coefficient",
        linecolor="black",
        showgrid=False,
        zeroline=True
    ),
    yaxis=dict(
        title="Cluster",
        showticklabels=False,
        linecolor="black",
        showgrid=False
    ),
    plot_bgcolor='rgba(0, 0, 0, 0)',
    showlegend=False,
    margin=dict(l=50)
)

fig.show(renderer='colab')


Dari hasil Silhouette Plot, rata-rata Silhouette Score bernilai 0.35, hal ini menunjukan pada cluster hijau memiliki beberapa anggota dengan nilai silhouette yang mendekati 0, yang menunjukkan bahwa beberapa objek dalam cluster tersebut kurang jelas keanggotaannya atau berada dekat dengan perbatasan cluster lain. Sedangkan pada cluster merah memiliki nilai silhouette positif yang tinggi menunjukkan bahwa pengelompokan untuk cluster ini cukup baik.



### <b>D.5. <span style='color:#3A6D8C'>Plot Hasil Cluster</span></b>

In [None]:
import plotly.graph_objects as go

# Membuat plot 3D
fig = go.Figure(
    data = [
        go.Scatter3d(
            x = data_cluster_2022['ketersediaan'],
            y = data_cluster_2022['keterjangkauan'],
            z = data_cluster_2022['pemanfaatan'],
            mode = 'markers',
            marker = dict(
                size = 5,
                color = normalized_df['cluster_kmedoids'],
                opacity = 0.5,
                colorscale='Viridis',
                colorbar = dict(title='Color Legend')
            ),
            hovertext = normalized_df['provinsi'],
            hovertemplate='<b>%{hovertext}</b><br>ketersediaan: %{x}<br>Keterjangkauan: %{y}<br>Pemanfaatan: %{z}<br>Cluster: %{marker.color}'
        )
    ]
)


fig.update_layout(
    width = 800,
    height = 800,
    plot_bgcolor = 'rgba(0, 0, 0, 0)',
    title = dict(
        text = '',
        font = dict(
            size = 20
        )
    ),
    scene = dict(
        xaxis_title = 'Ketersediaan',
        yaxis_title = 'Keterjangkauaan',
        zaxis_title = 'Pemanfaatan',
        xaxis=dict(showgrid=False),
        yaxis=dict(showgrid=False),
        zaxis=dict(showgrid=False)
    )
)

# Tampilkan plot
fig.show()

Proses clustering ini menghasilkan 2 kelompok (cluster) berbeda berdasarkan karakteristik kesamaan dalam kedua aspek tersebut. Berdasarkan hasil clustering, berikut adalah pembagian provinsi dalam masing-masing cluster :

Cluster 1 (Ungu): keterjangkauan tinggi dan pemanfaatan optimal, tetapi memiliki ketersediaan yang tidak selalu konsisten.

Cluster 2 (Kuning): ketersediaan tinggi, tetapi keterjangkauan lebih rendah, meskipun pemanfaatannya tetap tinggi.

### <b>D.6. <span style='color:#3A6D8C'>Summary</span></b>

In [None]:
# Add the 'cluster_kmedoids' column to 'data_cluster_kmedoids'
data_cluster_kmedoids['cluster_kmedoids'] = normalized_df['cluster_kmedoids']

# Menghitung mean dan median untuk setiap cluster
cluster_statistics_kmedoids = data_cluster_kmedoids.groupby('cluster_kmedoids').agg({
    'ketersediaan': ['mean', 'median', 'std'],
    'keterjangkauan': ['mean', 'median', 'std'],
    'pemanfaatan': ['mean', 'median', 'std']
}).reset_index()

# Menampilkan hasil
display(cluster_statistics_kmedoids)

Unnamed: 0_level_0,cluster_kmedoids,ketersediaan,ketersediaan,ketersediaan,keterjangkauan,keterjangkauan,keterjangkauan,pemanfaatan,pemanfaatan,pemanfaatan
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,median,std,mean,median,std,mean,median,std
0,1,80.75375,82.19,11.666728,79.496406,79.71,6.834371,68.949167,68.41,6.652535
1,2,27.068,27.03,19.190912,83.48675,88.51,11.526641,68.485375,71.01,10.71024


**Cluster 1 (Ungu)**

Ketersediaan

Cluster ini memiliki ketersediaan yang cenderung tinggi, dengan rata-rata mencapai 80.75 dan median sedikit lebih tinggi di 82.19. Ini menunjukkan bahwa mayoritas entitas atau objek dalam cluster ini tersedia secara relatif baik.

Keterjangkauan

Cluster ini juga memiliki keterjangkauan yang tinggi, dengan rata-rata 79.50 dan median yang sangat dekat pada 79.71. Ini menunjukkan bahwa mayoritas objek atau entitas dalam cluster ini mudah dijangkau atau diakses.

Pemanfaatan

Cluster ini memiliki pemanfaatan pada tingkat moderat dengan nilai rata-rata 68.95 dan median 68.41, yang menunjukkan bahwa meskipun objek atau entitas diakses dengan baik, tingkat penggunaannya tidak maksimal.

**Cluster 2 (Kuning)**

Ketersediaan

Cluster ini memiliki ketersediaan yang sangat rendah, dengan rata-rata hanya 27.07 dan median yang hampir sama di 27.03. Ini menunjukkan bahwa objek atau entitas dalam cluster ini terbatas dalam ketersediaannya, mungkin sulit ditemukan atau hanya tersedia dalam jumlah sedikit.

Keterjangkauan

Cluster ini memiliki keterjangkauan yang sangat tinggi, dengan rata-rata 83.49 dan median 88.51, menunjukkan bahwa meskipun ketersediaannya rendah, aksesibilitas terhadap objek atau entitas ini sangat baik.

Pemanfaatan

Cluster ini memiliki pemanfaatan pada tingkat moderat, sedikit lebih tinggi dibandingkan dengan cluster 1, dengan rata-rata 68.49 dan median 71.01. Ini menunjukkan bahwa meskipun objek atau entitas dalam cluster ini tidak terlalu sering tersedia, mereka cukup sering digunakan atau dimanfaatkan.

#<b>E. <span style='color:#3A6D8C'>Modelling dengan Agglomerative Clustering</span></b>

Proses modelling dilakukan menggunakan K-Medoids. K-Medoids ialah algoritma clustering yang hampir sama dengan algoritma K-Means. Perbedaannya adalah K-Medoids mengunakan objek sebagai pusat cluster untuk setiap cluster, sedangkan K-Means menggunakan nilai rata-rata sebagai pusat cluster untuk setiap cluster.

In [None]:
data_cluster_agglomerative = data_cluster_kmedoids.copy()
display(data_cluster_agglomerative)

Unnamed: 0,provinsi,tahun,ketersediaan,keterjangkauan,pemanfaatan,ketersediaan normalize,keterjangkauan normalize,pemanfaatan normalize,cluster_kmeans,cluster_kmedoids
0,Aceh,2022,80.17,69.34,66.25,0.844428,0.225411,0.537084,1,1
1,Sumatera Utara,2022,80.19,75.02,64.44,0.844639,0.403824,0.484154,1,1
2,Sumatera Barat,2022,87.53,84.23,71.84,0.921951,0.693117,0.700552,3,1
3,Riau,2022,38.78,86.5,69.81,0.408469,0.764419,0.641189,2,2
4,Jambi,2022,58.48,82.0,67.04,0.615968,0.623071,0.560186,3,1
5,Sumatera Selatan,2022,81.57,74.11,61.29,0.859174,0.37524,0.392039,1,1
6,Bengkulu,2022,69.92,75.18,61.53,0.736465,0.40885,0.399057,1,1
7,Lampung,2022,94.94,79.62,67.72,1.0,0.548314,0.580071,3,1
8,Kep. Bangka Belitung,2022,36.38,92.47,77.54,0.383189,0.951942,0.867237,2,2
9,Kepulauan Riau,2022,5.83,88.9,72.53,0.061407,0.839805,0.72073,2,2


Menampilkan data provinsi berdasarkan cluster pada tahun 2022 dengan algoritma K-Means dan K-Medoids.

In [None]:
# Menghapus kolom normalize dan cluster yang tidak diperlukan
data_cluster_agglomerative = data_cluster_agglomerative.drop(columns=['ketersediaan normalize', 'keterjangkauan normalize', 'pemanfaatan normalize', 'cluster_kmeans', 'cluster_kmedoids'])

# Menampilkan hasil setelah penghapusan kolom
display(data_cluster_agglomerative.head())


Unnamed: 0,provinsi,tahun,ketersediaan,keterjangkauan,pemanfaatan
0,Aceh,2022,80.17,69.34,66.25
1,Sumatera Utara,2022,80.19,75.02,64.44
2,Sumatera Barat,2022,87.53,84.23,71.84
3,Riau,2022,38.78,86.5,69.81
4,Jambi,2022,58.48,82.0,67.04


Menghapus kolom yang tidak dibutuhkan

### <b>E.1. <span style='color:#3A6D8C'>Proses Scalling</span></b>

In [None]:
# Import library yang dibutuhkan
from sklearn.preprocessing import StandardScaler

# Normalisasi data menggunakan StandardScaler
scaler = StandardScaler()
features = ['ketersediaan', 'keterjangkauan', 'pemanfaatan']
normalized_data = scaler.fit_transform(data_cluster_kmedoids[features])

# Membuat DataFrame dari data yang telah dinormalisasi
normalized_df = pd.DataFrame(normalized_data, columns=[f"{col} normalize" for col in features])

# Menggabungkan kembali dengan kolom provinsi
normalized_df['provinsi'] = data_cluster_2022['provinsi']

# Menampilkan data yang telah dinormalisasi untuk verifikasi
normalized_df.head()

Unnamed: 0,ketersediaan normalize,keterjangkauan normalize,pemanfaatan normalize,provinsi
0,0.541719,-1.353497,-0.329898,Aceh
1,0.542432,-0.674959,-0.562896,Sumatera Utara
2,0.803919,0.425277,0.38969,Sumatera Barat
3,-0.932797,0.696453,0.128373,Riau
4,-0.230986,0.158879,-0.228203,Jambi


Menormalisasi nilai pada fitur ketersediaan, keterjangkauan, dan pemanfaatan menggunakan *standardscaler*, kemudian menggabungkannya dengan provinsi untuk analisis lebih lanjut.

In [None]:
# Proses masukan data
for col in normalized_df.columns:
    data_cluster_agglomerative[col] = normalized_df[col]

# Tampilkan hasilnya
display(data_cluster_agglomerative)

Unnamed: 0,provinsi,tahun,ketersediaan,keterjangkauan,pemanfaatan,ketersediaan normalize,keterjangkauan normalize,pemanfaatan normalize
0,Aceh,2022,80.17,69.34,66.25,0.541719,-1.353497,-0.329898
1,Sumatera Utara,2022,80.19,75.02,64.44,0.542432,-0.674959,-0.562896
2,Sumatera Barat,2022,87.53,84.23,71.84,0.803919,0.425277,0.38969
3,Riau,2022,38.78,86.5,69.81,-0.932797,0.696453,0.128373
4,Jambi,2022,58.48,82.0,67.04,-0.230986,0.158879,-0.228203
5,Sumatera Selatan,2022,81.57,74.11,61.29,0.591594,-0.783668,-0.968388
6,Bengkulu,2022,69.92,75.18,61.53,0.176564,-0.655845,-0.937494
7,Lampung,2022,94.94,79.62,67.72,1.0679,-0.125438,-0.140668
8,Kep. Bangka Belitung,2022,36.38,92.47,77.54,-1.018297,1.409635,1.123439
9,Kepulauan Riau,2022,5.83,88.9,72.53,-2.106639,0.98316,0.478513


Memasukkan data dari DataFrame normalized_df ke DataFrame data_cluster_agglomerative

### <b>E.2. <span style='color:#3A6D8C'>Identifikasi Silhouette Score</span></b>

In [None]:
from sklearn.cluster import AgglomerativeClustering
import numpy as np
import matplotlib.pyplot as plt
import scipy.cluster.hierarchy as sch
from sklearn.metrics import silhouette_score

# Definisikan kolom yang akan di clustering
X = data_cluster_agglomerative[[
    'ketersediaan normalize',
    'keterjangkauan normalize',
    'pemanfaatan normalize'
]]

k_range = range(2, 16)
silhouette = list()

# Melakukan AgglomerativeClustering dan menghitung Davies-Bouldin Index & Calinski-Harabasz Index
for k in k_range:
    agg_clust = AgglomerativeClustering(n_clusters=k, linkage='ward')
    cluster_labels = agg_clust.fit_predict(X)  # Gunakan X_scaled sesuai data yang sudah dinormalisasi

    #Silhoutte score
    score = silhouette_score(X, cluster_labels)
    silhouette.append(score)

In [None]:
import plotly.express as px

# Plot grafik
fig = px.line(
    x = k_range,
    y = silhouette,
    color_discrete_sequence = ['#FFAD60']
)

fig.update_layout(
    width = 1200,
    height = 500,
    showlegend = False,
    plot_bgcolor = 'rgba(0, 0, 0, 0)',
    title = dict(
        text = "<b>Nilai <span style='color:#FFAD60'>Silhouette Score</span>\
        </b><br><sup><sup>dengan Algoritma Agglomerative</sup></sup>",
        font = dict(
            size = 25,
            color = '#757882'
        ),
    ),
    xaxis = dict(
        showgrid = False,
        showline = True,
        linecolor = 'black',
        showticklabels = True,
        zeroline = True,
    ),
    yaxis = dict(
        showgrid = False,
        showline = True,
        linecolor='black',
        showticklabels = True,
        zeroline = True,
    ),
    margin = dict(
        l = 50
    )
)

fig.show(renderer = 'colab')

Dari hasil Silhouette Score didapatkan jumlah cluster terbaik yaitu (K) = 4 dengan nilai sebesar **0.36**

### <b>E.3. <span style='color:#3A6D8C'>Penentuan Jumlah Cluster</span></b>

In [None]:
from sklearn.cluster import AgglomerativeClustering

# Menggunakan AgglomerativeClustering
agg_clust = AgglomerativeClustering(n_clusters=4, linkage='ward')
cluster_labels = agg_clust.fit_predict(X)

# Menambahkan label cluster ke dalam DataFrame
data_cluster_agglomerative['cluster_agglomerative'] = cluster_labels + 1  # Menambahkan 1 agar label mulai dari 1

In [None]:
display(data_cluster_agglomerative)

Unnamed: 0,provinsi,tahun,ketersediaan,keterjangkauan,pemanfaatan,ketersediaan normalize,keterjangkauan normalize,pemanfaatan normalize,cluster_agglomerative
0,Aceh,2022,80.17,69.34,66.25,0.541719,-1.353497,-0.329898,2
1,Sumatera Utara,2022,80.19,75.02,64.44,0.542432,-0.674959,-0.562896,2
2,Sumatera Barat,2022,87.53,84.23,71.84,0.803919,0.425277,0.38969,1
3,Riau,2022,38.78,86.5,69.81,-0.932797,0.696453,0.128373,3
4,Jambi,2022,58.48,82.0,67.04,-0.230986,0.158879,-0.228203,1
5,Sumatera Selatan,2022,81.57,74.11,61.29,0.591594,-0.783668,-0.968388,2
6,Bengkulu,2022,69.92,75.18,61.53,0.176564,-0.655845,-0.937494,2
7,Lampung,2022,94.94,79.62,67.72,1.0679,-0.125438,-0.140668,1
8,Kep. Bangka Belitung,2022,36.38,92.47,77.54,-1.018297,1.409635,1.123439,3
9,Kepulauan Riau,2022,5.83,88.9,72.53,-2.106639,0.98316,0.478513,3


Berdasarkan output tersebut, dapat dilihat bahwa setiap provinsi berhasil dikelompokkan ke dalam 4 kluster yang berbeda, yaitu cluster 1,2,3, dan 4. Hal ini menunjukkan bahwa algoritma Agglomerative Clustering berhasil mengelompokkan provinsi-provinsi berdasarkan kesamaan karakteristiknya.

### <b>E.4. <span style='color:#3A6D8C'>Silhouette Plot</span></b>

In [None]:
import numpy as np
import pandas as pd
import plotly.graph_objects as go
import plotly.express as px  # Import plotly.express untuk akses warna
from sklearn.metrics import silhouette_samples, silhouette_score
from sklearn.cluster import AgglomerativeClustering

# Menggunakan AgglomerativeClustering
agg_clust = AgglomerativeClustering(n_clusters=4, linkage='ward')
data_cluster_agglomerative['cluster_agglomerative'] = agg_clust.fit_predict(X)

# Hitung silhouette score rata-rata dan nilai untuk setiap titik
silhouette_avg = silhouette_score(X, data_cluster_agglomerative['cluster_agglomerative'])
silhouette_values = silhouette_samples(X, data_cluster_agglomerative['cluster_agglomerative'])

# Siapkan data untuk visualisasi
n_clusters = len(np.unique(data_cluster_agglomerative['cluster_agglomerative']))
silhouette_data = pd.DataFrame({
    'cluster_agglomerative': data_cluster_agglomerative['cluster_agglomerative'] + 1,
    'Silhouette Coefficient': silhouette_values
})

# Urutkan data berdasarkan klaster dan nilai silhouette
silhouette_data = silhouette_data.sort_values(by=['cluster_agglomerative', 'Silhouette Coefficient'], ascending=[True, True])

# Tambahkan kolom posisi untuk membantu visualisasi
silhouette_data['Posisi'] = np.arange(len(silhouette_data))

# Membuat plot menggunakan Plotly
fig = go.Figure()

# Loop untuk setiap klaster
for cluster_id in range(1, n_clusters + 1):
    cluster_data = silhouette_data[silhouette_data['cluster_agglomerative'] == cluster_id]
    fig.add_trace(go.Bar(
        x=cluster_data['Silhouette Coefficient'],
        y=cluster_data['Posisi'],
        orientation='h',
        marker=dict(color=px.colors.qualitative.Plotly[cluster_id % len(px.colors.qualitative.Plotly)]),
        name=f'Cluster {cluster_id}'
    ))

# Garis rata-rata silhouette score
fig.add_vline(
    x=silhouette_avg,
    line=dict(color='red', dash='dash'),
    annotation_text="Rata-rata Silhouette",
    annotation_position="top right"
)

# Layout
fig.update_layout(
    width=1200,
    height=600,
    title=dict(
        text="<b>Silhouette Plot</b><br><sup><sup>dengan Algoritma Agglomerative</sup></sup>",
        font=dict(size=25, color='#757882'),
    ),
    xaxis=dict(
        title="Nilai Silhouette Coefficient",
        linecolor="black",
        showgrid=False,
        zeroline=True
    ),
    yaxis=dict(
        title="Cluster",
        showticklabels=False,
        linecolor="black",
        showgrid=False
    ),
    plot_bgcolor='rgba(0, 0, 0, 0)',
    showlegend=False,
    margin=dict(l=50)
)

fig.show(renderer='colab')


Dari hasil Silhouette Plot, rata-rata Silhouette Score bernilai 0.36, hal ini menunjukan :

cluster **orange** memiliki nilai Silhouette Coefficient yang sangat tinggi, dengan banyak batang mendekati atau lebih dari 0.6.
Ini menunjukkan bahwa kluster oranye memiliki pengelompokan yang sangat baik, di mana objek-objek dalam kluster ini secara jelas berada di kluster yang tepat.


Pada cluster **Ungu** menunjukkan kluster dengan nilai Silhouette Coefficient yang sebagian besar positif tetapi bervariasi, ada yang lebih rendah mendekati 0.Hal ini menunjukkan bahwa beberapa objek dalam kluster ini terklasifikasi dengan baik, namun ada juga objek yang mungkin berada di tepi antar kluster.

Pada cluster **Hijau** memiliki nilai Silhouette yang cukup tinggi dan konsisten, dengan sebagian besar batang berada di sekitar nilai rata-rata atau lebih tinggi.Ini menandakan bahwa kluster hijau memiliki pengelompokan yang cukup baik dan sedikit objek yang berada di posisi ambigu.

Pada cluster **Merah** menunjukkan kluster dengan distribusi nilai yang sangat bervariasi, dari mendekati 0 hingga positif yang lebih tinggi. Ini menandakan bahwa kluster merah mungkin memiliki beberapa objek yang terklasifikasi dengan baik, namun juga ada beberapa objek yang mungkin kurang cocok dengan kluster ini atau berada di perbatasan kluster.




### <b>E.5. <span style='color:#3A6D8C'>Plot Hasil Cluster</span></b>

In [None]:
# Membuat urutan label cluster dimulai dari 1
cluster_labels = data_cluster_agglomerative['cluster_agglomerative']
cluster_labels = cluster_labels - cluster_labels.min() + 1  # Pastikan mulai dari 1

# Membuat plot 3D
fig = go.Figure(
    data = [
        go.Scatter3d(
            x = data_cluster_agglomerative['ketersediaan'],
            y = data_cluster_agglomerative['keterjangkauan'],
            z = data_cluster_agglomerative['pemanfaatan'],
            mode = 'markers',
            marker = dict(
                size = 5,
                color = cluster_labels,  # Gunakan cluster_labels yang sudah dimodifikasi
                opacity = 0.5,
                colorscale='Jet',
                colorbar = dict(title='Color Legend')
            ),
            hovertext = data_cluster_agglomerative['provinsi'],
            hovertemplate='<b>%{hovertext}</b><br>ketersediaan: %{x}<br>Keterjangkauan: %{y}<br>Pemanfaatan: %{z}<br>Cluster: %{marker.color}'
        )
    ]
)

fig.update_layout(
    width = 800,
    height = 800,
    plot_bgcolor = 'rgba(0, 0, 0, 0)',
    title = dict(
        text = '',
        font = dict(
            size = 20
        )
    ),
    scene = dict(
        xaxis_title = 'Ketersediaan',
        yaxis_title = 'Keterjangkauaan',
        zaxis_title = 'Pemanfaatan',
        xaxis=dict(showgrid=False),
        yaxis=dict(showgrid=False),
        zaxis=dict(showgrid=False)
    )
)

# Tampilkan plot
fig.show()


Proses clustering ini menghasilkan 4 kelompok (cluster) berbeda berdasarkan karakteristik kesamaan dalam kedua aspek tersebut. Berdasarkan hasil clustering, berikut adalah pembagian provinsi dalam masing-masing cluster :

Cluster 1 (Ungu): Pemanfaatan perlu ditingkatkan meskipun ketersediaan dan keterjangkauan baik.

Cluster 2 (Biru Muda): Ketersediaan tinggi, pemanfaatan menengah. Perlu strategi promosi untuk meningkatkan pemanfaatan.

Cluster 3 (Kuning): Ketersediaan rendah, meskipun terjangkau dan dimanfaatkan cukup baik.

Cluster 4 (Merah): Perlu perbaikan besar di semua aspek.

### <b>E.6. <span style='color:#3A6D8C'>Summary</span></b>

In [None]:
# Mengubah nilai cluster untuk mulai dari 1
data_cluster_agglomerative['cluster_agglomerative'] = data_cluster_agglomerative['cluster_agglomerative'] + 1

# Menghitung mean, median, dan standar deviasi untuk setiap cluster
cluster_statistics_agglomerative = data_cluster_agglomerative.groupby('cluster_agglomerative').agg({
    'ketersediaan': ['mean', 'median', 'std'],
    'keterjangkauan': ['mean', 'median', 'std'],
    'pemanfaatan': ['mean', 'median', 'std']
}).reset_index()

# Menampilkan hasil
display(cluster_statistics_agglomerative)


Unnamed: 0_level_0,cluster_agglomerative,ketersediaan,ketersediaan,ketersediaan,keterjangkauan,keterjangkauan,keterjangkauan,pemanfaatan,pemanfaatan,pemanfaatan
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,median,std,mean,median,std,mean,median,std
0,1,83.237647,84.59,10.17694,81.737059,81.42,3.427395,70.374706,71.22,5.886665
1,2,73.995,80.18,14.776302,70.730625,71.725,5.091352,62.721667,61.9,2.181361
2,3,35.585556,38.78,25.114707,89.393333,89.99,3.220427,73.653333,72.53,7.07753
3,4,14.745,14.745,4.150717,62.16375,62.16375,0.0,52.026875,52.026875,5.859264


**Cluster 1 (Ungu)**

Ketersediaan

Cluster ini memiliki ketersediaan yang cukup tinggi, dengan nilai mean 83.24 dan median 84.59 yang menunjukkan sumber daya atau fasilitas yang tersedia cukup baik dan konsisten. Variasi yang ada tidak terlalu besar, dengan deviasi standar 10.18.

Keterjangkauan

Cluster ini juga memiliki keterjangkauan yang cukup baik dan konsisten, dengan mean 81.74 dan median 81.42 yang menunjukkan bahwa sumber daya atau fasilitas cukup terjangkau secara merata di seluruh unit dalam cluster ini. Deviasi standar 3.43 mengindikasikan konsistensi yang baik.

Pemanfaatan

Cluster ini memiliki pemanfaatan yang cukup baik, dengan mean 70.37 dan median 71.22 yang menunjukkan bahwa sumber daya atau fasilitas dimanfaatkan dengan cukup baik. Namun, deviasi standar 5.89 menunjukkan adanya variasi dalam pemanfaatan di antara unit-unit dalam cluster ini.

**Cluster 2 (Biru Muda)**

Ketersediaan

Cluster ini memiliki ketersediaan lebih rendah dibandingkan dengan Cluster 1, dengan nilai mean 73.99 dan median 80.18. Meskipun median lebih tinggi, deviasi standar 14.78 menunjukkan adanya variasi yang lebih besar dalam ketersediaan di antara unit-unit dalam cluster ini.

Keterjangkauan

Cluster ini memiliki keterjangkauan sedikit lebih rendah dibandingkan Cluster 1, dengan mean 70.73 dan median 71.73. Deviasi standar 5.09 menunjukkan adanya variasi dalam keterjangkauan di antara unit-unit dalam cluster ini.

Pemanfaatan

Cluster ini memiliki pemanfaatan yang lebih rendah dibandingkan Cluster 0, dengan mean 62.72 dan median 61.90. Deviasi standar 2.18 menunjukkan bahwa meskipun pemanfaatan rendah, konsistensinya cukup baik di seluruh unit dalam cluster ini.

**Cluster 3 (Kuning)**

Ketersediaan

Cluster ini menunjukkan ketersediaan yang sangat rendah, dengan mean hanya 35.59 dan median 38.78. Variasi sangat besar, seperti yang terlihat dari deviasi standar yang mencapai 25.11, menunjukkan ketidakseimbangan besar dalam ketersediaan sumber daya.

Keterjangkauan

Cluster ini menunjukkan keterjangkauan yang sangat baik, dengan mean 89.39 dan median 89.99, serta deviasi standar 3.22 menunjukkan bahwa fasilitas atau sumber daya sangat terjangkau dan konsisten di seluruh unit dalam cluster ini.

Pemanfaatan

Cluster ini memiliki pemanfatan yang cukup baik, dengan mean 73.65 dan median 72.53 yang menunjukkan tingkat pemanfaatan yang relatif tinggi. Namun, deviasi standar 7.08 menunjukkan adanya variasi yang signifikan dalam pemanfaatan antara unit-unit dalam cluster ini.

**Cluster 4 (Merah)**

Ketersediaan

Cluster ini memiliki ketersediaan yang sangat terbatas, dengan nilai mean dan median yang sangat rendah 14.75, serta deviasi standar 4.15, menunjukkan bahwa ketersediaan sangat terbatas dan hampir seragam di seluruh unit.

Keterjangkauan

Cluster ini memiliki keterjangkauan sangat rendah, dengan nilai mean dan median yang seragam di 62.16, serta deviasi standar 0.00 menunjukkan keterjangkauan yang terbatas dan konsisten di seluruh unit, namun cukup rendah.

Pemanfaatan

Cluster ini memiliki pemanfaatan yang sangat rendah, dengan mean dan median yang rendah 52.03 serta deviasi standar 5.86 menunjukkan bahwa pemanfaatan di cluster ini sangat terbatas dan bervariasi.

#<b>F. <span style='color:#3A6D8C'>Final Model</span></b>

Setelah melakukan berbagai percobaan algoritma, diperoleh model terbaik menggunakan K-Means dengan nilai Silhoette Score **0.3791**

### **F.1 K-MEANS**

### **F.1.1 Indentifikasi Silhouette Score**

In [None]:
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score

# Definisikan kolom yang akan di clustering
X = data_cluster_2022[[
    'ketersediaan normalize',
    'keterjangkauan normalize',
    'pemanfaatan normalize'
]]

k_range = range(2, 16)
silhouette = list()

# Melakukan K-Means dan menghitung Silhouette Score
for k in k_range:
    kmeans = KMeans(n_clusters=k, random_state=0)
    cluster_labels = kmeans.fit_predict(X)
    score = silhouette_score(X, cluster_labels)
    silhouette.append(score)

In [None]:
import plotly.express as px

# Plot grafik
fig = px.line(
    x = k_range,
    y = silhouette,
    color_discrete_sequence = ['#FFAD60']
)

fig.update_layout(
    width = 1200,
    height = 500,
    showlegend = False,
    plot_bgcolor = 'rgba(0, 0, 0, 0)',
    title = dict(
        text = "<b>Nilai <span style='color:#FFAD60'>Silhouette Score</span>\
        </b><br><sup><sup>dengan Algoritma K-Means</sup></sup>",
        font = dict(
            size = 25,
            color = '#757882'
        ),
    ),
    xaxis = dict(
        showgrid = False,
        showline = True,
        linecolor = 'black',
        showticklabels = True,
        zeroline = True,
    ),
    yaxis = dict(
        showgrid = False,
        showline = True,
        linecolor='black',
        showticklabels = True,
        zeroline = True,
    ),
    margin = dict(
        l = 50
    )
)

fig.show(renderer = 'colab')

Dari hasil Silhouette Score didapatkan jumlah cluster terbaik yaitu (K) = 4 dengan nilai sebesar **0.3791**

### **F.1.2 Penentuan Jumlah Cluster**

In [None]:
kmeans = KMeans(n_clusters = 4, random_state = 0)
cluster_labels = kmeans.fit_predict(X)

data_cluster_2022['cluster_kmeans'] = cluster_labels + 1
display(data_cluster_2022)

Unnamed: 0,provinsi,tahun,ketersediaan,keterjangkauan,pemanfaatan,ketersediaan normalize,keterjangkauan normalize,pemanfaatan normalize,cluster_kmeans
0,Aceh,2022,80.17,69.34,66.25,0.844428,0.225411,0.537084,1
1,Sumatera Utara,2022,80.19,75.02,64.44,0.844639,0.403824,0.484154,1
2,Sumatera Barat,2022,87.53,84.23,71.84,0.921951,0.693117,0.700552,3
3,Riau,2022,38.78,86.5,69.81,0.408469,0.764419,0.641189,2
4,Jambi,2022,58.48,82.0,67.04,0.615968,0.623071,0.560186,3
5,Sumatera Selatan,2022,81.57,74.11,61.29,0.859174,0.37524,0.392039,1
6,Bengkulu,2022,69.92,75.18,61.53,0.736465,0.40885,0.399057,1
7,Lampung,2022,94.94,79.62,67.72,1.0,0.548314,0.580071,3
8,Kep. Bangka Belitung,2022,36.38,92.47,77.54,0.383189,0.951942,0.867237,2
9,Kepulauan Riau,2022,5.83,88.9,72.53,0.061407,0.839805,0.72073,2


Berdasarkan output tersebut, dapat dilihat bahwa setiap provinsi berhasil
dikelompokkan ke dalam 4 cluster yang berbeda, yaitu cluster 1, 2, 3 dan 4. Hal ini menunjukkan bahwa algoritma K-Means berhasil mengelompokkan provinsi-provinsi berdasarkan kesamaan karakteristiknya.

### **F.1.3 Silhouette Plot**

In [None]:
import numpy as np
import pandas as pd
import plotly.graph_objects as go
from sklearn.metrics import silhouette_samples, silhouette_score
from sklearn.cluster import KMeans

# Hitung silhouette score dan nilai untuk setiap titik
silhouette_avg = silhouette_score(X, cluster_labels)
silhouette_values = silhouette_samples(X, cluster_labels)

# Siapkan data untuk visualisasi
n_clusters = len(np.unique(cluster_labels))
silhouette_data = pd.DataFrame({
    'Cluster': cluster_labels + 1,
    'Silhouette Coefficient': silhouette_values
})

# Urutkan data berdasarkan klaster dan nilai silhouette
silhouette_data = silhouette_data.sort_values(by=['Cluster', 'Silhouette Coefficient'], ascending=[True, True])

# Tambahkan kolom posisi untuk membantu visualisasi
silhouette_data['Posisi'] = np.arange(len(silhouette_data))

# Membuat plot menggunakan Plotly
fig = go.Figure()

# Loop untuk setiap klaster
for cluster_id in range(1, n_clusters + 1):
    cluster_data = silhouette_data[silhouette_data['Cluster'] == cluster_id]
    fig.add_trace(go.Bar(
        x=cluster_data['Silhouette Coefficient'],
        y=cluster_data['Posisi'],
        orientation='h',
        marker=dict(color=px.colors.qualitative.Plotly[cluster_id % len(px.colors.qualitative.Plotly)]),
        name=f'Cluster {cluster_id}'
    ))

# Garis rata-rata silhouette score
fig.add_vline(
    x=silhouette_avg,
    line=dict(color='red', dash='dash'),
    annotation_text="Rata-rata Silhouette",
    annotation_position="top right"
)

# Layout
fig.update_layout(
    width=1200,
    height=600,
    title=dict(
        text="<b>Silhouette Plot</b><br><sup><sup>dengan Algoritma K-Means</sup></sup>",
        font=dict(size=25, color='#757882'),
    ),
    xaxis=dict(
        title="Nilai Silhouette Coefficient",
        linecolor="black",
        showgrid=False,
        zeroline=True
    ),
    yaxis=dict(
        title="Cluster",
        showticklabels=False,
        linecolor="black",
        showgrid=False
    ),
    plot_bgcolor='rgba(0, 0, 0, 0)',
    showlegend=False,
    margin=dict(l=50)
)

fig.show(renderer='colab')


Dari hasil Silhouette Plot, rata-rata Silhouette Score bernilai **0.37** nilai ini menunjukkan pengelompokkan cukup baik tetapi tidak optimal, karena mendekati batas bawah moderat.

### **F.1.4 Plot Hasil Cluster**

In [None]:
import plotly.graph_objects as go

# Membuat plot 3D
fig = go.Figure(
    data = [
        go.Scatter3d(
            x = data_cluster_2022['ketersediaan'],
            y = data_cluster_2022['keterjangkauan'],
            z = data_cluster_2022['pemanfaatan'],
            mode = 'markers',
            marker = dict(
                size = 5,
                color = data_cluster_2022['cluster_kmeans'],
                opacity = 0.5,
                colorscale='Viridis',
                colorbar = dict(title='Color Legend')
            ),
            hovertext = data_cluster_2022['provinsi'],
            hovertemplate='<b>%{hovertext}</b><br>ketersediaan: %{x}<br>Keterjangkauan: %{y}<br>Pemanfaatan: %{z}<br>Cluster: %{marker.color}'
        )
    ]
)


fig.update_layout(
    width = 1200,
    height = 800,
    plot_bgcolor = 'rgba(0, 0, 0, 0)',
    title = dict(
        text = '',
        font = dict(
            size = 20
        )
    ),
    scene = dict(
        xaxis_title = 'Ketersediaan',
        yaxis_title = 'Keterjangkauaan',
        zaxis_title = 'Pemanfaatan',
        xaxis=dict(showgrid=False),
        yaxis=dict(showgrid=False),
        zaxis=dict(showgrid=False)
    )
)

# Tampilkan plot
fig.show()

Proses clustering ini menghasilkan empat kelompok (cluster) berbeda berdasarkan karakteristik kesamaan dalam ketiga aspek tersebut. Setelah dilakukan clustering, setiap provinsi diberi label sesuai dengan kelompoknya. Berdasarkan hasil clustering, berikut adalah pembagian provinsi dalam masing-masing cluster:

Cluster 1 (Ungu): Daerah dengan ketersediaan dan keterjangkauan yang tinggi serta pemanfaatan yang stabil, meskipun terdapat variasi sedang pada ketersediaan.

Cluster 2 (Biru): Daerah dengan keterjangkauan yang sangat tinggi dan konsisten, tingkat pemanfaatan yang baik, namun tingkat ketersediaan masih rendah.

Cluster 3 (Hijau): Daerah dengan ketersediaan, keterjangkauan, dan pemanfaatan menunjukkan tingkat yang tinggi pada ketiganya, dengan variasi kecil hingga sedang.

Cluster 4 (Kuning) : Daerah dengan tingkat ketersediaan yang sangat rendah, keterjangkauan yang moderat tanpa variasi, dan pemanfaatan yang rendah hingga sedang dengan variasi kecil.

Hasil ini dapat digunakan untuk mengidentifikasi daerah yang membutuhkan perhatian khusus seperti daerah di Cluster 4.
Selain itu, cluster dengan nilai tinggi seperti Cluster 3 dapat dijadikan contoh atau perbandingan untuk daerah lainnya.

### **F.1.5 Summary**

In [None]:
# Menghitung mean, median, dan simpangan baku untuk setiap cluster
cluster_statistics = data_cluster_2022.groupby('cluster_kmeans').agg({
    'ketersediaan': ['mean', 'median', 'std'],
    'keterjangkauan': ['mean', 'median', 'std'],
    'pemanfaatan': ['mean', 'median', 'std']
}).reset_index()

# Menampilkan hasil
display(cluster_statistics)

Unnamed: 0_level_0,cluster_kmeans,ketersediaan,ketersediaan,ketersediaan,keterjangkauan,keterjangkauan,keterjangkauan,pemanfaatan,pemanfaatan,pemanfaatan
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,median,std,mean,median,std,mean,median,std
0,1,73.995,80.18,14.776302,70.730625,71.725,5.091352,62.721667,61.9,2.181361
1,2,30.14875,37.58,20.416207,88.8175,89.445,2.90554,72.6,72.37,6.770172
2,3,83.006667,84.395,9.921597,82.418333,81.445,4.405731,71.025,71.32,6.342421
3,4,14.745,14.745,4.150717,62.16375,62.16375,0.0,52.026875,52.026875,5.859264


**Cluster 1 (Ungu)**

Ketersediaan rata-rata 73,99 (median 80,18), keterjangkauan 70,73 (median 71,73), dan pemanfaatan 62,72 (median 61,90). Menunjukkan wilayah dengan ketersediaan tinggi, keterjangkauan baik, dan pemanfaatan stabil, mencerminkan infrastruktur atau akses yang baik.


**Cluster 2 (Biru)**

Ketersediaan rata-rata 30,15 (median 37,58), keterjangkauan 88,82 (median 89,45), dan pemanfaatan 72,60 (median 72,37). Menunujukkan wilayah dengan keterjangkauan sangat tinggi, namun ketersediaan rendah membatasi, meskipun pemanfaatan cukup baik berkat optimasi sumber daya.

**Cluster 3 (Hijau)**

Ketersediaan rata-rata 83,01 (median 84,39), keterjangkauan 82,42 (median 81,45), dan pemanfaatan 71,03 (median 71,32). Menunujukkan wilayah dengan keseimbangan optimal antara ketersediaan, keterjangkauan, dan pemanfaatan sumber daya.

**Cluster 4 (Kuning)**

Ketersediaan rata-rata 14,75, keterjangkauan 62,16, dan pemanfaatan 52,03 (dengan median yang sama)  Hal ini mengindikasikan area ini memiliki akses yang terbatas, meskipun keterjangkauannya stabil.