In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import silhouette_score


In [None]:
# 1. Memuat data
data = pd.read_csv('data/Mall_Customers.csv')

# 2. Pilih fitur yang sesuai
# Untuk tujuan contoh, mari pilih 'Annual Income (k$)' dan 'Spending Score (1-100)' sebagai fitur.
features = data[['Annual Income (k$)', 'Spending Score (1-100)']]

# 3. Menentukan jumlah cluster yang optimal
# Kita akan mencari jumlah cluster terbaik dengan metode Elbow dan Silhouette Score.
# Metode Elbow
inertia = []
for k in range(1, 11):
    kmeans = KMeans(n_clusters=k, random_state=42)
    kmeans.fit(features)
    inertia.append(kmeans.inertia_)


In [None]:
# Plot hasil Elbow Method
plt.figure(figsize=(8, 5))
plt.plot(range(1, 11), inertia, marker='o', linestyle='--')
plt.title('Elbow Method')
plt.xlabel('Number of Clusters')
plt.ylabel('Inertia')
plt.show()


In [None]:
# Dari plot Elbow Method, kita dapat melihat bahwa "elbow" terletak sekitar 5.
# Namun, kita juga perlu mempertimbangkan metode Silhouette Score.

silhouette_scores = []
for k in range(2, 11):
    kmeans = KMeans(n_clusters=k, random_state=42)
    kmeans.fit(features)
    silhouette_scores.append(silhouette_score(features, kmeans.labels_))

# Plot hasil Silhouette Score
plt.figure(figsize=(8, 5))
plt.plot(range(2, 11), silhouette_scores, marker='o', linestyle='--')
plt.title('Silhouette Score')
plt.xlabel('Number of Clusters')
plt.ylabel('Silhouette Score')
plt.show()

# Dari plot Silhouette Score, kita dapat melihat bahwa nilai tertinggi terjadi ketika k=5.

# Membuat model K-Means dengan jumlah cluster terbaik
optimal_k = 5
kmeans = KMeans(n_clusters=optimal_k, random_state=42)
kmeans.fit(features)

# Menambahkan label cluster ke data asli
data['Cluster'] = kmeans.labels_

# Visualisasi hasil clustering
plt.figure(figsize=(10, 6))
for i in range(optimal_k):
    cluster_data = data[data['Cluster'] == i]
    plt.scatter(cluster_data['Annual Income (k$)'], cluster_data['Spending Score (1-100)'], label=f'Cluster {i}')

plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], s=200, c='red', label='Centroids')
plt.title('Hasil Clustering dengan K-Means')
plt.xlabel('Annual Income (k$)')
plt.ylabel('Spending Score (1-100)')
plt.legend()
plt.show()

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from minisom import MiniSom

# 1. Persiapkan citra untuk segmentasi
# Anda perlu memuat citra yang akan di-segmentasi dan mengonversinya menjadi bentuk matriks.

# Contoh citra berbentuk matriks (gantilah ini dengan citra yang sesuai)
image_matrix = np.random.rand(100, 100, 3)  # Contoh citra berukuran 100x100 dengan 3 channel (RGB)

# 2. Ubah citra menjadi vektor
# Anda perlu mengonversi citra matriks menjadi vektor untuk digunakan dalam SOM.

image_height, image_width, num_channels = image_matrix.shape
data = image_matrix.reshape(-1, num_channels)

# 3. Inisialisasi dan latih model SOM
# Anda perlu menginisialisasi model SOM dan melatihnya dengan data citra.

# Pilih ukuran SOM (misalnya, 10x10)
som = MiniSom(10, 10, num_channels, sigma=1.0, learning_rate=0.5, random_seed=10)
som.train_random(data, 1000)  # 1000 iterasi pelatihan (sesuaikan sesuai kebutuhan)
# 4. Hasil segmentasi
# Setelah melatih model SOM, Anda dapat menggunakannya untuk segmentasi citra.

segmented_image = np.zeros((image_height, image_width, num_channels), dtype=np.float32)

for i in range(image_height):
    for j in range(image_width):
        winner = som.winner(data[i * image_width + j])
        segmented_image[i, j] = som.get_weights()[winner]

# 5. Tampilkan hasil segmentasi
# Tampilkan citra asli dan citra hasil segmentasi.

plt.figure(figsize=(12, 6))
plt.subplot(1, 2, 1)
plt.title('Citra Asli')
plt.imshow(image_matrix)
plt.axis('off')

plt.subplot(1, 2, 2)
plt.title('Hasil Segmentasi')
plt.imshow(segmented_image)
plt.axis('off')

plt.show()