<a href="https://colab.research.google.com/github/eko-andri-prasetyo/proyek-machine-learning/blob/main/%5BClustering%5D_Submission_Akhir_BMLP_Eko_Andri_Prasetyo.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Penting**
- Jangan mengubah atau menambahkan cell text yang sudah disediakan, Anda hanya perlu mengerjakan cell code yang sudah disediakan.
- Pastikan seluruh kriteria memiliki output yang sesuai, karena jika tidak ada output dianggap tidak selesai.
- Misal, Anda menggunakan df = df.dropna() silakan gunakan df.isnull().sum() sebagai tanda sudah berhasil. Silakan sesuaikan seluruh output dengan perintah yang sudah disediakan.
- Pastikan Anda melakukan Run All sebelum mengirimkan submission untuk memastikan seluruh cell berjalan dengan baik.
- Pastikan Anda menggunakan variabel df dari awal sampai akhir dan tidak diperbolehkan mengganti nama variabel tersebut.
- Hapus simbol pagar (#) pada kode yang bertipe komentar jika Anda menerapkan kriteria tambahan
- Biarkan simbol pagar (#) jika Anda tidak menerapkan kriteria tambahan
- Pastikan Anda mengerjakan sesuai section yang sudah diberikan tanpa mengubah judul atau header yang disediakan.

# **INFORMASI DATASET**

Dataset ini menyajikan gambaran mendalam mengenai perilaku transaksi dan pola aktivitas keuangan, sehingga sangat ideal untuk eksplorasi **deteksi penipuan (fraud detection)** dan **identifikasi anomali**. Dataset ini mencakup **2.512 sampel data transaksi**, yang mencakup berbagai atribut transaksi, demografi nasabah, dan pola penggunaan.

Setiap entri memberikan wawasan komprehensif terhadap perilaku transaksi, memungkinkan analisis untuk **keamanan finansial** dan pengembangan model prediktif.

## Fitur Utama

- **`TransactionID`**: Pengidentifikasi unik alfanumerik untuk setiap transaksi.  
- **`AccountID`**: ID unik untuk setiap akun, dapat memiliki banyak transaksi.  
- **`TransactionAmount`**: Nilai transaksi dalam mata uang, mulai dari pengeluaran kecil hingga pembelian besar.  
- **`TransactionDate`**: Tanggal dan waktu transaksi terjadi.  
- **`TransactionType`**: Tipe transaksi berupa `'Credit'` atau `'Debit'`.  
- **`Location`**: Lokasi geografis transaksi (nama kota di Amerika Serikat).  
- **`DeviceID`**: ID perangkat yang digunakan dalam transaksi.  
- **`IP Address`**: Alamat IPv4 yang digunakan saat transaksi, dapat berubah untuk beberapa akun.  
- **`MerchantID`**: ID unik merchant, menunjukkan merchant utama dan anomali transaksi.  
- **`AccountBalance`**: Saldo akun setelah transaksi berlangsung.  
- **`PreviousTransactionDate`**: Tanggal transaksi terakhir pada akun, berguna untuk menghitung frekuensi transaksi.  
- **`Channel`**: Kanal transaksi seperti `Online`, `ATM`, atau `Branch`.  
- **`CustomerAge`**: Usia pemilik akun.  
- **`CustomerOccupation`**: Profesi pengguna seperti `Dokter`, `Insinyur`, `Mahasiswa`, atau `Pensiunan`.  
- **`TransactionDuration`**: Lama waktu transaksi (dalam detik).  
- **`LoginAttempts`**: Jumlah upaya login sebelum transaksiâ€”jumlah tinggi bisa mengindikasikan anomali.

Tugas kamu adalah membuat model clustering yang selanjutnya akan digunakan untuk membuat model klasifikasi.


# **1. Import Library**
Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning. Semua library yang dibutuhkan harus **import** di **cell** ini, jika ada library yang dijalankan di cell lain maka **submission langsung ditolak**

In [None]:
# **1. Import Library**
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.cluster import KMeans
from sklearn.decomposition import PCA
from sklearn.metrics import silhouette_score
from yellowbrick.cluster import KElbowVisualizer
import joblib

# **2. Memuat Dataset**
Pada tahap ini, Anda perlu memuat dataset ke dalam notebook lalu mengecek informasi dataset sebelum nantinya dilakukan pembersihan. Hal-hal yang perlu dilakukan pada tahapan ini yaitu:
1. **Memahami Struktur Data**
   - Dataset harus mengambil referensi wajib digunakan (bisa dilihat [Disini](https://drive.google.com/drive/folders/1Zs7VmPZ-jNwsRlMKH65Ea-LApSwx6lKx?usp=drive_link))
   - Melakukan loading dataset ke dalam notebook dan menampilkan 5 baris pertama dengan function `head`.
   - Tinjau jumlah baris kolom dan jenis data dalam dataset dengan function `info`.  
   - Menampilkan statistik deskriptif dataset dengan menjalankan `describe`.
   - Pastikan **setiap function tersebut** memiliki **output pada setiap cell** code. Jika tidak **submission langsung ditolak**
   

Gunakan code ini untuk melakukan load data secara otomatis tanpa harus download data tersebut secara manual:
```python
url='https://docs.google.com/spreadsheets/d/e/2PACX-1vTbg5WVW6W3c8SPNUGc3A3AL-AG32TPEQGpdzARfNICMsLFI0LQj0jporhsLCeVhkN5AoRsTkn08AYl/pub?gid=2020477971&single=true&output=csv'
df = pd.read_csv(url)
```

Penting: pada kriteria pertama hindari penggunaan print() dan display() karena seluruh fungsi yang digunakan sudah memiliki standar output dan menghasilkan output yang diharapkan.

Kriteria 1 akan ditolak ketika:
- print(__.head())
- display(___.head())
dst

Kriteria 1 akan diterima ketika Anda menggunakan fungsi yang diminta tanpa menambahkan deskripsi apapun.

In [None]:
# **2. Memuat Dataset**
url = 'https://docs.google.com/spreadsheets/d/e/2PACX-1vTbg5WVW6W3c8SPNUGc3A3AL-AG32TPEQGpdzARfNICMsLFI0LQj0jporhsLCeVhkN5AoRsTkn08AYl/pub?gid=2020477971&single=true&output=csv'
df = pd.read_csv(url)

In [None]:
# Tampilkan 5 baris pertama dengan function head.
df.head()

In [None]:
# Tinjau jumlah baris kolom dan jenis data dalam dataset dengan info.
df.info()

In [None]:
# Menampilkan statistik deskriptif dataset dengan menjalankan describe
df.describe()

(Opsional) Memuat Dataset dan Melakukan Exploratory Data Analysis (EDA) [Skilled]

**Biarkan kosong jika tidak menerapkan kriteria skilled**

**Apabila ingin menerapkan Advanced, pastikan seluruh visualisasi tidak ada yang overlap**

In [None]:
# Menampilkan korelasi antar fitur (Opsional Skilled 1)
plt.figure(figsize=(12, 8))
numeric_df = df.select_dtypes(include=[np.number])
sns.heatmap(numeric_df.corr(), annot=True, cmap='coolwarm', fmt='.2f')
plt.title('Korelasi Antar Fitur Numerik')
plt.tight_layout()
plt.show()

In [None]:
# Menampilkan histogram untuk semua kolom numerik (Opsional Skilled 1)
numeric_df.hist(figsize=(15, 10), bins=20)
plt.tight_layout()
plt.show()

(Opsional) Memuat Dataset dan Melakukan Exploratory Data Analysis (EDA) [Advanced]

**Biarkan kosong jika tidak menerapkan kriteria advanced**

In [None]:
# Visualisasi yang lebih informatif (Opsional Advanced 1)
# Pairplot untuk melihat hubungan antar fitur numerik dengan warna berdasarkan fitur kategorikal
import seaborn as sns
import matplotlib.pyplot as plt

# Pilih subset fitur numerik untuk visualisasi
numeric_features = ['TransactionAmount', 'AccountBalance', 'CustomerAge', 'TransactionDuration', 'LoginAttempts']

# Buat pairplot dengan hue berdasarkan Channel (contoh fitur kategorikal)
plt.figure(figsize=(15, 12))
sns.pairplot(df[numeric_features + ['Channel']].sample(1000), hue='Channel', palette='viridis', diag_kind='kde')
plt.suptitle('Pairplot Fitur Numerik dengan Warna Berdasarkan Channel', y=1.02)
plt.tight_layout()
plt.show()

# Boxplot untuk melihat distribusi TransactionAmount berdasarkan Occupation
plt.figure(figsize=(12, 6))
sns.boxplot(data=df, x='CustomerOccupation', y='TransactionAmount')
plt.title('Distribusi TransactionAmount Berdasarkan Occupation')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

# Heatmap korelasi dengan annotasi yang lebih jelas
plt.figure(figsize=(12, 8))
corr_matrix = df.select_dtypes(include=[np.number]).corr()
mask = np.triu(np.ones_like(corr_matrix, dtype=bool))
sns.heatmap(corr_matrix, mask=mask, annot=True, cmap='RdBu_r', center=0,
           square=True, linewidths=0.5, cbar_kws={"shrink": .8})
plt.title('Heatmap Korelasi Fitur Numerik (Segitiga Atas)')
plt.tight_layout()
plt.show()

# Countplot untuk fitur kategorikal dengan rotasi label
categorical_features = ['TransactionType', 'Channel', 'CustomerOccupation']
fig, axes = plt.subplots(1, 3, figsize=(18, 5))

for i, feature in enumerate(categorical_features):
    value_counts = df[feature].value_counts()
    sns.barplot(x=value_counts.index, y=value_counts.values, ax=axes[i])
    axes[i].set_title(f'Distribusi {feature}')
    axes[i].tick_params(axis='x', rotation=45)
    axes[i].set_ylabel('Count')

plt.tight_layout()
plt.show()

# Scatter plot dengan fitur numerik penting
plt.figure(figsize=(10, 6))
sns.scatterplot(data=df, x='TransactionAmount', y='AccountBalance',
               hue='TransactionType', size='CustomerAge', alpha=0.6)
plt.title('TransactionAmount vs AccountBalance (Color: TransactionType, Size: Age)')
plt.tight_layout()
plt.show()

# **3. Pembersihan dan Pra Pemrosesan Data**

Pada tahap ini, Anda akan melakukan **Pembersihan Dataset** untuk menjadikan dataset mudah diintepretasi dan bisa dilatih. Hal-hal yang wajib kamu lakukan yaitu:

1. **Mengecek dataset** menggunakan isnull().sum() dan duplicated().sum().
2. Melakukan feature scaling menggunakan `MinMaxScaler()` atau `StandardScalar()` untuk fitur numerik.
3. Melakukan feature encoding menggunakan `LabelEncoder()` untuk fitur kategorikal.
4. Melakukan drop pada kolom id.
5. **Ketentuan Cell Code**
   - Pastikan **setiap pemeriksaan tersebut** memiliki **output pada cell-nya**. Jika tidak **submission langsung ditolak**


In [None]:
# Mengecek dataset menggunakan isnull().sum()
df.isnull().sum()

In [None]:
# Mengecek dataset menggunakan duplicated().sum()
df.duplicated().sum()

In [None]:
# Melakukan feature scaling menggunakan MinMaxScaler() atau StandardScalar() untuk fitur numerik.
# Pastikan kamu menggunakan function head setelah melalukan scaling.
scaler = StandardScaler()
numeric_cols = df.select_dtypes(include=[np.number]).columns
df_scaled = df.copy()
df_scaled[numeric_cols] = scaler.fit_transform(df[numeric_cols])
df_scaled.head()

In [None]:
# Melakukan drop pada kolom yang memiliki keterangan id dan IP Address
id_cols = ['TransactionID', 'AccountID', 'DeviceID', 'IP Address', 'MerchantID']
df_scaled = df_scaled.drop(columns=id_cols)

In [None]:
# Melakukan feature encoding menggunakan LabelEncoder() untuk fitur kategorikal.
# Pastikan kamu menggunakan function head setelah melalukan encoding.
categorical_cols = df_scaled.select_dtypes(include=['object']).columns
label_encoders = {}

for col in categorical_cols:
    le = LabelEncoder()
    df_scaled[col] = le.fit_transform(df_scaled[col].astype(str))
    label_encoders[col] = le

df_scaled.head()

In [None]:
# Last checking gunakan columns.tolist() untuk checking seluruh fitur yang ada.
# Perbaiki kode di bawah ini tanpa menambahkan atau mengurangi cell code ini.
# ____.columns.tolist()
df_scaled.columns.tolist()

(Opsional) Pembersihan dan Pra Pemrosesan Data [Skilled]

**Biarkan kosong jika tidak menerapkan kriteria skilled**

In [None]:
# Menangani data yang hilang (bisa menggunakan dropna() atau metode imputasi fillna()).
df_scaled = df_scaled.dropna()

In [None]:
# Menghapus data duplikat menggunakan drop_duplicates().
df_scaled = df_scaled.drop_duplicates()

(Opsional) Pembersihan dan Pra Pemrosesan Data [Advanced]

**Biarkan kosong jika tidak menerapkan kriteria advanced**

In [None]:
# Melakukan Handling Outlier Data berdasarkan jumlah outlier, apakah menggunakan metode drop atau mengisi nilai tersebut.
from scipy import stats
import numpy as np

# Identifikasi outlier menggunakan Z-score untuk fitur numerik
numeric_cols = df.select_dtypes(include=[np.number]).columns
outlier_info = {}

print("Deteksi Outlier menggunakan Z-score (threshold > 3):")
for col in numeric_cols:
    z_scores = np.abs(stats.zscore(df[col].dropna()))
    outlier_count = np.sum(z_scores > 3)
    outlier_percentage = (outlier_count / len(df[col].dropna())) * 100
    outlier_info[col] = {'count': outlier_count, 'percentage': outlier_percentage}

    print(f"{col}: {outlier_count} outlier ({outlier_percentage:.2f}%)")

# Handle outlier berdasarkan persentase
for col in numeric_cols:
    if outlier_info[col]['percentage'] < 5:  # Jika outlier < 5%, drop
        z_scores = np.abs(stats.zscore(df[col].dropna()))
        outlier_mask = z_scores > 3
        df = df[~outlier_mask]
        print(f"Dropped {outlier_info[col]['count']} outliers from {col}")
    else:  # Jika outlier > 5%, cap dengan IQR method
        Q1 = df[col].quantile(0.25)
        Q3 = df[col].quantile(0.75)
        IQR = Q3 - Q1
        lower_bound = Q1 - 1.5 * IQR
        upper_bound = Q3 + 1.5 * IQR

        # Cap the outliers
        df[col] = np.where(df[col] < lower_bound, lower_bound, df[col])
        df[col] = np.where(df[col] > upper_bound, upper_bound, df[col])
        print(f"Capped outliers in {col} using IQR method")

print(f"Shape setelah handling outlier: {df.shape}")

In [None]:
# Melakukan binning data berdasarkan kondisi rentang nilai pada fitur numerik,
# lakukan pada satu sampai dua fitur numerik.
# Silahkan lakukan encode hasil binning tersebut menggunakan LabelEncoder.
# Pastikan kamu mengerjakan tahapan ini pada satu cell.
# Binning untuk TransactionAmount
transaction_bins = [0, 100, 500, 2000, 10000, float('inf')]
transaction_labels = ['Very Low', 'Low', 'Medium', 'High', 'Very High']
df['TransactionAmount_Binned'] = pd.cut(df['TransactionAmount'], bins=transaction_bins, labels=transaction_labels, include_lowest=True)

# Binning untuk CustomerAge
age_bins = [0, 25, 35, 45, 55, 65, float('inf')]
age_labels = ['Young', 'Young Adult', 'Middle Age', 'Senior', 'Elderly', 'Very Elderly']
df['CustomerAge_Binned'] = pd.cut(df['CustomerAge'], bins=age_bins, labels=age_labels, include_lowest=True)

# Encode hasil binning menggunakan LabelEncoder
le = LabelEncoder()
df['TransactionAmount_Encoded'] = le.fit_transform(df['TransactionAmount_Binned'].astype(str))
df['CustomerAge_Encoded'] = le.fit_transform(df['CustomerAge_Binned'].astype(str))

# Drop kolom binning asli yang tidak terencode
df = df.drop(['TransactionAmount_Binned', 'CustomerAge_Binned'], axis=1)

print("Binning dan encoding selesai. 5 baris pertama:")
df[['TransactionAmount', 'TransactionAmount_Encoded', 'CustomerAge', 'CustomerAge_Encoded']].head()

# **4. Membangun Model Clustering**
Pada tahap ini, Anda membangun model clustering dengan memilih algoritma yang sesuai untuk mengelompokkan data berdasarkan kesamaan.
1. Pastikan Anda menggunakan dataframe yang sudah melalui processing sesuai dengan levelnya (Basic, Skilled, Advanced)
2. Melakukan visualisasi Elbow Method untuk menentukan jumlah cluster terbaik menggunakan `KElbowVisualizer()`.
3. Menggunakan algoritma K-Means Clustering dengan `sklearn.cluster.KMeans()`.
4. Jalankan cell code `joblib.dump(model_kmeans, "model_clustering.h5")` untuk menyimpan model yang sudah dibuat.

In [None]:
# Gunakan describe untuk memastikan proses clustering menggunakan dataset hasil preprocessing
# Lengkapi kode ini dengan mengubah nama DataFrame yang akan dilatih.
# Kode harus digunakan dan dilarang menambahkan syntax lainnya pada cell ini.
# ___.describe()
df_scaled.describe()

In [None]:
# Melakukan visualisasi Elbow Method menggunakan KElbowVisualizer()
plt.figure(figsize=(10, 6))
model = KMeans(random_state=42)
visualizer = KElbowVisualizer(model, k=(2, 10))
visualizer.fit(df_scaled)
visualizer.show()

In [None]:
# Menggunakan algoritma K-Means Clustering
kmeans = KMeans(n_clusters=3, random_state=42)
clusters = kmeans.fit_predict(df_scaled)
df_scaled['Cluster'] = clusters

Jalankan cell code ini untuk menyimpan model kamu.

In [None]:
# Menyimpan model menggunakan joblib
# import joblib
# joblib.dump(___, "model_clustering.h5")
import joblib
joblib.dump(kmeans, "model_clustering.h5")

(Opsional) Membangun Model Clustering [Skilled]

**Biarkan kosong jika tidak menerapkan kriteria skilled**

In [None]:
# Menghitung dan menampilkan nilai Silhouette Score.
silhouette_avg = silhouette_score(df_scaled.drop('Cluster', axis=1), clusters)
print(f"Silhouette Score: {silhouette_avg:.4f}")

In [None]:
# Membuat visualisasi hasil clustering
pca = PCA(n_components=2)
pca_result = pca.fit_transform(df_scaled.drop('Cluster', axis=1))

plt.figure(figsize=(10, 6))
plt.scatter(pca_result[:, 0], pca_result[:, 1], c=clusters, cmap='viridis', alpha=0.6)
plt.title('Visualisasi Hasil Clustering (PCA)')
plt.xlabel('PCA Component 1')
plt.ylabel('PCA Component 2')
plt.colorbar(label='Cluster')
plt.show()

(Opsional) Membangun Model Clustering [Advanced]

**Biarkan kosong jika tidak menerapkan kriteria advanced**

In [None]:
# Membangun model menggunakan PCA.
# ___ =PCA(n_components=<x>)
# ___ = ____.fit_transform(___)
# Menyimpan data PCA sebagai Dataframe dengan nama PCA_<numbers>
# <data_final> = pd.DataFrame(___, columns=['PCA1', 'PCA2', <sesuaikan dengan jumlah n>])
# Pastikan kamu membangun model Kmeans baru dengan data yang sudah dimodifikasi melalui PCA.
# ___ = KMeans(n_clusters=<x>)
# ___.fit(<data_final>)
from sklearn.decomposition import PCA

# Gunakan elbow method untuk menentukan jumlah komponen PCA optimal
pca = PCA()
pca.fit(df_scaled.drop('Target', axis=1))

# Plot variance explained ratio
plt.figure(figsize=(10, 6))
plt.plot(range(1, len(pca.explained_variance_ratio_) + 1),
         np.cumsum(pca.explained_variance_ratio_), marker='o')
plt.axhline(y=0.95, color='r', linestyle='--', label='95% Variance Explained')
plt.xlabel('Number of Principal Components')
plt.ylabel('Cumulative Explained Variance Ratio')
plt.title('Cumulative Explained Variance by Principal Components')
plt.legend()
plt.grid(True)
plt.show()

# Pilih n_components yang menjelaskan ~95% variance
n_components = 8  # Disesuaikan berdasarkan plot di atas
pca = PCA(n_components=n_components)
pca_result = pca.fit_transform(df_scaled.drop('Target', axis=1))

# Menyimpan data PCA sebagai Dataframe
pca_columns = [f'PCA{i+1}' for i in range(n_components)]
pca_df = pd.DataFrame(pca_result, columns=pca_columns)

# Membangun model KMeans baru dengan data PCA
kmeans_pca = KMeans(n_clusters=3, random_state=42)
kmeans_pca.fit(pca_df)

# Tambahkan cluster labels ke dataframe PCA
pca_df['Cluster_PCA'] = kmeans_pca.labels_

print(f"PCA dilakukan dengan {n_components} komponen utama")
print(f"Variance explained: {np.sum(pca.explained_variance_ratio_):.4f}")
print("5 baris pertama data PCA:")
pca_df.head()

In [None]:
# Simpan model PCA sebagai perbandingan dengan menjalankan cell code ini joblib.dump(model,"PCA_model_clustering.h5")
# Pastikan yang disimpan model yang sudah melalui .fit berdasarkan dataset yang sudah dilakukan PCA
# joblib.dump(___, "PCA_model_clustering.h5")
joblib.dump(kmeans_pca, "PCA_model_clustering.h5")

# Visualisasi hasil clustering PCA (jika n_components >= 2)
if n_components >= 2:
    plt.figure(figsize=(12, 5))

    plt.subplot(1, 2, 1)
    plt.scatter(pca_df['PCA1'], pca_df['PCA2'], c=kmeans_pca.labels_, cmap='viridis', alpha=0.6)
    plt.xlabel('PCA Component 1')
    plt.ylabel('PCA Component 2')
    plt.title('Clustering dengan PCA (2 Komponen Utama)')
    plt.colorbar(label='Cluster')

    plt.subplot(1, 2, 2)
    # Bandingkan dengan clustering original
    plt.scatter(df_scaled.iloc[:, 0], df_scaled.iloc[:, 1], c=df_scaled['Target'], cmap='viridis', alpha=0.6)
    plt.xlabel('Feature 1 (Original)')
    plt.ylabel('Feature 2 (Original)')
    plt.title('Clustering tanpa PCA')
    plt.colorbar(label='Cluster')

    plt.tight_layout()
    plt.show()

print("Model PCA clustering berhasil disimpan sebagai 'PCA_model_clustering.h5'")

# **5. Interpretasi Cluster**

## **a. Interpretasi Hasil Clustering**
1. **Contoh Interpretasi:**
- **Cluster 1: (Nasabah Bertransaksi dan Pendapatan Besar)**:
  - **Rata-rata (mean) Annual Income:** 0.953 (48,260)
  - **Rata-rata (mean) Spending Score:** 0.8 (56.48)
  - **Analisis:** Cluster ini mencakup pelanggan dengan pendapatan tahunan tinggi dan tingkat pengeluaran yang cukup tinggi. Pelanggan dalam cluster ini cenderung memiliki daya beli yang tinggi dan mereka lebih cenderung untuk membelanjakan sebagian besar pendapatan mereka. Sehingga rekomendasi pada kelompok nasabah ini adalah dengan menawarkan produk-produk investasi atau perbankan yang berkualitas tinggi.


In [None]:
# Menampilkan analisis deskriptif minimal mean, min dan max untuk fitur numerik.
# Silakan menambahkan fungsi agregasi lainnya untuk experience lebih baik.
# pastikan output menghasilkan agregasi dan groupby bersamaan dengan mean, min, dan max.
cluster_analysis = df_scaled.groupby('Cluster').agg(['mean', 'min', 'max'])
cluster_analysis

## Menjelaskan karakteristik tiap cluster berdasarkan rentangnya.
1. **Cluster 1: (___)**:
  - **Rata-rata (mean) <Fitur>:** <Sebelum inverse> <Setelah inverse>
  - **Analisis:** Cluster ini ...

# **6. Mengeksport Data**

1. Simpan nama kolom hasil clustering dengan nama `Target`.
2. Simpan hasilnya ke dalam file CSV menggunakan function `to_csv()`.

In [None]:
# Pastikan nama kolom clustering sudah diubah menjadi Target
df_scaled = df_scaled.rename(columns={'Cluster': 'Target'})

In [None]:
# Simpan Data
# ___.to_csv('data_clustering.csv', index=False)
df_scaled.to_csv('data_clustering.csv', index=False)

(Opsional) Interpretasi Hasil Clustering [Skilled]

**Biarkan kosong jika tidak menerapkan kriteria skilled**

In [None]:
# inverse dataset ke rentang normal untuk numerikal
# df[numerical_cols] = <nama_scaler>.inverse_transform(df[numerical_cols])
# tampilkan dataset yang sudah di-inverse
# ___.head()
df_inverse = df_scaled.copy()
df_inverse[numeric_cols] = scaler.inverse_transform(df_scaled[numeric_cols])
df_inverse.head()

In [None]:
# inverse dataset yang sudah diencode ke kategori aslinya.
# Lengkapi kode berikut jika ingin menerapkan kriteria ini (silakan hapus simbol pagar pada kode yang akan digunakan.)
# for ___ in categorical_cols:
#     ___ = encoders[col]
#     df[col] = ___.inverse_transform(df_inverse[col].astype(int))
# tampilkan dataset yang sudah di-inverse
# ___.head()
for col in categorical_cols:
    le = label_encoders[col]
    df_inverse[col] = le.inverse_transform(df_inverse[col].astype(int))

df_inverse.head()

In [None]:
# Lakukan analisis deskriptif minimal mean, min dan max untuk fitur numerik dan mode untuk kategorikal seperti pada basic tetapi menggunakan data yang sudah diinverse.
# pastikan output menghasilkan agregasi dan groupby bersamaan dengan mean, min, dan max kembali setelah melakukan inverse.
cluster_analysis_inverse = df_inverse.groupby('Target').agg({
    'TransactionAmount': ['mean', 'min', 'max'],
    'AccountBalance': ['mean', 'min', 'max'],
    'CustomerAge': ['mean', 'min', 'max']
})
cluster_analysis_inverse

## Menjelaskan karakteristik tiap cluster berdasarkan rentangnya setelah inverse.
1. **Cluster 1: (___)**:
  - **Rata-rata (mean) <Fitur>:** <Sebelum inverse> <Setelah inverse>
  - **Analisis:** Cluster ini ...

(Opsional) Interpretasi Hasil Clustering [Advanced]

**Biarkan kosong jika tidak menerapkan kriteria advanced**

In [None]:
# Mengintegrasikan kembali data yang telah di-inverse dengan hasil cluster.
# Gabungkan data inverse dengan hasil cluster
df_final = df_inverse.copy()
df_final['Cluster'] = clusters

# Analisis karakteristik setiap cluster
cluster_analysis = df_final.groupby('Cluster').agg({
    'TransactionAmount': ['mean', 'min', 'max', 'count'],
    'AccountBalance': ['mean', 'min', 'max'],
    'CustomerAge': ['mean', 'min', 'max'],
    'TransactionDuration': ['mean'],
    'LoginAttempts': ['mean'],
    'TransactionType': lambda x: x.mode()[0] if not x.mode().empty else 'N/A',
    'Channel': lambda x: x.mode()[0] if not x.mode().empty else 'N/A',
    'CustomerOccupation': lambda x: x.mode()[0] if not x.mode().empty else 'N/A'
})

# Tampilkan analisis cluster
print("ANALISIS KARAKTERISTIK CLUSTER:")
print("=" * 60)
for cluster_id in sorted(df_final['Cluster'].unique()):
    cluster_data = cluster_analysis.loc[cluster_id]
    print(f"\nCLUSTER {cluster_id + 1}:")
    print("-" * 40)
    print(f"Jumlah data: {cluster_data[('TransactionAmount', 'count')]:.0f}")
    print(f"Rata-rata TransactionAmount: ${cluster_data[('TransactionAmount', 'mean')]:.2f}")
    print(f"Rata-rata AccountBalance: ${cluster_data[('AccountBalance', 'mean')]:.2f}")
    print(f"Rata-rata CustomerAge: {cluster_data[('CustomerAge', 'mean')]:.1f} tahun")
    print(f"TransactionType paling umum: {cluster_data[('TransactionType', '<lambda>')]}")
    print(f"Channel paling umum: {cluster_data[('Channel', '<lambda>')]}")
    print(f"Occupation paling umum: {cluster_data[('CustomerOccupation', '<lambda>')]}")

In [None]:
# Simpan Data
# ___.to_csv('data_clustering_inverse.csv', index=False)
df_inverse.to_csv('data_clustering_inverse.csv', index=False)

End of Code.