<a href="https://colab.research.google.com/github/fxrdhan/Machine-Learning-Project/blob/main/%5BClustering%5D_Submission_Akhir_BMLP_Firdaus_Arif_Ramadhani_Dataset2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **1. Perkenalan Dataset**


## 1. Tentang Dataset

Dataset ini merupakan data kesehatan yang diekstrak dari database terkomputerisasi yang dibuat oleh Rich Healthcare Group di China. Database ini mencakup seluruh catatan medis dari peserta yang melakukan pemeriksaan kesehatan dari tahun 2010 hingga 2016. Dataset ini dikenal sebagai "Rui-Ci Health Care Data" dan file sumbernya adalah "RC Health Care Data-20180820.xlsx".

## 2. Sumber Dataset

- **Nama Dataset**: Rui-Ci Health Care Data
- **Sumber**: Rich Healthcare Group, China
- **Periode Data**: 2010-2016 (6 tahun)
- **Format File**: RC Health Care Data-20180820.xlsx
- **Tipe Data**: Catatan medis dari pemeriksaan kesehatan
- **Periode Follow-up**: Rata-rata 3.12 tahun per pasienB

### 3.2. Kategori Fitur

#### a) Data Demografis
- Age (y): Usia dalam tahun
- Gender: Jenis kelamin (1: laki-laki, 2: perempuan)
- Site: Lokasi pengambilan data

#### b) Pengukuran Antropometri
- Height (cm): Tinggi badan
- Weight (kg): Berat badan
- BMI (kg/m2): Indeks Massa Tubuh

#### c) Vital Signs
- SBP (mmHg): Tekanan darah sistolik
- DBP (mmHg): Tekanan darah diastolik

#### d) Pengukuran Laboratorium
- FPG (mmol/L): Glukosa plasma puasa
- Cholesterol (mmol/L): Kadar kolesterol
- Triglyceride (mmol/L): Kadar trigliserida
- HDL-c (mmol/L): High-density lipoprotein
- LDL (mmol/L): Low-density lipoprotein
- ALT (U/L): Alanine aminotransferase
- AST (U/L): Aspartate aminotransferase
- BUN (mmol/L): Blood urea nitrogen
- CCR (umol/L): Creatinine clearance rate

## 4. Kesesuaian dengan Kriteria Proyek

- ✅ Memenuhi syarat minimum 2,500 records (84x lipat)
- ✅ Memenuhi syarat minimum 5 features (5x lipat)
- ✅ Data tanpa label yang cocok untuk clustering

Chen, Ying; Zhang, Xiao-Ping; Yuan, Jie et al. (2018). Data from: Association of body mass index and age with incident diabetes in Chinese adults: a population-based cohort study [Dataset]. Dryad. https://doi.org/10.5061/dryad.ft8750v

# **2. Import Library**

In [1]:
!pip install pandas numpy scipy scikit-learn matplotlib seaborn plotly yellowbrick
!pip install factor_analyzer prince tqdm statsmodels
!pip install --upgrade nbformat

Collecting factor_analyzer
  Downloading factor_analyzer-0.5.1.tar.gz (42 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m42.8/42.8 kB[0m [31m2.9 MB/s[0m eta [36m0:00:00[0m
[?25h  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
Collecting prince
  Downloading prince-0.13.1-py3-none-any.whl.metadata (639 bytes)
Downloading prince-0.13.1-py3-none-any.whl (415 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m415.8/415.8 kB[0m [31m16.4 MB/s[0m eta [36m0:00:00[0m
[?25hBuilding wheels for collected packages: factor_analyzer
  Building wheel for factor_analyzer (pyproject.toml) ... [?25l[?25hdone
  Created wheel for factor_analyzer: filename=factor_analyzer-0.5.1-py2.py3-none-any.whl size=42566 sha256=21d0fbd2f4039cdb0e23c9d149f7751f173357d35e49f9759f55c8f610d3d154
  Stored in directory: /root/.cache/pip/wheels/24/59/82/649

In [3]:
# Data Manipulation and Analysis
import pandas as pd
import numpy as np
from scipy import stats
from scipy.spatial.distance import cdist

# Data Preprocessing
from sklearn.preprocessing import StandardScaler, MinMaxScaler, RobustScaler
from sklearn.impute import SimpleImputer, KNNImputer
from sklearn.decomposition import PCA
from sklearn.feature_selection import SelectKBest, f_classif, mutual_info_regression
from sklearn.pipeline import Pipeline

# Clustering Algorithms
from sklearn.cluster import KMeans, DBSCAN, AgglomerativeClustering, MeanShift, estimate_bandwidth
from sklearn.mixture import GaussianMixture
from sklearn.metrics import silhouette_score, calinski_harabasz_score, davies_bouldin_score

# Visualization
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import yellowbrick.cluster as yb_cluster
from yellowbrick.features import ParallelCoordinates

# Statistics and Analysis Tools
from statsmodels.stats.outliers_influence import variance_inflation_factor
from factor_analyzer import FactorAnalyzer
import prince  # for Multiple Correspondence Analysis

# Progress Tracking
from tqdm.notebook import tqdm
import warnings
warnings.filterwarnings('ignore')

# Style Configuration
# plt.style.use('seaborn')
sns.set_style("whitegrid")
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)

# Random Seed for Reproducibility
np.random.seed(42)

# **3. Memuat Dataset**

Pada tahap ini, Anda perlu memuat dataset ke dalam notebook. Jika dataset dalam format CSV, Anda bisa menggunakan pustaka pandas untuk membacanya. Pastikan untuk mengecek beberapa baris awal dataset untuk memahami strukturnya dan memastikan data telah dimuat dengan benar.

Jika dataset berada di Google Drive, pastikan Anda menghubungkan Google Drive ke Colab terlebih dahulu. Setelah dataset berhasil dimuat, langkah berikutnya adalah memeriksa kesesuaian data dan siap untuk dianalisis lebih lanjut.

In [None]:
#Type your code here

# **4. Exploratory Data Analysis (EDA)**

Pada tahap ini, Anda akan melakukan **Exploratory Data Analysis (EDA)** untuk memahami karakteristik dataset. EDA bertujuan untuk:

1. **Memahami Struktur Data**
   - Tinjau jumlah baris dan kolom dalam dataset.  
   - Tinjau jenis data di setiap kolom (numerikal atau kategorikal).

2. **Menangani Data yang Hilang**  
   - Identifikasi dan analisis data yang hilang (*missing values*). Tentukan langkah-langkah yang diperlukan untuk menangani data yang hilang, seperti pengisian atau penghapusan data tersebut.

3. **Analisis Distribusi dan Korelasi**  
   - Analisis distribusi variabel numerik dengan statistik deskriptif dan visualisasi seperti histogram atau boxplot.  
   - Periksa hubungan antara variabel menggunakan matriks korelasi atau scatter plot.

4. **Visualisasi Data**  
   - Buat visualisasi dasar seperti grafik distribusi dan diagram batang untuk variabel kategorikal.  
   - Gunakan heatmap atau pairplot untuk menganalisis korelasi antar variabel.

Tujuan dari EDA adalah untuk memperoleh wawasan awal yang mendalam mengenai data dan menentukan langkah selanjutnya dalam analisis atau pemodelan.

In [None]:
#Type your code here

# **5. Data Preprocessing**

Pada tahap ini, data preprocessing adalah langkah penting untuk memastikan kualitas data sebelum digunakan dalam model machine learning. Data mentah sering kali mengandung nilai kosong, duplikasi, atau rentang nilai yang tidak konsisten, yang dapat memengaruhi kinerja model. Oleh karena itu, proses ini bertujuan untuk membersihkan dan mempersiapkan data agar analisis berjalan optimal.

Berikut adalah tahapan-tahapan yang perlu dilakukan, namun **tidak terbatas** pada:
1. Menghapus atau Menangani Data Kosong (Missing Values)
2. Menghapus Data Duplikat
3. Normalisasi atau Standarisasi Fitur
4. Deteksi dan Penanganan Outlier
5. Encoding Data Kategorikal
6. Binning (Pengelompokan Data)

In [None]:
#Type your code here

# **6. Pembangunan Model Clustering**

## **a. Pembangunan Model Clustering**

Pada tahap ini, Anda membangun model clustering dengan memilih algoritma yang sesuai untuk mengelompokkan data berdasarkan kesamaan. Berikut adalah **rekomendasi** tahapannya.
1. Pilih algoritma clustering yang sesuai.
2. Latih model dengan data menggunakan algoritma tersebut.

In [None]:
#Type your code here

## **b. Evaluasi Model Clustering**

Untuk menentukan jumlah cluster yang optimal dalam model clustering, Anda dapat menggunakan metode Elbow atau Silhouette Score.

Metode ini membantu kita menemukan jumlah cluster yang memberikan pemisahan terbaik antar kelompok data, sehingga model yang dibangun dapat lebih efektif. Berikut adalah **rekomendasi** tahapannya.
1. Gunakan Silhouette Score dan Elbow Method untuk menentukan jumlah cluster optimal.
2. Hitung Silhouette Score sebagai ukuran kualitas cluster.

In [None]:
#Type your code here

## **c. Feature Selection (Opsional)**

Silakan lakukan feature selection jika Anda membutuhkan optimasi model clustering. Jika Anda menerapkan proses ini, silakan lakukan pemodelan dan evaluasi kembali menggunakan kolom-kolom hasil feature selection. Terakhir, bandingkan hasil performa model sebelum dan sesudah menerapkan feature selection.

In [None]:
#Type your code here

## **d. Visualisasi Hasil Clustering**

Setelah model clustering dilatih dan jumlah cluster optimal ditentukan, langkah selanjutnya adalah menampilkan hasil clustering melalui visualisasi.

Berikut adalah **rekomendasi** tahapannya.
1. Tampilkan hasil clustering dalam bentuk visualisasi, seperti grafik scatter plot atau 2D PCA projection.

In [None]:
#Type your code here

## **e. Analisis dan Interpretasi Hasil Cluster**

Setelah melakukan clustering, langkah selanjutnya adalah menganalisis karakteristik dari masing-masing cluster berdasarkan fitur yang tersedia.

Berikut adalah **rekomendasi** tahapannya.
1. Analisis karakteristik tiap cluster berdasarkan fitur yang tersedia (misalnya, distribusi nilai dalam cluster).
2. Berikan interpretasi: Apakah hasil clustering sesuai dengan ekspektasi dan logika bisnis? Apakah ada pola tertentu yang bisa dimanfaatkan?

In [None]:
#Type your code here

Tulis hasil interpretasinya di sini.
1. Cluster 1:
2. Cluster 2:
3. Cluster 3:

# **7. Mengeksport Data**

Simpan hasilnya ke dalam file CSV.