# **1. Perkenalan Dataset**


In [None]:
# git clone https://github.com/marceloreis/HTI.git

## Tahap Pertama: Mencari dan Menggunakan Dataset Tanpa Label

### 1. Sumber Dataset
Dataset dapat diperoleh dari berbagai sumber, seperti public repositories atau data primer yang Anda kumpulkan sendiri. Contoh sumber dataset:
- [GitHub repo: marceloreis/HTI](https://github.com/marceloreis/HTI.git)

### 2. Ketentuan Dataset
Dataset harus tanpa label, memiliki minimal 1000 baris, dan mengandung data kategorikal serta numerikal.

### 3. Pembatasan
Dataset yang sudah digunakan dalam latihan clustering (seperti customer segmentation) tidak boleh digunakan.

---

### Contoh Dataset

- **Jumlah Baris**: 420,768
- **Jumlah Kolom**: 18

#### Jenis Data di Setiap Kolom:
| Kolom       | Tipe Data |
|-------------|-----------|
| `No`        | int64     |
| `year`      | int64     |
| `month`     | int64     |
| `day`       | int64     |
| `hour`      | int64     |
| `PM2.5`     | float64   |
| `PM10`      | float64   |
| `SO2`       | float64   |
| `NO2`       | float64   |
| `CO`        | float64   |
| `O3`        | float64   |
| `TEMP`      | float64   |
| `PRES`      | float64   |
| `DEWP`      | float64   |
| `RAIN`      | float64   |
| `wd`        | object    |
| `WSPM`      | float64   |
| `station`   | object    |

#### Kolom Numerikal:
- `No`, `year`, `month`, `day`, `hour`, `PM2.5`, `PM10`, `SO2`, `NO2`, `CO`, `O3`, `TEMP`, `PRES`, `DEWP`, `RAIN`, `WSPM`

#### Kolom Kategorikal:
- `wd`, `station`

# **2. Import Library**

In [1]:
import os
import pandas as pd

# **3. Memuat Dataset**

Pada tahap ini, Anda perlu memuat dataset ke dalam notebook. Jika dataset dalam format CSV, Anda bisa menggunakan pustaka pandas untuk membacanya. Pastikan untuk mengecek beberapa baris awal dataset untuk memahami strukturnya dan memastikan data telah dimuat dengan benar.

Jika dataset berada di Google Drive, pastikan Anda menghubungkan Google Drive ke Colab terlebih dahulu. Setelah dataset berhasil dimuat, langkah berikutnya adalah memeriksa kesesuaian data dan siap untuk dianalisis lebih lanjut.

In [None]:
import os
import pandas as pd

# Direktori tempat file CSV berada
data_dir = 'projeck/data'

# List untuk menyimpan DataFrame
df_list = []

# Daftar nama file CSV yang akan dibaca
csv_files = [
    'PRSA_Data_Aotizhongxin_20130301-20170228.csv',
    'PRSA_Data_Changping_20130301-20170228.csv',
    'PRSA_Data_Dingling_20130301-20170228.csv',
    'PRSA_Data_Dongsi_20130301-20170228.csv',
    'PRSA_Data_Guanyuan_20130301-20170228.csv',
    'PRSA_Data_Gucheng_20130301-20170228.csv',
    'PRSA_Data_Huairou_20130301-20170228.csv',
    'PRSA_Data_Nongzhanguan_20130301-20170228.csv',
    'PRSA_Data_Shunyi_20130301-20170228.csv',
    'PRSA_Data_Tiantan_20130301-20170228.csv',
    'PRSA_Data_Wanliu_20130301-20170228.csv',
    'PRSA_Data_Wanshouxigong_20130301-20170228.csv'
]

# Loop melalui semua file dalam daftar
for filename in csv_files:
    file_path = os.path.join(data_dir, filename)
    df = pd.read_csv(file_path)
    df_list.append(df)

# Menggabungkan semua DataFrame menjadi satu
combined_df = pd.concat(df_list, ignore_index=True)

# Mengisi nilai data yang hilang dengan metode interpolasi
combined_df.interpolate(method='linear', inplace=True)

# Menyimpan DataFrame gabungan ke file CSV baru
output_file = os.path.join(data_dir, 'gabungan.csv')
combined_df.to_csv(output_file, index=False)

print(f"Data gabungan telah disimpan di {output_file}")

# **4. Exploratory Data Analysis (EDA)**

Pada tahap ini, Anda akan melakukan **Exploratory Data Analysis (EDA)** untuk memahami karakteristik dataset. EDA bertujuan untuk:

1. **Memahami Struktur Data**
   - Tinjau jumlah baris dan kolom dalam dataset.  
   - Tinjau jenis data di setiap kolom (numerikal atau kategorikal).

2. **Menangani Data yang Hilang**  
   - Identifikasi dan analisis data yang hilang (*missing values*). Tentukan langkah-langkah yang diperlukan untuk menangani data yang hilang, seperti pengisian atau penghapusan data tersebut.

3. **Analisis Distribusi dan Korelasi**  
   - Analisis distribusi variabel numerik dengan statistik deskriptif dan visualisasi seperti histogram atau boxplot.  
   - Periksa hubungan antara variabel menggunakan matriks korelasi atau scatter plot.

4. **Visualisasi Data**  
   - Buat visualisasi dasar seperti grafik distribusi dan diagram batang untuk variabel kategorikal.  
   - Gunakan heatmap atau pairplot untuk menganalisis korelasi antar variabel.

Tujuan dari EDA adalah untuk memperoleh wawasan awal yang mendalam mengenai data dan menentukan langkah selanjutnya dalam analisis atau pemodelan.

Pada tahap ini, Anda akan melakukan **Exploratory Data Analysis (EDA)** untuk memahami karakteristik dataset. EDA bertujuan untuk:

## 1. Memahami Struktur Data
### Penjelasan
- Tinjau jumlah baris dan kolom dalam dataset.
- Tinjau jenis data di setiap kolom (numerikal atau kategorikal).


In [None]:
air_df.head()

In [None]:
# Memahami Struktur Data
def analyze_structure(df):
    # Tinjau jumlah baris dan kolom dalam dataset
    print(f"Jumlah baris: {df.shape[0]}")
    print(f"Jumlah kolom: {df.shape[1]}")
    
    # Tinjau jenis data di setiap kolom
    print("\nJenis data di setiap kolom:")
    print(df.dtypes)
    
    # Tinjau kolom numerikal dan kategorikal
    numerical_cols = df.select_dtypes(include=['float64', 'int64']).columns
    categorical_cols = df.select_dtypes(include=['object']).columns
    
    print("\nKolom numerikal:")
    print(numerical_cols)
    
    print("\nKolom kategorikal:")
    print(categorical_cols)

# Contoh penggunaan fungsi
analyze_structure(air_df)

In [9]:
# Membaca dataset
air_df = pd.read_csv('../projeck/data/gabungan.csv')

# Menampilkan jumlah baris dan kolom
print(f"Jumlah baris: {air_df.shape[0]}")
print(f"Jumlah kolom: {air_df.shape[1]}")

# Menampilkan jenis data di setiap kolom
print(air_df.dtypes)

Jumlah baris: 420768
Jumlah kolom: 18
No           int64
year         int64
month        int64
day          int64
hour         int64
PM2.5      float64
PM10       float64
SO2        float64
NO2        float64
CO         float64
O3         float64
TEMP       float64
PRES       float64
DEWP       float64
RAIN       float64
wd          object
WSPM       float64
station     object
dtype: object


## 2. Menangani Data yang Hilang

### Identifikasi dan Analisis Data yang Hilang

Langkah pertama dalam menangani data yang hilang adalah mengidentifikasi kolom-kolom yang memiliki nilai hilang dan menganalisis seberapa banyak data yang hilang. Kita dapat menggunakan visualisasi untuk mempermudah pemahaman mengenai distribusi data yang hilang.




In [19]:
# Menghitung jumlah dan persentase data yang hilang di setiap kolom
missing_values = df.isnull().sum()
missing_percentage = (missing_values / len(df)) * 100

# Membuat DataFrame untuk menampilkan data yang hilang
missing_data = pd.DataFrame({
    'Missing Values': missing_values,
    'Percentage': missing_percentage
}).sort_values(by='Missing Values', ascending=False)

# Menampilkan kolom yang memiliki data hilang
print(missing_data[missing_data['Missing Values'] > 0])



Empty DataFrame
Columns: [Missing Values, Percentage]
Index: []


In [16]:
# Mengisi nilai data yang hilang dengan metode interpolasi
df.interpolate(method='linear', inplace=True)

  df.interpolate(method='linear', inplace=True)


In [18]:
# Mengisi nilai yang hilang pada kolom 'wd' dengan metode backfill
df['wd'].fillna(method='bfill', inplace=True)

# Menampilkan jumlah dan persentase data yang hilang setelah pengisian
missing_values_after = df.isnull().sum()
missing_percentage_after = (missing_values_after / len(df)) * 100

missing_data_after = pd.DataFrame({
    'Missing Values': missing_values_after,
    'Percentage': missing_percentage_after
}).sort_values(by='Missing Values', ascending=False)

print(missing_data_after[missing_data_after['Missing Values'] > 0])

Empty DataFrame
Columns: [Missing Values, Percentage]
Index: []


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['wd'].fillna(method='bfill', inplace=True)
  df['wd'].fillna(method='bfill', inplace=True)


# **5. Data Preprocessing**

Pada tahap ini, data preprocessing adalah langkah penting untuk memastikan kualitas data sebelum digunakan dalam model machine learning. Data mentah sering kali mengandung nilai kosong, duplikasi, atau rentang nilai yang tidak konsisten, yang dapat memengaruhi kinerja model. Oleh karena itu, proses ini bertujuan untuk membersihkan dan mempersiapkan data agar analisis berjalan optimal.

Berikut adalah tahapan-tahapan yang perlu dilakukan, namun **tidak terbatas** pada:
1. Menghapus atau Menangani Data Kosong (Missing Values)
2. Menghapus Data Duplikat
3. Normalisasi atau Standarisasi Fitur
4. Deteksi dan Penanganan Outlier
5. Encoding Data Kategorikal
6. Binning (Pengelompokan Data)

In [None]:
#Type your code here

# **6. Pembangunan Model Clustering**

## **a. Pembangunan Model Clustering**

Pada tahap ini, Anda membangun model clustering dengan memilih algoritma yang sesuai untuk mengelompokkan data berdasarkan kesamaan. Berikut adalah **rekomendasi** tahapannya.
1. Pilih algoritma clustering yang sesuai.
2. Latih model dengan data menggunakan algoritma tersebut.

In [None]:
#Type your code here

## **b. Evaluasi Model Clustering**

Untuk menentukan jumlah cluster yang optimal dalam model clustering, Anda dapat menggunakan metode Elbow atau Silhouette Score.

Metode ini membantu kita menemukan jumlah cluster yang memberikan pemisahan terbaik antar kelompok data, sehingga model yang dibangun dapat lebih efektif. Berikut adalah **rekomendasi** tahapannya.
1. Gunakan Silhouette Score dan Elbow Method untuk menentukan jumlah cluster optimal.
2. Hitung Silhouette Score sebagai ukuran kualitas cluster.

In [None]:
#Type your code here

## **c. Feature Selection (Opsional)**

Silakan lakukan feature selection jika Anda membutuhkan optimasi model clustering. Jika Anda menerapkan proses ini, silakan lakukan pemodelan dan evaluasi kembali menggunakan kolom-kolom hasil feature selection. Terakhir, bandingkan hasil performa model sebelum dan sesudah menerapkan feature selection.

In [None]:
#Type your code here

## **d. Visualisasi Hasil Clustering**

Setelah model clustering dilatih dan jumlah cluster optimal ditentukan, langkah selanjutnya adalah menampilkan hasil clustering melalui visualisasi.

Berikut adalah **rekomendasi** tahapannya.
1. Tampilkan hasil clustering dalam bentuk visualisasi, seperti grafik scatter plot atau 2D PCA projection.

In [None]:
#Type your code here

## **e. Analisis dan Interpretasi Hasil Cluster**

Setelah melakukan clustering, langkah selanjutnya adalah menganalisis karakteristik dari masing-masing cluster berdasarkan fitur yang tersedia.

Berikut adalah **rekomendasi** tahapannya.
1. Analisis karakteristik tiap cluster berdasarkan fitur yang tersedia (misalnya, distribusi nilai dalam cluster).
2. Berikan interpretasi: Apakah hasil clustering sesuai dengan ekspektasi dan logika bisnis? Apakah ada pola tertentu yang bisa dimanfaatkan?

In [None]:
#Type your code here

Tulis hasil interpretasinya di sini.
1. Cluster 1:
2. Cluster 2:
3. Cluster 3:

# **7. Mengeksport Data**

Simpan hasilnya ke dalam file CSV.