<a href="https://colab.research.google.com/github/Dwinurcahyo2/Data-Mining-Lanjut/blob/main/UAS_data_mining_lanjut.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**UAS DATA MINING LANJUT**

In [14]:
# src/01_convert_to_csv.py

import os
import wfdb
import pandas as pd
from tqdm import tqdm

# Path base di Google Colab
BASE_DIR = "/content"
DATA_DIR = os.path.join(BASE_DIR, 'data')
OUTPUT_CSV_DIR = os.path.join(BASE_DIR, 'output', 'csv')

# Daftar dataset dan nama foldernya
DATASETS = {
    'arrhythmia': 'mit-bih-arrhythmia-database-1.0.0',
    'noise': 'mit-bih-noise-stress-test-database-1.0.0'
}

def convert_all_records_to_csv():
    print("Memulai proses konversi data mentah ke CSV...")
    os.makedirs(OUTPUT_CSV_DIR, exist_ok=True)

    all_records_paths = []

    # Kumpulkan semua path rekaman dari kedua dataset
    for db_name, folder_name in DATASETS.items():
        db_path = os.path.join(DATA_DIR, folder_name)
        if not os.path.isdir(db_path):
            print(f"Peringatan: Folder dataset '{folder_name}' tidak ditemukan di '{DATA_DIR}'.")
            continue

        # Cari semua file .hea untuk mendapatkan nama rekaman
        records = [f.replace('.hea', '') for f in os.listdir(db_path) if f.endswith('.hea')]
        for rec in records:
            all_records_paths.append({
                'path': os.path.join(db_path, rec),
                'name': rec,
                'db': db_name
            })

    if not all_records_paths:
        print("Tidak ada rekaman yang ditemukan. Pastikan data sudah diekstrak ke folder 'data'.")
        return

    print(f"Ditemukan {len(all_records_paths)} total rekaman untuk diproses.")

    for record_info in tqdm(all_records_paths, desc="Mengonversi ke CSV"):
        try:
            record_path = record_info['path']
            record_name = record_info['name']

            # Membaca sinyal dan metadata
            signals, fields = wfdb.rdsamp(record_path)

            # Membuat DataFrame
            df = pd.DataFrame(signals, columns=fields['sig_name'])

            # Menyimpan ke CSV
            output_filename = f"{record_info['db']}_{record_name}.csv"
            output_path = os.path.join(OUTPUT_CSV_DIR, output_filename)
            df.to_csv(output_path, index=False)

        except Exception as e:
            print(f"Gagal memproses {record_name}: {e}")

    print(f"\nProses konversi selesai. File CSV disimpan di: {OUTPUT_CSV_DIR}")

# Jalankan fungsi
convert_all_records_to_csv()


Memulai proses konversi data mentah ke CSV...
Ditemukan 63 total rekaman untuk diproses.


Mengonversi ke CSV: 100%|██████████| 63/63 [01:19<00:00,  1.26s/it]


Proses konversi selesai. File CSV disimpan di: /content/output/csv





In [13]:
import zipfile

# Path zip file kedua
noise_zip_path = "/content/data/mit-bih-noise-stress-test-database-1.0.0.zip"
extract_path = "/content/data"

# Ekstrak zip file
with zipfile.ZipFile(noise_zip_path, 'r') as zip_ref:
    zip_ref.extractall(extract_path)


In [6]:
import os

# Buat folder 'data' jika belum ada
os.makedirs("data", exist_ok=True)


Filtering (Preprocessing)

In [25]:
from scipy.signal import iirnotch, filtfilt
import os
import pandas as pd

# Path ke folder CSV
OUTPUT_CSV_DIR = "/content/output/csv"

# Ambil daftar file CSV
csv_files = [f for f in os.listdir(OUTPUT_CSV_DIR) if f.endswith('.csv')]

if not csv_files:
    print(f"Tidak ada file CSV ditemukan di {OUTPUT_CSV_DIR}. Harap jalankan sel konversi terlebih dahulu.")
else:
    # Pilih salah satu file CSV untuk contoh
    sample_csv_path = os.path.join(OUTPUT_CSV_DIR, csv_files[0])
    print(f"Menggunakan file CSV contoh: {sample_csv_path}")

    # Membaca file CSV
    df_sample = pd.read_csv(sample_csv_path)

    # Pilih kolom sinyal untuk filtering (misal kolom pertama)
    if not df_sample.empty and len(df_sample.columns) > 0:
        original_signal = df_sample.iloc[:, 0].values # Ambil data dari kolom pertama sebagai numpy array
        print(f"Memuat sinyal dengan {len(original_signal)} sampel.")

        # Notch filter untuk menghilangkan 50 Hz (PLI)
        fs = 360  # sampling rate (sesuai metadata MIT-BIH)
        f0 = 50  # frekuensi derau (Power Line Interference)
        Q = 30  # kualitas filter
        b, a = iirnotch(f0, Q, fs)

        # Melakukan filtering
        filtered_signal = filtfilt(b, a, original_signal)

        print("Filtering selesai.")
        # Sekarang 'filtered_signal' berisi sinyal yang sudah difilter
        # Anda bisa menampilkan atau menganalisis 'filtered_signal'

    else:
        print(f"File CSV {sample_csv_path} kosong atau tidak memiliki kolom.")

Menggunakan file CSV contoh: /content/output/csv/noise_118e12.csv
Memuat sinyal dengan 650000 sampel.
Filtering selesai.


Ekstraksi Ciri Derau

In [26]:
import numpy as np

def extract_features(signal, fs=360):
    freq_spectrum = np.abs(np.fft.fft(signal))
    energy = np.sum(signal**2)
    variance = np.var(signal)
    return {
        "energy": energy,
        "variance": variance,
        "spectrum_peak": np.argmax(freq_spectrum[:len(freq_spectrum)//2])
    }


Klasifikasi Derau


In [32]:
from sklearn.ensemble import RandomForestClassifier
# Assuming X_train and y_train are already defined from previous steps (e.g., data splitting)

# X = data fitur, y = label noise
clf = RandomForestClassifier()
clf.fit(X_train, y_train)

## Preprocessing

### Subtask:
Fix the `NameError: name 'X_train' is not defined` by adding data splitting code.


In [29]:
# src/04_split_data.py

from sklearn.model_selection import train_test_split
import pandas as pd
import os

# Path ke folder CSV yang difilter atau folder fitur jika sudah disimpan
# Untuk saat ini, kita akan menggunakan data contoh yang difilter dari langkah sebelumnya
# Namun, dalam skenario nyata, Anda perlu mengumpulkan semua fitur dari semua file CSV
# dan membuat dataset X dan y yang lengkap.

# Placeholder: Dalam implementasi lengkap, Anda akan memiliki DataFrame X (fitur)
# dan Series/array y (label). Untuk demonstrasi perbaikan error, kita akan
# membuat data dummy atau menggunakan data contoh yang ada jika memungkinkan.

# Asumsi: Misalkan kita telah mengumpulkan fitur ke dalam DataFrame `X`
# dan label ke dalam Series `y`.
# Karena langkah pengumpulan fitur dari semua file CSV belum dilakukan secara eksplisit
# dalam notebook ini, kita akan membuat data dummy untuk mendemonstrasikan pembagian data.

# --- Mulai Bagian Dummy Data ---
# Dalam skenario nyata, ini akan digantikan dengan proses pengumpulan fitur dari semua file.
print("Membuat data dummy untuk demonstrasi pembagian data...")

# Jumlah sampel dummy
n_samples = 100

# Jumlah fitur dummy
n_features = 3

# Membuat fitur dummy (misal: energi, variansi, puncak spektrum)
X_dummy = pd.DataFrame(np.random.rand(n_samples, n_features), columns=['energy', 'variance', 'spectrum_peak'])

# Membuat label dummy (misal: 0 untuk 'bukan derau', 1 untuk 'derau')
y_dummy = pd.Series(np.random.randint(0, 2, n_samples), name='noise_label')

X = X_dummy
y = y_dummy
# --- Akhir Bagian Dummy Data ---

print(f"Ukuran dataset fitur (X): {X.shape}")
print(f"Ukuran dataset label (y): {y.shape}")


# Pembagian data menjadi set pelatihan dan pengujian
# Membagi data menjadi 80% pelatihan dan 20% pengujian
# random_state digunakan agar hasil pembagian konsisten setiap kali dijalankan
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print("\nPembagian data selesai.")
print(f"Ukuran set pelatihan (X_train): {X_train.shape}")
print(f"Ukuran set pengujian (X_test): {X_test.shape}")
print(f"Ukuran label pelatihan (y_train): {y_train.shape}")
print(f"Ukuran label pengujian (y_test): {y_test.shape}")

# Sekarang variabel X_train dan y_train sudah terdefinisi dan siap digunakan
# untuk melatih model klasifikasi di sel berikutnya.

Membuat data dummy untuk demonstrasi pembagian data...
Ukuran dataset fitur (X): (100, 3)
Ukuran dataset label (y): (100,)

Pembagian data selesai.
Ukuran set pelatihan (X_train): (80, 3)
Ukuran set pengujian (X_test): (20, 3)
Ukuran label pelatihan (y_train): (80,)
Ukuran label pengujian (y_test): (20,)


## Classification

### Subtask:
Melatih model klasifikasi menggunakan data latih.


**Reasoning**:
Train the Random Forest classifier using the training data.



In [30]:
# src/05_train_model.py

# Impor kelas RandomForestClassifier (sudah diimpor sebelumnya, tidak perlu impor lagi)
# from sklearn.ensemble import RandomForestClassifier

# Inisialisasi objek RandomForestClassifier
clf = RandomForestClassifier(random_state=42) # Menambahkan random_state untuk hasil yang konsisten

# Latih model klasifikasi menggunakan data pelatihan
clf.fit(X_train, y_train)

print("Model RandomForestClassifier berhasil dilatih.")

Model RandomForestClassifier berhasil dilatih.


## Testing & evaluation

### Subtask:
Menguji model yang sudah dilatih menggunakan data uji dan mengevaluasi performanya.


In [31]:
# src/06_evaluate_model.py

from sklearn.metrics import accuracy_score, classification_report

# 1. Lakukan prediksi pada data uji X_test
y_pred = clf.predict(X_test)

print("Prediksi pada data uji selesai.")

# 2. Hitung akurasi model
accuracy = accuracy_score(y_test, y_pred)

# 3. Cetak nilai akurasi
print(f"\nAccuracy: {accuracy:.4f}")

# 4. Hitung dan cetak metrik lain (precision, recall, F1-score)
print("\nClassification Report:")
print(classification_report(y_test, y_pred))

Prediksi pada data uji selesai.

Accuracy: 0.5000

Classification Report:
              precision    recall  f1-score   support

           0       0.75      0.43      0.55        14
           1       0.33      0.67      0.44         6

    accuracy                           0.50        20
   macro avg       0.54      0.55      0.49        20
weighted avg       0.62      0.50      0.52        20



In [33]:
import os

OUTPUT_CSV_DIR = "/content/output/csv"

# Ambil daftar file CSV
csv_files = [f for f in os.listdir(OUTPUT_CSV_DIR) if f.endswith('.csv')]

if not csv_files:
    print(f"Tidak ada file CSV ditemukan di {OUTPUT_CSV_DIR}. Pastikan proses konversi data mentah ke CSV sudah berhasil dijalankan.")
else:
    print(f"Ditemukan {len(csv_files)} file CSV di {OUTPUT_CSV_DIR}. Berikut adalah beberapa contoh nama file:")
    # Tampilkan 10 nama file pertama sebagai contoh
    for i, file_name in enumerate(csv_files[:10]):
        print(file_name)

Ditemukan 63 file CSV di /content/output/csv. Berikut adalah beberapa contoh nama file:
noise_118e12.csv
noise_118e_6.csv
arrhythmia_219.csv
noise_em.csv
arrhythmia_202.csv
noise_118e24.csv
arrhythmia_123.csv
arrhythmia_215.csv
noise_119e_6.csv
arrhythmia_207.csv


In [34]:
from scipy.signal import iirnotch, filtfilt
import os
import pandas as pd
from tqdm import tqdm

# Path ke folder CSV input dan output untuk filtered data
INPUT_CSV_DIR = "/content/output/csv"
OUTPUT_FILTERED_CSV_DIR = "/content/output/filtered_csv"

# Buat direktori output jika belum ada
os.makedirs(OUTPUT_FILTERED_CSV_DIR, exist_ok=True)

# Parameter Notch filter (sesuai metadata MIT-BIH)
fs = 360  # sampling rate
f0 = 50  # frekuensi derau (Power Line Interference)
Q = 30  # kualitas filter
b, a = iirnotch(f0, Q, fs)

def apply_notch_filter_to_file(input_filepath, output_filepath):
    """
    Membaca file CSV, menerapkan notch filter ke setiap kolom sinyal,
    dan menyimpan hasilnya ke file CSV baru.
    """
    try:
        df = pd.read_csv(input_filepath)

        # Pastikan DataFrame tidak kosong dan memiliki kolom sinyal
        if df.empty or len(df.columns) == 0:
            print(f"Peringatan: File {input_filepath} kosong atau tidak memiliki kolom. Melewati.")
            return

        # Terapkan filter ke setiap kolom (asumsi semua kolom adalah sinyal)
        # Anda mungkin perlu menyesuaikan ini jika ada kolom non-sinyal
        df_filtered = df.copy()
        for col in df.columns:
            # Pastikan kolom adalah tipe numerik sebelum filtering
            if pd.api.types.is_numeric_dtype(df[col]):
                 df_filtered[col] = filtfilt(b, a, df[col].values)
            else:
                 print(f"Peringatan: Kolom '{col}' di file {input_filepath} bukan numerik. Melewati filtering untuk kolom ini.")


        # Simpan hasil filtering
        df_filtered.to_csv(output_filepath, index=False)

    except Exception as e:
        print(f"Gagal memproses file {input_filepath}: {e}")


# Ambil daftar file CSV dari direktori input
csv_files = [f for f in os.listdir(INPUT_CSV_DIR) if f.endswith('.csv')]

if not csv_files:
    print(f"Tidak ada file CSV ditemukan di {INPUT_CSV_DIR}. Pastikan proses konversi sudah berhasil.")
else:
    print(f"Menerapkan notch filter ke {len(csv_files)} file CSV...")
    # Terapkan filtering ke semua file dengan progress bar
    for file_name in tqdm(csv_files, desc="Menerapkan Filtering"):
        input_path = os.path.join(INPUT_CSV_DIR, file_name)
        output_path = os.path.join(OUTPUT_FILTERED_CSV_DIR, file_name)
        apply_notch_filter_to_file(input_path, output_path)

    print(f"\nProses filtering selesai. File CSV yang difilter disimpan di: {OUTPUT_FILTERED_CSV_DIR}")

Menerapkan notch filter ke 63 file CSV...


Menerapkan Filtering: 100%|██████████| 63/63 [02:59<00:00,  2.86s/it]


Proses filtering selesai. File CSV yang difilter disimpan di: /content/output/filtered_csv





In [None]:
import pandas as pd
import os
import numpy as np
from tqdm import tqdm

# Path ke folder CSV yang sudah difilter
INPUT_FILTERED_CSV_DIR = "/content/output/filtered_csv"

# Path untuk menyimpan file CSV fitur
OUTPUT_FEATURES_CSV = "/content/output/features/extracted_features.csv"

# Buat direktori output untuk fitur jika belum ada
os.makedirs(os.path.dirname(OUTPUT_FEATURES_CSV), exist_ok=True)

# Ambil daftar file CSV dari direktori input yang difilter
filtered_csv_files = [f for f in os.listdir(INPUT_FILTERED_CSV_DIR) if f.endswith('.csv')]

if not filtered_csv_files:
    print(f"Tidak ada file CSV yang difilter ditemukan di {INPUT_FILTERED_CSV_DIR}. Pastikan proses filtering sudah berhasil.")
else:
    print(f"Mengekstraksi fitur dari {len(filtered_csv_files)} file CSV yang difilter...")

    all_features = []

    # Iterasi melalui setiap file CSV yang difilter
    for file_name in tqdm(filtered_csv_files, desc="Mengekstraksi Fitur"):
        input_path = os.path.join(INPUT_FILTERED_CSV_DIR, file_name)

        try:
            df_filtered = pd.read_csv(input_path)

            # Tentukan label berdasarkan nama file (misal: 'arrhythmia_' atau 'noise_')
            # Ini adalah asumsi berdasarkan format nama file dari langkah konversi
            label = 'noise' if 'noise_' in file_name else 'arrhythmia'

            # Pastikan DataFrame tidak kosong dan memiliki kolom sinyal
            if df_filtered.empty or len(df_filtered.columns) == 0:
                print(f"Peringatan: File {input_path} kosong atau tidak memiliki kolom. Melewati.")
                continue

            # Ekstraksi fitur untuk setiap kolom (sinyal) dalam file
            for col in df_filtered.columns:
                 # Pastikan kolom adalah tipe numerik sebelum ekstraksi fitur
                if pd.api.types.is_numeric_dtype(df_filtered[col]):
                    signal_data = df_filtered[col].values

                    # Ekstrak fitur menggunakan fungsi yang sudah ada
                    # Asumsi fungsi extract_features menerima array numpy 1D
                    features = extract_features(signal_data)

                    # Tambahkan metadata (nama file, nama sinyal, label)
                    features['file_name'] = file_name
                    features['signal_name'] = col
                    features['label'] = label # Tambahkan label noise/arrhythmia

                    all_features.append(features)
                else:
                     print(f"Peringatan: Kolom '{col}' di file {input_path} bukan numerik. Melewati ekstraksi fitur untuk kolom ini.")


        except Exception as e:
            print(f"Gagal memproses file {input_path} saat ekstraksi fitur: {e}")

    if all_features:
        # Konversi list of dicts menjadi DataFrame
        features_df = pd.DataFrame(all_features)

        # Simpan DataFrame fitur ke file CSV
        features_df.to_csv(OUTPUT_FEATURES_CSV, index=False)

        print(f"\nProses ekstraksi fitur selesai. Fitur disimpan di: {OUTPUT_FEATURES_CSV}")
        display(features_df.head()) # Tampilkan beberapa baris pertama DataFrame fitur
    else:
        print("\nTidak ada fitur yang berhasil diekstraksi.")