# **1. Perkenalan Dataset**


### 🧾 Dataset Description — Taiwanese Bankruptcy Prediction

**Sumber Dataset:**
Dataset ini berasal dari **Taiwan Economic Journal** untuk periode tahun **1999 hingga 2009**, dan diperoleh dari **UCI Machine Learning Repository**:
🔗 [Taiwanese Bankruptcy Prediction Dataset](https://archive.ics.uci.edu/ml/datasets/Taiwanese+Bankruptcy+Prediction)

**Deskripsi Umum:**
Dataset ini berisi **rasio keuangan perusahaan publik di Taiwan** yang digunakan untuk **memprediksi kemungkinan kebangkrutan (bankruptcy)** suatu perusahaan. Status kebangkrutan ditentukan berdasarkan regulasi bisnis dari **Taiwan Stock Exchange**. Dataset ini sering digunakan dalam penelitian analisis keuangan dan deteksi risiko korporat.

**Tujuan Penggunaan Dataset:**
Membangun model **klasifikasi biner** untuk memprediksi apakah suatu perusahaan berpotensi **bangkrut (1)** atau **tidak bangkrut (0)** berdasarkan indikator keuangan historisnya.

---

### 📊 Informasi Atribut

* **Target (Y)**
  `Bankrupt?` → Kelas target biner (1 = Bangkrut, 0 = Tidak bangkrut)

* **Fitur (X1 – X95)**
  Dataset memiliki **95 fitur input (rasio keuangan)** yang mencakup berbagai aspek:

  * **Profitabilitas** → Return on Assets, Gross Margin, Profit Growth Rate
  * **Likuiditas** → Current Ratio, Quick Ratio, Cash Flow Ratio
  * **Leverage & Solvabilitas** → Debt Ratio, Liability to Equity, Interest Coverage
  * **Aktivitas & Efisiensi** → Asset Turnover, Inventory Turnover, Collection Days
  * **Pertumbuhan & Nilai Saham** → EPS Growth, Book Value per Share
  * **Cash Flow & Modal Kerja** → Cash Flow to Assets, Working Capital Ratio

Setiap fitur direpresentasikan sebagai rasio atau indikator numerik yang mencerminkan kondisi finansial perusahaan.

---

### 📈 Karakteristik Dataset

| Atribut          | Nilai                                                           |
| ---------------- | --------------------------------------------------------------- |
| Jumlah sampel    | ±6.819 perusahaan                                               |
| Jumlah fitur     | 95                                                              |
| Jenis fitur      | Numerik (rasio keuangan)                                        |
| Target           | `Bankrupt?` (0 atau 1)                                          |
| Jenis tugas      | Klasifikasi biner                                               |
| Periode data     | 1999 – 2009                                                     |
| Sumber data      | Taiwan Economic Journal                                         |
| Referensi ilmiah | Liang et al. (2016), *European Journal of Operational Research* |

---

### 📚 Referensi Penelitian

Liang, D., Lu, C.-C., Tsai, C.-F., & Shih, G.-A. (2016).
*Financial Ratios and Corporate Governance Indicators in Bankruptcy Prediction: A Comprehensive Study.*
**European Journal of Operational Research, 252(2), 561–572.**
🔗 [Link Paper](https://www.sciencedirect.com/science/article/pii/S0377221716000412)

# **2. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning atau deep learning.

In [4]:
# Data & Visualisasi
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Pra-pemrosesan & Model ML
from sklearn.preprocessing import MinMaxScaler
from sklearn.model_selection import train_test_split
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense, Dropout

# Utility
import datetime as dt
import warnings
warnings.filterwarnings('ignore')

from sklearn.preprocessing import StandardScaler
from sklearn.metrics import (
    accuracy_score, confusion_matrix, classification_report, roc_auc_score, roc_curve
)
from xgboost import XGBClassifier
import matplotlib.pyplot as plt
import seaborn as sns


# **3. Memuat Dataset**

Pada tahap ini, Anda perlu memuat dataset ke dalam notebook. Jika dataset dalam format CSV, Anda bisa menggunakan pustaka pandas untuk membacanya. Pastikan untuk mengecek beberapa baris awal dataset untuk memahami strukturnya dan memastikan data telah dimuat dengan benar.

Jika dataset berada di Google Drive, pastikan Anda menghubungkan Google Drive ke Colab terlebih dahulu. Setelah dataset berhasil dimuat, langkah berikutnya adalah memeriksa kesesuaian data dan siap untuk dianalisis lebih lanjut.

Jika dataset berupa unstructured data, silakan sesuaikan dengan format seperti kelas Machine Learning Pengembangan atau Machine Learning Terapan

In [None]:
#Type your code here

# **4. Exploratory Data Analysis (EDA)**

Pada tahap ini, Anda akan melakukan **Exploratory Data Analysis (EDA)** untuk memahami karakteristik dataset.

Tujuan dari EDA adalah untuk memperoleh wawasan awal yang mendalam mengenai data dan menentukan langkah selanjutnya dalam analisis atau pemodelan.

In [None]:
#Type your code here

# **5. Data Preprocessing**

Pada tahap ini, data preprocessing adalah langkah penting untuk memastikan kualitas data sebelum digunakan dalam model machine learning.

Jika Anda menggunakan data teks, data mentah sering kali mengandung nilai kosong, duplikasi, atau rentang nilai yang tidak konsisten, yang dapat memengaruhi kinerja model. Oleh karena itu, proses ini bertujuan untuk membersihkan dan mempersiapkan data agar analisis berjalan optimal.

Berikut adalah tahapan-tahapan yang bisa dilakukan, tetapi **tidak terbatas** pada:
1. Menghapus atau Menangani Data Kosong (Missing Values)
2. Menghapus Data Duplikat
3. Normalisasi atau Standarisasi Fitur
4. Deteksi dan Penanganan Outlier
5. Encoding Data Kategorikal
6. Binning (Pengelompokan Data)

Cukup sesuaikan dengan karakteristik data yang kamu gunakan yah. Khususnya ketika kami menggunakan data tidak terstruktur.