## Cell 1: Impor Library

Pada cell ini dilakukan proses **impor library** yang dibutuhkan untuk analisis:

- **pandas (`pd`)**  
  Digunakan untuk memanipulasi dan menganalisis data, terutama dalam bentuk tabel (DataFrame).

- **sqlalchemy (`create_engine`)**  
  Berfungsi untuk membuat koneksi ke berbagai jenis database, sehingga kita dapat membaca atau menulis data langsung dari/ke database.

- **pycaret.anomaly**  
  Bagian dari library *PyCaret* yang khusus digunakan untuk mendeteksi anomali (outlier detection).  
  Dengan `from pycaret.anomaly import *`, kita mengimpor seluruh fungsi dan modul yang tersedia untuk analisis anomali.

Di akhir cell terdapat perintah:

```python
print("Library berhasil diimpor!")


In [16]:
import pandas as pd
from sqlalchemy import create_engine

# Mengimpor modul dengan alias untuk menghindari konflik
import pycaret.clustering as pyc
import pycaret.anomaly as pya

# --- Konfigurasi dan Muat Data (Tetap Sama) ---
db_user = 'postgres'
db_password = '123456789'  # Ganti dengan password Anda
db_host = 'localhost'
db_port = '5432'
db_name = 'data_iris'
table_name = 'data_iris'

try:
    db_uri = f'postgresql://{db_user}:{db_password}@{db_host}:{db_port}/{db_name}'
    engine = create_engine(db_uri)
    df = pd.read_sql_table(table_name, engine)
    print(f"Dataset berhasil dimuat dari tabel '{table_name}'.")
    display(df.head())
except Exception as e:
    print(f"Terjadi kesalahan: {e}")

Dataset berhasil dimuat dari tabel 'data_iris'.


Unnamed: 0,id,sepal length,sepal width,petal length,petal width
0,1,5.1,3.5,1.4,0.2
1,2,4.9,3.0,1.4,0.2
2,3,4.7,3.2,1.3,0.2
3,4,4.6,3.1,1.5,0.2
4,5,5.0,3.6,1.4,0.2


## Cell 2: Koneksi & Load Data

Pada cell ini dilakukan proses **koneksi ke database PostgreSQL** dan **pengambilan data** ke dalam DataFrame pandas:

1. **Membuat string koneksi database**  
   ```python
   db_connection_str = 'postgresql://postgres:123456789@localhost:5432/data_iris'


In [12]:
# Cell 2: Koneksi & Load Data
# Ganti dengan detail koneksi database Anda
db_connection_str = 'postgresql://postgres:123456789@localhost:5432/data_iris'
db_engine = create_engine(db_connection_str)

# Ganti dengan nama tabel Anda
query = "SELECT * FROM data_iris"

# Membaca data dari PostgreSQL ke dalam pandas DataFrame
data = pd.read_sql(query, db_engine)

print("Data berhasil dimuat dari PostgreSQL.")
print("Dimensi data:", data.shape)
print("Preview data:")
data.head()

Data berhasil dimuat dari PostgreSQL.
Dimensi data: (150, 5)
Preview data:


Unnamed: 0,id,sepal length,sepal width,petal length,petal width
0,1,5.1,3.5,1.4,0.2
1,2,4.9,3.0,1.4,0.2
2,3,4.7,3.2,1.3,0.2
3,4,4.6,3.1,1.5,0.2
4,5,5.0,3.6,1.4,0.2


## Cell 3: Setup PyCaret

Pada cell ini dilakukan **inisialisasi PyCaret Anomaly Detection** dengan fungsi `setup()`.  
Fungsi ini merupakan langkah awal untuk menyiapkan data agar bisa digunakan dalam berbagai model deteksi anomali.

### Rincian parameter yang digunakan:
- **`data`**  
  DataFrame yang berisi dataset hasil dari koneksi PostgreSQL pada cell sebelumnya.

- **`ignore_features = ['id', 'Class']`**  
  Kolom yang diabaikan saat proses pelatihan model.  
  - `id` → Biasanya merupakan identifier unik yang tidak relevan untuk analisis.  
  - `Class` → Kolom label yang tidak digunakan dalam unsupervised anomaly detection.  
  Catatan: Anda dapat mengganti isi daftar ini sesuai kolom yang tidak ingin disertakan, atau mengosongkannya jika semua kolom numerik relevan.

- **`session_id = 123`**  
  Digunakan untuk memastikan *reproducibility* (hasil yang konsisten setiap kali dijalankan), karena mengatur seed random number generator.

### Output
- Saat dijalankan, PyCaret akan menampilkan ringkasan informasi mengenai data, fitur yang digunakan, fitur yang diabaikan, serta detail lain terkait setup environment anomaly detection.  
- Pesan konfirmasi tambahan:
  ```python
  print("Setup PyCaret selesai.")


In [17]:
# Cell 3: Setup PyCaret
# Ganti ['id_column', 'kolom_lain'] dengan nama kolom yang ingin diabaikan
# Jika semua kolom numerik relevan, Anda bisa mengosongkan ignore_features
exp_anomaly = setup(data, 
                    ignore_features = ['id', 'Class'], # Contoh dari dataset iris-full.csv
                    session_id=123) # Hapus 'silent=True'

print("Setup PyCaret selesai.")

Unnamed: 0,Description,Value
0,Session id,123
1,Original data shape,"(150, 5)"
2,Transformed data shape,"(150, 4)"
3,Ignore features,2
4,Numeric features,4
5,Preprocess,True
6,Imputation type,simple
7,Numeric imputation,mean
8,Categorical imputation,mode
9,CPU Jobs,-1


Setup PyCaret selesai.


## Cell 4: Buat Model dan Tandai Outlier

Pada cell ini dilakukan proses **pembuatan model deteksi anomali** menggunakan PyCaret, serta penandaan data yang dianggap outlier.

### 1. Membuat model ABOD
```python
abod_model = create_model('abod')


In [14]:
# Cell 4: Buat Model dan Tandai Outlier
# Membuat model ABOD
abod_model = create_model('abod')

# Menggunakan model untuk mendeteksi outlier di seluruh dataset
results = assign_model(abod_model)

print("Outlier berhasil dideteksi. Kolom 'Anomaly' dan 'Anomaly_Score' ditambahkan.")
results.head()

Outlier berhasil dideteksi. Kolom 'Anomaly' dan 'Anomaly_Score' ditambahkan.


Unnamed: 0,sepal length,sepal width,petal length,petal width,Anomaly,Anomaly_Score
0,5.1,3.5,1.4,0.2,0,-556.251421
1,4.9,3.0,1.4,0.2,0,-400.000928
2,4.7,3.2,1.3,0.2,0,-93.421993
3,4.6,3.1,1.5,0.2,0,-99.229221
4,5.0,3.6,1.4,0.2,0,-82.176201


In [15]:
# Cell 5: Hapus Outlier
# Menampilkan jumlah outlier yang ditemukan
outliers_count = results['Anomaly'].value_counts()
print(f"Total data: {len(results)}")
print(f"Jumlah data normal (inliers): {outliers_count.get(0, 0)}")
print(f"Jumlah data outlier: {outliers_count.get(1, 0)}")

# Membuat DataFrame baru yang hanya berisi data yang BUKAN outlier (Anomaly == 0)
data_bersih = results[results['Anomaly'] == 0]

# Menghapus kolom 'Anomaly' dan 'Anomaly_Score' karena tidak diperlukan lagi
data_bersih = data_bersih.drop(columns=['Anomaly', 'Anomaly_Score'])

print("\nOutlier telah dihapus.")
print(f"Dimensi dataset setelah dibersihkan: {data_bersih.shape}")
data_bersih.head()

Total data: 150
Jumlah data normal (inliers): 142
Jumlah data outlier: 8

Outlier telah dihapus.
Dimensi dataset setelah dibersihkan: (142, 4)


Unnamed: 0,sepal length,sepal width,petal length,petal width
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
