# Outlier Detection dan Clustering

## Data Understanding

Data understanding adalah tahap awal dalam proses pengolahan data yang bertujuan untuk mengenal dan memahami karakteristik data yang dimiliki sebelum dilakukan analisis lebih lanjut. Pada tahap ini, peneliti atau analis akan mengeksplorasi data dengan melihat struktur, tipe variabel, distribusi nilai, pola, serta potensi masalah seperti data hilang, duplikasi, atau outlier. Melalui proses ini, diperoleh wawasan awal mengenai kualitas data dan gambaran informasi yang terkandung di dalamnya, sehingga dapat membantu menentukan langkah persiapan data yang tepat serta strategi analisis yang sesuai.

# Pengumpulan Data

Kali ini saya menggunakan data iris dengan bentuk csv dari sumber https://www.kaggle.com/datasets/uciml/iris. Didalam data tersebut terdapat 6 fitur yaitu id, SepalLengthCm, SepalWidthCm, PetalLengthCm, PetalWidthCm, dan Species. Setelah itu saya pecah data menjadi dua bagian seperti kolom SepalLengthCm dan SepalWidthCm saya taruh di database MySQL dan kolom PetalLengthCm dan PetalWidthCm saya taruh di database PostgreSQL. Lalu saya tarik data dari kedua database tersebut kedalam Power BI menggunakan Python Script didalam Power BI.

1. Install psycopg2 menggunakan pip untuk connector ke database PostgreSQL

```{code}
pip install psycopg2
```

2. Install mysql connector menggunakan pip untuk connector ke database MySQL

```{code}
pip install mysql-connector-python
```

3. Buka Power BI

Lalu pilih (Get data from other source) sebelah kanan atas

![Teks alternatif](img/Screenshot%20(218).png)

Cari "Python Script" lalu pilih "Connect".

![Teks alternatif](img/Screenshot%20(219).png)

lalu masukkan script Python berikut untuk melakukan simulasi pemisahan kolom data:

```{code}
import pandas as pd
import mysql.connector
import psycopg2

# 1. Koneksi ke MySQL
mysql_conn = mysql.connector.connect(
    host="localhost",
    user="root",
    password="",
    database="psd"
)

query_mysql = "SELECT * FROM halfiris"
df_mysql = pd.read_sql(query_mysql, mysql_conn)

# 2. Koneksi ke PostgreSQL
pg_conn = psycopg2.connect(
    host="localhost",
    user="postgres",
    password="1123581321",
    database="psd"
)

query_pg = "SELECT * FROM halfiris"
df_pg = pd.read_sql(query_pg, pg_conn)
```

![Teks alternatif](img/Screenshot%20(220).png)

sebelumnya saya sudah memisahkan data Iris menjadi dua bagian. Bagian kolom id, SepalLengthCm dan SepalWidthCm saya taruh di database MySQL dan kolom id, PetalLengthCm dan PetalWidthCm saya taruh di database PostgreSQL.

Lalu pilih dua tabel hasil return dari Script Python. Setelah itu klik Load. Tunggu data hingga ke-Load.

![Teks alternatif](img/Screenshot%20(221).png)

Pilih (Transform Data) pada ribbon Power BI (bagian atas), lalu pilih lagi "Transform Data".

![Teks alternatif](img/Screenshot%20(230).png)

Lalu pilih "Merge Queries" dan klik "Merge Queries as New".

![Teks alternatif](img/Screenshot%20(224).png)

Pilih id dari kedua data sebagai acuan persamaan antar barisnya. Lalu klik "Ok".

![Teks alternatif](img/Screenshot%20(225).png)

Setelah itu expand tabel df_pg dan jangan pilih kolom id agar kolom id hanya ada satu saja. Lalu pilih "close and apply" dan pilih tab Table view. Setelah itu tampilannya akan seperti berikut:

![Teks alternatif](img/Screenshot%20(226).png)

![Teks alternatif](img/Screenshot%20(229).png)

Maka data akan tergabung. Itulah simulasi menarik data yang terpisah dan menyatukannya di Power BI.

4. Deteksi Outlier dan Clustering

Setelah data ditarik dan digabung kedalam Power BI, kita akan deteksi Outlier dan Clustering menggunakan Python Script. Caranya adalah pilih Visualization menggunakan Python visual.

![Teks alternatif](img/Screenshot%20(231).png)

Lalu pilih semua kolom yang ada.

![Teks alternatif](img/Screenshot%20(232).png)

Setelah itu masukkan script berikut:

```{code}
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
from sklearn.neighbors import LocalOutlierFactor
import matplotlib.pyplot as plt

# 1. Load iris dataset
iris = load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)

# 2. Standarisasi data
scaler = StandardScaler()
X = scaler.fit_transform(df)

# 3. Deteksi outlier dengan KNN (pakai LocalOutlierFactor)
lof = LocalOutlierFactor(n_neighbors=20, contamination=0.05)  
outlier_pred = lof.fit_predict(X)  # -1 = outlier, 1 = normal
df["outlier"] = outlier_pred

# 4. Clustering dengan KMeans (gunakan 4 fitur sekaligus)
kmeans = KMeans(n_clusters=3, random_state=42, n_init=10)
df["cluster"] = kmeans.fit_predict(X)

print(df.head())

# 5. Visualisasi (PCA 2D supaya mudah dilihat)
from sklearn.decomposition import PCA

pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)

plt.figure(figsize=(8,6))
plt.scatter(X_pca[:,0], X_pca[:,1], 
            c=df["cluster"], 
            cmap="viridis", 
            marker="o", 
            edgecolor="k")
plt.scatter(X_pca[outlier_pred==-1,0], 
            X_pca[outlier_pred==-1,1], 
            color="red", 
            marker="x", 
            label="Outlier")
plt.title("KMeans Clustering with Outlier Detection (Iris PCA 2D)")
plt.legend()
plt.show()
```

Lalu klik run.

![Teks alternatif](img/Screenshot%20(233).png)

Tampilan akan seperti berikut:

![Teks alternatif](img/Screenshot%20(235).png)



![Teks alternatif]()

