# Data Preprocessing

## 1. Pendahuluan


---

### 1.1 Pengertian Data Preprocessing

**Data preprocessing** merupakan proses fundamental dalam data science yang bertujuan untuk mengubah data mentah (raw data) menjadi format yang bersih, terstruktur, dan siap untuk analisis lebih lanjut. 

Dalam konteks machine learning, data preprocessing adalah tahap kritis yang menentukan keberhasilan model. Data yang tidak diproses dengan baik dapat menyebabkan model belajar pola yang salah, menghasilkan prediksi yang tidak akurat, dan pada akhirnya gagal memberikan insight yang bermakna.


### 1.2 Pentingnya Data Preprocessing

- **Meningkatkan Kualitas Model**: Data yang bersih dan terstruktur memungkinkan model machine learning belajar pola yang lebih akurat
- **Menghindari Bias dan Error**: Preprocessing membantu mengidentifikasi dan menangani anomaly, outlier, dan bias dalam data
- **Optimasi Performa**: Data yang telah direduksi dan dinormalisasi dapat mempercepat proses training
- **Memastikan Konsistensi**: Standardisasi format data memastikan konsistensi across different data sources

---

## 2. Tahapan Data Preprocessing


### 2.1 Data Cleaning (Pembersihan Data)

#### Menangani Missing Values
- **Penghapusan Data**: Cocok untuk dataset besar dimana missing values hanya sebagian kecil
- **Imputasi Statistik**: Mengisi nilai yang hilang dengan mean/median (numerik) atau mode (kategorikal)
- **Advanced Imputation**: Menggunakan machine learning algorithms untuk memprediksi missing values

#### Menangani Outliers
**Deteksi Outliers**:
- Metode Statistik: Z-score, IQR (Interquartile Range)
- Visualisasi: Box plots, scatter plots
- Machine Learning: Isolation Forest, DBSCAN clustering, ABOD, LOF

**Penanganan Outliers**:
- Removal: Untuk outliers yang jelas merupakan kesalahan
- Capping: Membatasi nilai outliers pada batas tertentu
- Transformation: Menggunakan log transformation

### 2.2 Data Transformation

#### Normalization dan Standardization
- **Min-Max Scaling**: Mengubah skala data ke range [0, 1] atau [-1, 1]
- **Z-score Standardization**: Transformasi data sehingga memiliki mean = 0 dan standard deviation = 1

#### Encoding Categorical Data
- **One-Hot Encoding**: Mengubah categorical variables menjadi binary vectors
- **Label Encoding**: Mengassign numerical values kepada categories
- **Target Encoding**: Menggunakan mean of target variable untuk setiap category

#### Feature Engineering
- **Polynomial Features**: Membuat interaction terms dan polynomial terms
- **Binning**: Mengubah continuous variables menjadi categorical bins
- **Domain-Specific Features**: Membuat features berdasarkan domain knowledge

### 2.3 Data Reduction

#### Dimensionality Reduction
- **Principal Component Analysis (PCA)**: Linear transformation yang mengurangi dimensionality
- **t-SNE dan UMAP**: Nonlinear techniques untuk visualisasi
- **Feature Selection**: Filter Methods, Wrapper Methods, Embedded Methods

#### Dataset Reduction
- **Sampling Techniques**: Random sampling, Stratified sampling
- **Aggregation**: Mengaggregate data ke level yang lebih tinggi

---


## 3. Best Practices dan Tips Praktis

### Workflow Management
- **Reproducibility**: Selalu dokumentasikan semua preprocessing steps
- **Pipeline Development**: Bangun automated pipelines untuk konsistensi
- **Version Control**: Gunakan version control untuk preprocessing scripts

### Common Pitfalls
- **Data Leakage**: Hindari menggunakan information dari test set dalam preprocessing
- **Over-engineering**: Jangan membuat features yang terlalu complex
- **Ignoring Domain Context**: Selalu pertimbangkan domain knowledge

### Validation Strategies
- **Cross-validation**: Implementasikan preprocessing dalam setiap cross-validation fold
- **Monitoring**: Terus monitor impact of preprocessing pada model performance

---

## 4. Kesimpulan

**Data preprocessing** bukanlah tugas tunggal, melainkan serangkaian langkah penting yang saling terkait untuk memastikan data siap digunakan. Dari pembersihan data mentah hingga transformasi dan reduksi, setiap tahap memainkan peran vital dalam membangun fondasi yang kuat untuk analisis data dan machine learning. Mengabaikan proses ini sering kali menjadi penyebab utama kegagalan proyek data science. Oleh karena itu, pemahaman yang mendalam tentang setiap tahapan dan teknik di dalamnya adalah kunci untuk menghasilkan model yang akurat, efisien, dan andal.

In [1]:
%pip install -q pycaret pandas sqlalchemy
import pandas as pd
from sqlalchemy import create_engine

Note: you may need to restart the kernel to use updated packages.


In [6]:

host ="localhost"
password = "root"
port = "5432"
usn = "postgres"

# --- Koneksi ke DB1 (sepal) ---
conn1 = create_engine(f"postgresql+psycopg2://{usn}:{password}@{host}:{port}/iris-1")

# --- Koneksi ke DB2 (petal) ---
conn2 = create_engine(f"postgresql+psycopg2://{usn}:{password}@{host}:{port}/iris-2")

# --- Ambil data dari masing-masing database ---
iris_sepal = pd.read_sql(
    "SELECT * FROM iris_sepal",
    conn1
)

iris_petal = pd.read_sql(
    "SELECT * FROM iris_petal",
    conn2
)

# --- Gabungkan ---
iris_full = pd.concat([iris_sepal, iris_petal], axis=1)

# --- Simpan ke CSV ---
iris_full.to_csv("csv/iris_full.csv", index=False)

# --- Cek hasil ---
iris_full.head()


Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
