# Data Preprocessing Assignment
> **Due Date**: 8 Maret 2025  

## Instruksi  
- Selesaikan semua latihan dalam notebook ini  
- Biarkan semua sel kode yang ada dan tambahkan solusi Kalian di area yang telah ditentukan  
- Tambahkan comment pada kode Kalian untuk menjelaskan kode tersebut
- Kalian boleh menggunakan sumber eksternal, tetapi pekerjaan harus merupakan hasil sendiri  
- Jika ada pertanyaan, hubungi panitia

## Setup
Run this cell to import required libraries:

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import LabelEncoder, OneHotEncoder, OrdinalEncoder, StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Visualisasi
plt.style.use('ggplot')
sns.set(style="whitegrid")

# Suppress warnings
import warnings
warnings.filterwarnings('ignore')

## Part 1: Handling Missing Values

### Exercise 1.1: Identifying Missing Values
Kita akan memulai dengan dataset sederhana yang berisi informasi tentang karyawan.

In [None]:
# Load the dataset
employee_data = {
    'Employee_ID': [101, 102, 103, 104, 105, 106, 107, 108, 109, 110],
    'Name': ['Ghaza', 'Irul', 'Hilmi', 'Yasin', 'Fajar', 'Pieter', 'Toni', 'Radit', 'Afe', 'Rafly'],
    'Department': ['IT', 'HR', 'Finance', 'IT', None, 'Finance', 'HR', None, 'IT', 'Finance'],
    'Salary': [5000, None, 4500, 5500, 4000, None, 4200, 5100, None, 4800],
    'Age': [28, 35, None, 42, 31, 45, None, 36, 29, None],
    'Experience': [3, 7, 5, None, 2, 10, 4, None, 6, 8]
}

employees = pd.DataFrame(employee_data)
print("Employee DataFrame:")
display(employees)

**Tasks:**
1. Temukan jumlah total nilai yang hilang di seluruh dataset.  
2. Identifikasi kolom mana yang memiliki nilai hilang terbanyak.  
3. Hitung persentase nilai yang hilang pada kolom 'Age'.  
4. Buat visualisasi yang menunjukkan jumlah nilai hilang untuk setiap kolom.

In [None]:
# Your code here

### Exercise 1.2: Handling Missing Values
Sekarang, mari tangani nilai yang hilang menggunakan berbagai teknik.

**Tasks:**
1. Lakukan Imputasi pada nilai null pada data 
2. Hitung statistik (mean, median, standar deviasi) untuk kolom numerik sebelum dan sesudah imputasi.  
3. Buat visualisasi yang membandingkan distribusi nilai sebelum dan sesudah imputasi untuk setiap kolom numerik.  
4. Tulis analisis singkat (2-3 kalimat) yang menjelaskan apakah metode imputasi berhasil mempertahankan distribusi data yang mendasarinya.

In [None]:
# Your code here

'''
[Your analysis here]
'''

## Part 2: Dealing with Outliers

### Exercise 2.1: Detecting Outliers with Z-Score
dataset yang berisi informasi transaksi pelanggan.

In [None]:
# Generate dataset
np.random.seed(42)
n = 100
transaction_data = {
    'Customer_ID': range(1, n+1),
    'Purchase_Amount': np.random.normal(500, 100, n).tolist(),
    'Items_Purchased': np.random.poisson(5, n).tolist(),
    'Time_Spent_Minutes': np.random.gamma(5, 10, n).tolist()
}

# Tambah outliers
transaction_data['Purchase_Amount'][10] = 2000
transaction_data['Purchase_Amount'][50] = 1500
transaction_data['Items_Purchased'][30] = 25
transaction_data['Time_Spent_Minutes'][70] = 200

transactions = pd.DataFrame(transaction_data)
print("Transaction DataFrame:")
display(transactions.head())

# Basic statistics
print("\nBasic Statistics:")
display(transactions.describe())

**Tasks:**
1. Implementasikan fungsi untuk menghitung Z-score pada sebuah kolom tertentu.  
2. Terapkan fungsi ini untuk mengidentifikasi outlier pada kolom 'Purchase_Amount', 'Items_Purchased', dan 'Time_Spent_Minutes'  
   (gunakan ambang batas Z-score > 3 atau < -3).  
3. Buat diagram box plot untuk setiap kolom tersebut, dengan menyoroti nilai outlier.  
4. Hitung persentase data yang merupakan outlier untuk setiap kolom.

In [None]:
# Your code here

### Exercise 2.2: Treating Outliers
Sekarang, mari tangani outlier ini dengan metode yang berbeda

**Tasks:**
**Tugas:**  
1. Buat tiga salinan dari dataframe transaksi:  
   - Pada salinan pertama, hapus semua baris yang mengandung outlier.  
   - Pada salinan kedua, batasi nilai outlier pada ambang batas (winsorization).  
   - Pada salinan ketiga, ganti nilai outlier dengan median dari kolom tersebut.  
2. Hitung statistik ringkasan untuk setiap versi dataset.  
3. Buat visualisasi yang membandingkan distribusi setiap kolom di antara ketiga metode tersebut.  
4. Diskusikan dalam 3-4 kalimat metode mana yang paling sesuai untuk dataset ini dan alasan di baliknya.

In [None]:
# Your code here

'''
[Your discussion here]
'''

## Part 3: Data Encoding

### Exercise 3.1: Encoding Categorical Data
Dataset yang berisi informasi tentang produk.

In [None]:
# Create dataset
product_data = {
    'Product_ID': ['P001', 'P002', 'P003', 'P004', 'P005', 'P006', 'P007', 'P008', 'P009', 'P010'],
    'Category': ['Electronics', 'Clothing', 'Home', 'Electronics', 'Food', 'Clothing', 'Home', 'Food', 'Electronics', 'Clothing'],
    'Quality_Rating': ['High', 'Medium', 'Low', 'High', 'Medium', 'High', 'Medium', 'Low', 'Medium', 'High'],
    'Shipping': ['Express', 'Standard', 'Express', 'Express', 'Standard', 'Express', 'Standard', 'Standard', 'Express', 'Standard'],
    'Price': [1200, 89, 299, 850, 24, 120, 450, 35, 780, 75]
}

products = pd.DataFrame(product_data)
print("Products DataFrame:")
display(products)

**Tasks:**
1. Terapkan label encoding pada kolom 'Shipping'.  
2. Terapkan one-hot encoding pada kolom 'Category'.  
3. Terapkan ordinal encoding pada kolom 'Quality_Rating' (Rendah < Sedang < Tinggi).  
4. Buat dataframe baru yang menggabungkan semua hasil encoding dengan tepat.  
5. Visualisasikan hubungan antara 'Price' dan setiap variabel kategori yang telah diencoding.

In [None]:
# Your code here

## Part 4: Feature Engineering and Scaling

### Exercise 4.1: Feature Scaling
Dataset yang berisi informasi tentang rumah-rumah.

In [None]:
# Generate dataset
np.random.seed(42)
n = 150
house_data = {
    'Size_sqft': np.random.normal(2000, 500, n).astype(int), ## sqft == square foot
    'Price': np.random.normal(300000, 75000, n).astype(int),
    'Distance_to_City_km': np.random.gamma(10, 2, n),
    'Age_years': np.random.poisson(25, n),
    'Rooms': np.random.poisson(4, n) + 1
}

houses = pd.DataFrame(house_data)
print("Houses DataFrame:")
display(houses.head())

# Basic statistics
print("\nBasic Statistics:")
display(houses.describe())

**Tasks:**
1. Terapkan StandardScaler pada semua kolom numerik.  
2. Buat pair plot yang menunjukkan hubungan antara variabel sebelum dan sesudah scaling.  
3. Hitung matriks korelasi untuk data asli dan data yang telah di-scaling.  
4. Buat heatmap untuk memvisualisasikan kedua matriks korelasi.  
5. Jelaskan dalam 2-3 kalimat perbedaan yang Anda amati dan mengapa perbedaan tersebut terjadi (atau tidak terjadi).

In [None]:
# Your code here

'''
[Your explanation here]
'''

### Exercise 4.2: Feature Engineering (15 points)
Sekarang, mari kita buat beberapa fitur baru yang mungkin dapat membantu dalam memprediksi harga rumah.

**Tasks:**  
1. Buat fitur baru berikut:  
   - Harga per meter persegi  
   - Kepadatan ruangan (jumlah ruangan per meter persegi)  
   - Kategori usia rumah (kelompokkan usia menjadi: Baru (0-5 tahun), Relatif Baru (6-15 tahun), Mapan (16-30 tahun), Tua (31+ tahun))  
   - Kategori jarak (kelompokkan jarak menjadi: Dekat (0-5 km), Sedang (6-15 km), Jauh (16+ km))  
2. Visualisasikan hubungan antara setiap fitur baru dengan harga rumah  
3. Hitung korelasi antara setiap fitur baru dengan harga rumah

In [None]:
# Your code here

'''
[Your comparison and discussion here]
'''

## Submission Instructions
1. Pastikan Anda telah menyelesaikan semua bagian tugas.  
2. Simpan notebook dengan format nama file: `DataPrep_Assignment_Nama.ipynb`.  
3. Kirimkan melalui link form yang telah disediakan paling lambat 8 Maret 2025.  
4. Tambahkan catatan dalam sel teks di bawah ini.(optional)

[Your notes here]