## 1. Import Library
Pada Tahap ini kita akan import library yang dibutuhkan

In [None]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder, StandardScaler

## 2. Dowload dan Load Dataset
Mendowload Dataset dari Kaggle,
Lalu memasukkan dataset yang ingin diolah

Di sini kita akan load file CSV, melihat 10 baris pertama, melihat informasi kolom, dan menghitung missing value.

- `pd.read_csv()` — membaca file CSV dan mengembalikan `DataFrame`.
- `df.head(n)` — menampilkan n baris pertama.
- `df.info()` — menampilkan tipe data dan jumlah non-null per kolom.
- `df.isnull().sum()` — menghitung jumlah missing value per kolom.

In [None]:
df = pd.read_csv("dataset_contoh.csv")
print(df)
df.head()

In [None]:
print('=== Preview (first 10 rows) ===')
display(df.head(10))

print('\n=== Info ===')
df.info()

print('\n=== Missing values per column ===')
print(df.isnull().sum())

print('\n=== Numeric summary ===')
display(df.describe(include='number').T)

<!-- 3. EDA -->

## 3. Data Cleaning
Tahapan ini bertujuan untuk memperbaiki kualitas data dengan melakukan beberapa proses:
1. Hapus data duplikat
2. Cek dan tangani missing value
3. Perbaikan format penulisan huruf pada kolom teks
4. Validasi format Email
5. Menangani outlier pada kolom Salary

## a.) Menghapus Duplikat

In [None]:
print("\n=== Jumlah Data Sebelum Menghapus Duplikat ===")
print(len(df))
# df = pd.read_csv("dataset_contoh.csv")
# print(df)   

# Hapus duplikat berdasarkan Email (asumsi Email adalah unique identifier)
df = df.drop_duplicates(subset=["Email"], keep="first")

print("\n=== Jumlah Data Sesudah Menghapus Duplikat ===")
print(len(df))
print(df)



## b.) Menangani Missing Values
Strategi sederhana:
1. Numerik -> isi dengan median
2. Kategorikal -> isi dengan mode
3. Drop kolom dengan >50% missing

In [None]:
print("\n=== Missing Value Sebelum Dibersihkan ===")
print(df.isnull().sum())
# df = pd.read_csv("dataset_contoh.csv")
# print(df)

# Mengisi missing numerik dengan median
df["Age"] = df["Age"].fillna(df["Age"].median())
df["Salary"] = df["Salary"].fillna(df["Salary"].median())

# Mengisi missing kategorikal dengan mode
df["Name"] = df["Name"].fillna(df["Name"].mode()[0])
df["Gender"] = df["Gender"].fillna(df["Gender"].mode()[0])
df["City"] = df["City"].fillna(df["City"].mode()[0])
df["Department"] = df["Department"].fillna(df["Department"].mode()[0])

print("\n=== Missing Value Sesudah Dibersihkan ===")
print(df.isnull().sum())
print(df)


## c.) Perbaikan Format Teks (konsistansi kapital)

In [None]:
# print("\n=== Data Sebelum Format Huruf Dibenahi ===")
# df = pd.read_csv("dataset_contoh.csv")  
# print(df)   

df["Name"] = df["Name"].str.title()
df["City"] = df["City"].str.title()
df["Department"] = df["Department"].str.title()

print("\n=== Data Setelah Format Huruf Dibenahi ===")
print(df)


## d.) Validasi Email

In [None]:
print("\n=== Jumlah Data Sebelum Validasi Email ===")
print(len(df))

df = df[df["Email"].str.contains("@", na=False)]

print("\n=== Jumlah Data Sesudah Validasi Email ===")
print(len(df))
print(df)


## e.) Menghapus Outlier Salary

In [None]:
print("\n=== Range Salary Sebelum Outlier Dihapus ===")
print(df["Salary"].describe())

Q1 = df["Salary"].quantile(0.25)
Q3 = df["Salary"].quantile(0.75)
print("Q1 (Quartile 1) =", Q1)
print("Q3 (Quartile 3) =", Q3)

IQR = Q3 - Q1
low = Q1 - (1.5 * IQR)
high = Q3 + (1.5 * IQR)


df = df[(df["Salary"] >= low) & (df["Salary"] <= high)]

print("\n=== Range Salary Sesudah Outlier Dihapus ===")
print(df["Salary"].describe())
print(df)
print("\nBatas bawah (low) =", low)
print("Batas atas (high) =", high)


## f.) Data Bersih

In [None]:
print("\n=== DATA BERSIH FINAL ===")
print(df)

## 4. Data Reduction

## - Feature Selection

In [None]:
df_reduced = df.drop(columns=["Email"])
print("\n=== DATA FINAL TANPA KOLOM EMAIL ===")
print(df_reduced)

## - Dimensionality

In [None]:
# from sklearn.preprocessing import LabelEncoder

print("\n=== DIMENSIONALITY REDUCTION: LABEL ENCODING ===")

df_dim = df_reduced.copy()   # df_reduced = data setelah drop email

label_cols = ["Name", "Gender", "City", "Department"]

encoders = {}
for col in label_cols:
    le = LabelEncoder()
    df_dim[col] = le.fit_transform(df_dim[col])
    encoders[col] = le
    print(f"\nMapping {col}: {dict(zip(le.classes_, le.transform(le.classes_)))}")

print("\n=== DATASET SETELAH DIMENSIONALITY REDUCTION ===")
print(df_dim)
