# **1. Perkenalan Dataset**


1. **Judul**:  
   Prediksi Penempatan Mahasiswa

2. **Deskripsi**:  
   Proyek ini bertujuan untuk memprediksi apakah seorang mahasiswa akan mendapatkan penempatan kerja (Placement) berdasarkan berbagai faktor akademik dan keterampilan.

3. **Sumber Dataset**:  
* **Sumber:** Kaggle / Synthetic Data
* **Jumlah Data:** 10.000 Baris
* **Target:** `Placement` (Yes/No)
* **Fitur Utama:** IQ, CGPA, Internship Experience, Communication Skills, dll.

# **2. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning atau deep learning.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler

# **3. Memuat Dataset**

Pada tahap ini, Anda perlu memuat dataset ke dalam notebook. Jika dataset dalam format CSV, Anda bisa menggunakan pustaka pandas untuk membacanya. Pastikan untuk mengecek beberapa baris awal dataset untuk memahami strukturnya dan memastikan data telah dimuat dengan benar.

Jika dataset berada di Google Drive, pastikan Anda menghubungkan Google Drive ke Colab terlebih dahulu. Setelah dataset berhasil dimuat, langkah berikutnya adalah memeriksa kesesuaian data dan siap untuk dianalisis lebih lanjut.

Jika dataset berupa unstructured data, silakan sesuaikan dengan format seperti kelas Machine Learning Pengembangan atau Machine Learning Terapan

In [None]:
# Menentukan path dataset
path = "../college_student_placement_dataset_raw.csv"

# Memuat dataset
df = pd.read_csv(path)

In [None]:
# Menampilkan 3 baris pertama
df.head(3)

# **4. Exploratory Data Analysis (EDA)**

Pada tahap ini, Anda akan melakukan **Exploratory Data Analysis (EDA)** untuk memahami karakteristik dataset.

Tujuan dari EDA adalah untuk memperoleh wawasan awal yang mendalam mengenai data dan menentukan langkah selanjutnya dalam analisis atau pemodelan.

In [None]:
# Cek informasi data
df.info()

In [None]:
# Cek deskriptif statistik data
df.describe()

In [None]:
# Cek Distribusi Target (Placement)
plt.figure(figsize=(6, 4))
sns.countplot(x='Placement', data=df)
plt.title('Distribusi Target (Placement)')
plt.show()

In [None]:
# Cek Korelasi (Hanya kolom numerik)
plt.figure(figsize=(10, 8))
numeric_df = df.select_dtypes(include=[np.number])
sns.heatmap(numeric_df.corr(), annot=True, cmap='coolwarm', fmt=".2f")
plt.title('Matriks Korelasi Fitur Numerik')
plt.show()

In [None]:
# Deteksi Outlier dengan IQR
fitur_numerik = ["IQ", "Prev_Sem_Result", "CGPA", "Academic_Performance",
                 "Extra_Curricular_Score", "Communication_Skills", "Projects_Completed"]
def deteksi_outlier(df, kolom):
    Q1 = df[kolom].quantile(0.25)
    Q3 = df[kolom].quantile(0.75)
    IQR = Q3 - Q1
    
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    
    outliers = df[(df[kolom] < lower_bound) | (df[kolom] > upper_bound)]
    return len(outliers)

print("\nJumlah Outlier per Kolom:")
for col in fitur_numerik:
    jumlah = deteksi_outlier(df, col)
    print(f"- {col}: {jumlah} data")

# **5. Data Preprocessing**

Pada tahap ini, data preprocessing adalah langkah penting untuk memastikan kualitas data sebelum digunakan dalam model machine learning.

Jika Anda menggunakan data teks, data mentah sering kali mengandung nilai kosong, duplikasi, atau rentang nilai yang tidak konsisten, yang dapat memengaruhi kinerja model. Oleh karena itu, proses ini bertujuan untuk membersihkan dan mempersiapkan data agar analisis berjalan optimal.

Berikut adalah tahapan-tahapan yang bisa dilakukan, tetapi **tidak terbatas** pada:
1. Menghapus atau Menangani Data Kosong (Missing Values)
2. Menghapus Data Duplikat
3. Normalisasi atau Standarisasi Fitur
4. Deteksi dan Penanganan Outlier
5. Encoding Data Kategorikal
6. Binning (Pengelompokan Data)

Cukup sesuaikan dengan karakteristik data yang kamu gunakan yah. Khususnya ketika kami menggunakan data tidak terstruktur.

In [None]:
# Cek missing value
df.isna().sum()

In [None]:
# Drop College_ID karena tidak berguna untuk prediksi
df = df.drop(columns=['College_ID'])

# Drop kolom duplikat    
df = df.drop_duplicates()

In [None]:
# Encoding data kategorikal
mapping = {'Yes': 1, 'No': 0}

df['Internship_Experience'] = df['Internship_Experience'].map(mapping)
df['Placement'] = df['Placement'].map(mapping)

In [None]:
# Inisialisasi Scaler
scaler = StandardScaler()

# Standarisasi fitur numerik
df[fitur_numerik] = scaler.fit_transform(df[fitur_numerik])

In [None]:
# Menampilkan 3 baris pertama
df.head(3)

In [None]:
# Menyimpan data bersih
df.to_csv("college_student_placement_dataset_preprocessing.csv", index=False)