
# 📘 Prediksi Kelulusan Mahasiswa Berdasarkan Data Akademik  
**Nama**: Nisrina Zulfa  
**NIM**: A11.2023.15076  
**Kelas**: A11.4402
**Mata Kuliah**: Machine Learning  
**Dosen Pengampu**: Pak Abu Salam M.Kom  



## 📌 Ringkasan, Permasalahan, Tujuan, dan Model

### Ringkasan dan Permasalahan  
Permasalahan yang diangkat dalam proyek ini adalah bagaimana memprediksi apakah seorang mahasiswa akan **lulus tepat waktu atau tidak** berdasarkan **data akademik dan demografis**. Permasalahan ini penting untuk mendukung proses monitoring dan evaluasi akademik.

### Tujuan  
- Memprediksi kelulusan mahasiswa dengan akurasi tinggi.  
- Menyediakan alat bantu analisis bagi pihak akademik.

### Model / Alur Penyelesaian  

```mermaid
graph TD
A[Data Collection] --> B[Data Cleaning]
B --> C[Exploratory Data Analysis]
C --> D[Feature Engineering]
D --> E[Modeling (Training & Testing)]
E --> F[Evaluation]
F --> G[Kesimpulan]
```



## 📊 Penjelasan Dataset, EDA, dan Features

Dataset berisi data akademik mahasiswa yang mencakup:  
- IPK  
- Jumlah SKS yang diambil  
- Kehadiran  
- Jenis Kelamin  
- Asal Sekolah  
- Status Lulus (0 = Tidak, 1 = Lulus)


In [None]:

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Load dataset
df = pd.read_csv("mahasiswa.csv")
df.head()


In [None]:

# Informasi Umum Dataset
df.info()


In [None]:

# Cek nilai yang hilang
df.isnull().sum()


In [None]:

# Statistik Deskriptif
df.describe()


In [None]:

# Distribusi Status Kelulusan
sns.countplot(x="Status_Lulus", data=df)
plt.title("Distribusi Kelulusan Mahasiswa")
plt.show()


In [None]:

# Korelasi antar Fitur
sns.heatmap(df.corr(), annot=True)
plt.title("Heatmap Korelasi Fitur")
plt.show()


In [None]:

# Feature Engineering
df['Gender'] = df['Gender'].map({'Pria': 1, 'Wanita': 0})
df = pd.get_dummies(df, columns=['Asal_Sekolah'], drop_first=True)
df.head()



## 🧠 Proses Learning / Modeling


In [None]:

from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score

# Definisi fitur dan target
X = df.drop('Status_Lulus', axis=1)
y = df['Status_Lulus']

# Split dataset
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Training model
model = RandomForestClassifier(random_state=42)
model.fit(X_train, y_train)

# Prediksi
y_pred = model.predict(X_test)



## 📈 Performa Model


In [None]:

print("Confusion Matrix:\n", confusion_matrix(y_test, y_pred))
print("\nClassification Report:\n", classification_report(y_test, y_pred))
print("\nAccuracy Score:", accuracy_score(y_test, y_pred))



## 🧾 Diskusi Hasil dan Kesimpulan

### Diskusi Hasil  
Model Random Forest menunjukkan akurasi yang cukup tinggi dalam memprediksi kelulusan mahasiswa. Beberapa fitur yang sangat berpengaruh antara lain IPK, kehadiran, dan jumlah SKS yang diambil. Model juga cukup robust terhadap ketidakseimbangan data.

### Kesimpulan  
- Model dapat digunakan untuk memprediksi kelulusan mahasiswa dengan cukup baik.  
- Dapat membantu kampus dalam proses monitoring mahasiswa.  
- Perlu dilakukan uji coba pada data real agar hasilnya lebih akurat dan bisa diimplementasikan.
