# Proyek Akhir: Menyelesaikan Permasalahan Perusahaan Edutech

- Nama: Yoga Samudra
- Email: 08samudra@gmail.com
- Id Dicoding: 08samudra

## 1. Persiapan

### 1.1 Menyiapkan library yang dibutuhkan

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import sklearn
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report

### 1.2 Menyiapkan data yang akan diguankan

In [None]:
# Load dataset
file_path = "datasets/data.csv"
df = pd.read_csv(file_path, delimiter=';')

# Menampilkan informasi dasar tentang dataset
print("Dimensi Data:", df.shape)
print("\nInfo Dataset:")
print(df.info())

# Melihat beberapa data pertama
print("\nPreview Data:")
print(df.head())

#### **Struktur Dataset**
Dataset memiliki beberapa variabel yang dapat dikategorikan sebagai berikut:

##### **1. Informasi Demografi**
- `Marital_status` : Status pernikahan mahasiswa *(1 - single, 2 - married, dst.)*
- `Nationality` : Kewarganegaraan mahasiswa *(1 - Portuguese, 2 - German, dst.)*
- `Gender` : Jenis kelamin mahasiswa *(1 - male, 0 - female)*
- `Age_at_enrollment` : Usia mahasiswa saat mendaftar *(Numerik)*
- `Displaced` : Apakah mahasiswa merupakan orang yang terdampak *(1 - yes, 0 - no)*

##### **2. Informasi Akademik**
- `Application_mode` : Metode pendaftaran yang digunakan *(1 - 1st phase - general contingent, dst.)*
- `Application_order` : Urutan aplikasi pendaftaran mahasiswa *(0 - pertama pilihan, 9 - pilihan terakhir)*
- `Previous_qualification` : Pendidikan sebelumnya *(1 - Secondary education, dst.)*
- `Previous_qualification_grade` : Nilai pendidikan sebelumnya *(Skala 0 - 200)*
- `Admission_grade` : Nilai penerimaan mahasiswa *(Skala 0 - 200)*
- `Course` : Jurusan yang diambil mahasiswa *(33 - Biofuel Production Technologies, dst.)*
- `Daytime_evening_attendance` : Kelas pagi atau malam *(1 - daytime, 0 - evening)*
- `Educational_special_needs` : Apakah mahasiswa memiliki kebutuhan khusus *(1 - yes, 0 - no)*

##### **3. Informasi Ekonomi dan Sosial**
- `Mothers_qualification` & `Fathers_qualification` : Pendidikan orang tua *(1 - Secondary Education, dst.)*
- `Mothers_occupation` & `Fathers_occupation` : Pekerjaan orang tua *(0 - Student, dst.)*
- `Debtor` : Apakah mahasiswa memiliki tunggakan *(1 - yes, 0 - no)*
- `Tuition_fees_up_to_date` : Apakah pembayaran kuliah mahasiswa lancar *(1 - yes, 0 - no)*
- `Scholarship_holder` : Apakah mahasiswa mendapatkan beasiswa *(1 - yes, 0 - no)*

##### **4. Informasi Akademik Semesteran**
- `Curricular_units_1st_sem_credited`, `Curricular_units_1st_sem_enrolled`, `Curricular_units_1st_sem_evaluations`, `Curricular_units_1st_sem_approved`, `Curricular_units_1st_sem_grade`, `Curricular_units_1st_sem_without_evaluations`
- `Curricular_units_2nd_sem_credited`, `Curricular_units_2nd_sem_enrolled`, `Curricular_units_2nd_sem_evaluations`, `Curricular_units_2nd_sem_approved`, `Curricular_units_2nd_sem_grade`, `Curricular_units_2nd_sem_without_evaluations`

##### **5. Indikator Ekonomi**
- `Unemployment_rate` : Tingkat pengangguran di wilayah mahasiswa *(Persentase)*
- `Inflation_rate` : Tingkat inflasi ekonomi saat mahasiswa mendaftar *(Persentase)*
- `GDP` : Produk Domestik Bruto sebagai indikator ekonomi *(Numerik)*

##### **6. Target Variabel**
- `Status` : Status akhir mahasiswa *(Dropout, Enrolled, atau Graduate)*

---

### 1.3 Penanganan *Missing Values* dan Data Duplikat

Cek *Missing Values*

In [None]:
# Mengecek missing values
print(df.isnull().sum())

Hasil cek dari *missing values* adalah 0

Cek Data Duplikat

In [None]:
# Mengecek jumlah data duplikat
print("Jumlah Data Duplikat:", df.duplicated().sum())

Hasil cek dari data duplikat adalah 0

## Data Understanding

### 2.1 Statistik Deskriptif


Memeriksa distribusi data numerik dan kategorikal

In [None]:
# Statistik deskriptif untuk data numerik
stats_numerik = df.describe().T

text_stats_numerik = "\n📊 **Statistik Deskriptif untuk Data Numerik:**\n"
for col in stats_numerik.index:
    text_stats_numerik += f"- {col}: Min = {stats_numerik.loc[col, 'min']}, Max = {stats_numerik.loc[col, 'max']}, Mean = {stats_numerik.loc[col, 'mean']:.2f}, Std = {stats_numerik.loc[col, 'std']:.2f}\n"

# Statistik deskriptif untuk data kategorikal
stats_kategorikal = df.select_dtypes(include=['object']).describe().T

text_stats_kategorikal = "\n📊 **Statistik Deskriptif untuk Data Kategorikal:**\n"
for col in stats_kategorikal.index:
    text_stats_kategorikal += f"- {col}: Jumlah Unik = {stats_kategorikal.loc[col, 'unique']}, Nilai Paling Sering = {stats_kategorikal.loc[col, 'top']} ({stats_kategorikal.loc[col, 'freq']} kali muncul)\n"

# Gabungkan teks
text_stats = text_stats_numerik + text_stats_kategorikal
print(text_stats)

### 2.2 Distribusi *Status* (Dropout, Enrolled, Graduate)

Melihat pola dropout.

In [None]:
# Distribusi Status Mahasiswa
sns.countplot(x='Status', data=df)
plt.title('Distribusi Status Mahasiswa')
plt.show()

### 2.3 Distribusi Fitur-Fitur Utama

Distribusi Nilai Admission Grade Berdasarkan Status

In [None]:
sns.boxplot(x='Status', y='Admission_grade', data=df)
plt.title('Distribusi Admission Grade Berdasarkan Status Mahasiswa')
plt.show()

Distribusi Usia Saat Pendaftaran

In [None]:
sns.histplot(df['Age_at_enrollment'], bins=20, kde=True)
plt.title('Distribusi Usia Saat Pendaftaran Mahasiswa')
plt.xlabel('Usia')
plt.ylabel('Jumlah Mahasiswa')
plt.show()

Analisis Pengaruh Beasiswa Terhadap Dropout

In [None]:
sns.countplot(x='Status', hue='Scholarship_holder', data=df)
plt.title('Pengaruh Beasiswa terhadap Status Mahasiswa')
plt.xlabel('Status')
plt.ylabel('Jumlah Mahasiswa')
plt.legend(['Tanpa Beasiswa', 'Penerima Beasiswa'])
plt.show()

## Data Preparation / Preprocessing

## Modeling

## Evaluation