# Proyek Akhir: Menyelesaikan Permasalahan Perusahaan Edutech

- Nama: Adilah Widiasti
- Email: adilahwidiasti86@gmail.com
- Id Dicoding: olaladilah

## Persiapan

### Menyiapkan library yang dibutuhkan

In [None]:
# Mengimpor pustaka yang diperlukan untuk analisis data dan visualisasi
import pandas as pd  # Pustaka untuk manipulasi data
pd.set_option('display.max_columns', None)  # Mengatur tampilan untuk menampilkan semua kolom
import numpy as np  # Pustaka untuk operasi numerik
import matplotlib.pyplot as plt  # Pustaka untuk visualisasi data
import seaborn as sns  # Pustaka untuk visualisasi yang lebih menarik

# Mengimpor modul dari scikit-learn untuk pemrosesan data dan model machine learning
from sklearn.preprocessing import LabelEncoder  # Untuk mengubah label kategori menjadi angka
from sklearn.model_selection import train_test_split  # Untuk membagi dataset menjadi data latih dan uji
from sklearn.pipeline import Pipeline  # Untuk membuat alur kerja model
from sklearn.compose import ColumnTransformer  # Untuk menerapkan transformasi pada kolom tertentu
from sklearn.impute import SimpleImputer  # Untuk mengisi nilai yang hilang
from sklearn.preprocessing import MinMaxScaler, OrdinalEncoder  # Untuk normalisasi dan pengkodean ordinal
from sklearn.ensemble import RandomForestClassifier  # Model klasifikasi berbasis hutan acak
from sklearn.metrics import precision_score, recall_score, f1_score, confusion_matrix  # Untuk evaluasi model
from sklearn.utils import resample  # Untuk melakukan resampling pada dataset

# Mengimpor pustaka untuk koneksi database dan penyimpanan model
from sqlalchemy import create_engine  # Untuk membuat koneksi ke database
import pickle  # Untuk menyimpan dan memuat objek Python

### Menyiapkan data yang akan diguankan

## Data Understanding

Pertanyaan yang akan dianalisis dalam proyek ini:  

- Faktor apa saja yang mempengaruhi mahasiswa hingga memutuskan untuk dropout?

Dataset ini memiliki deskripsi sebagai berikut:
1. Status Pernikahan – Status pernikahan mahasiswa (Kategorikal):
    1 Lajang
    2 Menikah
    3 Duda/Janda
    4 Bercerai
    5 Hidup bersama tanpa pernikahan resmi
    6 Berpisah secara hukum

2. 5Metode Pendaftaran – Cara mahasiswa mendaftar (Kategorikal), misalnya:
    1 Jalur umum fase pertama
    2 Peraturan No. 612/93
    5 Jalur khusus fase pertama (Kepulauan Azores)
    7 Lulusan pendidikan tinggi lainnya
    ... (dan seterusnya sesuai daftar asli)

3. Urutan Pendaftaran – Urutan pilihan program studi yang diajukan mahasiswa (Numerik), berkisar dari 0 (pilihan pertama) hingga 9 (pilihan terakhir).

4. Program Studi – Program yang diambil oleh mahasiswa (Kategorikal), misalnya:
    - 33 – Teknologi Produksi Biofuel
    - 171 – Desain Animasi dan Multimedia
    - 8014 – Pelayanan Sosial (kelas malam)
    - ... (dan seterusnya sesuai daftar asli)

5. Waktu Perkuliahan – Jadwal kehadiran mahasiswa (Kategorikal):
    1 – Kelas pagi
    0 – Kelas malam

6. Kualifikasi Sebelumnya – Jenjang pendidikan terakhir mahasiswa sebelum masuk perguruan tinggi (Kategorikal), seperti:
    1 – Pendidikan menengah
    2 – Pendidikan tinggi - Sarjana
    3 – Pendidikan tinggi - Gelar
    ... (dan seterusnya sesuai daftar asli)

7. Nilai Kualifikasi Sebelumnya – Skor dari jenjang pendidikan sebelumnya (Numerik, 0-200).

8. Kewarganegaraan – Negara asal mahasiswa (Kategorikal), misalnya:
    1 – Portugal
    2 – Jerman
    6 – Spanyol
    ... (dan seterusnya sesuai daftar asli)

9. Pendidikan Ibu dan Ayah – Tingkat pendidikan orang tua mahasiswa (Kategorikal), contohnya:
    1 – Pendidikan menengah (setara 12 tahun)
    2 – Pendidikan tinggi - Sarjana
    3 – Pendidikan tinggi - Magister
    ... (dan seterusnya sesuai daftar asli)

10. Pekerjaan Ibu dan Ayah – Jenis pekerjaan orang tua mahasiswa (Kategorikal), seperti:
    0 – Mahasiswa
    1 – Pejabat pemerintah, direktur, atau manajer eksekutif
    2 – Profesional di bidang intelektual dan ilmiah
    ... (dan seterusnya sesuai daftar asli)

11. Nilai Masuk – Skor yang digunakan untuk masuk ke perguruan tinggi (Numerik, 0-200).

12. Status Lainnya – Beberapa status mahasiswa lainnya (Kategorikal):
    Mahasiswa pindahan (1 – Ya, 0 – Tidak)
    Memiliki kebutuhan khusus (1 – Ya, 0 – Tidak)
    Memiliki utang akademik (1 – Ya, 0 – Tidak)
    Status pembayaran biaya kuliah (1 – Lunas, 0 – Tidak lunas)
    Jenis kelamin (1 – Laki-laki, 0 – Perempuan)
    Penerima beasiswa (1 – Ya, 0 – Tidak)
    Mahasiswa internasional (1 – Ya, 0 – Tidak)

13. Mata Kuliah Semester 1 – Data akademik mahasiswa pada semester pertama (Numerik):
    Jumlah mata kuliah yang disetarakan
    Jumlah mata kuliah yang diambil
    Jumlah mata kuliah yang dievaluasi
    Jumlah mata kuliah yang lulus

## Data Preparation / Preprocessing

In [None]:
# Memuat data dari file Excel ke dalam DataFrame
data_frame = pd.read_excel('data.xlsx')  # Membaca file Excel bernama 'data.xlsx' dan menyimpannya dalam variabel data_frame

# Menampilkan lima baris pertama dari DataFrame untuk melihat struktur dan isi data
print(data_frame.head())  # Menampilkan lima entri teratas dari DataFrame

   Marital_status  Application_mode  Application_order  Course  \
0               1                17                  5     171   
1               1                15                  1    9254   
2               1                 1                  5    9070   
3               1                17                  2    9773   
4               2                39                  1    8014   

   Daytime_evening_attendance  Previous_qualification  \
0                           1                       1   
1                           1                       1   
2                           1                       1   
3                           1                       1   
4                           0                       1   

   Previous_qualification_grade  Nacionality  Mothers_qualification  \
0                         122.0            1                     19   
1                         160.0            1                      1   
2                         122.0            1   

In [None]:
# Memeriksa jumlah nilai yang hilang dalam setiap kolom pada DataFrame
missing_values = data_frame.isnull().sum()  # Menghitung total nilai yang hilang di setiap kolom dan menyimpannya dalam variabel missing_values

# Menampilkan hasil pemeriksaan nilai yang hilang
print(missing_values)  # Mencetak jumlah nilai yang hilang untuk setiap kolom

In [None]:
# Memeriksa apakah terdapat baris duplikat dalam DataFrame
has_duplicates = data_frame.duplicated().any()  # Mengecek apakah ada baris yang sama di dalam DataFrame dan menyimpan hasilnya dalam variabel has_duplicates

# Menampilkan hasil pemeriksaan duplikat
print("Apakah terdapat data duplikat?", has_duplicates)  # Mencetak informasi tentang keberadaan data duplikat

In [None]:
# Membuat objek dari kelas LabelEncoder untuk mengubah label kategori menjadi angka
encoder = LabelEncoder()  # Membuat instance baru dari LabelEncoder

# Menerapkan LabelEncoder untuk mengonversi kolom 'Status' menjadi format numerik
data_frame['Status'] = encoder.fit_transform(data_frame['Status'])  # Menggunakan fit_transform untuk mengubah nilai dalam kolom 'Status' menjadi angka

In [None]:
# Menampilkan pemetaan antara label asli dan nilai yang telah di-encode
print("Pemetaan Label ke Nilai yang Telah Dikonversi:")
# Menggunakan zip untuk menggabungkan label asli dengan nilai yang telah di-encode
for original_label, encoded_value in zip(encoder.classes_, encoder.transform(encoder.classes_)):
    print(f"{original_label}: {encoded_value}")  # Mencetak setiap label dan nilai yang sesuai

# Menampilkan array target yang telah di-encode
print("\nArray Target yang Telah Dikonversi:")
print(data_frame['Status'])  # Mencetak kolom 'Status' yang sudah dalam format numerik

In [None]:
# Memeriksa informasi dasar mengenai DataFrame
data_frame_info = data_frame.info()  # Mengambil informasi tentang DataFrame, termasuk jumlah entri, kolom, dan tipe data

# Menampilkan informasi yang telah diambil
print(data_frame_info)  # Mencetak informasi mengenai struktur dan tipe data dari DataFrame

In [None]:
# Mengambil daftar nama kolom yang terdapat dalam DataFrame
column_names = data_frame.columns  # Menyimpan nama-nama kolom dari DataFrame ke dalam variabel column_names

# Menampilkan nama-nama kolom
print("Nama-nama kolom dalam DataFrame:")
print(column_names)  # Mencetak daftar nama kolom yang ada dalam DataFrame

In [None]:
# Menghasilkan ringkasan statistik dari DataFrame untuk semua kolom
summary_statistics = data_frame.describe(include='all')  # Mengambil statistik deskriptif untuk semua kolom, termasuk yang bertipe objek

# Menampilkan ringkasan statistik yang telah dihasilkan
print("Ringkasan Statistik DataFrame:")
print(summary_statistics)  # Mencetak ringkasan statistik untuk memberikan gambaran umum tentang data

Terdapat nilai yang aneh pada kolom Curricular_units_1st_sem_grade dan Curricular_units_2nd_sem_grade sehingga akan dihapus

In [None]:
# Menghapus kolom yang tidak diperlukan dari DataFrame
data_frame = data_frame.drop(columns=['Curricular_units_1st_sem_grade', 'Curricular_units_2nd_sem_grade'])  # Menghapus kolom 'Curricular_units_1st_sem_grade' dan 'Curricular_units_2nd_sem_grade' dari DataFrame

# Menghasilkan ringkasan statistik dari DataFrame yang telah diperbarui
statistik_ringkasan = data_frame.describe(include='all')  # Mengambil statistik deskriptif untuk semua kolom yang tersisa dalam DataFrame

# Menampilkan ringkasan statistik
print("Ringkasan Statistik DataFrame setelah penghapusan kolom:")
print(statistik_ringkasan)  # Mencetak ringkasan statistik untuk memberikan gambaran tentang data yang tersisa

In [None]:
# Mengambil nilai unik dari kolom 'Marital_status' untuk memahami kategori yang ada
unique_marital_status = data_frame['Marital_status'].unique()  # Mendapatkan semua nilai unik yang terdapat dalam kolom 'Marital_status'

# Menampilkan nilai-nilai unik dari kolom 'Marital_status'
print("Nilai unik dalam kolom 'Marital_status':")
print(unique_marital_status)  # Mencetak daftar nilai unik untuk memberikan gambaran tentang kategori yang ada

In [None]:
# Mengambil semua nilai unik dari kolom 'Application_mode' untuk mengetahui kategori yang ada
unique_application_modes = data_frame['Application_mode'].unique()  # Mendapatkan daftar nilai unik dalam kolom 'Application_mode'

# Menampilkan nilai-nilai unik dari kolom 'Application_mode'
print("Daftar nilai unik dalam kolom 'Application_mode':")
print(unique_application_modes)  # Mencetak nilai-nilai unik untuk memberikan informasi tentang kategori yang tersedia

In [None]:
# Mengambil nilai-nilai unik dari kolom 'Application_order' untuk memahami kategori ordinal yang ada
unique_application_orders = data_frame['Application_order'].unique()  # Mendapatkan semua nilai unik dalam kolom 'Application_order'

# Menampilkan nilai-nilai unik dari kolom 'Application_order'
print("Nilai unik dalam kolom 'Application_order':")
print(unique_application_orders)  # Mencetak daftar nilai unik untuk memberikan gambaran tentang kategori ordinal yang tersedia

In [None]:
# Mengambil semua nilai unik dari kolom 'Course' untuk mengetahui kategori yang ada
unique_courses = data_frame['Course'].unique()  # Mendapatkan daftar nilai unik dalam kolom 'Course'

# Menampilkan nilai-nilai unik dari kolom 'Course'
print("Daftar nilai unik dalam kolom 'Course':")
print(unique_courses)  # Mencetak nilai-nilai unik untuk memberikan informasi tentang kategori yang tersedia

In [None]:
# Mengambil nilai-nilai unik dari kolom 'Daytime_evening_attendance' untuk memahami kategori yang ada
unique_attendance_modes = data_frame['Daytime_evening_attendance'].unique()  # Mendapatkan semua nilai unik dalam kolom 'Daytime_evening_attendance'

# Menampilkan nilai-nilai unik dari kolom 'Daytime_evening_attendance'
print("Daftar nilai unik dalam kolom 'Daytime_evening_attendance':")
print(unique_attendance_modes)  # Mencetak nilai-nilai unik untuk memberikan gambaran tentang kategori yang tersedia

In [None]:
# Mengambil semua nilai unik dari kolom 'Previous_qualification' untuk mengetahui kategori yang ada
unique_qualifications = data_frame['Previous_qualification'].unique()  # Mendapatkan daftar nilai unik dalam kolom 'Previous_qualification'

# Menampilkan nilai-nilai unik dari kolom 'Previous_qualification'
print("Daftar nilai unik dalam kolom 'Previous_qualification':")
print(unique_qualifications)  # Mencetak nilai-nilai unik untuk memberikan informasi tentang kategori yang tersedia

In [None]:
# Mengambil nilai-nilai unik dari kolom 'Nacionality' untuk memahami kategori yang ada
unique_nationalities = data_frame['Nacionality'].unique()  # Mendapatkan semua nilai unik dalam kolom 'Nacionality'

# Menampilkan nilai-nilai unik dari kolom 'Nacionality'
print("Daftar nilai unik dalam kolom 'Nacionality':")
print(unique_nationalities)  # Mencetak nilai-nilai unik untuk memberikan gambaran tentang kategori yang tersedia

In [None]:
# Mengambil semua nilai unik dari kolom 'Mothers_qualification' untuk mengetahui kategori yang ada
unique_mothers_qualifications = data_frame['Mothers_qualification'].unique()  # Mendapatkan daftar nilai unik dalam kolom 'Mothers_qualification'

# Menampilkan nilai-nilai unik dari kolom 'Mothers_qualification'
print("Daftar nilai unik dalam kolom 'Mothers_qualification':")
print(unique_mothers_qualifications)  # Mencetak nilai-nilai unik untuk memberikan informasi tentang kategori yang tersedia

In [None]:
# Mengambil semua nilai unik dari kolom 'Fathers_qualification' untuk mengetahui kategori yang ada
unique_fathers_qualifications = data_frame['Fathers_qualification'].unique()  # Mendapatkan daftar nilai unik dalam kolom 'Fathers_qualification'

# Menampilkan nilai-nilai unik dari kolom 'Fathers_qualification'
print("Daftar nilai unik dalam kolom 'Fathers_qualification':")
print(unique_fathers_qualifications)  # Mencetak nilai-nilai unik untuk memberikan informasi tentang kategori yang tersedia

In [None]:
# Mengambil semua nilai unik dari kolom 'Mothers_occupation' untuk mengetahui kategori yang ada
unique_mothers_occupations = data_frame['Mothers_occupation'].unique()  # Mendapatkan daftar nilai unik dalam kolom 'Mothers_occupation'

# Menampilkan nilai-nilai unik dari kolom 'Mothers_occupation'
print("Daftar nilai unik dalam kolom 'Mothers_occupation':")
print(unique_mothers_occupations)  # Mencetak nilai-nilai unik untuk memberikan informasi tentang kategori yang tersedia

In [None]:
# Mengambil semua nilai unik dari kolom 'Fathers_occupation' untuk mengetahui kategori yang ada
unique_fathers_occupations = data_frame['Fathers_occupation'].unique()  # Mendapatkan daftar nilai unik dalam kolom 'Fathers_occupation'

# Menampilkan nilai-nilai unik dari kolom 'Fathers_occupation'
print("Daftar nilai unik dalam kolom 'Fathers_occupation':")
print(unique_fathers_occupations)  # Mencetak nilai-nilai unik untuk memberikan informasi tentang kategori yang tersedia

In [None]:
# Mengambil semua nilai unik dari kolom 'Displaced' untuk mengetahui kategori yang ada
unique_displaced_status = data_frame['Displaced'].unique()  # Mendapatkan daftar nilai unik dalam kolom 'Displaced'

# Menampilkan nilai-nilai unik dari kolom 'Displaced'
print("Daftar nilai unik dalam kolom 'Displaced':")
print(unique_displaced_status)  # Mencetak nilai-nilai unik untuk memberikan informasi tentang kategori yang tersedia

In [None]:
# Mengambil semua nilai unik dari kolom 'Educational_special_needs' untuk mengetahui kategori yang ada
unique_educational_needs = data_frame['Educational_special_needs'].unique()  # Mendapatkan daftar nilai unik dalam kolom 'Educational_special_needs'

# Menampilkan nilai-nilai unik dari kolom 'Educational_special_needs'
print("Daftar nilai unik dalam kolom 'Educational_special_needs':")
print(unique_educational_needs)  # Mencetak nilai-nilai unik untuk memberikan informasi tentang kategori yang tersedia

In [None]:
# Mengambil semua nilai unik dari kolom 'Debtor' untuk mengetahui kategori yang ada
unique_debtors = data_frame['Debtor'].unique()  # Mendapatkan daftar nilai unik dalam kolom 'Debtor'

# Menampilkan nilai-nilai unik dari kolom 'Debtor'
print("Daftar nilai unik dalam kolom 'Debtor':")
print(unique_debtors)  # Mencetak nilai-nilai unik untuk memberikan informasi tentang kategori yang tersedia

In [None]:
# Mengambil semua nilai unik dari kolom 'Tuition_fees_up_to_date' untuk mengetahui kategori yang ada
unique_tuition_fees_status = data_frame['Tuition_fees_up_to_date'].unique()  # Mendapatkan daftar nilai unik dalam kolom 'Tuition_fees_up_to_date'

# Menampilkan nilai-nilai unik dari kolom 'Tuition_fees_up_to_date'
print("Daftar nilai unik dalam kolom 'Tuition_fees_up_to_date':")
print(unique_tuition_fees_status)  # Mencetak nilai-nilai unik untuk memberikan informasi tentang kategori yang tersedia

In [None]:
# Mengambil semua nilai unik dari kolom 'Gender' untuk mengetahui kategori yang ada
unique_genders = data_frame['Gender'].unique()  # Mendapatkan daftar nilai unik dalam kolom 'Gender'

# Menampilkan nilai-nilai unik dari kolom 'Gender'
print("Daftar nilai unik dalam kolom 'Gender':")
print(unique_genders)  # Mencetak nilai-nilai unik untuk memberikan informasi tentang kategori yang tersedia

In [None]:
# Mengambil semua nilai unik dari kolom 'Scholarship_holder' untuk mengetahui kategori yang ada
unique_scholarship_holders = data_frame['Scholarship_holder'].unique()  # Mendapatkan daftar nilai unik dalam kolom 'Scholarship_holder'

# Menampilkan nilai-nilai unik dari kolom 'Scholarship_holder'
print("Daftar nilai unik dalam kolom 'Scholarship_holder':")
print(unique_scholarship_holders)  # Mencetak nilai-nilai unik untuk memberikan informasi tentang kategori yang tersedia

In [None]:
# Mengambil semua nilai unik dari kolom 'International' untuk mengetahui kategori yang ada
unique_international_status = data_frame['International'].unique()  # Mendapatkan daftar nilai unik dalam kolom 'International'

# Menampilkan nilai-nilai unik dari kolom 'International'
print("Daftar nilai unik dalam kolom 'International':")
print(unique_international_status)  # Mencetak nilai-nilai unik untuk memberikan informasi tentang kategori yang tersedia

In [None]:
# Mengambil semua nilai unik dari kolom 'Status' untuk mengetahui kategori yang ada
unique_status_values = data_frame['Status'].unique()  # Mendapatkan daftar nilai unik dalam kolom 'Status'

# Menampilkan nilai-nilai unik dari kolom 'Status'
print("Daftar nilai unik dalam kolom 'Status':")
print(unique_status_values)  # Mencetak nilai-nilai unik untuk memberikan informasi tentang kategori yang tersedia

In [None]:
# Daftar kolom yang akan diubah menjadi tipe data yang sesuai
columns_to_change = [
    'Marital_status',
    'Application_mode',
    'Application_order',
    'Course',
    'Daytime_evening_attendance',
    'Previous_qualification',
    'Nacionality',
    'Mothers_qualification',
    'Fathers_qualification',
    'Mothers_occupation',
    'Fathers_occupation',
    'Displaced',
    'Educational_special_needs',
    'Debtor',
    'Tuition_fees_up_to_date',
    'Gender',
    'Scholarship_holder',
    'International',
    'Status'
]  # Menyimpan nama-nama kolom yang perlu diubah tipe datanya

In [None]:
# Mengonversi tipe data kolom-kolom yang telah ditentukan menjadi tipe string
data_frame[columns_to_change] = data_frame[columns_to_change].astype(str)  # Mengubah tipe data kolom yang ada dalam daftar menjadi string

In [None]:
# Menampilkan informasi mengenai DataFrame, termasuk jumlah entri dan tipe data setiap kolom
data_frame.info()  # Menggunakan metode info() untuk mendapatkan ringkasan struktur DataFrame

##### Feature Engineering

In [None]:
# Menghitung rasio unit yang disetujui untuk semester pertama
data_frame['Ratio_approved_1st_sem'] = data_frame['Curricular_units_1st_sem_approved'] / data_frame['Curricular_units_1st_sem_enrolled']  # Menghitung rasio unit yang disetujui di semester pertama

# Menghitung rasio unit yang disetujui untuk semester kedua
data_frame['Ratio_approved_2nd_sem'] = data_frame['Curricular_units_2nd_sem_approved'] / data_frame['Curricular_units_2nd_sem_enrolled']  # Menghitung rasio unit yang disetujui di semester kedua

In [None]:
# Menampilkan ringkasan statistik dari DataFrame, termasuk semua tipe data
data_summary = data_frame.describe(include='all')  # Menggunakan metode describe() untuk mendapatkan statistik deskriptif dari semua kolom
print(data_summary)  # Mencetak ringkasan statistik untuk analisis lebih lanjut

In [None]:
# Menampilkan informasi tentang struktur DataFrame, termasuk jumlah entri dan tipe data setiap kolom
data_frame.info()  # Memanggil metode info() untuk mendapatkan ringkasan mengenai kolom dan tipe data dalam DataFrame

In [None]:
# Menghitung jumlah nilai yang hilang (NaN) dalam setiap kolom DataFrame
missing_data_count = data_frame.isna().sum()  # Menggunakan metode isna() untuk mendeteksi nilai yang hilang, kemudian menjumlahkannya per kolom
print(missing_data_count)  # Mencetak jumlah nilai yang hilang untuk setiap kolom

In [None]:
# Menghapus semua baris yang mengandung nilai hilang dari DataFrame
data_frame = data_frame.dropna()  # Menggunakan metode dropna() untuk menghapus baris dengan nilai NaN

# Memeriksa kembali jumlah nilai yang hilang setelah penghapusan
missing_values_after_removal = data_frame.isna().sum()  # Menghitung jumlah nilai yang hilang di setiap kolom setelah penghapusan
print(missing_values_after_removal)  # Mencetak jumlah nilai yang hilang untuk memastikan tidak ada nilai hilang yang tersisa

In [None]:
# Menampilkan informasi mengenai struktur dan tipe data dari DataFrame
data_frame.info()  # Memanggil metode info() untuk mendapatkan ringkasan tentang kolom, jumlah entri, dan tipe data dalam DataFrame

##### Exploratory Data Analysis

In [None]:
# Mengambil semua kolom yang memiliki tipe data kategori (objek) dari DataFrame
categorical_columns = data_frame.select_dtypes(include=['object']).columns.tolist()  # Memilih kolom dengan tipe data objek dan mengonversinya menjadi daftar
print(categorical_columns)  # Mencetak daftar kolom kategori yang ditemukan

In [None]:
# Fungsi untuk membuat plot kategori berdasarkan fitur yang diberikan
def plot_kategori(features, data_frame, segment_feature=None):
    # Membuat subplots untuk setiap fitur yang akan dipetakan
    fig, ax = plt.subplots(len(features), 1, figsize=(15, 50))

    # Loop melalui setiap fitur untuk menghasilkan plot
    for i, feature in enumerate(features):
        if segment_feature:
            # Jika ada fitur segmentasi, buat plot dengan hue berdasarkan segment_feature
            sns.countplot(data=data_frame, x=feature, hue=segment_feature, ax=ax[i])
        else:
            # Jika tidak ada fitur segmentasi, buat plot tanpa hue
            sns.countplot(data=data_frame, x=feature, ax=ax[i])

        # Menambahkan label di atas setiap batang dalam plot
        for p in ax[i].patches:
            ax[i].annotate(format(p.get_height(), '.0f'),
                           (p.get_x() + p.get_width() / 2., p.get_height()),
                           ha='center', va='center',
                           xytext=(0, 10),
                           textcoords='offset points')

    plt.tight_layout()  # Mengatur layout agar tidak ada elemen yang tumpang tindih
    plt.show()  # Menampilkan plot

# Memanggil fungsi untuk membuat plot kategori dengan fitur yang ditentukan
plot_kategori(
    features=categorical_columns,  # Menggunakan daftar kolom kategori
    data_frame=data_frame,          # DataFrame yang berisi data
    segment_feature='Status'        # Fitur segmentasi untuk hue
)

Terdapat data-data yang timpang sehingga tidak dapat diambil informasinya seperti Marital status, Application order, Previous qualification, Nacionality, Educational special needs, Debtor, Tuition fees up to date, dan International sehingga akan dihapus

In [None]:
# Menampilkan daftar nama kolom yang terdapat dalam DataFrame
column_names = data_frame.columns  # Mengambil nama-nama kolom dari DataFrame
print(column_names)  # Mencetak nama-nama kolom untuk melihat struktur data

In [None]:
# Daftar kolom yang akan dihapus dari DataFrame karena dianggap tidak relevan
columns_to_remove = [
    'Marital_status',
    'Application_order',
    'Previous_qualification',
    'Nacionality',
    'Educational_special_needs',
    'Debtor',
    'Tuition_fees_up_to_date',
    'International',
    'Daytime_evening_attendance'
]

# Menghapus kolom-kolom yang telah ditentukan dari DataFrame
data_frame = data_frame.drop(columns=columns_to_remove)  # Menggunakan metode drop() untuk menghapus kolom yang tidak diperlukan

# Menampilkan beberapa baris pertama dari DataFrame setelah penghapusan kolom
print(data_frame.head())  # Mencetak lima baris pertama untuk memeriksa hasil penghapusan

In [None]:
# Mengambil semua kolom yang memiliki tipe data kategori (objek) dari DataFrame
kategori_kolom = data_frame.select_dtypes(include=['object']).columns.tolist()  # Memilih kolom dengan tipe data objek dan mengonversinya menjadi daftar
print(kategori_kolom)  # Mencetak daftar kolom kategori yang ditemukan

In [None]:
# Fungsi untuk membuat visualisasi plot kategori berdasarkan fitur yang diberikan
def plot_kategori(features, data_frame, segment_feature=None):
    # Membuat subplots untuk setiap fitur yang akan dipetakan
    fig, ax = plt.subplots(len(features), 1, figsize=(15, 50))

    # Loop melalui setiap fitur untuk menghasilkan plot
    for i, feature in enumerate(features):
        if segment_feature:
            # Jika ada fitur segmentasi, buat plot dengan hue berdasarkan segment_feature
            sns.countplot(data=data_frame, x=feature, hue=segment_feature, ax=ax[i])
        else:
            # Jika tidak ada fitur segmentasi, buat plot tanpa hue
            sns.countplot(data=data_frame, x=feature, ax=ax[i])

        # Menambahkan label di atas setiap batang dalam plot
        for p in ax[i].patches:
            ax[i].annotate(format(p.get_height(), '.0f'),
                           (p.get_x() + p.get_width() / 2., p.get_height()),
                           ha='center', va='center',
                           xytext=(0, 10),
                           textcoords='offset points')

    plt.tight_layout()  # Mengatur layout agar tidak ada elemen yang tumpang tindih
    plt.show()  # Menampilkan plot

# Memanggil fungsi untuk membuat plot kategori dengan fitur yang ditentukan
plot_kategori(
    features=categorical_columns,  # Menggunakan daftar kolom kategori
    data_frame=data_frame,          # DataFrame yang berisi data
    segment_feature='Status'        # Fitur segmentasi untuk hue
)

In [None]:
# Menampilkan daftar kolom yang memiliki tipe data kategori
kategori_kolom = data_frame.select_dtypes(include=['object']).columns.tolist()  # Mengambil nama kolom dengan tipe data objek dan mengonversinya menjadi daftar
print(kategori_kolom)  # Mencetak daftar kolom kategori yang ditemukan

In [None]:
# Menghitung jumlah kemunculan setiap nilai unik dalam kolom 'Application_mode'
jumlah_kemunculan = data_frame['Application_mode'].value_counts()  # Menggunakan metode value_counts() untuk mendapatkan frekuensi setiap nilai
print(jumlah_kemunculan)  # Mencetak hasil frekuensi nilai untuk analisis lebih lanjut

In [None]:
# Mengambil semua kolom yang memiliki tipe data numerik dari DataFrame
kolom_numerik = data_frame.select_dtypes(include=[np.number]).columns.tolist()  # Memilih kolom dengan tipe data numerik dan mengonversinya menjadi daftar
print(kolom_numerik)  # Mencetak daftar kolom numerik yang ditemukan

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Fungsi untuk membuat plot distribusi numerik menggunakan boxplot
def plot_distribusi_numerik(features, data_frame, segment_feature=None, tampilkan_outlier=True):
    # Membuat subplots untuk setiap fitur yang akan dipetakan
    fig, ax = plt.subplots(len(features), 1, figsize=(10, 50))

    # Loop melalui setiap fitur untuk menghasilkan boxplot
    for i, feature in enumerate(features):
        if segment_feature:
            # Jika ada fitur segmentasi, buat boxplot dengan segmentasi
            sns.boxplot(y=segment_feature, x=feature, data=data_frame, ax=ax[i], showfliers=tampilkan_outlier)
            ax[i].set_ylabel(None)  # Menghapus label sumbu y

            # Menambahkan teks rata-rata untuk setiap kategori
            for tick, label in enumerate(ax[i].get_yticklabels()):
                kategori = label.get_text()
                nilai_rata = data_frame[data_frame[segment_feature] == kategori][feature].mean()
                teks_rata = f'Rata-rata: {nilai_rata:.1f}'
                ax[i].text(ax[i].get_xlim()[1], tick, teks_rata,
                           verticalalignment='center', size='medium', color='black', weight='semibold')
        else:
            # Jika tidak ada fitur segmentasi, buat boxplot tanpa segmentasi
            sns.boxplot(x=feature, data=data_frame, ax=ax[i], showfliers=tampilkan_outlier)
            nilai_rata = data_frame[feature].mean()
            teks_rata = f'Rata-rata: {nilai_rata:.1f}'
            ax[i].text(ax[i].get_xlim()[1], 0, teks_rata,
                       verticalalignment='center', size='medium', color='black', weight='semibold')

    plt.tight_layout()  # Mengatur layout agar tidak ada elemen yang tumpang tindih
    plt.show()  # Menampilkan plot

# Memanggil fungsi untuk membuat plot distribusi numerik dengan fitur yang ditentukan
plot_distribusi_numerik(
    features=kolom_numerik,  # Menggunakan daftar kolom numerik
    data_frame=data_frame,     # DataFrame yang berisi data
    segment_feature='Status',   # Fitur segmentasi untuk boxplot
    tampilkan_outlier=False     # Menentukan apakah outlier akan ditampilkan
)

In [None]:
# Mengambil semua kolom yang memiliki tipe data numerik dari DataFrame
kolom_numerik = data_frame.select_dtypes(include=[np.number]).columns.tolist()  # Memilih kolom dengan tipe data numerik dan mengonversinya menjadi daftar
print(kolom_numerik)  # Mencetak daftar kolom numerik yang ditemukan

In [None]:
# Menghitung jumlah kemunculan setiap nilai unik dalam kolom 'Curricular_units_1st_sem_without_evaluations'
frekuensi_nilai = data_frame['Curricular_units_1st_sem_without_evaluations'].value_counts()  # Menggunakan metode value_counts() untuk mendapatkan frekuensi setiap nilai
print(frekuensi_nilai)  # Mencetak hasil frekuensi nilai untuk analisis lebih lanjut

In [None]:
# Menghitung jumlah kemunculan setiap nilai unik dalam kolom 'Curricular_units_1st_sem_credited'
jumlah_nilai_unik = data_frame['Curricular_units_1st_sem_credited'].value_counts()  # Menggunakan metode value_counts() untuk mendapatkan frekuensi setiap nilai
print(jumlah_nilai_unik)  # Mencetak hasil frekuensi nilai untuk analisis lebih lanjut

In [None]:
# Menghitung jumlah kemunculan setiap nilai unik dalam kolom 'Curricular_units_2nd_sem_credited'
frekuensi_nilai_unik = data_frame['Curricular_units_2nd_sem_credited'].value_counts()  # Menggunakan metode value_counts() untuk mendapatkan frekuensi setiap nilai
print(frekuensi_nilai_unik)  # Mencetak hasil frekuensi nilai untuk analisis lebih lanjut

In [None]:
# Menghitung jumlah kemunculan setiap nilai unik dalam kolom 'Curricular_units_2nd_sem_without_evaluations'
frekuensi_nilai_unik = data_frame['Curricular_units_2nd_sem_without_evaluations'].value_counts()  # Menggunakan metode value_counts() untuk mendapatkan frekuensi setiap nilai
print(frekuensi_nilai_unik)  # Mencetak hasil frekuensi nilai untuk analisis lebih lanjut

In [None]:
# Menghitung frekuensi kemunculan setiap nilai unik dalam kolom 'Curricular_units_2nd_sem_without_evaluations'
jumlah_nilai_unik = data_frame['Curricular_units_2nd_sem_without_evaluations'].value_counts()  # Menggunakan metode value_counts() untuk mendapatkan jumlah setiap nilai
print(jumlah_nilai_unik)  # Mencetak hasil frekuensi nilai untuk analisis lebih lanjut

Terdapat sejumlah data yang tidak seimbang, sehingga informasinya tidak dapat dimanfaatkan, seperti **Curricular_units_1st_sem_without_evaluations, Curricular_units_1st_sem_credited, Curricular_units_2nd_sem_credited, Curricular_units_2nd_sem_without_evaluations**, dan **Curricular_units_2nd_sem_without_evaluations**. Oleh karena itu, data tersebut akan dihapus.

In [None]:
# Menghapus kolom-kolom yang memiliki nilai numerik yang tidak relevan dari DataFrame
kolom_dihapus = [
    'Curricular_units_1st_sem_without_evaluations',
    'Curricular_units_1st_sem_credited',
    'Curricular_units_2nd_sem_credited',
    'Curricular_units_2nd_sem_without_evaluations'
]

# Menggunakan metode drop() untuk menghapus kolom yang telah ditentukan
data_frame = data_frame.drop(columns=kolom_dihapus)
print(data_frame)  # Menampilkan DataFrame setelah kolom dihapus

In [None]:
# Mengambil semua kolom yang memiliki tipe data numerik dari DataFrame
kolom_numerik = data_frame.select_dtypes(include=[np.number]).columns.tolist()  # Memilih kolom dengan tipe data numerik dan mengonversinya menjadi daftar
print(kolom_numerik)  # Mencetak daftar kolom numerik yang ditemukan

In [None]:
# Fungsi untuk membuat visualisasi distribusi numerik menggunakan boxplot
def plot_distribusi_numerik(features, data_frame, segment_feature=None, tampilkan_outlier=True):
    # Membuat subplots untuk setiap fitur yang akan dipetakan
    fig, ax = plt.subplots(len(features), 1, figsize=(10, 50))

    # Loop melalui setiap fitur untuk menghasilkan boxplot
    for i, feature in enumerate(features):
        if segment_feature:
            # Jika ada fitur segmentasi, buat boxplot dengan segmentasi
            sns.boxplot(y=segment_feature, x=feature, data=data_frame, ax=ax[i], showfliers=tampilkan_outlier)
            ax[i].set_ylabel(None)  # Menghapus label sumbu y

            # Menambahkan teks rata-rata untuk setiap kategori
            for tick, label in enumerate(ax[i].get_yticklabels()):
                kategori = label.get_text()
                nilai_rata = data_frame[data_frame[segment_feature] == kategori][feature].mean()
                teks_rata = f'Rata-rata: {nilai_rata:.1f}'
                ax[i].text(ax[i].get_xlim()[1], tick, teks_rata,
                           verticalalignment='center', size='medium', color='black', weight='semibold')
        else:
            # Jika tidak ada fitur segmentasi, buat boxplot tanpa segmentasi
            sns.boxplot(x=feature, data=data_frame, ax=ax[i], showfliers=tampilkan_outlier)
            nilai_rata = data_frame[feature].mean()
            teks_rata = f'Rata-rata: {nilai_rata:.1f}'
            ax[i].text(ax[i].get_xlim()[1], 0, teks_rata,
                       verticalalignment='center', size='medium', color='black', weight='semibold')

    plt.tight_layout()  # Mengatur layout agar tidak ada elemen yang tumpang tindih
    plt.show()  # Menampilkan plot

# Memanggil fungsi untuk membuat plot distribusi numerik dengan fitur yang ditentukan
plot_distribusi_numerik(
    features=kolom_numerik,  # Menggunakan daftar kolom numerik
    data_frame=data_frame,     # DataFrame yang berisi data
    segment_feature='Status',   # Fitur segmentasi untuk boxplot
    tampilkan_outlier=False     # Menentukan apakah outlier akan ditampilkan
)

## Modeling

Karena permintaannya berkaitan dengan apakah mahasiswa akan dropout atau tidak, maka output target untuk enrolled dan graduate akan digabung menjadi '1', sementara output target dropout akan diberi nilai '0'.

In [None]:
# Mengubah nilai dalam kolom 'Status' dari '2' menjadi '1', sehingga semua nilai target menjadi '1'
data_frame['Status'] = data_frame['Status'].replace({'1': '1', '2': '1'})  # Mengganti nilai 1 dan 2 dengan 1

# Menampilkan DataFrame setelah perubahan
print(data_frame)  # Mencetak DataFrame untuk memverifikasi perubahan yang telah dilakukan

In [None]:
# Menghitung jumlah kemunculan setiap nilai unik dalam kolom 'Status'
frekuensi_status = data_frame['Status'].value_counts()  # Menggunakan metode value_counts() untuk mendapatkan frekuensi setiap nilai
print(frekuensi_status)  # Mencetak hasil frekuensi nilai untuk analisis lebih lanjut

Karena data target saya tidak seimbang, saya akan menerapkan teknik undersampling pada target dengan output 1.

In [None]:
# Memisahkan DataFrame menjadi dua subset berdasarkan nilai kolom 'Status'
data_kelas_0 = data_frame[data_frame['Status'] == '0']  # Mengambil semua baris di mana 'Status' sama dengan '0'
data_kelas_1 = data_frame[data_frame['Status'] == '1']  # Mengambil semua baris di mana 'Status' sama dengan '1'

In [None]:
# Melakukan undersampling pada kelas 1 untuk menyeimbangkan jumlah dengan kelas 0
data_kelas_1_undersampled = resample(
    data_kelas_1,
    replace=False,          # Melakukan sampling tanpa penggantian
    n_samples=len(data_kelas_0),  # Menyesuaikan jumlah sampel dengan jumlah di kelas 0
    random_state=42        # Menetapkan seed untuk memastikan hasil yang dapat direproduksi
)

In [None]:
# Menggabungkan kembali data dari kelas 0 dan kelas 1 yang telah diundersampling
data_undersampled = pd.concat([data_kelas_0, data_kelas_1_undersampled])  # Menggabungkan kedua DataFrame menjadi satu

In [None]:
# Memeriksa distribusi nilai dalam kolom 'Status' untuk memastikan keseimbangan antara kelas
distribusi_status = data_undersampled['Status'].value_counts()  # Menghitung jumlah kemunculan setiap nilai dalam kolom 'Status'
print(distribusi_status)  # Menampilkan hasil distribusi untuk verifikasi

In [None]:
# Memisahkan fitur dan target dari DataFrame yang telah diundersampling
fitur = data_undersampled.drop(columns='Status')  # Mengambil semua kolom kecuali 'Status' sebagai fitur
target = data_undersampled['Status']  # Menyimpan kolom 'Status' sebagai target

# Membagi data menjadi set pelatihan dan set pengujian
X_train, X_test, y_train, y_test = train_test_split(fitur, target, test_size=0.2, random_state=42)  # 80% untuk pelatihan dan 20% untuk pengujian

# Menampilkan ukuran dari masing-masing set data
ukuran_train = X_train.shape, X_test.shape, y_train.shape, y_test.shape  # Mendapatkan ukuran dari set pelatihan dan pengujian
print(ukuran_train)  # Mencetak ukuran set data

In [None]:
# Menampilkan daftar kolom yang memiliki tipe data numerik
print(kolom_numerik)  # Mencetak variabel yang berisi nama-nama kolom numerik untuk analisis lebih lanjut

In [None]:
# Mendefinisikan daftar kolom yang memiliki tipe data kategorikal
kolom_kategorikal = [
    'Application_mode',
    'Course',
    'Mothers_qualification',
    'Fathers_qualification',
    'Mothers_occupation',
    'Fathers_occupation',
    'Displaced',
    'Gender',
    'Scholarship_holder'
]

# Menampilkan daftar kolom kategorikal
print(kolom_kategorikal)  # Mencetak variabel yang berisi nama-nama kolom kategorikal untuk analisis lebih lanjut

In [None]:
# Membuat pipeline untuk preprocessing data numerik
pipeline_numerik = Pipeline([
    ('imputasi', SimpleImputer(strategy='median')),  # Mengisi nilai yang hilang dengan median
    ('scaling', MinMaxScaler())  # Melakukan normalisasi data ke rentang [0, 1]
])

# Membuat pipeline untuk preprocessing data ordinal
pipeline_ordinal = Pipeline([
    ('imputer', SimpleImputer(strategy='most_frequent')),  # Mengisi nilai yang hilang dengan nilai yang paling sering muncul
    ('encoder', OrdinalEncoder(handle_unknown='use_encoded_value', unknown_value=-1))  # Mengonversi kategori menjadi angka
])

# Menggabungkan semua pipeline preprocessing ke dalam satu transformer
preprocessor = ColumnTransformer([
    ('numerical_processing', pipeline_numerik, kolom_numerik),  # Mengaplikasikan pipeline numerik pada kolom numerik
    ('ordinal_processing', pipeline_ordinal, kolom_kategorikal)  # Mengaplikasikan pipeline ordinal pada kolom kategorikal
])

In [None]:
# Menginisialisasi algoritma Random Forest untuk klasifikasi
algoritma = RandomForestClassifier()

# Membuat pipeline yang menggabungkan preprocessing dan model klasifikasi
model_pipeline = Pipeline(steps=[
    ('preprocessing', preprocessor),  # Langkah preprocessing data
    ('classifier', algoritma)  # Langkah klasifikasi menggunakan Random Forest
])

# Melatih model dengan data pelatihan
model_pipeline.fit(X_train, y_train)

# Melakukan prediksi pada data pengujian
prediksi_y = model_pipeline.predict(X_test)  # Menghasilkan prediksi untuk set pengujian

## Evaluation

In [None]:
# Menghitung metrik evaluasi untuk model
akurasi_presisi = precision_score(y_test, prediksi_y, average='weighted')  # Menghitung precision dengan rata-rata berbobot
akurasi_recall = recall_score(y_test, prediksi_y, average='weighted')      # Menghitung recall dengan rata-rata berbobot
akurasi_f1 = f1_score(y_test, prediksi_y, average='weighted')              # Menghitung F1 score dengan rata-rata berbobot
matriks_kebingungan = confusion_matrix(y_test, prediksi_y)                  # Menghitung matriks kebingungan untuk analisis kesalahan

In [None]:
# Menampilkan hasil evaluasi model
print(f"Nilai Precision: {akurasi_presisi:.2f}")  # Mencetak nilai presisi dengan format dua desimal
print(f"Nilai Recall: {akurasi_recall:.2f}")      # Mencetak nilai recall dengan format dua desimal
print(f"Nilai F1-score: {akurasi_f1:.2f}")        # Mencetak nilai F1-score dengan format dua desimal
print("Matriks Kebingungan:")                       # Menampilkan judul untuk matriks kebingungan
print(matriks_kebingungan)                         # Mencetak matriks kebingungan untuk analisis lebih lanjut

In [None]:
# Menyimpan model ke dalam file menggunakan format pickle
with open('model.pkl', 'wb') as file_model:  # Membuka file untuk menulis dalam mode biner
    pickle.dump(model_pipeline, file_model)  # Menyimpan objek model_pipeline ke dalam file

##### Upload data

In [None]:
# Menyimpan DataFrame yang telah diproses ke dalam file CSV
df.to_csv('data_submission_2.csv', index=False)  # Menyimpan DataFrame ke file CSV tanpa menyertakan indeks

In [None]:
# Memuat DataFrame dari file CSV yang telah disimpan sebelumnya
df = pd.read_csv('data_submission_2.csv')  # Membaca data dari file CSV dan menyimpannya dalam variabel df
df  # Menampilkan DataFrame yang telah dimuat

## Mengupload dataframe yang sudah bersih ke supabase

In [None]:
from sqlalchemy import create_engine
import pandas as pd

# Gantilah URL dengan URL yang sesuai
URL = "postgresql://postgres.gkqhkgjsfllhjdfssqkf:datascience123@aws-0-ap-southeast-1.pooler.supabase.com:6543/postgres"

# Membuat engine untuk koneksi ke database
engine = create_engine(URL)

# Misalkan df adalah DataFrame yang ingin Anda simpan
# df = pd.DataFrame(...)  # Pastikan Anda sudah mendefinisikan df

# Menyimpan DataFrame ke tabel 'fashion', mengganti tabel yang ada
df.to_sql('student', engine, if_exists='replace', index=False)