# Persiapan

## Menyiapkan library yang dibutuhkan

# Proyek Akhir: enyelesaikan Permasalahan Institusi Pendidikan

* Nama: Adib Ahmad Istiqlal
* Email: adibahmadistiqlal22@gmail.com
* Id Dicoding: sir_newton_turing

In [2]:
from pandas import Series, DataFrame
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.preprocessing import LabelEncoder, MinMaxScaler, StandardScaler
from sklearn.linear_model import Lasso
from sklearn.model_selection import train_test_split
from imblearn.over_sampling import SMOTE
from sklearn.tree import DecisionTreeClassifier

## Menyiapkan data yang akan digunakan

In [None]:
df = pd.read_csv('dataset/data.csv', sep = ';')
df.head()

# Data Understanding


Pada data yang digunakan terdapat 37 features dengan 4424 data yang setiap features memiliki definisinya tersendiri. Definisi ini dapat dilihat pada point dibawah

| Nama Variabel                          | Deskripsi                                                                                                                                                                                                                                      |
|---------------------------------------|----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| Marital Status                        | 1 - single, 2 - married, 3 - widower, 4 - divorced, 5 - facto union, 6 - legally separated                                                                                                            |
| Application mode                      | Mode pendaftaran siswa (berbagai aturan dan fase penerimaan berdasarkan situasi siswa, seperti jalur reguler, jalur internasional, perubahan kursus, dll.)                                            |
| Application order                     | Urutan pilihan aplikasi (0 - pilihan pertama; 9 - pilihan terakhir)                                                                                                                                   |
| Course                                | Kursus atau program studi yang dipilih oleh siswa (contoh: Teknik Informatika, Desain Komunikasi, Keperawatan, dll.)                                                                                   |
| Daytime/evening attendance            | Waktu kehadiran siswa (1 - daytime; 0 - evening)                                                                                                                                                       |
| Previous qualification                | Kualifikasi akademik sebelumnya (contoh: pendidikan dasar, menengah, diploma, gelar sarjana, dll.)                                                                                                   |
| Previous qualification (grade)       | Nilai kualifikasi akademik sebelumnya (antara 0 hingga 200)                                                                                                                                           |
| Nationality                           | Kewarganegaraan siswa (contoh: 1 - Portuguese, 6 - Spanish, 41 - Brazilian, dll.)                                                                                                                     |
| Mother's qualification                | Tingkat pendidikan ibu siswa (contoh: 1 - Secondary Education, 3 - Higher Education - Degree, 5 - Doctorate, dll.)                                                                                  |
| Father's qualification                | Tingkat pendidikan ayah siswa (contoh: 1 - Secondary Education, 3 - Higher Education - Degree, 5 - Doctorate, dll.)                                                                                  |
| Mother's occupation                   | Pekerjaan ibu siswa (contoh: 0 - Student, 3 - Intermediate Level Technicians and Professions, 5 - Personal Services, Security and Safety Workers and Sellers, dll.)                                   |
| Father's occupation                   | Pekerjaan ayah siswa (contoh: 0 - Student, 3 - Intermediate Level Technicians and Professions, 5 - Personal Services, Security and Safety Workers and Sellers, dll.)                                  |
| Admission grade                       | Nilai masuk siswa (antara 0 hingga 200)                                                                                                                                                              |
| Displaced                             | Apakah siswa pindah tempat tinggal untuk studi (1 - yes; 0 - no)                                                                                                                                      |
| Educational special needs             | Apakah siswa memiliki kebutuhan pendidikan khusus (1 - yes; 0 - no)                                                                                                                                  |
| Debtor                                | Apakah siswa memiliki tunggakan pembayaran (1 - yes; 0 - no)                                                                                                                                        |
| Tuition fees up to date               | Apakah siswa telah melunasi biaya kuliah (1 - yes; 0 - no)                                                                                                                                          |
| Gender                                | Jenis kelamin siswa (1 - male; 0 - female)                                                                                                                                                          |
| Scholarship holder                    | Apakah siswa menerima beasiswa (1 - yes; 0 - no)                                                                                                                                                    |
| Age at enrollment                     | Usia siswa pada saat pendaftaran                                                                                                                                                                    |
| International                         | Apakah siswa berasal dari luar negeri (1 - yes; 0 - no)                                                                                                                                            |
| Curricular units 1st sem (credited)   | Jumlah unit kurikulum yang diakui di semester pertama                                                                                                                                               |
| Curricular units 1st sem (enrolled)   | Jumlah unit kurikulum yang diikuti di semester pertama                                                                                                                                              |
| Curricular units 1st sem (evaluations)| Jumlah evaluasi pada unit kurikulum di semester pertama                                                                                                                                             |
| Curricular units 1st sem (approved)   | Jumlah unit kurikulum yang disetujui di semester pertama                                                                                                                                            |
| Curricular units 1st sem (grade)      | Nilai rata-rata di semester pertama (antara 0 hingga 20)                                                                                                                                            |
| Curricular units 1st sem (without evaluations) | Jumlah unit kurikulum tanpa evaluasi di semester pertama                                                                                                                                         |
| Curricular units 2nd sem (credited)   | Jumlah unit kurikulum yang diakui di semester kedua                                                                                                                                                 |
| Curricular units 2nd sem (enrolled)   | Jumlah unit kurikulum yang diikuti di semester kedua                                                                                                                                                |
| Curricular units 2nd sem (evaluations)| Jumlah evaluasi pada unit kurikulum di semester kedua                                                                                                                                               |
| Curricular units 2nd sem (approved)   | Jumlah unit kurikulum yang disetujui di semester kedua                                                                                                                                              |
| Curricular units 2nd sem (grade)      | Nilai rata-rata di semester kedua (antara 0 hingga 20)                                                                                                                                             |
| Curricular units 2nd sem (without evaluations) | Jumlah unit kurikulum tanpa evaluasi di semester kedua                                                                                                                                         |
| Unemployment rate                     | Tingkat pengangguran (%)                                                                                                                                                                            |
| Inflation rate                        | Tingkat inflasi (%)                                                                                                                                                                                 |
| GDP                                   | Produk Domestik Bruto (PDB)                                                                                                                                                                         |
| Target                                | Target klasifikasi siswa (dropout, enrolled, atau graduate) di akhir durasi studi normal                                                                                                            |

In [None]:
df.info()

In [None]:
df.describe(include="object").T

In [None]:
df.describe(include="number").T

Pada data yang digunakna terdapat 3 kelas yang terdiri dari 3 kelas yaitu dropout, enrolled, and graduate. Namun permasalahan bisnis yang ingin diselesaikan ialah ingin mengetahui secepat mungkin siswa yang mungkin akan melakukan dropout sehingga dapat diberi bimbingan khusus. Oleh karena itu nantinya pada proses machine learning yang digunakan hanya berfokus terhadap 2 kelas yaitu dropout dan graduate. Sehingga analisis lebih mengkrucut

Selain itu statistik data tiap features numerik dan kategorik tidak memiliki missing values. Namun tahapan selanjutnya ingin melakukan hubungan feature dan seleski feature

In [None]:
df = df[(df['Status'] == "Graduate") | 
        (df['Status'] == "Dropout") ]
df.head()

## EDA

Pada proses ini akan memecah feature yang bersifat kontinus dan diskrit agar dikelompokkan saat memahami persebaran data

### Numerik Kontinus

In [None]:
float_col = df.select_dtypes(include='float')

df[float_col.T.index].hist(bins = 50, figsize=(20,20))
plt.show()

Pada hasil mendapatkan informasi
* GDP memiliki nilai yang tidak wajar dimana nilai GDP dibawah 0
* Nilai pada semester 1 dan 2 memiliki jumlah nilai 0 (terburuk) paling tinggi. Hal ini mmembuktikan terdapat banyak siswa banyak yang gagal

### Numerik Diskrit

In [None]:
int_col = df.select_dtypes(include='integer')

df[int_col.T.index].hist(bins = 50, figsize=(20,20))
plt.show()

* Jumlah semester yang diikuti dari semester 1 dan semester 2 mengalami penurunan yang diambil Mahasiswa
* Proporsi perempuan lebih tinggi dibanding perempuan
* Penerima beasiswa lebih rendah dibanding yang tidak menerima beasiswa
* Hanya sebagai kecil mahaiswa yang berumur di atas 30 tahun dan paling banyak dibawah 20
* Umur ini searah dengan status perkawinan yang tertinggi dengan status single
* Pendidikan Ibu dan Ayah mahasiswa kebanyakan tidak diketahui dan lulusan SMA

Berdasarkan distribusi data di atas bisa dijadikan salah satu pemicu motivasi yang bisa diberikan instruktur (yang terutama pada pendidikan status orang tua, umur dan status perkawinan dan beasiswa) agar dapat memberikan semangat kepada mahasiswanya untuk dapat lulus lebih cepat 

## Distribusi Feature Kategorik

In [None]:
sns.countplot(data=df, x='Status', hue = 'Status')
plt.xlabel('Status', labelpad= 20)
plt.ylabel('Frequency', labelpad= 20)
plt.show()

Proporsi mahasiswa yang dropout memiliki proporsi yang hampir 50% dari total data. Informasi bisa ditelah dari analisis sebelumnya yaitu pendidikan status orang tua, umur dan status perkawinan

In [10]:
def categorical_plot(features, df, segment_feature=None):
    n_features = len(features)
    n_cols = 2 
    n_rows = (n_features + n_cols - 1) // n_cols 

    fig, axes = plt.subplots(n_rows, n_cols, figsize=(10, 5 * n_rows))
    axes = axes.flatten()

    for i, feature in enumerate(features):
        if segment_feature:
            sns.countplot(data=df, x=segment_feature, ax=axes[i], hue=feature)
            axes[i].set_title(f'Distribution of {feature}')
            axes[i].set_xticklabels(axes[i].get_xticklabels(), rotation=-45)
        else:
            sns.countplot(data=df, x=feature, ax=axes[i])
            axes[i].set_title(f'Distribution of {feature}')

    for j in range(len(features), len(axes)):
        fig.delaxes(axes[j])

    plt.tight_layout()
    plt.show()

In [None]:
categorical_plot(
    features=["Mothers_qualification", "Fathers_qualification", "Age_at_enrollment", 
              "Scholarship_holder", "Marital_status", "Fathers_occupation"],
    df=df,
    segment_feature= 'Status'
)

Ternyata dari sisi pendidikan orang tua mahasiswa yang memiliki pendidikan maksimal SMA memiliki motivasi lebih tinggi dibanding mahasiswa yang pendidikannya S1. Anehnya, Mahasiswa yang memiliki orang tua pendidikan S1 merupakan jumlah terbanyak yang berstatus dropout. Uniknya juga pekerjaan dari mahasiswa yang dropout maupun yang graduate orangnya tua sedang menempuh pendidikan. Lainnya, penerima beasiswa terdapat 100 orang yang memiliki status dropout.

Hasil ini memang membuktikan tidak adanya motivasi yang dimiliki mahasiswa dropout yang bisa menjadikan pilihan terbaik untuk memberikan motivasi oleh instruktur. Selanjutnya akan diliat bagaimana hubungan antar feature tersebut

## Pearson Correlation

Untuk menguji korelasi, akan dilakukan transformasi data sementara pada feature Target menjadi numerik dengan metode Encoder menggunakan for-if one line

In [12]:
df['Status_Numerik'] = [1 if i == "Graduate" else 0 for i in df['Status']]

In [None]:
plt.figure(figsize=(20,15))
sns.heatmap(df[['Previous_qualification_grade', 'Admission_grade',
       'Curricular_units_1st_sem_grade', 'Curricular_units_2nd_sem_grade',
       'Unemployment_rate', 'Inflation_rate', 'GDP', "Status_Numerik"]].corr(),
            annot = True, annot_kws = {'fontsize':17}, cmap = 'RdBu', linewidth = 0.3, fmt='.2f')
plt.title('Correlation each feature continous Numerik To Status', fontsize = 20)
plt.show()

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Menghitung korelasi dan hanya mengambil kolom terakhir (Status_Numerik)
corr_last = df[['Marital_status', 'Application_mode', 'Application_order', 'Course',
                'Daytime_evening_attendance', 'Previous_qualification', 'Nacionality',
                'Mothers_qualification', 'Fathers_qualification', 'Mothers_occupation',
                'Fathers_occupation', 'Displaced', 'Educational_special_needs',
                'Debtor', 'Tuition_fees_up_to_date', 'Gender', 'Scholarship_holder',
                'Age_at_enrollment', 'International',
                'Curricular_units_1st_sem_credited',
                'Curricular_units_1st_sem_enrolled',
                'Curricular_units_1st_sem_evaluations',
                'Curricular_units_1st_sem_approved',
                'Curricular_units_1st_sem_without_evaluations',
                'Curricular_units_2nd_sem_credited',
                'Curricular_units_2nd_sem_enrolled',
                'Curricular_units_2nd_sem_evaluations',
                'Curricular_units_2nd_sem_approved',
                'Curricular_units_2nd_sem_without_evaluations', 'Status_Numerik']].corr()

# Hanya memilih korelasi dengan 'Status_Numerik' dan membuat DataFrame 1D
corr_last = corr_last[['Status_Numerik']].T

# Plot heatmap
plt.figure(figsize=(10, 15))
sns.heatmap(corr_last.T, annot=True, annot_kws={'fontsize': 10}, cmap='RdBu', linewidth=0.3, fmt='.2f')
plt.title('Correlation with Status_Numerik To Status', fontsize=20)
plt.show()

Setelah diuji hubungan korelasi, yang memiliki pengaruh cukup besar terhadap status mahasiswa ialah umur dan yang langsung berhubungan dengan pelajaran seperti jumlah semester (baik evaluasi, enroll dan kredit). Hal ini bisa menunjukkan pembentukan motivasi memiliki karakteristik yang berbeda.


Selanjutnya melakukan preprocessing dengan metode yang digunakan
* Normalisasi : Untuk normalisasi sendiri akan menguji penggabungan jenis 2 metode yaitu untuk data yang bersifat kontinus akan memanfaatkan z-score dan yang bersifat diskrit akan memanfaatkan min-max
* Label Encoder
* Feature Selection LASSO
* Split Data
* SMOTE

# Data Preparation

In [15]:
df.drop("Status_Numerik", axis=1, inplace=True)

In [None]:
df = df.reset_index(drop=True)
df

In [None]:
df.info()

## Normalisasi

In [20]:
norm_scaler_zsocre = StandardScaler()
norm_scaler_minmax = MinMaxScaler()

df[df.select_dtypes(include="float").columns] = norm_scaler_zsocre.fit_transform(df[
    df.select_dtypes(include="float").columns])

df[df.select_dtypes(include="integer").columns] = norm_scaler_minmax.fit_transform(df[
    df.select_dtypes(include="integer").columns])

## Label Encoder

In [None]:
encode = LabelEncoder()
df['Status'] = encode.fit_transform(df['Status'])
df.head()

## Feature Selection LASSO

In [None]:
lasso = Lasso(alpha = 0.05, max_iter = 100, fit_intercept = False, positive = True)
lasso.fit(df.iloc[:,:-1], df.iloc[:,-1])

coeff = DataFrame(df.iloc[:,:-1].columns)
coeff['Coefficient Estimate'] = Series(lasso.coef_)
coeff = coeff.sort_values(by = "Coefficient Estimate", ascending=False).reset_index(drop=True)
coeff.rename(columns={0:"Features"}, inplace= True)
coeff

In [None]:
df_fs = df[coeff["Features"][:4].values].reset_index(drop = True)
df_fs["Status"] = df["Status"]
df_fs

## Split Data