# <p style="background-color:lime; font-family:calibri; color:maroon; font-size:150%; text-align:center; border-radius:15px 50px;">Data Preprocessing</p>

<div style="border-radius:10px; padding: 15px; background-color: #C02929; font-size:115%; text-align:left">

<h3 align="left"><font color=black>Objectives:
  
  
1. Install Libraries
2. Import Libraries
3. Load Dataset
4. Data Exploration
5. Data Quality
   - Penanganan Nilai yang hilang
   - Penanganan Format yang sesuai standard
6. Data Visualization


</font></h3>

# <p style="background-color:#8502d1; font-family:calibri; color:white; font-size:150%; text-align:center; border-radius:15px 50px;">Step 1 | Install Libraries</p>

In [None]:
# !pip install pandas
# !pip install numpy
# !pip install scikit-learn
# !pip install matplotlib
# !pip install seaborn

# <p style="background-color:#8502d1; font-family:calibri; color:white; font-size:150%; text-align:center; border-radius:15px 50px;">Step 2 | Import Libraries</p>

In [None]:
import pandas as pd
import numpy as np
from sklearn import preprocessing
from matplotlib import pyplot as plt
import seaborn as sns

# <p style="background-color:#8502d1; font-family:calibri; color:white; font-size:150%; text-align:center; border-radius:15px 50px;">Step 3 | Load Dataset</p>

In [None]:
df = pd.read_csv('datakelulusanmahasiswa.csv')


<div style="border-radius:10px; padding: 15px; background-color: #C02929; font-size:110%; text-align:left">

<h2 align="left"><font color=black>Dataset Description:</font></h2>
    
| __Variable__         | __Description__                                                       |
|:---------------------|:----------------------------------------------------------------------|      
| __NAMA__             | Nama Mahasiswa                                                        |                
| __JENIS KELAMIN__    | Jenis Kelamin Mahasiswa yang terdiri dari 'Laki-Laki' dan 'Perempuan' |                        
| __STATUS MAHASISWA__ | Status Mahasiswa yang terdiri dari 'Bekerja' dan 'Mahasiswa'          |
| __UMUR__             | Usia Mahasiswa                                                        |
| __STATUS NIKAH__     | Status Nikah terdiri dari 'Belum Menikah' dan 'Menikah'               |                     
| __IPS 1__            | Indeks Prestasi Mahasiswa Semester 1                                  |
| __IPS 2__            | Indeks Prestasi Mahasiswa Semester 2                                  |
| __IPS 3__            | Indeks Prestasi Mahasiswa Semester 3                                  |
| __IPS 4__            | Indeks Prestasi Mahasiswa Semester 4                                  |
| __IPS 5__            | Indeks Prestasi Mahasiswa Semester 5                                  |
| __IPS 6__            | Indeks Prestasi Mahasiswa Semester 6                                  |
| __IPS 7__            | Indeks Prestasi Mahasiswa Semester 7                                  |
| __IPS 8__            | Indeks Prestasi Mahasiswa Semester 8                                  |
| __IPK__              | Indeks Prestasi Kumulatif Mahasiswa selama 8 semester                 |
| __STATUS KELULUSAN__ | Status Kelulusan Mahasiswa yang terdiri dari 'Lulus' dan 'Tidak Lulus' |  


# <p style="background-color:#8502d1; font-family:calibri; color:white; font-size:150%; text-align:center; border-radius:15px 50px;">Step 4 | Data Exploration</p>

In [None]:
# Menampilkan semua baris dan kolom
df

In [None]:
# Menampilkan baris pertama
df.head()

In [None]:
# Menampilkan baris terakhir
df.tail()

In [None]:
# Menampilkan ringkasan dataframe
df.info()

In [None]:
df.describe()

In [None]:
# Menampilkan spesifik kolom/atribut
df[[ 'NAMA', 'JENIS KELAMIN', 'STATUS MAHASISWA', 'STATUS NIKAH', 'STATUS KELULUSAN']].describe()

# <p style="background-color:#8502d1; font-family:calibri; color:white; font-size:150%; text-align:center; border-radius:15px 50px;">Step 5 | Data Quality</p>

In [None]:
# Mengecek nilai yang hilang
df.isnull().sum()

In [None]:
# Mengisi nilai yang hilang
df['UMUR'].fillna(df['UMUR'].median(), inplace=True)
df['IPS 1'].fillna(df['IPS 1'].mean(), inplace=True)
df['IPS 2'].fillna(df['IPS 2'].mean(), inplace=True)
df['IPS 3'].fillna(df['IPS 3'].mean(), inplace=True)
df['IPS 4'].fillna(df['IPS 4'].mean(), inplace=True)
df['IPS 5'].fillna(df['IPS 5'].mean(), inplace=True)
df['IPS 6'].fillna(df['IPS 6'].mode()[0], inplace=True)
df['IPS 7'].fillna(df['IPS 7'].mode()[0], inplace=True)
df['IPS 8'].fillna(df['IPS 8'].mode()[0], inplace=True)
df['IPK '].fillna(df['IPK '].mean(), inplace=True)


In [None]:
print('Data setelah dibersihkan : ')
df.isnull().sum()

<div style="border-radius:10px; padding: 15px; background-color: #C02929; font-size:110%; text-align:left">

<h2 align="left"><font color=black>Keterangan:</font></h2>
    
    
* __`UMUR`__: Nilai yang hilang dari atribut Umur diisi oleh nilai median.
* __`IPS 1`__, __`IPS 2`__, __`IPS 3`__, __`IPS 4`__, __`IPS 5`__,  __`IPK`__: Nilai yang hilang dari atribut IPS 1 hingga IPS 5 dan IPK diganti dengan nilai Mean
* __`IPS 6`__, __`IPS 7`__, __`IPS 8`__: Nilai yang hilang dari atribut IPS 6 hingga IPS 7 diganti dengan nilai Modus


In [None]:
# Mengubah Value pada kolom JENIS KELAMIN

df['JENIS KELAMIN'].unique()

In [None]:
# Mengubah format standard

df['JENIS KELAMIN'] = df['JENIS KELAMIN'].replace('pEreMpuAn', 'PEREMPUAN')

In [None]:
df['JENIS KELAMIN']     = df['JENIS KELAMIN'].replace('LaKi-lAki', 'LAKI - LAKI')

In [None]:
df['JENIS KELAMIN'] = df['JENIS KELAMIN'].replace('LaKi-LakI', 'LAKI - LAKI')

In [None]:
df['JENIS KELAMIN'].unique()

In [None]:
df.info()

<div style="border-radius:10px; padding: 15px; background-color: #C02929; font-size:110%; text-align:left">

<h2 align="left"><font color=black>Keterangan:</font></h2>
    
    
* __`JENIS KELAMIN`__: Nilai yang formatnya tidak sesuai diubah menjadi format yang sesuai menjadi 'LAKI - LAKI' dan 'PEREMPUAN'



In [None]:
# Encode categorical variables
le = preprocessing.LabelEncoder()
df['JENIS KELAMIN'] = le.fit_transform(df['JENIS KELAMIN'])


In [None]:
df['STATUS MAHASISWA'] = le.fit_transform(df['STATUS MAHASISWA'])

In [None]:
df['STATUS NIKAH'] = le.fit_transform(df['STATUS NIKAH'])

In [None]:
df['STATUS KELULUSAN'] = le.fit_transform(df['STATUS KELULUSAN'])

In [None]:
df

<div style="border-radius:10px; padding: 15px; background-color: #C02929; font-size:110%; text-align:left">

<h2 align="left"><font color=black>Keterangan:</font></h2>
    
    
* __`JENIS KELAMIN`__: Nilai dari Atribut Jenis Kelamin diubah menjadi nilai 0 dan 1 menggunakan fungsi Label Encoder yang mana 'Laki - Laki' menjadi '0' dan 'PEREMPUAN' menjadi '1'
* __`STATUS MAHASISWA`__: Nilai dari Atribut Status Mahasiswa diubah menjadi nilai 0 dan 1 menggunakan fungsi Label Encoder yang mana 'Bekerja' menjadi '0' dan 'Mahasiswa' menjadi '1'
* __`STATUS NIKAH`__: Nilai dari Atribut Status Nikah diubah menjadi nilai 0 dan 1 menggunakan fungsi Label Encoder yang mana 'Belum Menikah' menjadi '0' dan 'Menikah' menjadi '1'
* __`STATUS KELULUSAN`__: Nilai dari Atribut Status Kelulusan diubah menjadi nilai 0 dan 1 menggunakan fungsi Label Encoder yang mana 'Tepat' menjadi '0' dan 'Terlambat' menjadi '1'


In [None]:
df['IPS 1'] = df['IPS 1'].round(2)
df['IPS 2'] = df['IPS 2'].round(2)
df['IPS 3'] = df['IPS 3'].round(2)
df['IPS 4'] = df['IPS 4'].round(2)
df['IPS 5'] = df['IPS 5'].round(2)      
df['IPS 6'] = df['IPS 6'].round(2)
df['IPS 7'] = df['IPS 7'].round(2)
df['IPS 8'] = df['IPS 8'].round(2)
df['IPK '] = df['IPK '].round(2)

In [None]:
df

<div style="border-radius:10px; padding: 15px; background-color: #C02929; font-size:110%; text-align:left">

<h2 align="left"><font color=black>Keterangan:</font></h2>
    
    
* __`IPS 1`__, __`IPS 2`__, __`IPS 3`__, __`IPS 4`__, __`IPS 5`__, __`IPS 6`__, __`IPS 7`__, __`IPS 8`__, __`IPK`__: Nilai dari IPS 1 hingga IPK dibulatkan 2 angka dibelakang koma



# <p style="background-color:#8502d1; font-family:calibri; color:white; font-size:150%; text-align:center; border-radius:15px 50px;">Step 6 | Data Visualization</p>

In [None]:
# Histogram Digunakan untuk menunjukkan distribusi variabel tunggal.

# Menampilkan visualisasi Jenis Kelamin

# Membuat histogram dari kolom JENIS KELAMIN
# kind='hist' digunakan untuk membuat histogram
# bins = 20 digunakan untuk mengatur jumlah bins dalam histogram
# title='JENIS KELAMIN' digunakan untuk mengatur judul histogram
df['JENIS KELAMIN'].plot(kind='hist', bins = 20, title='JENIS KELAMIN')
# Menghilangkan garis atas dan kanan dari plot
plt.gca().spines[['top', 'right',]].set_visible(False)

In [None]:
# Histogram Digunakan untuk menunjukkan distribusi variabel tunggal.

# Menampilkan visualisasi Status Mahasiswa
# Membuat histogram dari kolom STATUS MAHASISWA
# parameter bins=20 untuk mengatur jumlah bin pada histogram
# title='STATUS MAHASISWA' untuk mengatur judul histogram
df['STATUS MAHASISWA'].plot(kind='hist', bins=20, title='STATUS MAHASISWA')

# Menghilangkan spines atas dan kanan pada plot
plt.gca().spines[['top', 'right',]].set_visible(False)

In [None]:

# Histogram Digunakan untuk menunjukkan distribusi variabel tunggal.

# Membuat histogram dari kolom UMUR
# parameter bins=20 artinya akan dibagi menjadi 20 bagian
# parameter title='UMUR' artinya judul dari plot adalah 'UMUR'
df['UMUR'].plot(kind='hist', bins=20, title='UMUR')

# Menghilangkan garis atas dan kanan dari plot
# dengan cara mengatur visibility dari spines
plt.gca().spines[['top', 'right',]].set_visible(False)

In [None]:
# Membuat count plot untuk kolom 'JENIS KELAMIN' dengan pembeda warna berdasarkan 'STATUS KELULUSAN'
sns.countplot(data=df, x='JENIS KELAMIN', hue='STATUS KELULUSAN')

# Menambahkan judul pada plot
plt.title('Jenis Kelamin vs Status Kelulusan')

# Menambahkan label pada sumbu x
plt.xlabel('Jenis Kelamin')

# Menambahkan label pada sumbu y
plt.ylabel('Jumlah')

# Menampilkan legenda dengan judul 'Status Kelulusan'
plt.legend(title='Status Kelulusan')

# Menampilkan plot
plt.show()

In [None]:


# Membuat gambar dengan ukuran 10x6 inci
plt.figure(figsize=(10, 6))

# Membuat plot hitungan (countplot) menggunakan seaborn
# data=df: menggunakan dataframe df sebagai sumber data
# x='STATUS MAHASISWA': menggunakan kolom STATUS MAHASISWA sebagai sumbu x
# hue='STATUS KELULUSAN': membedakan warna berdasarkan STATUS KELULUSAN
sns.countplot(data=df, x='STATUS MAHASISWA', hue='STATUS KELULUSAN')

# Menambahkan judul plot
plt.title('Status Mahasiswa vs Status Kelulusan')

# Menambahkan label untuk sumbu x
plt.xlabel('STATUS MAHASISWA')

# Menambahkan label untuk sumbu y
plt.ylabel('STATUS KELULUSAN')

# Menambahkan legenda dengan judul 'Status Kelulusan'
plt.legend(title='Status Kelulusan')

# Mengubah label sumbu x menjadi 'Bekerja' dan 'Mahasiswa'
plt.xticks([0,1], ['Bekerja', 'Mahasiswa'])

# Menampilkan plot
plt.show()

In [None]:
# Line Chart: Digunakan untuk menunjukkan tren dari waktu ke waktu atau di berbagai kategori.

# Menampilkan visualisasi Line Chart untuk kolom IPK
# Membuat gambar dengan ukuran 10x5 inci
plt.figure(figsize=(10, 5))

# Membuat plot garis untuk data IPK
# marker='o': menambahkan titik pada setiap data
# linestyle='-': menggunakan garis solid
# color='b': menggunakan warna biru
plt.plot(df['IPK '], marker='o', linestyle='-', color='b')

# Menambahkan judul grafik
plt.title('Line Chart IPK')

# Menambahkan label untuk sumbu x
plt.xlabel('Index')

# Menambahkan label untuk sumbu y
plt.ylabel('IPK')

# Menambahkan grid pada grafik
plt.grid()

# Menampilkan grafik
plt.show()

In [None]:
# Line Chart: Digunakan untuk menunjukkan tren dari waktu ke waktu atau di berbagai kategori.

# Membuat gambar dengan ukuran 12x6 inci
plt.figure(figsize=(12, 6))

# Melakukan iterasi untuk setiap IPS dari 1 sampai 8
for i in range(1, 9):
    kolom_ips = f'IPS {i}'
    # Membuat plot untuk setiap IPS dengan marker bulat, garis solid, dan ukuran marker 4
    plt.plot(df[kolom_ips], label=kolom_ips, marker='o', linestyle='-', markersize=4)

# Menambahkan judul grafik
plt.title('Perbandingan IPS 1 sampai IPS 8')
# Menambahkan label untuk sumbu x
plt.xlabel('Indeks Mahasiswa')
# Menambahkan label untuk sumbu y
plt.ylabel('Nilai IPS')

# Menambahkan legenda di luar plot di sebelah kanan atas
plt.legend(loc='upper left', bbox_to_anchor=(1.05, 1))

# Menambahkan grid dengan garis putus-putus dan transparansi 0.7
plt.grid(True, linestyle='--', alpha=0.7)

# Mengatur tata letak plot agar tidak tumpang tindih
plt.tight_layout()

# Menampilkan plot
plt.show()

In [None]:
# Membuat heatmap korelasi: Digunakan untuk menunjukkan korelasi antara berbagai variabel.
# Membuat gambar dengan ukuran 10x8 inci
plt.figure(figsize=(10, 8))

# Mendefinisikan daftar kolom IPS dan IPK yang akan dianalisis
IPS = ['IPS 1', 'IPS 2', 'IPS 3', 'IPS 4', 'IPS 5', 'IPS 6', 'IPS 7', 'IPS 8', 'IPK ']

# Menghitung matriks korelasi antara kolom-kolom IPS dan IPK
correlation_matrix = df[IPS].corr()

# Membuat heatmap menggunakan seaborn
# annot=True: Menampilkan nilai korelasi di setiap sel
# cmap='coolwarm': Menggunakan skema warna dari biru (korelasi negatif) ke merah (korelasi positif)
# linewidths=.5: Menambahkan garis pemisah antar sel dengan ketebalan 0.5
# fmt='.2f': Menampilkan nilai korelasi dengan 2 angka desimal
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', linewidths=.5, fmt='.2f')

# Menambahkan judul pada heatmap
plt.title('Heatmap Korelasi IPS dan IPK')

# Mengatur tata letak plot agar tidak tumpang tindih
plt.tight_layout()

# Menampilkan plot
plt.show()

In [None]:
# Boxplots: Digunakan untuk menunjukkan hubungan antara dua variabel kontinu

# Membuat gambar dengan ukuran 12x6 inci
plt.figure(figsize=(12, 6))

# Membuat boxplot untuk IPS 1 sampai IPS 8 menggunakan seaborn
sns.boxplot(data=df[['IPS 1', 'IPS 2', 'IPS 3', 'IPS 4', 'IPS 5', 'IPS 6', 'IPS 7', 'IPS 8']])

# Menambahkan judul pada plot
plt.title('Distribusi IPS per Semester')

# Menambahkan label untuk sumbu y
plt.ylabel('Nilai IPS')

# Memutar label sumbu x sebesar 45 derajat untuk memudahkan pembacaan
plt.xticks(rotation=45)

# Menampilkan plot
plt.show()

In [None]:
# Violin plot adalah jenis visualisasi data yang menggabungkan fitur box plot dan plot densitas untuk menampilkan distribusi data numerik

# Membuat gambar dengan ukuran 10x6 inci
plt.figure(figsize=(10, 6))

# Membuat violin plot untuk menampilkan distribusi IPK berdasarkan status mahasiswa
sns.violinplot(x='STATUS MAHASISWA', y='IPK ', data=df)

# Menambahkan judul pada plot
plt.title('Distribusi IPK berdasarkan Status Mahasiswa')

# Menambahkan label untuk sumbu x
plt.xlabel('Status Mahasiswa')

# Menambahkan label untuk sumbu y
plt.ylabel('IPK')

# Mengubah label sumbu x dari angka menjadi kategori yang sesuai
plt.xticks([0, 1], ['Bekerja', 'Mahasiswa'])

# Menampilkan plot
plt.show()

In [None]:
# Pairplot adalah jenis visualisasi data yang menampilkan hubungan berpasangan antara beberapa variabel dalam satu gambar.
# Membuat pairplot untuk variabel numerik terpilih
# Pairplot menampilkan hubungan antara variabel dalam bentuk scatter plot dan histogram
sns.pairplot(df[['UMUR', 'IPS 1', 'IPS 8', 'IPK ', 'STATUS KELULUSAN']], hue='STATUS KELULUSAN')

# Menambahkan judul utama di atas pairplot
# Parameter y=1.02 menempatkan judul sedikit di atas plot
plt.suptitle('Pairplot Variabel Numerik', y=1.02)

# Menampilkan plot
plt.show()

In [None]:
# Crosstab, atau tabel silang, adalah metode untuk menampilkan frekuensi atau proporsi dari kombinasi dua atau lebih variabel kategorikal.

# Membuat tabel silang (crosstab) antara JENIS KELAMIN dan STATUS KELULUSAN
# normalize='index' menghasilkan proporsi untuk setiap jenis kelamin
status_gender = pd.crosstab(df['JENIS KELAMIN'], df['STATUS KELULUSAN'], normalize='index')

# Membuat plot batang bertumpuk dari tabel silang
# kind='bar' untuk plot batang, stacked=True untuk menumpuk batang
# figsize=(10, 6) mengatur ukuran gambar menjadi 10x6 inci
status_gender.plot(kind='bar', stacked=True, figsize=(10, 6))

# Menambahkan judul ke plot
plt.title('Komposisi Status Kelulusan berdasarkan Jenis Kelamin')

# Menambahkan label untuk sumbu x
plt.xlabel('Jenis Kelamin')

# Menambahkan label untuk sumbu y
plt.ylabel('Proporsi')

# Menambahkan legenda dengan judul 'Status Kelulusan'
plt.legend(title='Status Kelulusan')

# Mengubah label sumbu x dari angka (0, 1) menjadi kategori yang sesuai
plt.xticks([0, 1], ['Laki-laki', 'Perempuan'])

# Menampilkan plot
plt.show()

In [None]:
# Hitung jumlah untuk setiap status kelulusan
# Menghitung jumlah untuk setiap status kelulusan
status_counts = df['STATUS KELULUSAN'].value_counts()

# Membuat gambar baru dengan ukuran 10x8 inci
plt.figure(figsize=(10, 8))

# Membuat diagram pie
# status_counts.values: data yang akan diplot
# labels: label untuk setiap bagian pie
# autopct: menampilkan persentase dengan 1 angka desimal
# startangle: sudut awal untuk memulai pie (90 derajat)
plt.pie(status_counts.values, labels=['LAKI - LAKI', 'PEREMPUAN'], autopct='%1.1f%%', startangle=90)

# Menambahkan judul ke diagram
plt.title('Distribusi Status Kelulusan')

# Memastikan pie berbentuk lingkaran sempurna
plt.axis('equal')

# Menampilkan diagram
plt.show()

In [None]:
# Menghitung jumlah untuk setiap status mahasiswa
status_counts = df['STATUS MAHASISWA'].value_counts()

# Membuat gambar baru dengan ukuran 10x8 inci
plt.figure(figsize=(10, 8))

# Membuat diagram pie
# status_counts.values: data yang akan diplot
# labels: label untuk setiap bagian pie (Mahasiswa dan Bekerja)
# autopct: menampilkan persentase dengan 1 angka desimal
# startangle: sudut awal untuk memulai pie (90 derajat)
plt.pie(status_counts.values, labels=['Mahasiswa', 'Bekerja'], autopct='%1.1f%%', startangle=90)

# Menambahkan judul ke diagram
plt.title('Distribusi Status Mahasiswa')

# Memastikan pie berbentuk lingkaran sempurna
plt.axis('equal')

# Menampilkan diagram
plt.show()