# **Import Libraries**

In [3]:
import pandas as pd

In [4]:
# Mount Google Drive
from google.colab import drive
drive.mount('/content/drive')


Mounted at /content/drive


# **Baca Dataset yang kotor**

In [5]:
# Baca file .csv
file_path = '/content/drive/MyDrive/Colab Notebooks/Datasets/Student Mental health.csv'
data = pd.read_csv(file_path)  # Tidak perlu engine khusus untuk CSV

# Tampilkan Data
print(data)


               Timestamp Choose your gender   Age What is your course?  \
0         8/7/2020 12:02             Female  18.0          Engineering   
1         8/7/2020 12:04               Male  21.0    Islamic education   
2         8/7/2020 12:05               Male  19.0                  BIT   
3         8/7/2020 12:06             Female  22.0                 Laws   
4         8/7/2020 12:13               Male  23.0         Mathemathics   
..                   ...                ...   ...                  ...   
96   13/07/2020 19:56:49             Female  21.0                  BCS   
97   13/07/2020 21:21:42               Male  18.0          Engineering   
98   13/07/2020 21:22:56             Female  19.0             Nursing    
99   13/07/2020 21:23:57             Female  23.0     Pendidikan Islam   
100  18/07/2020 20:16:21               Male  20.0   Biomedical science   

    Your current year of Study What is your CGPA? Marital status  \
0                       year 1        3.00 

# **Menampilkan struktur variabel dari data murid**

In [6]:
print("Struktur Data Murid:")
print(data.info())

Struktur Data Murid:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 101 entries, 0 to 100
Data columns (total 11 columns):
 #   Column                                        Non-Null Count  Dtype  
---  ------                                        --------------  -----  
 0   Timestamp                                     101 non-null    object 
 1   Choose your gender                            101 non-null    object 
 2   Age                                           100 non-null    float64
 3   What is your course?                          101 non-null    object 
 4   Your current year of Study                    101 non-null    object 
 5   What is your CGPA?                            101 non-null    object 
 6   Marital status                                101 non-null    object 
 7   Do you have Depression?                       101 non-null    object 
 8   Do you have Anxiety?                          101 non-null    object 
 9   Do you have Panic attack?                   

In [7]:
# Tampilkan nama kolom dan tipe data kolom
column_types = data.dtypes
print(column_types)

Timestamp                                        object
Choose your gender                               object
Age                                             float64
What is your course?                             object
Your current year of Study                       object
What is your CGPA?                               object
Marital status                                   object
Do you have Depression?                          object
Do you have Anxiety?                             object
Do you have Panic attack?                        object
Did you seek any specialist for a treatment?     object
dtype: object


# **Data Cleansing - Standarisasi kolom Timestamp**

Algoritma yang akan digunakan:

1.   Cek apakah tanggal memiliki format "DD/MM/YYYY" di awal.
2.   Cek keterangan waktu setelah "DD/MM/YYYY". Apakah keterangan waktu sudah menampilkan jam dan menit. Jika menampikan detik, dihapus saja.
3. Tampilkan hasil yang sudah diperbaiki.

In [8]:
import pandas as pd

# Pastikan kolom Timestamp bersih dari spasi
data['Timestamp'] = data['Timestamp'].astype(str).str.strip()

# Fungsi cleansing menggunakan pd.to_datetime
def clean_timestamp(ts):
    try:
        dt = pd.to_datetime(ts, dayfirst=True, errors='coerce')  # dayfirst=True untuk format DD/MM/YYYY
        if pd.isnull(dt):
            return ts  # kalau gagal parsing, kembalikan aslinya
        return dt.strftime('%d/%m/%Y %H:%M')  # ambil jam:menit saja, hapus detik
    except:
        return ts

# Terapkan ke kolom Timestamp dan timpa kolom asli
data['Timestamp'] = data['Timestamp'].apply(clean_timestamp)

# Atur agar semua baris & kolom ditampilkan
pd.set_option("display.max_rows", None)   # tampilkan semua baris
pd.set_option("display.max_columns", None) # tampilkan semua kolom
pd.set_option("display.max_colwidth", None) # tampilkan isi kolom tanpa terpotong

# Tampilkan 20 baris pertama supaya jelas terlihat hasil cleansing
data[['Timestamp']]

Unnamed: 0,Timestamp
0,08/07/2020 12:02
1,08/07/2020 12:04
2,08/07/2020 12:05
3,08/07/2020 12:06
4,08/07/2020 12:13
5,08/07/2020 12:31
6,08/07/2020 12:32
7,08/07/2020 12:33
8,08/07/2020 12:35
9,08/07/2020 12:39


# **Data Cleansing - Standarisasi kolom Tahun Akademik**

Algoritma yang akan digunakan:
1. Cek apakah tahun memiliki format "Year" dan angka.
2. Kalau "Year" tidak sesuai dan ada huruf kapital dan huruf kecil yang salah, diperbaiki sesuai format

In [9]:
import pandas as pd
import re

# Fungsi cleansing
def clean_year(value):
    if not isinstance(value, str):
        return value

    text = value.strip()
    match = re.search(r'(\d+)', text)
    if match:
        year_number = match.group(1)
        return f"Year {year_number}"
    else:
        return None  # kalau tidak ada angka bisa diganti None atau dibiarkan asli

# Langsung timpa kolom
data["Your current year of Study"] = data["Your current year of Study"].apply(clean_year)

# Atur agar semua baris & kolom ditampilkan
pd.set_option("display.max_rows", None)   # tampilkan semua baris
pd.set_option("display.max_columns", None) # tampilkan semua kolom
pd.set_option("display.max_colwidth", None) # tampilkan isi kolom tanpa terpotong

# Tampilkan hasil
data[['Your current year of Study']]


Unnamed: 0,Your current year of Study
0,Year 1
1,Year 2
2,Year 1
3,Year 3
4,Year 4
5,Year 2
6,Year 2
7,Year 1
8,Year 2
9,Year 1


# **Data Cleansing - Standarisasi kolom Fakultas**

Algoritma yang akan digunakan:
1. Identifikasi nilai yang tidak seragam.
Cek apakah data berisi singkatan, huruf acak (huruf besar/kecil tidak konsisten), atau menggunakan bahasa selain Inggris.
2. Definisikan standar format. Semua nilai harus dalam bahasa Inggris. Semua nilai harus dalam bentuk lengkap (tidak boleh singkatan). Gunakan title case (huruf kapital di awal kata).
3. Lakukan mapping dari nilai tidak standar ke bentuk standar. Contoh:

  - "BIT", "IT" → Information Technology,

  - "BCS" → Computer Science, dan seterusnya sesuai daftar mapping.

4. Periksa nilai yang tidak terdapat dalam mapping. Jika tidak ada padanan, ubah menjadi format title case sebagai default.

5. Timpa kolom asli dengan hasil yang sudah dibersihkan. Semua nilai akhir harus sesuai standar yang sudah didefinisikan.

6. Simpan hasil cleansing. Simpan dataset baru atau tampilkan nilai unik untuk validasi.

In [10]:
import pandas as pd

# Ganti path ini sesuai lokasi file kamu di Google Drive
file_path = '/content/drive/MyDrive/Colab Notebooks/Datasets/Student Mental health.csv'

# Baca dataset
data = pd.read_csv(file_path)

# Mapping standar course
mapping = {
    "engineering": "Engineering",
    "engin": "Engineering",
    "engine": "Engineering",
    "enm": "Engineering",
    "Islamic education": "Islamic Studies",
    "pendidikan islam": "Islamic Studies",
    "usuluddin": "Ushuluddin",
    "fiqh fatwa": "Islamic Studies",
    "fiqh": "Islamic Studies",
    "irkhs": "Islamic Studies",
    "IRHKS": "Islamic Studies",
    "KIRHKS": "Islamic Studies",
    "kirkhs": "Islamic Studies",
    "bit": "Information Technology",
    "BIT": "Information Technology",
    "it": "Information Technology",
    "bcs": "Computer Science",
    "BCS": "Computer Science",
    "law": "Law",
    "laws": "Law",
    "mathemathics": "Mathematics",
    "human resources": "Human Resource Management",
    "psychology": "Psychology",
    "kenms": "Economics and Management Sciences",
    "econs": "Economics and Management Sciences",
    "banking studies": "Economics and Management Sciences",
    "business administration": "Economics and Management Sciences",
    "accounting": "Economics and Management Sciences",
    "koe": "Engineering",
    "ala": "Arabic Language and Literature",
    "benl": "English Language and Literature",
    "cts": "Communication Technology Studies",
    "biomedical science": "Biomedical Science",
    "biotechnology": "Biotechnology",
    "human sciences": "Human Sciences",
    "communication": "Communication Studies",
    "diploma nursing": "Nursing",
    "Diploma Tesl": "Teaching English as a Second Language",
    "DIPLOMA TESL": "Teaching English as a Second Language",
    "nursing": "Nursing",
    "radiography": "Radiography",
    "taasl": "Teaching Arabic as a Second Language",
    "mhsc": "Human Sciences",
    "malcom": "Management and Communication",
    "kop": "Cooperative Management"
}

# Fungsi cleansing
def clean_course(value):
    if not isinstance(value, str):
        return value
    key = value.strip().lower()
    return mapping.get(key, value.title())  # jika tidak ada di mapping → title case

# Terapkan cleansing langsung menimpa kolom
data["What is your course?"] = data["What is your course?"].apply(clean_course)

# Atur agar semua baris & kolom ditampilkan
pd.set_option("display.max_rows", None)   # tampilkan semua baris
pd.set_option("display.max_columns", None) # tampilkan semua kolom
pd.set_option("display.max_colwidth", None) # tampilkan isi kolom tanpa terpotong

# Coba tampilkan dataset
data[['What is your course?']]

Unnamed: 0,What is your course?
0,Engineering
1,Islamic Education
2,Information Technology
3,Law
4,Mathematics
5,Engineering
6,Islamic Studies
7,Computer Science
8,Human Resource Management
9,Islamic Studies


# **Data Enrichment**

Data enrichment adalah proses pengisian data yang hilang atau menambah data baik dari sumber internal maupun eksternal dengan cara mengkorelasikan berdasarkan beberapa kolom tertentu sehingga analisa data lebih tajam. Sebagai contoh, data *Age* yang kosong dapat diisi dengan nilai rata-rata (mean) dari keseluruhan data.

Kolom *Age* dari dataset kita adalah kolom bertipe numerik yang beberapa diantaranya berisi missing value (NA).

In [11]:
# Count the missing values in the 'Age' column
missing_values_count = data['Age'].isna().sum()
missing_values_count

np.int64(1)

Pada baris terakhir yaitu NA's : 1 menyatakan bahwa kolom ini memiliki satu NA atau missing value. Dan untuk mengisinya, biasa menggunakan nilai rata-rata (mean) atau nilai tengah (median). Untuk subbab ini, kita akan mengisi dengan nilai rata-rata (mean). Untuk melakukan perhitungan rata-rata kita akan gunakan function mean.

In [12]:
# Menghitung rata-rata dari kolom 'Age', abaikan nilai yang hilang (NA)
mean_value = data['Age'].mean()

# Mengisi nilai yang hilang dengan rata-rata tersebut
data['Age'].fillna(mean_value, inplace=True)

# Tampilkan beberapa baris pertama untuk memastikan hasilnya
data[['Age']]

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  data['Age'].fillna(mean_value, inplace=True)


Unnamed: 0,Age
0,18.0
1,21.0
2,19.0
3,22.0
4,23.0
5,19.0
6,23.0
7,18.0
8,19.0
9,18.0
