In [4]:
import pandas as pd

# =======================
# 1. Load Dataset
# =======================
file_path = "student_data_extended.csv"  # pastikan file sudah di-upload di Colab

# Baca file dengan delimiter titik koma
df = pd.read_csv(file_path, sep=',')

# Bersihkan nama kolom dari spasi atau karakter tersembunyi
df.columns = df.columns.str.strip()

# Cek nama kolom setelah pembersihan
print("Nama Kolom dalam Dataset:")
print(df.columns)

# =======================
# 2. Normalisasi Kolom Target
# =======================
# Pastikan kolom 'StudyTimeWeekly' dan 'GPA' ada di dataset
if 'StudyTimeWeekly' in df.columns:
    # Periksa apakah ada koma dalam data (misal, sebagai pemisah desimal)
    df['StudyTimeWeekly'] = df['StudyTimeWeekly'].astype(str).str.replace(',', '.', regex=False)

    # Ubah kolom StudyTimeWeekly menjadi tipe float
    df['StudyTimeWeekly'] = pd.to_numeric(df['StudyTimeWeekly'], errors='coerce')

    # Clip dan round sesuai batasan (untuk StudyTimeWeekly antara 0 hingga 20)
    df['StudyTimeWeekly'] = df['StudyTimeWeekly'].clip(0, 20).round(1)

else:
    print("Kolom 'StudyTimeWeekly' tidak ditemukan dalam dataset!")

if 'GPA' in df.columns:
    # Ganti koma dengan titik di kolom GPA jika ada
    df['GPA'] = df['GPA'].astype(str).str.replace(',', '.', regex=False)
    
    # Periksa nilai yang tidak bisa dikonversi
    print("\nBeberapa nilai pada kolom GPA sebelum konversi:")
    print(df['GPA'].head())

    # Ubah kolom GPA menjadi tipe float
    df['GPA'] = pd.to_numeric(df['GPA'], errors='coerce')
    
    # Tampilkan nilai NaN setelah konversi
    print("\nJumlah NaN setelah konversi GPA:")
    print(df['GPA'].isnull().sum())
    
    # Clip dan round sesuai batasan (GPA antara 0 hingga 4)
    df['GPA'] = df['GPA'].clip(0, 4).round(2)

else:
    print("Kolom 'GPA' tidak ditemukan dalam dataset!")

# =======================
# 3. Cek Missing Values
# =======================
print("\nJumlah Missing Values per Kolom:")
print(df.isnull().sum())

# =======================
# 4. Tampilkan Hasil
# =======================
print("\nContoh Data Setelah Normalisasi:")
print(df[['StudentID', 'StudyTimeWeekly', 'GPA']].head())

# (Optional) Simpan ke file baru
df.to_csv("Cleaned_Student_performance_data2.csv", index=False)

Nama Kolom dalam Dataset:
Index(['StudentID', 'Age', 'Gender', 'Ethnicity', 'ParentalEducation',
       'StudyTimeWeekly', 'Absences', 'Tutoring', 'ParentalSupport',
       'Extracurricular', 'Sports', 'Music', 'Volunteering', 'GPA',
       'GradeClass'],
      dtype='object')

Beberapa nilai pada kolom GPA sebelum konversi:
0    1.4027583147579905
1    0.5908043736285506
2    1.9967466620061631
3    1.7638911676080171
4    0.0672718231839595
Name: GPA, dtype: object

Jumlah NaN setelah konversi GPA:
0

Jumlah Missing Values per Kolom:
StudentID            0
Age                  0
Gender               0
Ethnicity            0
ParentalEducation    0
StudyTimeWeekly      0
Absences             0
Tutoring             0
ParentalSupport      0
Extracurricular      0
Sports               0
Music                0
Volunteering         0
GPA                  0
GradeClass           0
dtype: int64

Contoh Data Setelah Normalisasi:
   StudentID  StudyTimeWeekly   GPA
0       1001             10.1 