# PRE-PROCESSING DATA

Pre-processing data bertujuan untuk membersihkan, memformat, dan mempersiapkan data mentah sehingga siap digunakan dalam analisis atau pemodelan. Ini melibatkan langkah-langkah seperti menangani data yang hilang, menghapus duplikat, normalisasi atau standardisasi, serta konversi tipe data agar lebih mudah dianalisis atau dimodelkan. Pre-processing yang baik dapat meningkatkan kualitas model dan hasil analisis.

### Import Library

##### import pandas as pd:
Pandas adalah library untuk manipulasi dan analisis data, yang sering digunakan untuk bekerja dengan data dalam format tabel (DataFrame). Dengan Pandas, kamu bisa mengimpor, membersihkan, mengubah, dan menganalisis data dengan mudah.

##### import numpy as np:
NumPy adalah library untuk komputasi numerik, khususnya untuk bekerja dengan array dan operasi matematis di Python. NumPy sering digunakan untuk memanipulasi data numerik dalam bentuk array atau matriks, serta melakukan operasi matematik kompleks.

##### import seaborn as sns:
Seaborn adalah library visualisasi data berbasis Matplotlib yang menyediakan antarmuka yang lebih tinggi untuk membuat plot statistik yang lebih menarik dan informatif, seperti heatmaps, boxplots, dan pairplots.

##### import matplotlib.pyplot as plt:
Matplotlib adalah library dasar untuk visualisasi data di Python. pyplot adalah modul dari Matplotlib yang memungkinkan pembuatan berbagai jenis grafik (seperti garis, batang, dan scatter plot) secara mudah.

In [5]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

### Read Dataset

In [7]:
df = pd.read_csv('D:/FOLDER MUTIARA/SEMESTER 5/PM/Project/Analisis-faktor-programming-skill/data/raw_data.csv', sep=';')

### Melihat 5 Baris Pertama Data

Menggunakan df.head() untuk melihat 5 baris pertama dari dataset. Ini memberikan gambaran umum tentang struktur data.

In [10]:
df.head()

Unnamed: 0,Timestamp,Email Address,Nama Lengkap Mahasiswa,NIM,Program Studi Mahasiswa,Angkatan Mahasiswa,Berapa lama waktu yang Anda habiskan menggunakan laptop setiap hari?,Apakah Anda biasanya menggunakan media sosial melalui laptop?,Berapa lama waktu yang Anda habiskan menggunakan media sosial melalui Laptop setiap hari?,Media sosial apa yang Anda aktifkan saat menggunakan laptop? (Centang semua yang sesuai),...,Apakah Anda pernah mengikuti olimpiade atau kompetisi akademik?,Tingkat manakah Anda mengikuti olimpiade?,Berapa jumlah saudara yang Anda miliki?,Apa Pekerjaan Ayah Anda?,Apa Pendidikan Terakhir Ayah Anda?,Berapa Range Penghasilan Ayah Anda?,Apa Pekerjaan Ibu Anda?,Apa Pendidikan Terakhir Ibu Anda?,Berapa Rentang Penghasilan Ibu Anda?,Programming Skill
0,,,,,,,,,,,...,,,,,,,,,,43
1,11/11/2024 13:10,,Samuel Saut Royzeki Aritonang,11422026.0,Sarjana Terapan Teknologi Rekayasa Perangkat L...,2022.0,9 - 11 jam,Ya,3 - 5 jam,"Instagram, Tiktok",...,Tidak,,05-Jun,telah meninggal dunia,SMP/sederajat,"Rp. 500,000 - Rp. 999,999",Pegawai negeri sipil,Diploma III,"Rp. 2,000,000 - Rp. 4,999,999",70
2,11/11/2024 13:13,,Calvin Josep Silaen,11422038.0,Sarjana Terapan Teknologi Rekayasa Perangkat L...,2022.0,6 - 8 jam,Tidak,,,...,Tidak,,03-Apr,Petani/pekebun,Diploma IV atau Strata I,"Rp. 2,000,000 - Rp. 4,999,999",Perdagangan,Diploma IV atau Strata I,"Rp. 2,000,000 - Rp. 4,999,999",42
3,11/11/2024 13:21,,Indah Silitonga,11422060.0,Sarjana Terapan Teknologi Rekayasa Perangkat L...,2022.0,6 - 8 jam,Ya,0 - 2 jam,Instagram,...,Tidak,,03-Apr,Petani/pekebun,SMA/sederajat,"Rp. 1,000,000 - Rp. 1,999,999",Pegawai negeri sipil,Diploma IV atau Strata I,"Rp. 2,000,000 - Rp. 4,999,999",36
4,11/11/2024 13:24,,Asri Yohana Sirait,11422029.0,Sarjana Terapan Teknologi Rekayasa Perangkat L...,2022.0,3 - 5 jam,Tidak,,,...,Ya,"Tingkat Lokal (Kabupaten/Kota), Tingkat Region...",03-Apr,Petani/pekebun,SMA/sederajat,"Rp. 2,000,000 - Rp. 4,999,999",Petani/pekebun,SMA/sederajat,"Rp. 2,000,000 - Rp. 4,999,999",56


### Memeriksa Dimensi Dataset

Menggunakan df.shape() untuk memeriksa jumlah baris dan kolom dalam dataset untuk mengetahui ukuran dataset.

In [13]:
df.shape

(507, 44)

### Mengambil Kolom yang Akan Dikelola

Menggunakan iloc untuk memilih kolom-kolom tertentu yang akan dikelola dalam pre-processing yaitu memilih subset kolom yang relevan.

In [16]:
df_subset = df.iloc[:, 6:] 

### Memeriksa Dimensi Dataset yang Telah Disubset

Memeriksa shape dari subset dataset untuk memastikan kolom yang dipilih sudah sesuai.

In [19]:
df_subset.shape

(507, 38)

### Mengganti Nama Kolom agar Lebih Singkat

Mengubah nama kolom agar lebih singkat dan mudah dibaca

In [22]:
df_subset.columns=['Durasi Laptop','Penggunaan Medsos di Laptop','Durasi Medsos di Laptop','Medsos di Laptop', 'Instagram di Laptop','TikTok di Laptop', 'Youtube di Laptop', 'Durasi Ponsel', 'Penggunaan Medsos di Ponsel', 'Durasi Medsos di Ponsel', 'Medsos di Ponsel', 'Instagram di Ponsel', 'TikTok di Ponsel', 'Youtube di Ponsel', 'Organisasi Kampus', 'Jenis Organisasi', 'Departemen', 'UKM kampus', 'Jenis UKM', 'Bootcamp', 'Jenis Bootcamp', 'Peringkat SD', 'Peringkat SMP', 'Peringkat SMA', 'Nilai US Matematika', 'Nilai US Fisika', 'Nilai US Biologi', 'Nilai US Kimia', 'Olimpiade', 'Tingkat Olimpiade', 'Jumlah Saudara', 'Pekerjaan Ayah', 'Pendidikan Ayah', 'Penghasilan Ayah', 'Pekerjaan Ibu', 'Pendidikan Ibu', 'Penghasilan Ibu','Programming Skill']

In [23]:
print(df_subset.columns.tolist()) 

['Durasi Laptop', 'Penggunaan Medsos di Laptop', 'Durasi Medsos di Laptop', 'Medsos di Laptop', 'Instagram di Laptop', 'TikTok di Laptop', 'Youtube di Laptop', 'Durasi Ponsel', 'Penggunaan Medsos di Ponsel', 'Durasi Medsos di Ponsel', 'Medsos di Ponsel', 'Instagram di Ponsel', 'TikTok di Ponsel', 'Youtube di Ponsel', 'Organisasi Kampus', 'Jenis Organisasi', 'Departemen', 'UKM kampus', 'Jenis UKM', 'Bootcamp', 'Jenis Bootcamp', 'Peringkat SD', 'Peringkat SMP', 'Peringkat SMA', 'Nilai US Matematika', 'Nilai US Fisika', 'Nilai US Biologi', 'Nilai US Kimia', 'Olimpiade', 'Tingkat Olimpiade', 'Jumlah Saudara', 'Pekerjaan Ayah', 'Pendidikan Ayah', 'Penghasilan Ayah', 'Pekerjaan Ibu', 'Pendidikan Ibu', 'Penghasilan Ibu', 'Programming Skill']


### Memeriksa Tipe Data Setiap Kolom

Menggunakan dtypes untuk memeriksa tipe data dari setiap kolom.

In [26]:
df_subset.dtypes

Durasi Laptop                  object
Penggunaan Medsos di Laptop    object
Durasi Medsos di Laptop        object
Medsos di Laptop               object
Instagram di Laptop            object
TikTok di Laptop               object
Youtube di Laptop              object
Durasi Ponsel                  object
Penggunaan Medsos di Ponsel    object
Durasi Medsos di Ponsel        object
Medsos di Ponsel               object
Instagram di Ponsel            object
TikTok di Ponsel               object
Youtube di Ponsel              object
Organisasi Kampus              object
Jenis Organisasi               object
Departemen                     object
UKM kampus                     object
Jenis UKM                      object
Bootcamp                       object
Jenis Bootcamp                 object
Peringkat SD                   object
Peringkat SMP                  object
Peringkat SMA                  object
Nilai US Matematika            object
Nilai US Fisika                object
Nilai US Bio

### Melakukan One-Hot Encoding untuk Kolom Non-Ordinal

Untuk kolom yang berisi data bertipe objek atau kategori non-ordinal, seperti nama media sosial,
kita akan menggunakan One-Hot Encoding untuk mengubahnya menjadi variabel numerik yang bisa diproses.

**Media Sosial di Laptop**

In [30]:
import pandas as pd
checkbox_column = df_subset.iloc[:, 3]

# Buat salinan dari df_subset 
df_subset = df_subset.copy()

# Tambahkan kolom baru berdasarkan checkbox_column
df_subset.loc[:, 'Social_Media_Instagram di Laptop'] = checkbox_column.str.contains('Instagram', na=False).astype(int)
df_subset.loc[:, 'Social_Media_Tiktok di Laptop'] = checkbox_column.str.contains('Tiktok', na=False).astype(int)
df_subset.loc[:, 'Social_Media_Youtube di Laptop'] = checkbox_column.str.contains('Youtube', na=False).astype(int)

# Hapus kolom checkbox asli
checkbox_column_index = 3
df_subset = df_subset.drop(df_subset.columns[checkbox_column_index], axis=1)

# Sisipkan kolom baru di posisi yang sama
df_subset.insert(checkbox_column_index, 'Social_Media_Instagram di Laptop', df_subset.pop('Social_Media_Instagram di Laptop'))
df_subset.insert(checkbox_column_index + 1, 'Social_Media_Tiktok di Laptop', df_subset.pop('Social_Media_Tiktok di Laptop'))
df_subset.insert(checkbox_column_index + 2, 'Social_Media_Youtube di Laptop', df_subset.pop('Social_Media_Youtube di Laptop'))

**Konten Media Sosial Instagram di Laptop**

In [32]:
checkbox_column = df_subset.iloc[:, 6]

# Buat salinan dari df_subset
df_subset = df_subset.copy()

# Daftar nama kolom baru dan pola pencocokan
kolom_baru = [
    'Hiburan Instagram di laptop',
    'Berita Instagram di laptop',
    'Edukasi Instagram di laptop',
    'Teknologi Instagram di laptop',
    'Hobi Instagram di laptop'
]
pola = [
    'Hiburan (Video lucu, meme, dll.)',
    'Berita dan informasi terkini',
    'Edukasi (Tutorial, kursus online, dll.)',
    'Teknologi (Gadget, review, inovasi)',
    'Hobi (Gaming, musik, olahraga)'
]

# Tambahkan kolom baru
for nama, regex in zip(kolom_baru, pola):
    df_subset[nama] = checkbox_column.str.contains(regex, na=False, regex=False).astype(int)

# Hapus kolom checkbox asli dan sisipkan kolom baru di posisi yang sama
df_subset = df_subset.drop(df_subset.columns[6], axis=1)
for i, nama in enumerate(kolom_baru):
    df_subset.insert(6 + i, nama, df_subset.pop(nama))

**Konten Media Sosial TikTok di Laptop**

In [34]:
checkbox_column = df_subset.iloc[:, 11]

# Buat salinan dari df_subset
df_subset = df_subset.copy()

# Daftar nama kolom baru dan pola pencocokan
kolom_baru = [
    'Hiburan TikTok di laptop',
    'Berita TikTok di laptop',
    'Edukasi TikTok di laptop',
    'Teknologi TikTok di laptop',
    'Hobi TikTok di laptop'
]
pola = [
    'Hiburan (Video lucu, meme, dll.)',
    'Berita dan informasi terkini',
    'Edukasi (Tutorial, kursus online, dll.)',
    'Teknologi (Gadget, review, inovasi)',
    'Hobi (Gaming, musik, olahraga)'
]

# Tambahkan kolom baru
for nama, regex in zip(kolom_baru, pola):
    df_subset[nama] = checkbox_column.str.contains(regex, na=False, regex=False).astype(int)

# Hapus kolom checkbox asli dan sisipkan kolom baru di posisi yang sama
df_subset = df_subset.drop(df_subset.columns[11], axis=1)
for i, nama in enumerate(kolom_baru):
    df_subset.insert(11 + i, nama, df_subset.pop(nama))

**Konten Media Sosial Youtube di Laptop**

In [36]:
checkbox_column = df_subset.iloc[:, 16]

# Buat salinan dari df_subset
df_subset = df_subset.copy()

# Daftar nama kolom baru dan pola pencocokan
kolom_baru = [
    'Hiburan Youtube di laptop',
    'Berita Youtube di laptop',
    'Edukasi Youtube di laptop',
    'Teknologi Youtube di laptop',
    'Hobi Youtube di laptop'
]
pola = [
    'Hiburan (Video lucu, meme, dll.)',
    'Berita dan informasi terkini',
    'Edukasi (Tutorial, kursus online, dll.)',
    'Teknologi (Gadget, review, inovasi)',
    'Hobi (Gaming, musik, olahraga)'
]

# Tambahkan kolom baru
for nama, regex in zip(kolom_baru, pola):
    df_subset[nama] = checkbox_column.str.contains(regex, na=False, regex=False).astype(int)

# Hapus kolom checkbox asli dan sisipkan kolom baru di posisi yang sama
df_subset = df_subset.drop(df_subset.columns[16], axis=1)
for i, nama in enumerate(kolom_baru):
    df_subset.insert(16 + i, nama, df_subset.pop(nama))

**Media Sosial di Ponsel**

In [38]:
checkbox_column = df_subset.iloc[:, 24]

# Buat salinan dari df_subset
df_subset = df_subset.copy()

# Tambahkan kolom baru berdasarkan checkbox_column
df_subset.loc[:, 'Social_Media_Instagram di Ponsel'] = checkbox_column.str.contains('Instagram', na=False).astype(int)
df_subset.loc[:, 'Social_Media_Tiktok di Ponsel'] = checkbox_column.str.contains('Tiktok', na=False).astype(int)
df_subset.loc[:, 'Social_Media_Youtube di Ponsel'] = checkbox_column.str.contains('Youtube', na=False).astype(int)

# Hapus kolom checkbox asli
checkbox_column_index = 24
df_subset = df_subset.drop(df_subset.columns[checkbox_column_index], axis=1)

# Sisipkan kolom baru di posisi yang sama
df_subset.insert(checkbox_column_index, 'Social_Media_Instagram di Ponsel', df_subset.pop('Social_Media_Instagram di Ponsel'))
df_subset.insert(checkbox_column_index + 1, 'Social_Media_Tiktok di Ponsel', df_subset.pop('Social_Media_Tiktok di Ponsel'))
df_subset.insert(checkbox_column_index + 2, 'Social_Media_Youtube di Ponsel', df_subset.pop('Social_Media_Youtube di Ponsel'))

**Konten Media Sosial Instagram di Laptop**

In [40]:
checkbox_column = df_subset.iloc[:, 27]

# Buat salinan dari df_subset
df_subset = df_subset.copy()

# Daftar nama kolom baru dan pola pencocokan
kolom_baru = [
    'Hiburan Instagram di ponsel',
    'Berita Instagram di ponsel',
    'Edukasi Instagram di ponsel',
    'Teknologi Instagram di ponsel',
    'Hobi Instagram di ponsel'
]
pola = [
    'Hiburan (Video lucu, meme, dll.)',
    'Berita dan informasi terkini',
    'Edukasi (Tutorial, kursus online, dll.)',
    'Teknologi (Gadget, review, inovasi)',
    'Hobi (Gaming, musik, olahraga)'
]

# Tambahkan kolom baru
for nama, regex in zip(kolom_baru, pola):
    df_subset[nama] = checkbox_column.str.contains(regex, na=False, regex=False).astype(int)

# Hapus kolom checkbox asli dan sisipkan kolom baru di posisi yang sama
df_subset = df_subset.drop(df_subset.columns[27], axis=1)
for i, nama in enumerate(kolom_baru):
    df_subset.insert(27 + i, nama, df_subset.pop(nama))

**Konten Media Sosial TikTok di Laptop**

In [42]:
checkbox_column = df_subset.iloc[:, 32]

# Buat salinan dari df_subset 
df_subset = df_subset.copy()

# Daftar nama kolom baru dan pola pencocokan
kolom_baru = [
    'Hiburan TikTok di ponsel',
    'Berita TikTok di ponsel',
    'Edukasi TikTok di ponsel',
    'Teknologi TikTok di ponsel',
    'Hobi TikTok di ponsel'
]
pola = [
    'Hiburan (Video lucu, meme, dll.)',
    'Berita dan informasi terkini',
    'Edukasi (Tutorial, kursus online, dll.)',
    'Teknologi (Gadget, review, inovasi)',
    'Hobi (Gaming, musik, olahraga)'
]

# Tambahkan kolom baru
for nama, regex in zip(kolom_baru, pola):
    df_subset[nama] = checkbox_column.str.contains(regex, na=False, regex=False).astype(int)

# Hapus kolom checkbox asli dan sisipkan kolom baru di posisi yang sama
df_subset = df_subset.drop(df_subset.columns[32], axis=1)
for i, nama in enumerate(kolom_baru):
    df_subset.insert(32 + i, nama, df_subset.pop(nama))

**Konten Media Sosial Youtube di Laptop**

In [44]:
checkbox_column = df_subset.iloc[:, 37]

# Buat salinan dari df_subset
df_subset = df_subset.copy()

# Daftar nama kolom baru dan pola pencocokan
kolom_baru = [
    'Hiburan Youtube di ponsel',
    'Berita Youtube di ponsel',
    'Edukasi Youtube di ponsel',
    'Teknologi Youtube di ponsel',
    'Hobi Youtube di ponsel'
]
pola = [
    'Hiburan (Video lucu, meme, dll.)',
    'Berita dan informasi terkini',
    'Edukasi (Tutorial, kursus online, dll.)',
    'Teknologi (Gadget, review, inovasi)',
    'Hobi (Gaming, musik, olahraga)'
]

# Tambahkan kolom baru
for nama, regex in zip(kolom_baru, pola):
    df_subset[nama] = checkbox_column.str.contains(regex, na=False, regex=False).astype(int)

# Hapus kolom checkbox asli dan sisipkan kolom baru di posisi yang sama
df_subset = df_subset.drop(df_subset.columns[37], axis=1)
for i, nama in enumerate(kolom_baru):
    df_subset.insert(37 + i, nama, df_subset.pop(nama))

**Organisasi Kampus BEM dan MPM**

In [46]:
checkbox_column = df_subset.iloc[:, 43]

# Buat salinan dari df_subset 
df_subset = df_subset.copy()

# One-hot encoding untuk kolom ke-44
kolom_baru = pd.get_dummies(checkbox_column, prefix='Organisasi', dummy_na=False)

# Konversi tipe data dari boolean ke int
kolom_baru = kolom_baru.astype(int)

# Hapus kolom checkbox asli
df_subset = df_subset.drop(columns=[df_subset.columns[43]])

# Sisipkan kolom baru di posisi yang sama
for i, nama in enumerate(kolom_baru.columns):
    df_subset.insert(43 + i, nama, kolom_baru[nama])

**Departemen BEM**

In [48]:
checkbox_column = df_subset.iloc[:, 45]

# Buat salinan dari df_subset
df_subset = df_subset.copy()

# One-hot encoding untuk kolom ke-46
kolom_baru = pd.get_dummies(checkbox_column, dummy_na=False)

# Konversi tipe data dari boolean ke int
kolom_baru = kolom_baru.astype(int)

# Hapus kolom checkbox asli
df_subset = df_subset.drop(columns=[df_subset.columns[45]])

# Sisipkan kolom baru di posisi yang sama
for i, nama in enumerate(kolom_baru.columns):
    df_subset.insert(45 + i, nama, kolom_baru[nama])

**UKM**

In [50]:
checkbox_column = df_subset.iloc[:, 55]

# Buat salinan dari df_subset
df_subset = df_subset.copy()

# Daftar nama kolom baru dan pola pencocokan
kolom_baru = [
    'Del Robotic',
    'Paduan Suara',
    'Paduan Gitar',
    'Paduan Tari',
    'Del Programming',
    'Del Cyber',
    'Del English',
    'Google Developer',
    'Radio Del',
    'Del Basket',
    'Del Data Science',
    'Del Badminton',
]
pola = [
    'Del Robotic Club (DRC)',
    'Paduan Suara Mahasiswa (PSM)',
    'Paduan Gitar Mahasiswa (PGM)',
    'Paduan Tari Mahasiswa (PTM/3DC)',
    'Del Programming (DELPRO)',
    'Del Cyber Security Club (DCSC)',
    'Del English Club (DEC)',
    'Google Developer Student Club (GDSC)',
    'Radio Del Club (RDC)',
    'Del Basket Club (DBC)',
    'Del Data Science Club (DDSC)',
    'Del Badminton Club (DBC)'
    
]

# Tambahkan kolom baru
for nama, regex in zip(kolom_baru, pola):
    df_subset[nama] = checkbox_column.str.contains(regex, na=False, regex=False).astype(int)

# Hapus kolom checkbox asli dan sisipkan kolom baru di posisi yang sama
df_subset = df_subset.drop(df_subset.columns[55], axis=1)
for i, nama in enumerate(kolom_baru):
    df_subset.insert(55 + i, nama, df_subset.pop(nama))

**Bootcampt**

In [52]:
checkbox_column = df_subset.iloc[:, 68]

# Buat salinan dari df_subset
df_subset = df_subset.copy()

# Daftar nama kolom baru dan pola pencocokan
kolom_baru = [
    'Hacktiv8',
    'Digitalent',
    'Revou',
    'Codingstudio',
    'Startup Campus',
    'Purwadhika',
    'Pacmann Academy',
    'Dibimbing.id',
    'Binar Academy',
    'Impact Byte',
    'Harisenin.com',
    'Udemy',
    'IDCamp',
    'Dicoding',
    'Rakamin Academy',
    'Sanbercode'
]
pola = [
    'Hacktiv8',
    'Digitalent',
    'Revou',
    'Codingstudio',
    'Startup Campus',
    'Purwadhika',
    'Pacmann Academy',
    'Dibimbing.id',
    'Binar Academy',
    'Impact Byte',
    'Harisenin.com',
    'Udemy',
    'IDCamp',
    'Dicoding',
    'Rakamin Academy',
    'Sanbercode'
    
]

# Tambahkan kolom baru
for nama, regex in zip(kolom_baru, pola):
    df_subset[nama] = checkbox_column.str.contains(regex, na=False, regex=False).astype(int)

# Hapus kolom checkbox asli dan sisipkan kolom baru di posisi yang sama
df_subset = df_subset.drop(df_subset.columns[68], axis=1)
for i, nama in enumerate(kolom_baru):
    df_subset.insert(68 + i, nama, df_subset.pop(nama))

**Tingkat Olimpiade**

In [54]:
checkbox_column = df_subset.iloc[:, 92]

# Buat salinan dari df_subset
df_subset = df_subset.copy()

# Daftar nama kolom baru dan pola pencocokan
kolom_baru = [
    'Olimpiade Local',
    'Olimpiade Regional',
    'Olimpiade Nasional',
    'Olimpiade Internasional'
]
pola = [
    'Tingkat Lokal (Kabupaten/Kota)',
    'Tingkat Regional (Provinsi)',
    'Tingkat Nasional',
    'Tingkat internasional'
]

# Tambahkan kolom baru berdasarkan pencocokan
for nama, regex in zip(kolom_baru, pola):
    df_subset[nama] = checkbox_column.str.contains(regex, na=False, regex=False).astype(int)

# Hapus kolom checkbox asli (kolom ke-92)
df_subset = df_subset.drop(columns=[df_subset.columns[92]])

# Sisipkan kolom baru di posisi yang sama
for i, nama in enumerate(kolom_baru):
    df_subset.insert(92 + i, nama, df_subset.pop(nama))

**Pekerjaan Ayah**

In [56]:
checkbox_column = df_subset.iloc[:, 97]

# Buat salinan dari df_subset
df_subset = df_subset.copy()

# Daftar nama kolom baru (dengan prefix "Ayah")
kolom_baru = [
    'Belum/tidak bekerja',
    'Mengurus rumah tangga',
    'Pensiunan',
    'Pegawai negeri sipil',
    'Tentara Nasional Indonesia (TNI)',
    'Kepolisian Republik Indonesia (POLRI)',
    'Perdagangan',
    'Petani/pekebun',
    'Lainnya'
]

# Tambahkan prefix "Ayah" pada setiap nama kolom
kolom_baru_dengan_prefix = [f"Ayah {kat}" for kat in kolom_baru]

# Sisipkan kolom baru di posisi yang tepat
current_index = 97 + 1  # Kolom baru akan disisipkan setelah kolom ke-98
for kat, kat_prefixed in zip(kolom_baru[:-1], kolom_baru_dengan_prefix[:-1]):
    df_subset.insert(current_index, kat_prefixed, (checkbox_column == kat).astype(int))
    current_index += 1  # Perbarui indeks untuk kolom berikutnya

# Buat kolom 'Ayah Lainnya' untuk kategori yang tidak termasuk
df_subset.insert(current_index, 'Ayah Lainnya', (~checkbox_column.isin(kolom_baru[:-1])).astype(int))

# Hapus kolom asli (kolom ke-98) setelah menambah kolom baru
df_subset = df_subset.drop(columns=[df_subset.columns[97]])


**Pekerjaan Ibu**

In [58]:
# Periksa apakah DataFrame memiliki cukup kolom
if df_subset.shape[1] <= 108:
    raise ValueError("DataFrame tidak memiliki kolom ke-109.")

# Ambil kolom ke-109 (indeks 108 karena 0-based)
checkbox_column = df_subset.iloc[:, 108]

# Buat salinan dari df_subset
df_subset = df_subset.copy()

# Daftar nama kolom baru
kolom_baru = [
    'Belum/tidak bekerja',
    'Mengurus rumah tangga',
    'Pensiunan',
    'Pegawai negeri sipil',
    'Tentara Nasional Indonesia (TNI)',
    'Kepolisian Republik Indonesia (POLRI)',
    'Perdagangan',
    'Petani/pekebun',
    'Lainnya'
]

# Buat kolom biner untuk setiap kategori
kategori_kolom = {}
for kat in kolom_baru[:-1]:  # Semua kecuali 'Lainnya'
    kategori_kolom[kat] = (checkbox_column == kat).astype(int)

# Buat kolom 'Lainnya' untuk kategori yang tidak termasuk
kategori_kolom['Lainnya'] = (~checkbox_column.isin(kolom_baru[:-1])).astype(int)

# Hapus kolom asli berdasarkan nama, bukan indeks
kolom_asli = df_subset.columns[108]  # Nama kolom ke-109
df_subset = df_subset.drop(columns=[kolom_asli])

# Sisipkan kolom baru di posisi yang sama secara dinamis
current_index = 108  # Mulai dari posisi ke-109
for nama, data in kategori_kolom.items():
    # Tambahkan prefix 'Ibu' untuk nama kolom baru
    nama_unik = f"Ibu {nama}"
    df_subset.insert(current_index, nama_unik, data)
    current_index += 1


### Melakukan Encoding untuk Kolom Ordinal

Kolom ordinal, yang memiliki urutan atau ranking, perlu di-encode menggunakan label encoding atau ordinal encoding.

**Ordinal Ya dan Tidak menjadi 0 dan 1**

In [62]:
kolom_to_encode = ['Penggunaan Medsos di Laptop','Penggunaan Medsos di Ponsel','Organisasi Kampus','UKM kampus','Bootcamp','Olimpiade',]
# hapus baris NaN
df_subset = df_subset.dropna(subset=kolom_to_encode)

df_subset[kolom_to_encode] = df_subset[kolom_to_encode].replace({'Ya': 1, 'Tidak': 0}).astype(int)

# Menampilkan DataFrame setelah encoding
print(df_subset)

    Durasi Laptop  Penggunaan Medsos di Laptop Durasi Medsos di Laptop  \
1      9 - 11 jam                            1               3 - 5 jam   
2       6 - 8 jam                            0                     NaN   
3       6 - 8 jam                            1               0 - 2 jam   
4       3 - 5 jam                            0                     NaN   
5      9 - 11 jam                            0                     NaN   
..            ...                          ...                     ...   
502   12 - 13 jam                            1               0 - 2 jam   
503     3 - 5 jam                            1               3 - 5 jam   
504     6 - 8 jam                            0                     NaN   
505   12 - 13 jam                            1               6 - 8 jam   
506     6 - 8 jam                            0                     NaN   

     Social_Media_Instagram di Laptop  Social_Media_Tiktok di Laptop  \
1                                   1  

  df_subset[kolom_to_encode] = df_subset[kolom_to_encode].replace({'Ya': 1, 'Tidak': 0}).astype(int)


**Ordinal Rentang Waktu**

In [64]:
# Kolom yang akan di-encoding
kolom_to_encode = ['Durasi Laptop', 'Durasi Medsos di Laptop', 'Durasi Ponsel', 'Durasi Medsos di Ponsel']

# Hapus baris NaN
df_subset = df_subset.dropna(subset=kolom_to_encode)

# Fungsi untuk mengubah rentang waktu menjadi nilai integer
def interval_to_int(interval):
    if interval == '0 - 2 jam':
        return 1
    elif interval == '3 - 5 jam':
        return 2
    elif interval == '6 - 8 jam':
        return 3
    elif interval == '9 - 11 jam':
        return 4
    elif interval == '12 - 13 jam':
        return 5
    else:
        return None

# Mengaplikasikan fungsi ke kolom yang ditentukan
for kolom in kolom_to_encode:
    df_subset[kolom] = df_subset[kolom].apply(interval_to_int)

# Menampilkan DataFrame setelah encoding
print(df_subset)

     Durasi Laptop  Penggunaan Medsos di Laptop  Durasi Medsos di Laptop  \
1                4                            1                        2   
3                3                            1                        1   
6                3                            1                        3   
9                3                            1                        1   
10               4                            1                        1   
..             ...                          ...                      ...   
499              4                            1                        1   
501              3                            1                        1   
502              5                            1                        1   
503              2                            1                        2   
505              5                            1                        3   

     Social_Media_Instagram di Laptop  Social_Media_Tiktok di Laptop  \
1              

**Ordinal Rentang Peringkat**

In [66]:
kolom_to_encode = ['Peringkat SD', 'Peringkat SMP', 'Peringkat SMA']

def interval_to_int(interval):
    if interval == 'Peringkat 1 - 3':
        return 1
    elif interval == 'Peringkat 4 - 10':
        return 2
    elif interval == 'Peringkat 11 - 20':
        return 3
    elif interval == 'Peringkat 21 - 30':
        return 4
    elif interval == 'Peringkat 31 - 40':
        return 5
    elif interval == 'Peringkat 41 - 50':
        return 6
    else:
        return None

# Mengaplikasikan fungsi ke kolom yang ditentukan
for kolom in kolom_to_encode:
    df_subset[kolom] = df_subset[kolom].apply(interval_to_int)

# Menampilkan DataFrame setelah encoding
print(df_subset)

     Durasi Laptop  Penggunaan Medsos di Laptop  Durasi Medsos di Laptop  \
1                4                            1                        2   
3                3                            1                        1   
6                3                            1                        3   
9                3                            1                        1   
10               4                            1                        1   
..             ...                          ...                      ...   
499              4                            1                        1   
501              3                            1                        1   
502              5                            1                        1   
503              2                            1                        2   
505              5                            1                        3   

     Social_Media_Instagram di Laptop  Social_Media_Tiktok di Laptop  \
1              

**Ordinal Retang Nilai**

In [68]:
kolom_to_encode = ['Nilai US Matematika', 'Nilai US Fisika', 'Nilai US Biologi', 'Nilai US Kimia']

def interval_to_int(interval):
    if interval == '93 - 100 (A)':
        return 1
    elif interval == '83 - 92 (B)':
        return 2
    elif interval == '75 - 83 (C)':
        return 3
    elif interval == '0 - 75 (D)':
        return 4
    else:
        return None

# Mengaplikasikan fungsi ke kolom yang ditentukan
for kolom in kolom_to_encode:
    df_subset[kolom] = df_subset[kolom].apply(interval_to_int)

# Menampilkan DataFrame setelah encoding
print(df_subset)

     Durasi Laptop  Penggunaan Medsos di Laptop  Durasi Medsos di Laptop  \
1                4                            1                        2   
3                3                            1                        1   
6                3                            1                        3   
9                3                            1                        1   
10               4                            1                        1   
..             ...                          ...                      ...   
499              4                            1                        1   
501              3                            1                        1   
502              5                            1                        1   
503              2                            1                        2   
505              5                            1                        3   

     Social_Media_Instagram di Laptop  Social_Media_Tiktok di Laptop  \
1              

**Ordinal Retang Jumlah Saudara**

In [70]:
kolom_to_encode = ['Jumlah Saudara']

def interval_to_int(interval):
    if interval == '1 - 2':
        return 1
    elif interval == '3 - 4':
        return 2
    elif interval == '5 - 6':
        return 3
    elif interval == '7 - 8':
        return 4
    elif interval == '9 - 10':
        return 5
    else:
        return 0

# Mengaplikasikan fungsi ke kolom yang ditentukan
for kolom in kolom_to_encode:
    df_subset[kolom] = df_subset[kolom].apply(interval_to_int)

# Menampilkan DataFrame setelah encoding
print(df_subset)

     Durasi Laptop  Penggunaan Medsos di Laptop  Durasi Medsos di Laptop  \
1                4                            1                        2   
3                3                            1                        1   
6                3                            1                        3   
9                3                            1                        1   
10               4                            1                        1   
..             ...                          ...                      ...   
499              4                            1                        1   
501              3                            1                        1   
502              5                            1                        1   
503              2                            1                        2   
505              5                            1                        3   

     Social_Media_Instagram di Laptop  Social_Media_Tiktok di Laptop  \
1              

**Ordinal Retang Penghasilan Orang Tua**

In [72]:
kolom_to_encode = ['Penghasilan Ayah','Penghasilan Ibu']

def interval_to_int(interval):
    if interval == 'Kurang dari Rp. 500,000':
        return 1
    elif interval == 'Rp. 500,000 - Rp. 999,999':
        return 2
    elif interval == 'Rp. 1,000,000 - Rp. 1,999,999':
        return 3
    elif interval == 'Rp. 2,000,000 - Rp. 4,999,999':
        return 4
    elif interval == 'Rp. 5,000,000 - Rp. 20,000,00':
        return 5
    elif interval == 'Lebih dari Rp. 20,000,000':
        return 6
    else:
        return None

# Mengaplikasikan fungsi ke kolom yang ditentukan
for kolom in kolom_to_encode:
    df_subset[kolom] = df_subset[kolom].apply(interval_to_int)

# Menampilkan DataFrame setelah encoding
print(df_subset)

     Durasi Laptop  Penggunaan Medsos di Laptop  Durasi Medsos di Laptop  \
1                4                            1                        2   
3                3                            1                        1   
6                3                            1                        3   
9                3                            1                        1   
10               4                            1                        1   
..             ...                          ...                      ...   
499              4                            1                        1   
501              3                            1                        1   
502              5                            1                        1   
503              2                            1                        2   
505              5                            1                        3   

     Social_Media_Instagram di Laptop  Social_Media_Tiktok di Laptop  \
1              

**Ordinal Retang Pendidikan Orang Tua**

In [74]:
kolom_to_encode = ['Pendidikan Ayah','Pendidikan Ibu']

def interval_to_int(interval):
    if interval == 'SD/sederajat':
        return 1
    elif interval == 'SMP/sederajat':
        return 2
    elif interval == 'SMA/sederajat':
        return 3
    elif interval == 'Diploma I':
        return 4
    elif interval == 'Diploma II':
        return 5
    elif interval == 'Diploma III':
        return 6
    elif interval == 'Diploma IV atau Strata I':
        return 7
    elif interval == 'Strata II':
        return 8
    elif interval == 'Strata III':
        return 9
    else:
        return 0

# Mengaplikasikan fungsi ke kolom yang ditentukan
for kolom in kolom_to_encode:
    df_subset[kolom] = df_subset[kolom].apply(interval_to_int)

# Menampilkan DataFrame setelah encoding
print(df_subset)


     Durasi Laptop  Penggunaan Medsos di Laptop  Durasi Medsos di Laptop  \
1                4                            1                        2   
3                3                            1                        1   
6                3                            1                        3   
9                3                            1                        1   
10               4                            1                        1   
..             ...                          ...                      ...   
499              4                            1                        1   
501              3                            1                        1   
502              5                            1                        1   
503              2                            1                        2   
505              5                            1                        3   

     Social_Media_Instagram di Laptop  Social_Media_Tiktok di Laptop  \
1              