In [1]:
import pandas as pd

df = pd.read_excel("raw/hasil_sidatag.xls")

In [2]:
import re

# Buat mapping regex sederhana dari Nama Prodi ke Minat
regex_mapping = {
    "Seni Rupa": r"(SENI RUPA|DESAIN|ARSITEKTUR|INTERIOR)",
    "Seni Pertunjukan": r"(MUSIK|TEATER|TARI|PERTUNJUKAN)",
    "Olahraga": r"(OLAHRAGA|KEPELATIHAN|PENDIDIKAN JASMANI)",
    "Sains dan Alam": r"(BIOLOGI|KIMIA|FISIKA|MATEMATIKA|AGRO|PERTANIAN|PETERNAKAN|PERIKANAN|KEHUTANAN|ILMU ALAM|HEWAN|TANAMAN|TERNAK|HUTAN)",
    "Teknologi dan Komputer": r"(TEKNIK|INFORMATIKA|KOMPUTER|SISTEM INFORMASI|TEKNOLOGI|ELEKTRO|MESIN|INDUSTRI|SIPIL)",
    "Ekonomi dan Bisnis": r"(EKONOMI|BISNIS|MANAJEMEN|AKUNTANSI|KEUANGAN|PERBANKAN|MARKETING)",
    "Kesehatan dan Sosial": r"(DOKTER|KESEHATAN|PERAWAT|KEDOKTERAN|FARMASI|PSIKOLOGI|KEBIDANAN|SOSIAL)",
    "Bahasa dan Sastra": r"(SASTRA|BAHASA|LINGUISTIK|SASTRA INGGRIS|SASTRA INDONESIA)",
    "Hukum dan Politik": r"(HUKUM|POLITIK|ILMU PEMERINTAHAN|ADMINISTRASI PUBLIK|INTERNASIONAL)",
    "Ilmu Sosial": r"(SOSIOLOGI|ANTROPOLOGI|ILMU KOMUNIKASI|SEJARAH|GEOGRAFI|ILMU BUDAYA)",
    "Keterampilan Praktis": r"(PARIWISATA|PERHOTELAN|TATA BOGA|TATA BUSANA|OTOMOTIF|ELEKTRONIKA|KEJURUAN)",
}

# Fungsi untuk mapping Nama Prodi ke Minat
def map_minat(nama_prodi):
    for minat, pattern in regex_mapping.items():
        if re.search(pattern, str(nama_prodi), re.IGNORECASE):
            return minat
    return "Lainnya"

# Terapkan ke dataframe
df["Minat"] = df["Nama Prodi"].apply(map_minat)

# Buat regex mapping untuk Klaster
regex_klaster = {
    "Sains Teknologi": r"(TEKNIK|TEKNOLOGI|INFORMATIKA|KOMPUTER|SISTEM INFORMASI|ELEKTRO|MESIN|SIPIL|INDUSTRI|KIMIA|FISIKA|MATEMATIKA|ARSITEKTUR)",
    "Sosial Humaniora": r"(HUKUM|POLITIK|KOMUNIKASI|EKONOMI|MANAJEMEN|AKUNTANSI|SASTRA|BAHASA|SEJARAH|BUDAYA|SOSIOLOGI|ANTROPOLOGI|ADMINISTRASI)",
    "Agrokompleks": r"(PERTANIAN|PETERNAKAN|PERIKANAN|KEHUTANAN|AGRO|AGRIBISNIS|HEWAN)",
    "Medika": r"(DOKTER|KESEHATAN|PERAWAT|KEDOKTERAN|FARMASI|GIZI|KEBIDANAN|PSIKOLOGI)",
}

def map_klaster(nama_prodi):
    for klaster, pattern in regex_klaster.items():
        if re.search(pattern, str(nama_prodi), re.IGNORECASE):
            return klaster
    return "Lainnya"

df["Klaster"] = df["Nama Prodi"].apply(map_klaster)

# Cek hasil gabungan Minat + Klaster
df[["Nama Prodi", "Minat", "Klaster"]].head(20)


Unnamed: 0,Nama Prodi,Minat,Klaster
0,PENDIDIKAN DOKTER HEWAN,Sains dan Alam,Agrokompleks
1,TEKNIK SIPIL,Teknologi dan Komputer,Sains Teknologi
2,TEKNIK MESIN,Teknologi dan Komputer,Sains Teknologi
3,TEKNIK KIMIA,Sains dan Alam,Sains Teknologi
4,ARSITEKTUR,Seni Rupa,Sains Teknologi
5,TEKNIK ELEKTRO,Teknologi dan Komputer,Sains Teknologi
6,AGROTEKNOLOGI,Sains dan Alam,Sains Teknologi
7,AGRIBISNIS,Ekonomi dan Bisnis,Agrokompleks
8,PETERNAKAN,Sains dan Alam,Agrokompleks
9,TEKNOLOGI HASIL PERTANIAN,Sains dan Alam,Sains Teknologi


In [3]:
ranking_df = pd.read_csv("raw/ranking.csv")
# Merge berdasarkan nama universitas
merged_df = df.merge(
    ranking_df[['University', 'Rank']],
    how="left",
    left_on="Nama Universitas",
    right_on="University"
)

# Update kolom Rank di cleaned_df dengan Rank dari ranking.csv
merged_df['Rank'] = merged_df['Rank_y'].combine_first(merged_df['Rank_x'])

# Hapus kolom intermediate
merged_df = merged_df.drop(columns=['University', 'Rank_x', 'Rank_y'])


In [4]:
merged_df.to_csv("cleaned/cleaned_data.csv", index=False)

In [7]:
merged_df[merged_df["Nama Universitas"] == "Universitas Gadjah Mada"]

Unnamed: 0,Kode Universitas,Nama Universitas,No,Kode Prodi,Nama Prodi,Tingkat,Kuota,Peminat,Portofolio,Provinsi,Minat,Klaster,Rank
1751,361,Universitas Gadjah Mada,1,13611001,BIOLOGI,Sarjana,68,516.0,Tidak Ada,Yogyakarta,Sains dan Alam,Lainnya,1.0
1752,361,Universitas Gadjah Mada,2,13611002,FARMASI,Sarjana,72,2004.0,Tidak Ada,Yogyakarta,Kesehatan dan Sosial,Medika,1.0
1753,361,Universitas Gadjah Mada,3,13611003,GEOGRAFI LINGKUNGAN,Sarjana,30,362.0,Tidak Ada,Yogyakarta,Ilmu Sosial,Lainnya,1.0
1754,361,Universitas Gadjah Mada,4,13611004,KARTOGRAFI DAN PENGINDERAAN JAUH,Sarjana,30,346.0,Tidak Ada,Yogyakarta,Lainnya,Lainnya,1.0
1755,361,Universitas Gadjah Mada,5,13611005,PEMBANGUNAN WILAYAH,Sarjana,24,289.0,Tidak Ada,Yogyakarta,Lainnya,Lainnya,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
1838,361,Universitas Gadjah Mada,89,13612089,PEMBANGUNAN EKONOMI KEWILAYAHAN,Sarjana Terapan,30,1607.0,Tidak Ada,Yogyakarta,Ekonomi dan Bisnis,Sosial Humaniora,1.0
1839,361,Universitas Gadjah Mada,90,13612090,PENGELOLAAN ARSIP DAN REKAMAN INFORMASI,Sarjana Terapan,18,1517.0,Tidak Ada,Yogyakarta,Lainnya,Lainnya,1.0
1840,361,Universitas Gadjah Mada,91,13612091,BAHASA INGGRIS,Sarjana Terapan,18,1971.0,Tidak Ada,Yogyakarta,Bahasa dan Sastra,Sosial Humaniora,1.0
1841,361,Universitas Gadjah Mada,92,13612092,BISNIS PERJALANAN WISATA,Sarjana Terapan,27,1865.0,Tidak Ada,Yogyakarta,Ekonomi dan Bisnis,Lainnya,1.0
