In [4]:
import pandas as pd

file_path = "dataset.xlsx"
sheet_names = ["DATA IB", "DATA IK", "DATA KM"]

dfs = {}
for sheet in sheet_names:
    df = pd.read_excel(file_path, sheet_name=sheet)
    
    # Hapus kolom "Unnamed" dan kolom yang kosong
    df = df.loc[:, ~df.columns.str.contains("^Unnamed")]
    df = df.dropna(how="all", axis=1)
    
    # Ganti nilai '\N' dengan NaN (null)
    df.replace(r"\\N", pd.NA, inplace=True, regex=True)
    
    dfs[sheet] = df

# Preprocessing untuk setiap sheet
for sheet, df in dfs.items():
    if sheet in ["DATA IB", "DATA IK"]:
        # Konversi waktu dan buat fitur durasi
        df["rencana_berangkat"] = pd.to_datetime(df["rencana_berangkat"], errors="coerce")
        df["rencana_kembali"] = pd.to_datetime(df["rencana_kembali"], errors="coerce")
        df["realisasi_berangkat"] = pd.to_datetime(df["realisasi_berangkat"], errors="coerce")
        df["realisasi_kembali"] = pd.to_datetime(df["realisasi_kembali"], errors="coerce")
        df["durasi"] = (df["rencana_kembali"] - df["rencana_berangkat"]).dt.total_seconds() / 3600  # Dalam jam
        
        # day columns
        df["hari_berangkat"] = df["rencana_berangkat"].dt.day_name()
        df["hari_kembali"] = df["rencana_kembali"].dt.day_name()
        
        # Tambahkan range waktu
        df["range_waktu"] = pd.cut(
            df["rencana_berangkat"].dt.hour,
            bins=[0, 6, 12, 18, 24],
            labels=["Malam", "Pagi", "Siang", "Sore"],
            right=False,
        )
    elif sheet == "DATA KM":
        # Konversi waktu dan buat fitur durasi
        df["tanggal_keluar"] = pd.to_datetime(df["tanggal_keluar"], errors="coerce")
        df["tanggal_masuk"] = pd.to_datetime(df["tanggal_masuk"], errors="coerce")
        df["durasi"] = (df["tanggal_masuk"] - df["tanggal_keluar"]).dt.total_seconds() / 3600  # Dalam jam
        
        # Tambahkan kolom hari
        df["hari_keluar"] = df["tanggal_keluar"].dt.day_name()
        df["hari_masuk"] = df["tanggal_masuk"].dt.day_name()
        
        # Tambahkan range waktu
        df["range_waktu"] = pd.cut(
            df["tanggal_keluar"].dt.hour,
            bins=[0, 6, 12, 18, 24],
            labels=["Malam", "Pagi", "Siang", "Sore"],
            right=False,
        )

# combining all df
combined_df = pd.concat([df.assign(izin=sheet) for sheet, df in dfs.items()], ignore_index=True)

# Simpan hasil preprocessing ke CSV
combined_df.to_csv("preprocessed_data.csv", index=False)


In [5]:
dataset = pd.read_csv('preprocessed_data.csv')

print('Shape dataset: ', dataset.shape)
print('\nData teratas:\n', dataset.head(10))
print('Informasi dataset: \n', dataset.info())
print('\nStatistik deskriptif: \n', dataset.describe())

  dataset = pd.read_csv('preprocessed_data.csv')


Shape dataset:  (192410, 20)

Data teratas:
    angk status_akhir    rencana_berangkat      rencana_kembali  \
0  2019        Lulus  2019-11-29 18:30:00  2019-12-01 21:00:00   
1  2019        Lulus  2019-12-13 17:00:00  2019-12-15 21:00:00   
2  2019        Lulus  2019-12-19 08:00:00  2020-01-05 18:00:00   
3  2019        Lulus  2020-01-15 13:00:00  2020-01-26 19:00:00   
4  2019        Lulus  2020-02-14 17:00:00  2020-02-16 21:00:00   
5  2019        Lulus  2020-02-29 10:00:00  2020-03-01 20:00:00   
6  2019        Lulus  2020-03-13 17:00:00  2020-03-15 20:30:00   
7  2019        Lulus  2020-03-21 08:00:00  2020-06-01 20:00:00   
8  2019        Lulus  2022-08-17 07:00:00  2022-08-29 17:00:00   
9  2019        Lulus  2023-02-03 16:30:00  2023-02-05 22:00:00   

                                         desc  \
0                    Ingin Bertemu Orang Tua    
1                    Ingin bertemu orang tua    
2                          Libur akhir tahun    
3                              l