In [1]:
import os
import numpy as np
import pandas as pd

In [2]:
def get_excel_files(directory):
    excel_files = []
    for root, dirs, files in os.walk(directory):
        for file in files:
            if file.endswith(('.xlsx', '.xls')):  # Mengecek file dengan ekstensi .xlsx atau .xls
                file_path = os.path.join(root, file)
                excel_files.append(file_path)
    return excel_files

In [3]:
def contains_total(data_list):
    # Iterate over each element in the list
    for item in data_list:
        # Check if "TOTAL" is in the current item (case-insensitive)
        if "TOTAL" in item.upper():
            return True
    return False
    
def read_excel_until_total(file_path, start_row=0):
    # Load the Excel file
    xls = pd.ExcelFile(file_path)

    # Initialize a list to store data from all sheets
    all_data = []

    # Iterate through each sheet in the Excel file
    for i, sheet_name in enumerate(xls.sheet_names):
        # Read the sheet into a DataFrame
        df = pd.read_excel(xls, sheet_name=sheet_name,header=0)

        # # Filter rows starting from `start_row`
        filtered_data = []

        for index, row in df.iterrows():
            filtered_data.append(row)

        # Convert the list of rows back into a DataFrame
        if filtered_data:  # Proceed only if there is data to add
            sheet_data = pd.DataFrame(filtered_data)
            sheet_data['SHEET NAME'] = sheet_name  # Add the sheet name to the DataFrame
            sheet_data['TANGGAL'] = file.split('/')[-1].split()[1]

            # Append the filtered data from this sheet to all_data
            all_data.append(sheet_data)

    # Concatenate all the data from all sheets
    result_df = pd.concat(all_data, ignore_index=True)     
    result_df.columns = result_df.columns.str.upper()
    
    return result_df

def penyesuaian_format(df):
    
    result['WAKTU'] = result['WAKTU'].str[:5]
    
    # Menambahkan tanggal, bulan, dan tahun ke waktu
    df['WAKTU'] = thn_bln + df['TANGGAL'] + ' ' + df['WAKTU']  # Tambahkan tanggal default
    
    # Mengubah kolom 'WAKTU' menjadi datetime dengan format lengkap
    df['WAKTU'] = pd.to_datetime(df['WAKTU'], format='%Y-%m-%d %H:%M')
    
    # Membulatkan waktu ke interval terdekat 60 menit
    df['WAKTU_ROUNDED'] = df['WAKTU'].dt.round('60min')
    return df

def pisahkan_kolom_waktu(df):
    # Pastikan kolom WAKTU sudah dalam format datetime
    df['WAKTU'] = pd.to_datetime(df['WAKTU'])

    # Pisahkan kolom WAKTU menjadi beberapa kolom
    df['TAHUN'] = df['WAKTU'].dt.year
    df['BULAN'] = df['WAKTU'].dt.month
    df['TANGGAL'] = df['WAKTU'].dt.day
    df['HARI'] = df['WAKTU'].dt.day_name()
    df['JAM'] = df['WAKTU'].dt.strftime('%H:%M')
    # df = df.drop(columns=['INTERVAL','UPPKB','SHEET NAME'])
    
    # Daftar kolom yang diinginkan dalam urutan baru
    new_column_order = [
        'WAKTU_ROUNDED', 'WAKTU', 'TAHUN', 'BULAN', 'TANGGAL', 'HARI', 'JAM', 
        'PICKUP', 'TRUK BOX KECIL',	'TRUK BOX BESAR', 'TRUCK STANDART KECIL',	
        'TRUCK STANDART BESAR', 'TRUCK TANGKI KECIL',
        'TRUCK TANGKI BESAR', 'TRUCK DUMP KECIL', 'TRUCK DUMP BESAR', 
        'TRUCK TRAILER', 'TRUCK MIXER',	'UNDEFINED'
    ]

    # # Menyusun ulang kolom berdasarkan urutan yang diinginkan
    df = df.reindex(columns=new_column_order)
    return df

In [3]:
def mencari_data_hilang(start, end, df, nama_file):        
    # Membuat rentang tanggal untuk seluruh bulan
    dates_range = pd.date_range(start=start, end=end, freq='D')
    
    # Inisialisasi list untuk menyimpan DataFrame dari waktu yang hilang
    missing_times_list = []
    
    # # Loop melalui setiap hari dalam rentang bulan
    for date in dates_range:
        day = date.date()
        
        # Filter data untuk hari ini
        daily_data = df[df['WAKTU_ROUNDED'].dt.date == day]
        
        # Buat rentang waktu yang lengkap untuk hari ini
        full_daily_range = pd.date_range(start=f'{day} 00:00', end=f'{day} 23:00', freq='60T')
        
        # Identifikasi waktu yang hilang
        missing_daily_times = full_daily_range[~full_daily_range.isin(daily_data['WAKTU_ROUNDED'])]
        
        # Jika ada waktu yang hilang, tambahkan ke list missing_times_list
        if not missing_daily_times.empty:
            missing_times_df = pd.DataFrame({
                'WAKTU_ROUNDED': missing_daily_times,
                'WAKTU': missing_daily_times,
                'PICKUP': np.nan,
                'TRUK BOX KECIL': np.nan,
                'TRUK BOX BESAR': np.nan,
                'TRUCK STANDART KECIL': np.nan,
                'TRUCK STANDART BESAR': np.nan,
                'TRUCK TANGKI KECIL': np.nan,
                'TRUCK TANGKI BESAR': np.nan,
                'TRUCK DUMP KECIL': np.nan,
                'TRUCK DUMP BESAR': np.nan,
                'TRUCK TRAILER': np.nan,
                'TRUCK MIXER': np.nan,
                'UNDEFINED': np.nan
            })
            missing_times_list.append(missing_times_df)
    
    # Menggabungkan semua DataFrame dari missing_times_list menjadi satu DataFrame
    missing_times = pd.concat(missing_times_list, ignore_index=True) if missing_times_list else pd.DataFrame()
    missing_times = pisahkan_kolom_waktu(missing_times)
    missing_times['JUMLAH'] = np.nan
    
    # # Menampilkan data yang hilang
    if missing_times.empty:
        print("Tidak ada data yang hilang.")
    else:
        print("Ada data yang hilang")
        # print(missing_times)
  
    missing_times.to_excel('../Data/Preprocessing/Data Balonggandu/2024/missing_times_'+nama_file, index=False)

    return df

def menggisi_data_hilang(df, missing_times):
    # Menggabungkan data hilang dengan DataFrame utama
    df = pd.concat([df, missing_times], ignore_index=True)
    
    # Mengurutkan DataFrame berdasarkan kolom 'Waktu'
    df = df.sort_values(by='WAKTU').reset_index(drop=True)

    return df

In [5]:
# Contoh penggunaan
directory = '../Data/DataLHR/Data Balonggandu/2024'
excel_files = get_excel_files(directory)
excel_files.sort()

# data files
nama_bulan = ['JANUARI', 'FEBRUARI', 'MARET', 'APRIL', 'MEI',
              'JUNI', 'JULI', 'Agustus','September'
              'Oktober', 'November', 'Desember']

all_dfs = []
for file in excel_files:
    bulan = str(nama_bulan.index(file.split('/')[-1].split()[2]) + 1)
    bulan = bulan.zfill(2)
    tahun = '2024'
    thn_bln = f'{tahun}-{bulan}-'
    
    result = read_excel_until_total(file)
    result = penyesuaian_format(result)
    result = pisahkan_kolom_waktu(result)
       
    # Tambahkan DataFrame ke list
    all_dfs.append(result)

df_combined = pd.concat(all_dfs)
df_combined = df_combined.sort_values(by='WAKTU')

df_combined['JUMLAH'] = df_combined.iloc[:, 7:].sum(axis=1)


In [6]:
df_combined.head()

Unnamed: 0,WAKTU_ROUNDED,WAKTU,TAHUN,BULAN,TANGGAL,HARI,JAM,PICKUP,TRUK BOX KECIL,TRUK BOX BESAR,TRUCK STANDART KECIL,TRUCK STANDART BESAR,TRUCK TANGKI KECIL,TRUCK TANGKI BESAR,TRUCK DUMP KECIL,TRUCK DUMP BESAR,TRUCK TRAILER,TRUCK MIXER,UNDEFINED,JUMLAH
0,2024-01-01 00:00:00,2024-01-01 00:00:00,2024,1,1,Monday,00:00,0,0,1,4,1,0,0,0,0,0,0,0,6
1,2024-01-01 01:00:00,2024-01-01 01:00:00,2024,1,1,Monday,01:00,0,0,0,3,2,0,0,0,0,0,0,0,5
2,2024-01-01 02:00:00,2024-01-01 02:00:00,2024,1,1,Monday,02:00,0,0,1,5,0,0,0,0,0,1,0,0,7
3,2024-01-01 03:00:00,2024-01-01 03:00:00,2024,1,1,Monday,03:00,0,1,1,4,0,0,0,0,0,1,0,0,7
4,2024-01-01 04:00:00,2024-01-01 04:00:00,2024,1,1,Monday,04:00,0,0,2,7,0,0,0,0,0,0,0,0,9


In [7]:
nilai_awal = df_combined['WAKTU'].iloc[0]   # Nilai awal (baris pertama)
nilai_akhir = df_combined['WAKTU'].iloc[-1] # Nilai akhir (baris terakhir)

In [8]:
print(nilai_awal, nilai_akhir)

2024-01-01 00:00:00 2024-03-31 23:00:00


In [9]:
df = mencari_data_hilang(nilai_awal,nilai_akhir,df_combined,'balonggandu_2024.xlsx')

Ada data yang hilang


In [10]:
df = df.drop(columns=['WAKTU_ROUNDED','WAKTU'])

In [11]:
df.to_excel('../Data/Preprocessing/Data Balonggandu/2024/input_balonggandu_2024.xlsx', index=False)