In [1]:
import pandas as pd
import os

folder_path = "Dataset Surabaya"
all_data = []

for filename in os.listdir(folder_path):
    if filename.endswith(".xlsx"):
        file_path = os.path.join(folder_path, filename)

        # Baca file Excel, header di baris ke-3 (indeks 2)
        df = pd.read_excel(file_path, header=2)

        # Buang baris dengan tanggal berisi Rata-rata, Maksimum, Minimum
        df = df[~df['Tanggal'].astype(str).str.contains('Rata|Maksimum|Minimum', na=False)]

        # Konversi kolom Tanggal ke datetime
        df['Tanggal'] = pd.to_datetime(df['Tanggal'], format="%d %b %Y", errors='coerce')

        # Hapus baris dengan Tanggal yang gagal dikonversi (NaT)
        df = df.dropna(subset=['Tanggal'])

        # Buang kolom 'No' jika ada
        if 'No' in df.columns:
            df = df.drop(columns=['No'])

        all_data.append(df)

# Gabungkan semua file (berdasarkan baris)
combined_df = pd.concat(all_data, axis=0)

# Hapus duplikat baris jika ada (misal ada tanggal yang sama dari file berbeda)
combined_df = combined_df.drop_duplicates()

# Urutkan berdasarkan tanggal
combined_df = combined_df.sort_values(by='Tanggal')

# Format kolom Tanggal menjadi string yyyy-mm-dd
combined_df['Tanggal'] = combined_df['Tanggal'].dt.strftime('%Y-%m-%d')

# Simpan hasil ke file Excel dan CSV
excel_output_filename = "harga_bapokting_surabaya.xlsx"
csv_output_filename = "harga_bapokting_surabaya.csv"

# Simpan ke Excel
combined_df.to_excel(excel_output_filename, index=False)

# Simpan ke CSV
combined_df.to_csv(csv_output_filename, index=False)

print(f"✅ File berhasil dibuat: {excel_output_filename}")
print(f"✅ File berhasil dibuat: {csv_output_filename}")


✅ File berhasil dibuat: harga_bapokting_surabaya.xlsx
✅ File berhasil dibuat: harga_bapokting_surabaya.csv
