In [1]:
# Import library yang dibutuhkan
import pandas as pd
import numpy as np 
import os

# --- Konfigurasi Nama Kolom dan Path File ---
NAMA_FILE_CSV = 'histori_maintenance.csv' # GANTI JIKA PERLU (pastikan sudah ada kolom Plant & Order)
NAMA_FILE_PROCESSED_CSV = 'processed_data_v2.csv' # Versi baru untuk file yang diproses

# Definisikan nama-nama kolom aktual
COLUMN_FINDING_DESC = 'finding_description'
COLUMN_ACTION_TAKEN = 'action_taken'
COLUMN_WORK_CENTRE = 'work_centre'
COLUMN_MATERIALS = 'materials_required'
COLUMN_MAN_HOURS = 'man_hours'
COLUMN_PLANT = 'Plant' # Kolom baru
COLUMN_ORDER = 'Order'   # Kolom baru

# Path ke file data mentah dan folder data yang diproses
PATH_RAW_DATA = os.path.join('..', 'data', 'raw', NAMA_FILE_CSV)
PATH_PROCESSED_DATA_DIR = os.path.join('..', 'data', 'processed')
PATH_PROCESSED_FILE = os.path.join(PATH_PROCESSED_DATA_DIR, NAMA_FILE_PROCESSED_CSV)

# --- 1. Memuat Data Mentah ---
print(f"Mencoba memuat data dari: {PATH_RAW_DATA}")
try:
    df = pd.read_csv(PATH_RAW_DATA)
    print("Data CSV berhasil dimuat!")
    df.columns = df.columns.str.strip() # Membersihkan spasi nama kolom
    print(f"Nama kolom terdeteksi: {df.columns.tolist()}")

    # Validasi keberadaan kolom baru
    required_new_cols = [COLUMN_PLANT, COLUMN_ORDER]
    missing_cols = [col for col in required_new_cols if col not in df.columns]
    if missing_cols:
        print(f"PERINGATAN: Kolom baru berikut tidak ditemukan di CSV: {missing_cols}. Fungsi terkait mungkin tidak berjalan dengan benar.")
    else:
        print(f"Kolom baru '{COLUMN_PLANT}' dan '{COLUMN_ORDER}' berhasil ditemukan.")

except FileNotFoundError:
    print(f"ERROR: File tidak ditemukan di {PATH_RAW_DATA}")
    df = pd.DataFrame()
except Exception as e:
    print(f"Terjadi error saat memuat CSV: {e}")
    df = pd.DataFrame()

if not df.empty:
    print("\n--- 2. Pembersihan Data Awal ---")
    
    # a. Menangani Nilai Kosong (Missing Values)
    critical_cols_for_dropna = [COLUMN_FINDING_DESC, COLUMN_ACTION_TAKEN]
    # Jika Plant dan Order juga krusial per baris sebelum agregasi, tambahkan ke list di atas.
    # Untuk Order, karena diagregasi dengan 'first', NaN mungkin tidak masalah jika setidaknya satu baris per grup punya nilai.
    # Untuk Plant, karena diagregasi dengan 'list', NaN akan jadi bagian dari list.
    
    print(f"Jumlah baris sebelum menangani NaN di kolom krusial: {len(df)}")
    df.dropna(subset=critical_cols_for_dropna, inplace=True)
    print(f"Jumlah baris setelah menghapus NaN di {critical_cols_for_dropna}: {len(df)}")

    # b. Memastikan Tipe Data yang Benar
    try:
        df[COLUMN_MAN_HOURS] = pd.to_numeric(df[COLUMN_MAN_HOURS], errors='coerce')
        man_hours_nan_before_drop = df[COLUMN_MAN_HOURS].isnull().sum()
        if man_hours_nan_before_drop > 0:
            print(f"Jumlah NaN di '{COLUMN_MAN_HOURS}' setelah konversi ke numerik: {man_hours_nan_before_drop}")
            df.dropna(subset=[COLUMN_MAN_HOURS], inplace=True)
            print(f"Jumlah baris setelah menghapus NaN di '{COLUMN_MAN_HOURS}': {len(df)}")

        # Kolom teks yang akan dibersihkan (lowercase, strip)
        # Asumsi Plant dan Order adalah teks, sesuaikan jika berbeda
        string_columns_to_clean = [COLUMN_FINDING_DESC, COLUMN_ACTION_TAKEN, COLUMN_WORK_CENTRE, COLUMN_MATERIALS]
        if COLUMN_PLANT in df.columns: # Hanya proses jika kolom ada
            string_columns_to_clean.append(COLUMN_PLANT)
        if COLUMN_ORDER in df.columns: # Hanya proses jika kolom ada
            string_columns_to_clean.append(COLUMN_ORDER)

        for col in string_columns_to_clean:
            if col in df.columns: # Pastikan kolom ada sebelum diakses
                df[col] = df[col].astype(str).str.lower().str.strip()
                # Ganti string 'nan' hasil astype(str) dengan nilai NaN numpy agar bisa di-handle oleh 'first' atau 'list' agg
                df[col].replace('nan', np.nan, inplace=True) 
        
        # Untuk kolom Plant dan Order, jika ada nilai NaN setelah .lower().strip() dan replace 'nan',
        # bagaimana kita ingin menanganinya sebelum agregasi?
        # Jika Plant harus selalu ada, kita bisa dropna:
        # if COLUMN_PLANT in df.columns:
        #     df.dropna(subset=[COLUMN_PLANT], inplace=True)
        #     print(f"Jumlah baris setelah menghapus NaN di '{COLUMN_PLANT}': {len(df)}")
        # Untuk Order, karena kita akan ambil 'first', nilai NaN akan diabaikan jika ada nilai non-NaN lain dalam grup.

        print("Tipe data setelah konversi dan pembersihan teks dasar:")
        print(df.dtypes)
        print("\nContoh data setelah pembersihan:")
        print(df.head())

    except KeyError as e:
        print(f"ERROR: Kolom tidak ditemukan saat konversi tipe data atau pembersihan teks: {e}")
        df = pd.DataFrame()
    except Exception as e:
        print(f"Terjadi error saat pembersihan data: {e}")
        df = pd.DataFrame()

if not df.empty:
    print("\n--- 3. Agregasi Data ---")
    
    def aggregate_to_list(series):
        # Mengabaikan NaN saat membuat list, kecuali semua nilai adalah NaN
        cleaned_list = series.dropna().tolist()
        return cleaned_list if cleaned_list else (np.nan if series.isnull().all() else [])


    def aggregate_first_valid(series):
        # Mengambil nilai non-NaN pertama
        first_valid = series.dropna().iloc[0] if not series.dropna().empty else np.nan
        return first_valid

    agg_config = {
        'rectification_steps': (COLUMN_ACTION_TAKEN, aggregate_to_list),
        'man_hours_per_step': (COLUMN_MAN_HOURS, aggregate_to_list),
        'work_centres_per_step': (COLUMN_WORK_CENTRE, aggregate_to_list),
        'materials_info': (COLUMN_MATERIALS, aggregate_first_valid)
    }

    # Tambahkan agregasi untuk kolom baru jika ada
    if COLUMN_PLANT in df.columns:
        agg_config['plants_per_step'] = (COLUMN_PLANT, aggregate_to_list)
    if COLUMN_ORDER in df.columns:
        agg_config['order_info'] = (COLUMN_ORDER, aggregate_first_valid)
    
    try:
        processed_df = df.groupby(COLUMN_FINDING_DESC).agg(**agg_config).reset_index()

        print("Data berhasil diagregasi.")
        print("Contoh data setelah agregasi:")
        print(processed_df.head())
        print("\nKolom pada processed_df:")
        print(processed_df.columns.tolist())

        # Verifikasi panjang list (jika kolom baru juga list)
        if not processed_df.empty and COLUMN_PLANT in df.columns and 'plants_per_step' in processed_df.columns:
            # Sesuaikan verifikasi untuk menyertakan plants_per_step jika perlu
            try:
                sample_row = processed_df.iloc[0]
                if not (len(sample_row['rectification_steps']) == \
                        len(sample_row['man_hours_per_step']) == \
                        len(sample_row['work_centres_per_step']) == \
                        len(sample_row['plants_per_step'])): # Tambahkan plants_per_step
                    print("\nPERINGATAN: Ada ketidaksesuaian panjang list (termasuk plant) untuk baris sampel pertama!")
                else:
                    print("\nPanjang list (termasuk plant) untuk baris sampel pertama terlihat konsisten.")
            except TypeError: # Bisa terjadi jika salah satu list adalah float (NaN)
                print("\nPERINGATAN: Error saat verifikasi panjang list, mungkin karena ada nilai NaN yang diagregasi sebagai float.")


        print("\n--- 4. Menyimpan Data yang Sudah Diproses ---")
        if not os.path.exists(PATH_PROCESSED_DATA_DIR):
            os.makedirs(PATH_PROCESSED_DATA_DIR)
            print(f"Direktori '{PATH_PROCESSED_DATA_DIR}' berhasil dibuat.")

        processed_df.to_csv(PATH_PROCESSED_FILE, index=False)
        print(f"Data yang sudah diproses berhasil disimpan di: {PATH_PROCESSED_FILE}")

    except KeyError as e:
        print(f"ERROR: Kolom tidak ditemukan saat agregasi: {e}")
    except Exception as e:
        print(f"Terjadi error saat agregasi atau penyimpanan data: {e}")
else:
    print("\nTidak ada data untuk diproses lebih lanjut karena DataFrame kosong.")

Mencoba memuat data dari: ..\data\raw\histori_maintenance.csv
Data CSV berhasil dimuat!
Nama kolom terdeteksi: ['finding_description', 'action_taken', 'work_centre', 'materials_required', 'man_hours', 'Plant', 'Order']
Kolom baru 'Plant' dan 'Order' berhasil ditemukan.

--- 2. Pembersihan Data Awal ---
Jumlah baris sebelum menangani NaN di kolom krusial: 22898
Jumlah baris setelah menghapus NaN di ['finding_description', 'action_taken']: 22712
Jumlah NaN di 'man_hours' setelah konversi ke numerik: 2
Jumlah baris setelah menghapus NaN di 'man_hours': 22710


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df[col].replace('nan', np.nan, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df[col].replace('nan', np.nan, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values alw

Tipe data setelah konversi dan pembersihan teks dasar:
finding_description     object
action_taken            object
work_centre             object
materials_required      object
man_hours              float64
Plant                   object
Order                   object
dtype: object

Contoh data setelah pembersihan:
                                 finding_description  \
0           a330 9m-xxr eng #1 phase array inspectio   
1  during preliminary: panel 454jl 1 ea screw and...   
2  during preliminary: panel 454jl 1 ea screw and...   
3  during preliminary: rh eng scan light not ill ...   
4  during preliminary: bleeding cap valve brake #...   

                               action_taken work_centre  \
0  a330 9m-xxr eng #1 phase array inspectio        w808   
1  complete screw and washer at panel 454jl    gah210a1   
2  install screw and washer the pylon-to-wi    gah210a1   
3  pse replace rh engine scan light ref amm    gah210e2   
4  complete plug at brake #8 ref ipc fig. 3    g