In [2]:
# Import library yang dibutuhkan
import pandas as pd
import os

# --- Konfigurasi Nama Kolom dan Path File ---
# Sesuaikan nama file CSV Anda di sini jika berbeda
NAMA_FILE_CSV = 'histori_maintenance.csv' # GANTI JIKA PERLU

# Definisikan nama-nama kolom aktual sesuai konfirmasi Anda
COLUMN_FINDING_DESC = 'finding_description'
COLUMN_ACTION_TAKEN = 'action_taken'
COLUMN_WORK_CENTRE = 'work_centre'
COLUMN_MATERIALS = 'materials_required' # Sesuai konfirmasi terbaru
COLUMN_MAN_HOURS = 'man_hours'

# Path ke file data mentah
# (Menggunakan os.path.join untuk kompatibilitas antar sistem operasi)
PATH_RAW_DATA = os.path.join('..', 'data', 'raw', NAMA_FILE_CSV)
# Catatan: '../data/raw/' karena notebook ada di dalam folder 'notebooks'

# --- Memuat Data ---
print(f"Mencoba memuat data dari: {PATH_RAW_DATA}")
try:
    df_raw = pd.read_csv(PATH_RAW_DATA)
    print("Data CSV berhasil dimuat!")
except FileNotFoundError:
    print(f"ERROR: File tidak ditemukan di {PATH_RAW_DATA}")
    print("Pastikan file CSV sudah ada di folder 'project_rektifikasi/data/raw/' dan nama file sudah benar.")
    df_raw = pd.DataFrame() # Buat DataFrame kosong jika error
except Exception as e:
    print(f"Terjadi error saat memuat CSV: {e}")
    df_raw = pd.DataFrame() # Buat DataFrame kosong jika error

# --- Eksplorasi Data Awal (jika data berhasil dimuat) ---
if not df_raw.empty:
    print("\n--- Informasi Dasar DataFrame (df_raw) ---")
    df_raw.info()

    print("\n--- 5 Baris Pertama Data (df_raw.head()) ---")
    print(df_raw.head())

    print("\n--- 5 Baris Terakhir Data (df_raw.tail()) ---")
    print(df_raw.tail())

    print("\n--- Statistik Deskriptif untuk Kolom Numerik (df_raw.describe()) ---")
    print(df_raw.describe())
    
    print("\n--- Statistik Deskriptif untuk Kolom Objek/Kategorikal (df_raw.describe(include='object')) ---")
    print(df_raw.describe(include='object'))

    print("\n--- Pengecekan Nama Kolom Sebenarnya di DataFrame ---")
    print(f"Nama kolom di DataFrame: {df_raw.columns.tolist()}")
    # Verifikasi apakah nama kolom yang kita definisikan ada di DataFrame
    expected_cols = [COLUMN_FINDING_DESC, COLUMN_ACTION_TAKEN, COLUMN_WORK_CENTRE, COLUMN_MATERIALS, COLUMN_MAN_HOURS]
    missing_in_df = [col for col in expected_cols if col not in df_raw.columns]
    if missing_in_df:
        print(f"\nPERINGATAN: Kolom berikut tidak ditemukan di CSV (cek nama kolom di atas): {missing_in_df}")
    else:
        print("\nSemua kolom yang diharapkan telah ditemukan dalam DataFrame.")

    print("\n--- Pengecekan Nilai Kosong (Missing Values) per Kolom ---")
    print(df_raw.isnull().sum())
else:
    print("\nTidak ada data untuk dieksplorasi karena gagal dimuat atau DataFrame kosong.")

Mencoba memuat data dari: ..\data\raw\histori_maintenance.csv
Data CSV berhasil dimuat!

--- Informasi Dasar DataFrame (df_raw) ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 36997 entries, 0 to 36996
Data columns (total 5 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   finding_description  15248 non-null  object
 1   action_taken         36662 non-null  object
 2   work_centre          36980 non-null  object
 3   materials_required   29883 non-null  object
 4   man_hours            36933 non-null  object
dtypes: object(5)
memory usage: 1.4+ MB

--- 5 Baris Pertama Data (df_raw.head()) ---
                                 finding_description  \
0                MS : REMOVAL  OF OXYGEN STOWAGE BOX   
1            MS:PK-GPO MSAO PACK1 TRIM AIR PRESS VLV   
2  CHA081191C1-DURING MAINT FOUND SEAT NO:11D U/S...   
3  CHA081191C1-DURING MAINT FOUND SEAT NO:11D U/S...   
4  CHA081191C1-DURING MAINT FOUND SEAT NO:11D U/S..