# ⚙️ Implementasi Alat Pembersih Data dengan Pandas di Python

Berikut adalah skrip Python yang mengotomatisasi proses pembersihan data sederhana dari file CSV:

* **Fungsi `load_data(file_path)`:** Memuat data dari file CSV menggunakan `pd.read_csv()` dan menangani potensi error saat pemuatan file.
* **Fungsi `clean_data(df)`:** Menerima DataFrame Pandas sebagai input dan melakukan langkah-langkah pembersihan:
    * Menampilkan bentuk awal DataFrame.
    * Menghapus baris yang mengandung nilai kosong menggunakan `df.dropna()`.
    * Menampilkan bentuk DataFrame setelah menghapus nilai kosong.
    * Menghapus baris duplikat menggunakan `df.drop_duplicates()`.
    * Menampilkan bentuk DataFrame setelah menghapus duplikat.
    * Mengembalikan DataFrame yang sudah dibersihkan.
* **Fungsi `save_data(df, output_path)`:** Menyimpan DataFrame yang sudah dibersihkan ke file CSV baru menggunakan `df.to_csv()` tanpa menyertakan indeks. Menangani potensi error saat penyimpanan file.
* **Fungsi `main()`:** Fungsi utama program yang:
    * Menyapa pengguna.
    * Meminta jalur file CSV input.
    * Memuat data menggunakan `load_data()`.
    * Menampilkan beberapa baris pertama dari data awal.
    * Membersihkan data menggunakan `clean_data()`.
    * Meminta jalur file untuk menyimpan data yang sudah dibersihkan.
    * Menyimpan data bersih menggunakan `save_data()`.
* **Blok `if __name__ == "__main__":`:** Memastikan fungsi `main()` hanya dijalankan ketika skrip dieksekusi secara langsung.

Jalankan sel kode di bawah untuk membersihkan dataset-mu dengan cepat!

In [1]:
import pandas as pd

def load_data(file_path):
    """Load data from a CSV file."""
    try:
        df = pd.read_csv(file_path)
        print("Data loaded successfully!")
        return df
    except Exception as e:
        print("Error loading data:", e)
        return None

def clean_data(df):
    """Clean the data."""
    print("\n--- Cleaning Data ---")
    print("Initial Shape:", df.shape)

    # Handle Missing Values
    print("\nHandling Missing Values...")
    df = df.dropna()  # Drop rows with missing values
    print("After Dropping Missing Values:", df.shape)

    # Remove Duplicates
    print("\nRemoving Duplicates...")
    df = df.drop_duplicates()
    print("After Removing Duplicates:", df.shape)

    return df

def save_data(df, output_path):
    """Save the cleaned data to a new CSV file."""
    try:
        df.to_csv(output_path, index=False)
        print(f"Cleaned data saved to {output_path}")
    except Exception as e:
        print("Error saving data:", e)

def main():
    print("Welcome to the Data Cleaner Tool!")
    
    # Input File
    input_file = input("Enter the path to your CSV file: ")
    df = load_data(input_file)
    if df is None:
        return
    
    # Show Initial Data
    print("\n--- Initial Data ---")
    print(df.head())
    
    # Clean the Data
    df = clean_data(df)
    
    # Save Cleaned Data
    output_file = input("\nEnter the path to save the cleaned CSV file: ")
    save_data(df, output_file)
    
if __name__ == "__main__":
    main()

Welcome to the Data Cleaner Tool!


Enter the path to your CSV file:  data.csv


Data loaded successfully!

--- Initial Data ---
     name   age  sex  location
0  Vivian   NaN    M       ATL
1    John  35.0    M       MSP
2    Jane  34.0    F       DCA
3    Mary  55.0  NaN       SEA
4  Vivian  40.0    M       ATL

--- Cleaning Data ---
Initial Shape: (8, 4)

Handling Missing Values...
After Dropping Missing Values: (6, 4)

Removing Duplicates...
After Removing Duplicates: (4, 4)



Enter the path to save the cleaned CSV file:  dataclean2.csv


Cleaned data saved to dataclean2.csv
