In [None]:
import pandas as pd
import numpy as np
import os
from sklearn.preprocessing import MinMaxScaler

# Cek apakah file tersedia di path yang benar
file_path = "winequality-red.csv"  # Sesuaikan path sesuai lokasi file

if not os.path.exists(file_path):
    print("File tidak ditemukan! Harap unggah file terlebih dahulu.")
else:
    print("File ditemukan! Memulai pre-processing...")

    # Load dataset
    df = pd.read_csv(file_path, delimiter=';')

    # Menampilkan informasi awal dataset
    print("\nInformasi Dataset:")
    print(df.info())

    print("\nCek jumlah missing values:")
    print(df.isnull().sum())

    print("\nCek jumlah data duplikat:")
    print(f"Jumlah data duplikat: {df.duplicated().sum()}")

    # Cek nilai unik pada kolom object untuk menemukan anomali
    print("\nMemeriksa nilai unik dalam kolom bertipe object...")
    for col in df.select_dtypes(include=['object']).columns:
        print(f"{col}: {df[col].unique()[:10]}")  # Tampilkan 10 nilai unik pertama

    # Fungsi untuk membersihkan format angka sebelum konversi ke float
    def clean_numeric(value):
        try:
            value = value.replace(',', '.')  # Ubah koma menjadi titik
            value = ''.join([c for c in value if c.isdigit() or c == '.'])  # Hapus karakter non-numerik
            return float(value)  # Konversi ke float
        except:
            return np.nan  # Jika gagal, ganti dengan NaN untuk diperbaiki nanti

    # Terapkan ke semua kolom bertipe object
    for col in df.select_dtypes(include=['object']).columns:
        df[col] = df[col].apply(clean_numeric)

    # Cek kembali jika masih ada missing values setelah konversi
    print("\nCek missing values setelah konversi:")
    print(df.isnull().sum())

    # Fungsi untuk mengecek apakah dataset butuh pre-processing
    def needs_preprocessing(df):
        if df.isnull().sum().sum() > 0:  # Cek missing values
            return True
        if df.duplicated().sum() > 0:  # Cek duplikasi
            return True
        return False

    # Jika butuh pre-processing, lakukan penanganan
    if needs_preprocessing(df):
        print("\nDataset membutuhkan pre-processing...")

        # Hapus duplikasi
        df = df.drop_duplicates()

        # Isi missing values dengan median
        df.fillna(df.median(), inplace=True)

    else:
        print("\nDataset sudah bersih, hanya akan dilakukan normalisasi.")

    # Normalisasi dengan MinMaxScaler
    scaler = MinMaxScaler()
    df.iloc[:, :-1] = scaler.fit_transform(df.iloc[:, :-1])  # Semua kolom kecuali 'quality'

    # Simpan dataset yang sudah diproses
    output_file = "winequality-red-processed.csv"
    df.to_csv(output_file, index=False)

    print(f"\nPre-processing selesai! Dataset disimpan sebagai '{output_file}'.")


File tidak ditemukan! Harap unggah file terlebih dahulu.
