# Convert data dari non numerik menjadi numerik

In [None]:
import pandas as pd
import numpy as np

# Fungsi untuk mengekstrak ukuran rata-rata
def extract_average_size(size_range):
    try:
        # Menghilangkan spasi dan 'cm', kemudian split
        sizes = [float(s.strip().replace(' cm', '')) for s in str(size_range).split('-')]
        return np.mean(sizes)
    except:
        return 0

# Fungsi untuk mengkategorikan bentuk tubuh dengan multiple characteristics
def categorize_body_shape(body_shape):
    shape_mapping = {
        'lonjong': 1, 'pipih': 2, 'besar': 3, 'memanjang': 4,
        'bersungut': 5, 'oval': 6, 'agak pipih': 7, 'licin': 8,
        'silindris': 9, 'kecil': 10, 'bersisik': 11
    }

    # Pastikan body_shape adalah string dan tangani None/NaN
    if pd.isna(body_shape):
        return 0

    characteristics = [c.strip().lower() for c in str(body_shape).replace(',', ' ').split()]
    numeric_value = sum(shape_mapping.get(char, 0) for char in characteristics) / len(characteristics)
    return round(numeric_value, 2)

# Fungsi untuk mengkategorikan warna dengan multiple characteristics
def categorize_color(color):
    color_mapping = {
        'abu-abu': 1, 'gelap': 2, 'keperakan': 3, 'cokelat': 4,
        'muda': 5, 'kehitaman': 6, 'keemasan': 7, 'perak': 8,
        'putih': 9, 'keabu-abuan': 10, 'loreng': 11, 'warna-warni': 12,
        'merah': 13, 'oranye': 14, 'cerah': 15, 'kehijauan': 16
    }

    # Pastikan color adalah string dan tangani None/NaN
    if pd.isna(color):
        return 0

    characteristics = [c.strip().lower().replace('(', '').replace(')', '') for c in str(color).replace(',', ' ').split()]
    numeric_value = sum(color_mapping.get(char, 0) for char in characteristics) / len(characteristics)
    return round(numeric_value, 2)

# Fungsi untuk mengkategorikan tingkah laku dengan multiple characteristics
def categorize_behavior(behavior):
    behavior_mapping = {
        'bergerombol': 1, 'omnivora': 2, 'lamban': 3, 'nokturnal': 4,
        'karnivora': 5, 'aktif': 6, 'soliter': 7, 'predator': 8,
        'jinak': 9, 'agresif': 10
    }

    # Pastikan behavior adalah string dan tangani None/NaN
    if pd.isna(behavior):
        return 0

    characteristics = [c.strip().lower() for c in str(behavior).replace(',', ' ').split()]
    numeric_value = sum(behavior_mapping.get(char, 0) for char in characteristics) / len(characteristics)
    return round(numeric_value, 2)

# Fungsi untuk mengkategorikan habitat
def categorize_habitat(habitat):
    habitat_mapping = {
        'Air tawar dangkal': 1, 'Air tawar tenang': 2, 'Air tawar berlumpur': 3,
        'Air tawar mengalir': 4, 'Air tawar dalam': 5, 'Air tawar rawa': 6,
        'Kolam buatan': 7, 'Kolam kecil': 8
    }

    # Tangani None/NaN
    return habitat_mapping.get(str(habitat), 0)

# Fungsi untuk mengkategorikan nilai ekonomis
def categorize_economic_value(value):
    value_mapping = {
        'Rendah': 1, 'Sedang': 2, 'Tinggi': 3, 'Sangat tinggi': 4
    }

    # Tangani None/NaN
    return value_mapping.get(str(value), 0)

# Fungsi untuk mengkategorikan jenis ikan
def categorize_fish_type(fish):
    fish_mapping = {
        'Mujair': 1, 'Gurame': 2, 'Lele': 3, 'Mas': 4, 'Patin': 5, 'Nila': 6,
        'Gabus': 7, 'Koi': 8, 'Cupang': 9, 'Arwana': 10, 'Seluang': 11,
        'Betok': 12, 'Toman': 13, 'Wader': 14, 'Baung': 15, 'Tawes': 16,
        'Guppy': 17, 'Hampala': 18, 'Jelawat': 19, 'Nilem': 20
    }

    # Tangani None/NaN
    return fish_mapping.get(str(fish), 0)

def main():
    try:
        # Path file CSV
        csv_file = "data/ikan_air_tawar.csv"

        # Baca file CSV dengan pengaturan khusus
        data = pd.read_csv(csv_file,
                            on_bad_lines='skip',
                            encoding='utf-8',
                            skipinitialspace=True,  # Hilangkan spasi di awal/akhir
                            sep=',')  # Pastikan separator adalah koma

        # Buat DataFrame
        df = pd.DataFrame(data)

        # Cetak jumlah total baris untuk konfirmasi
        print("Jumlah total baris:", len(df))

        # Membuat DataFrame numerik
        df_numeric = pd.DataFrame({
            'Id': df['Id'],
            'Habitat_Numeric': df['Habitat'].apply(categorize_habitat),
            'Ukuran_Numeric': df['Ukuran'].apply(extract_average_size),
            'Bentuk_Tubuh_Numeric': df['Bentuk Tubuh'].apply(categorize_body_shape),
            'Warna_Numeric': df['Warna'].apply(categorize_color),
            'Nilai_Ekonomis_Numeric': df['Nilai Ekonomis'].apply(categorize_economic_value),
            'Tingkah_Laku_Numeric': df['Tingkah Laku'].apply(categorize_behavior),
            'Ikan_Numeric': df['Ikan'].apply(categorize_fish_type)
        })

        # Menampilkan hasilnya
        print(df_numeric)

        # Simpan ke CSV
        df_numeric.to_csv('data/ikan_numeric.csv', index=False)

        print("Konversi data berhasil!")

    except Exception as e:
        print(f"Terjadi kesalahan: {e}")
        import traceback
        traceback.print_exc()

# Jalankan fungsi utama
if __name__ == "__main__":
    main()