# 2️⃣ Preprocessing Data

Preprocessing Data adalah serangkaian langkah yang dilakukan untuk membersihkan, mengubah, dan menyiapkan data sebelum digunakan untuk langkah selanjutnya.

### 1️⃣ Import Library yang dibutuhkan : 

In [1]:
import pandas as pd

### 2️⃣ Membaca Dataset

In [2]:
# Memuat dataset
df = pd.read_csv('../data/raw/data_harga_rumah_kota_bandung.csv')
print("✅ Dataset berhasil dimuat!")

# Menampilkan beberapa data pertama
print("\nBeberapa data pertama:")
print(df.head().to_string(index=False))

✅ Dataset berhasil dimuat!

Beberapa data pertama:
 type  status         price                  installment                                                             house_name       location  bedroom_count  bathroom_count  carport_count land_area building_area
Rumah Premier Rp 2,1 Miliar  Cicilan: 7 Jutaan per bulan Rumah 2 Lantai Bagus Sertifikat Hak Milik di Maltra Residence, Bandung Andir, Bandung              3               2              2    137 m²        170 m²
Rumah     NaN Rp 4,1 Miliar Cicilan: 15 Jutaan per bulan                                        Rumah Cantik @ Andir (Sudirman) Andir, Bandung              3               2              3    202 m²        300 m²
Rumah     NaN Rp 3,3 Miliar Cicilan: 12 Jutaan per bulan                  Jual Cepat Rumah di Maleber Rajawali Bisa Untuk Usaha Andir, Bandung              5               2              1    350 m²        258 m²
Rumah     NaN   Rp 580 Juta  Cicilan: 2 Jutaan per bulan      Rumah minimalis 3 lantai di andir B

### 3️⃣ Menangani Missing Value

In [3]:
print("Jumlah data yang hilang pada setiap kolom:\n")
print((df.isnull().sum()).to_string())
print(f"\nJumlah data pada dataset : {len(df)}")

Jumlah data yang hilang pada setiap kolom:

type                 0
status            7466
price                0
installment          0
house_name           0
location             0
bedroom_count        0
bathroom_count       0
carport_count        0
land_area            2
building_area        1

Jumlah data pada dataset : 7611


#### 3.1 Missing value pada Kolom Status
Karena kolom Status memiliki 7466 dari 7611 data yang hilang (~98.09% missing value), maka kolom tersebut tidak digunakan karena : 

    a. Terlalu Banyak Data Hilang
    b. Mengisi Nilai yang Hilang Sulit & Tidak Akurat
    c. Tidak Memberikan Kontribusi Signifikan ke Model

Menghapus Kolom Status : 

In [4]:
df.drop(columns=['status'], inplace=True)
print("Kolom 'status' berhasil dihapus!")

Kolom 'status' berhasil dihapus!


#### 3.2 Missing Value pada Kolom land_area dan building_area
Karena jumlah missing value pada kolom land_area dan building_area sangat kecil, yaitu hanya 1–2 dari 7611 baris data, maka penghapusan baris dengan nilai yang hilang merupakan pilihan terbaik agar tidak memengaruhi kualitas data secara keseluruhan.

In [5]:
df.dropna(inplace=True)
print("Data yang hilang pada kolom land_area dan building_area berhasil dihapus!")

Data yang hilang pada kolom land_area dan building_area berhasil dihapus!


#### Ringkasan Hasil Setelah Menghapus Nilai Missing Value

In [6]:
print("Daftar Kolom:\n")
columns = df.columns.tolist()
for i, col in enumerate(columns, 1):
    print(f"{i}. {col}")
print(f"\nJumlah data pada dataset setelah penghapusan : {len(df)}")

print("\nBeberapa data pertama setelah penghapusan:")
print(df.head().to_string(index=False))

Daftar Kolom:

1. type
2. price
3. installment
4. house_name
5. location
6. bedroom_count
7. bathroom_count
8. carport_count
9. land_area
10. building_area

Jumlah data pada dataset setelah penghapusan : 7609

Beberapa data pertama setelah penghapusan:
 type         price                  installment                                                             house_name       location  bedroom_count  bathroom_count  carport_count land_area building_area
Rumah Rp 2,1 Miliar  Cicilan: 7 Jutaan per bulan Rumah 2 Lantai Bagus Sertifikat Hak Milik di Maltra Residence, Bandung Andir, Bandung              3               2              2    137 m²        170 m²
Rumah Rp 4,1 Miliar Cicilan: 15 Jutaan per bulan                                        Rumah Cantik @ Andir (Sudirman) Andir, Bandung              3               2              3    202 m²        300 m²
Rumah Rp 3,3 Miliar Cicilan: 12 Jutaan per bulan                  Jual Cepat Rumah di Maleber Rajawali Bisa Untuk Usaha Andir, Bandu

### 4️⃣ Mengubah Nilai Pada Kolom `price` menjadi bilangan

In [7]:
# Fungsi untuk mengonversi harga ke bilangan murni
def convert_price(price):
    price = price.replace('Rp', '').replace(',', '.').strip()  # Hapus 'Rp' dan ubah koma ke titik
    
    if 'Miliar' in price:
        return float(price.replace('Miliar', '').strip()) * 1_000_000_000  # Konversi ke Rupiah
    elif 'Juta' in price:
        return float(price.replace('Juta', '').strip()) * 1_000_000
    else:
        return float(price)  # Jika format sudah numerik

# Mengonversi harga ke bilangan murni
df['price'] = df['price'].apply(convert_price)

# Cek Hasil 
print("\nBeberapa data pertama setelah konversi harga:")
print(df.head().to_string(index=False))


Beberapa data pertama setelah konversi harga:
 type        price                  installment                                                             house_name       location  bedroom_count  bathroom_count  carport_count land_area building_area
Rumah 2100000000.0  Cicilan: 7 Jutaan per bulan Rumah 2 Lantai Bagus Sertifikat Hak Milik di Maltra Residence, Bandung Andir, Bandung              3               2              2    137 m²        170 m²
Rumah 4100000000.0 Cicilan: 15 Jutaan per bulan                                        Rumah Cantik @ Andir (Sudirman) Andir, Bandung              3               2              3    202 m²        300 m²
Rumah 3300000000.0 Cicilan: 12 Jutaan per bulan                  Jual Cepat Rumah di Maleber Rajawali Bisa Untuk Usaha Andir, Bandung              5               2              1    350 m²        258 m²
Rumah  580000000.0  Cicilan: 2 Jutaan per bulan      Rumah minimalis 3 lantai di andir Bandung cocok buat tempat usaha Andir, Bandung    

### 5️⃣ Mengubah Nilai Pada Kolom `installment` Menjadi Bilangan 

In [8]:
# Fungsi untuk mengkonversi installment ke bilangan murni
def convert_installment(installment):
    installment = installment.replace('Cicilan: ', '').replace(',', '.').replace('per bulan', '').strip()
    
    if 'Ribuan' in installment:
        return float(installment.replace('Ribuan', '').strip()) * 1_000
    elif 'Jutaan' in installment:
        return float(installment.replace('Jutaan', '').strip()) * 1_000_000
    elif 'Miliaran' in installment:
        return float(installment.replace('Miliaran', '').strip()) * 1_000_000_000

# Terapkan fungsi ke kolom installment
df['installment'] = df['installment'].apply(convert_installment)

# Cek Hasil
print("\nBeberapa data pertama setelah konversi installment:")
print(df.head().to_string(index=False))


Beberapa data pertama setelah konversi installment:
 type        price  installment                                                             house_name       location  bedroom_count  bathroom_count  carport_count land_area building_area
Rumah 2100000000.0    7000000.0 Rumah 2 Lantai Bagus Sertifikat Hak Milik di Maltra Residence, Bandung Andir, Bandung              3               2              2    137 m²        170 m²
Rumah 4100000000.0   15000000.0                                        Rumah Cantik @ Andir (Sudirman) Andir, Bandung              3               2              3    202 m²        300 m²
Rumah 3300000000.0   12000000.0                  Jual Cepat Rumah di Maleber Rajawali Bisa Untuk Usaha Andir, Bandung              5               2              1    350 m²        258 m²
Rumah  580000000.0    2000000.0      Rumah minimalis 3 lantai di andir Bandung cocok buat tempat usaha Andir, Bandung              2               2              1     30 m²         80 m²
Rumah 1

#### 6️⃣ Menghapus Kolom `house_name`

In [9]:
df.drop(columns=['type', 'house_name'], inplace=True)
print("Kolom 'type' dan 'house_name' berhasil dihapus!")

Kolom 'type' dan 'house_name' berhasil dihapus!


#### 7️⃣ Mengubah Nilai Pada Kolom `land_area` dan `building_area` menjadi bilangan

In [10]:
# Fungsi untuk mengkonversi installment ke bilangan murni
def convert_area(area):
    area = area.replace('m²', '').replace(',', '.').strip()
    return float(area)

# Terapkan fungsi ke kolom land_area dan building_area
df['land_area'] = df['land_area'].apply(convert_area)
df['building_area'] = df['building_area'].apply(convert_area)

# Cek Hasil
print("\nBeberapa data pertama setelah konversi area:")
print(df.head().to_string(index=False))


Beberapa data pertama setelah konversi area:
       price  installment       location  bedroom_count  bathroom_count  carport_count  land_area  building_area
2100000000.0    7000000.0 Andir, Bandung              3               2              2      137.0          170.0
4100000000.0   15000000.0 Andir, Bandung              3               2              3      202.0          300.0
3300000000.0   12000000.0 Andir, Bandung              5               2              1      350.0          258.0
 580000000.0    2000000.0 Andir, Bandung              2               2              1       30.0           80.0
1300000000.0    4000000.0 Andir, Bandung             11               3              0      176.0          176.0


#### 7️⃣ Menghapus Data Duplikat 

In [11]:
df.drop_duplicates(inplace=True)
print("Data duplikat berhasil dihapus!")

Data duplikat berhasil dihapus!


#### 8️⃣ Menyimpan ke dalam File csv

In [12]:
df.to_csv('../data/processed/noEncoded_data_harga_rumah_kota_bandung.csv', index=False)
print("Dataset berhasil disimpan!")

Dataset berhasil disimpan!
