### 1. Import Library

In [1]:
import pandas as pd
import numpy as np

### 2. Load Data

In [2]:
df = pd.read_csv('house_listings.csv')

### 3. Imputasi Nilai

In [3]:
# Mengelola nilai yang hilang (missing values) pada kolom 'area' dan 'floor'
# Menghapus satuan 'm²' pada kolom 'area'
df['area'] = df['area'].str.replace(' m²', '').astype(float)

# Memisahkan angka-angka pada kolom 'floor'
df['floor'] = df['floor'].str.extract('([0-9]+)').astype(float)

# Menghitung nilai rata-rata untuk mengisi nilai yang hilang
mean_area = df['area'].mean()
mean_floor = df['floor'].mean()

# Mengisi nilai yang hilang pada 'area' dan 'floor' tanpa menggunakan inplace=True
df['area'] = df['area'].fillna(mean_area)
df['floor'] = df['floor'].fillna(mean_floor)

### 4. Mengatasi Outlier

In [4]:
# Menghapus spasi dan tanda koma dari nilai di dalam kolom 'price'
df['price'] = df['price'].str.replace(' ', '').str.replace(',', '')

# Konversi ke tipe data numerik
try:
    df['price'] = pd.to_numeric(df['price'])
except ValueError as e:
    print("Error:", e)

# Hapus baris dengan nilai NaN setelah konversi ke numerik
df = df.dropna(subset=['price'])

# Mengatasi outlier pada harga rumah menggunakan metode IQR
Q1_price = df['price'].quantile(0.25)
Q3_price = df['price'].quantile(0.75)
IQR_price = Q3_price - Q1_price

filter_outlier_price = (df['price'] >= Q1_price - 1.5 * IQR_price) & (df['price'] <= Q3_price + 1.5 * IQR_price)
df = df.loc[filter_outlier_price]

### 5. Integritas Data

In [5]:
# Verifikasi dan validasi keakuratan data pada kolom 'address' dan 'url'
if df['address'].isnull().sum() > 0:
    print("Ada nilai yang hilang pada kolom 'address'")

if df['url'].isnull().sum() > 0:
    print("Ada nilai yang hilang pada kolom 'url'")

# Validasi URL (misalkan URL harus dimulai dengan 'http' atau 'https')
if not all(df['url'].apply(lambda x: str(x).startswith(('http', 'https')))):
    print("Beberapa URL tidak valid")

### 6. Simpan dalam bentuk .csv

In [6]:
# Simpan DataFrame ke dalam file CSV
df.to_csv('house_listings_processed.csv', index=False)

print("Data telah disimpan dalam file CSV.")

Data telah disimpan dalam file CSV.
