## Mengelola Nilai yang Hilang

In [11]:
import pandas as pd

data = pd.read_csv('house_listings.csv')
data.head(5)

Unnamed: 0,category,price,currency,price_1m2,title,address,floor,area,title_deed,repair,mortgage,url,room_number
0,Köhnə tikili,137 000,AZN,2 630 AZN/m²,"Satılır 3 otaqlı köhnə tikili 52 m², 8-ci kilo...",Elşən Süleymanov küç 137,7 / 9,52 m²,var,var,,https://bina.az/items/3858477,3.0
1,Yeni tikili,183 000,AZN,1 790 AZN/m²,"Satılır 2 otaqlı yeni tikili 102 m², Neftçilər m.",Mehdi Abbasov küçəsi,2 / 17,102 m²,yoxdur,var,,https://bina.az/items/3858493,2.0
2,Köhnə tikili,145 000,AZN,2 230 AZN/m²,"Satılır 2 otaqlı köhnə tikili 65 m², Nərimanov r.",Atatürk Prospekti,6 / 9,65 m²,var,var,var,https://bina.az/items/3858489,2.0
3,Köhnə tikili,190 000,AZN,2 000 AZN/m²,"Satılır 3 otaqlı köhnə tikili 95 m², Gənclik m.",Atatürk pr.,4 / 9,95 m²,var,var,var,https://bina.az/items/3858491,3.0
4,Yeni tikili,294 000,AZN,1 550 AZN/m²,"Satılır 3 otaqlı yeni tikili 190 m², Nəsimi r.",Möhsün Sənani küçəsi,6 / 16,190 m²,var,yoxdur,,https://bina.az/items/3858488,3.0


In [12]:
# Identifikasi nilai yang hilang pada kolom 'area' dan 'floor'
missing_area = data['area'].isnull().sum()
missing_floor = data['floor'].isnull().sum()

print(f"Jumlah nilai yang hilang pada kolom 'area': {missing_area}")
print(f"Jumlah nilai yang hilang pada kolom 'floor': {missing_floor}")

Jumlah nilai yang hilang pada kolom 'area': 37
Jumlah nilai yang hilang pada kolom 'floor': 37


In [13]:
# Mengubah nilai non-numeric menjadi NaN
data['area'] = data['area'].apply(pd.to_numeric, errors='coerce')
data['floor'] = data['floor'].apply(pd.to_numeric, errors='coerce')

# Imputasi nilai yang hilang pada kolom 'area' dan 'floor' dengan nilai rata-rata
data['area'] = data['area'].fillna(data['area'].mean())
data['floor'] = data['floor'].fillna(data['floor'].mean())

# Verifikasi nilai yang hilang telah diimputasi
print(data[['area', 'floor']].isnull().sum())


area     35503
floor    35503
dtype: int64


## Mengatasi Outlier

In [15]:
# Menghilangkan spasi di antara angka pada kolom 'price'
data['price'] = data['price'].str.replace(' ', '')

# Konversi kolom 'price' menjadi tipe data numerik (float)
data['price'] = data['price'].astype(float)

# Menghitung quartile pertama (Q1) dan quartile ketiga (Q3)
Q1 = data['price'].quantile(0.25)
Q3 = data['price'].quantile(0.75)

# Menghitung rentang IQR
IQR = Q3 - Q1

# Identifikasi outlier
outliers = data[(data['price'] < (Q1 - 1.5 * IQR)) | (data['price'] > (Q3 + 1.5 * IQR))]

print("Jumlah Outlier:", len(outliers))

Jumlah Outlier: 1930


In [16]:
# Menghapus outlier dari DataFrame
data = data[~((data['price'] < (Q1 - 1.5 * IQR)) | (data['price'] > (Q3 + 1.5 * IQR)))]

# Verifikasi outlier telah dihapus
print("Jumlah outlier setelah dihapus:", len(data))


Jumlah outlier setelah dihapus: 33573


## Menjaga Integritas Data

In [17]:
# Verifikasi integritas data pada kolom 'address' dan 'url'
unique_addresses = data['address'].nunique()
unique_urls = data['url'].nunique()

print(f"Jumlah data unik kolom 'address': {unique_addresses}")
print(f"Jumlah data unik kolom 'url': {unique_urls}")


Jumlah data unik pada kolom 'address': 9525
Jumlah data unik pada kolom 'url': 33573
