In [1]:
import pandas as pd

In [2]:
# Memuat data ke dalam DataFrame
house_data = pd.read_csv('house_listings.csv')

# Menampilkan beberapa baris pertama data
print(house_data.head())

       category    price currency     price_1m2  \
0  Köhnə tikili  137 000      AZN  2 630 AZN/m²   
1   Yeni tikili  183 000      AZN  1 790 AZN/m²   
2  Köhnə tikili  145 000      AZN  2 230 AZN/m²   
3  Köhnə tikili  190 000      AZN  2 000 AZN/m²   
4   Yeni tikili  294 000      AZN  1 550 AZN/m²   

                                               title  \
0  Satılır 3 otaqlı köhnə tikili 52 m², 8-ci kilo...   
1  Satılır 2 otaqlı yeni tikili 102 m², Neftçilər m.   
2  Satılır 2 otaqlı köhnə tikili 65 m², Nərimanov r.   
3    Satılır 3 otaqlı köhnə tikili 95 m², Gənclik m.   
4     Satılır 3 otaqlı yeni tikili 190 m², Nəsimi r.   

                    address   floor    area title_deed  repair mortgage  \
0  Elşən Süleymanov küç 137   7 / 9   52 m²        var     var      NaN   
1      Mehdi Abbasov küçəsi  2 / 17  102 m²     yoxdur     var      NaN   
2         Atatürk Prospekti   6 / 9   65 m²        var     var      var   
3               Atatürk pr.   4 / 9   95 m²        var  

In [3]:
# Memuat data dari file CSV
house_data = pd.read_csv('house_listings.csv')

# Membersihkan kolom 'area' dari karakter non-numerik dan mengonversi ke tipe data float
house_data['area'] = house_data['area'].str.replace(' m²', '').astype(float)

# Membersihkan kolom 'price' dari karakter non-numerik dan mengonversi ke tipe data float
house_data['price'] = house_data['price'].str.replace(' ', '').astype(float)

# Identifikasi dan imputasi nilai yang hilang pada kolom 'area' dan 'floor'
house_data['area'].fillna(house_data['area'].median(), inplace=True)


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  house_data['area'].fillna(house_data['area'].median(), inplace=True)


In [4]:
# Mengatasi outlier pada kolom 'price' menggunakan metode IQR
Q1 = house_data['price'].quantile(0.25)
Q3 = house_data['price'].quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
house_data = house_data[(house_data['price'] >= lower_bound) & (house_data['price'] <= upper_bound)]

In [5]:
# Pilih hanya kolom-kolom yang diminta
selected_columns = ['url', 'area', 'floor', 'address', 'price']
house_data_selected = house_data[selected_columns]

# Menyimpan data yang telah diproses ke dalam file Excel
house_data_selected.to_excel('house_listings_data.xlsx', index=False)

# Menampilkan beberapa baris data untuk verifikasi
print(house_data_selected.head())

                             url   area   floor                   address  \
0  https://bina.az/items/3858477   52.0   7 / 9  Elşən Süleymanov küç 137   
1  https://bina.az/items/3858493  102.0  2 / 17      Mehdi Abbasov küçəsi   
2  https://bina.az/items/3858489   65.0   6 / 9         Atatürk Prospekti   
3  https://bina.az/items/3858491   95.0   4 / 9               Atatürk pr.   
4  https://bina.az/items/3858488  190.0  6 / 16      Möhsün Sənani küçəsi   

      price  
0  137000.0  
1  183000.0  
2  145000.0  
3  190000.0  
4  294000.0  
