# HOUSE PRICE

In [None]:
10123362 - Jihan Hasna Syamilah
10123399 - Rifki Alfarizi
10123414 - Tauriqh Fadhita Padly 
10123415 - Haifa Afina
10123416 - Ayudia Afina

In [1]:
from IPython.display import HTML
html_code = """
<div style="position: relative; width: 600px; height: 200px;">
    <img src="kerkom1.jpg" style="position: absolute; top: 30px; width: 200px; height: 150px;" />
    <img src="kerkom2.jpg" style="position: absolute; top: 30px; left: 220px; width: 200px; height: 150px;" />
    <img src="kerkom3.jpg" style="position: absolute; top: 30px; left: 440px; width: 200px; height: 150px;" />
    <img src="kerkom4.jpg" style="position: absolute; top: 30px; left: 660px; width: 200px; height: 150px;" />
    <img src="kerkom5.jpg" style="position: absolute; top: 30px; left: 880px; width: 200px; height: 150px;" />
</div>
"""

HTML(html_code)



# Latar Belakang dan Tujuan

**LATAR BELAKANG**

Perkembangan teknologi digital telah mempermudah akses terhadap informasi di berbagai sektor, termasuk properti. Saat ini, banyak situs jual beli rumah yang menyediakan data harga dan spesifikasi properti. Namun, informasi tersebut sering kali tersebar di berbagai platform, tidak terstruktur, dan sulit dibandingkan secara langsung. Padahal, selain harga, faktor lain seperti luas bangunan, jumlah kamar, serta lokasi juga berperan penting dalam menentukan nilai sebuah properti. Sayangnya, data ini tidak selalu tersaji dalam satu sistem yang terintegrasi dan mudah dianalisis.

Salah satu solusi untuk mengatasi permasalahan ini adalah dengan menerapkan teknik web scraping, yang memungkinkan pengumpulan data harga rumah secara otomatis dari berbagai sumber. Dengan cara ini, informasi yang sebelumnya tersebar dapat dikumpulkan dalam satu basis data yang lebih terstruktur dan siap untuk dianalisis. Namun, agar lebih informatif, data tersebut juga perlu divisualisasikan berdasarkan lokasi dan faktor geografis lainnya.

Teknologi Geographic Information System (GIS) berperan dalam memetakan harga rumah berdasarkan lokasi, sehingga memungkinkan analisis spasial terhadap pola harga di suatu wilayah. Dengan GIS, berbagai faktor geografis seperti akses transportasi, fasilitas umum, serta jarak ke pusat kota dapat dianalisis untuk melihat pengaruhnya terhadap nilai properti.

Dengan menggabungkan web scraping dan GIS, analisis harga rumah dapat dilakukan secara lebih mendalam dan berbasis data. Calon pembeli, penjual, maupun investor dapat memperoleh informasi yang lebih akurat dan terstruktur, sehingga memudahkan dalam pengambilan keputusan yang lebih tepat.


**TUJUAN**

Pengembangan aplikasi ini bertujuan untuk menyediakan informasi harga rumah yang lebih terstruktur dan berbasis data guna membantu masyarakat dalam memahami faktor-faktor yang memengaruhi nilai properti. Dengan memanfaatkan teknik web scraping untuk mengumpulkan data dari berbagai sumber serta teknologi Geographic Information System (GIS) untuk menganalisis hubungan harga dengan faktor geografis, aplikasi ini diharapkan dapat memberikan wawasan yang lebih komprehensif bagi calon pembeli, agen properti, dan investor.

Secara khusus, aplikasi ini bertujuan untuk:

1. **Menganalisis proporsi harga rumah berdasarkan luas bangunan** guna mengetahui pola hubungan antara ukuran rumah dan nilai jualnya.
2. **Menghitung rata-rata harga rumah berdasarkan jumlah kamar tidur** untuk memahami sejauh mana jumlah kamar memengaruhi harga properti.
3. **Meneliti hubungan antara luas rumah dan harga** guna melihat korelasi antara ukuran rumah dengan nilai jualnya di berbagai wilayah.
4. **Menganalisis rata-rata harga rumah berdasarkan tahun pembangunan** untuk mengetahui apakah usia properti memiliki pengaruh terhadap nilai jualnya.

# Scrapping

# -

# Clean Data

In [4]:
#Menampilkan Data
import pandas as pd 

df = pd.read_csv('kc_house_data.csv');
pd.set_option('display.max_rows',0);
display(df)

Unnamed: 0,id,date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,...,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
0,7129300520,20141013T000000,221900.0,3,1.00,1180,5650,1.0,0,0,...,7,1180,0,1955,0,98178,47.5112,-122.257,1340,5650
1,6414100192,20141209T000000,538000.0,3,2.25,2570,7242,2.0,0,0,...,7,2170,400,1951,1991,98125,47.7210,-122.319,1690,7639
2,5631500400,20150225T000000,180000.0,2,1.00,770,10000,1.0,0,0,...,6,770,0,1933,0,98028,47.7379,-122.233,2720,8062
3,2487200875,20141209T000000,604000.0,4,3.00,1960,5000,1.0,0,0,...,7,1050,910,1965,0,98136,47.5208,-122.393,1360,5000
4,1954400510,20150218T000000,510000.0,3,2.00,1680,8080,1.0,0,0,...,8,1680,0,1987,0,98074,47.6168,-122.045,1800,7503
5,7237550310,20140512T000000,1225000.0,4,4.50,5420,101930,1.0,0,0,...,11,3890,1530,2001,0,98053,47.6561,-122.005,4760,101930
6,1321400060,20140627T000000,257500.0,3,2.25,1715,6819,2.0,0,0,...,7,1715,0,1995,0,98003,47.3097,-122.327,2238,6819
7,2008000270,20150115T000000,291850.0,3,1.50,1060,9711,1.0,0,0,...,7,1060,0,1963,0,98198,47.4095,-122.315,1650,9711
8,2414600126,20150415T000000,229500.0,3,1.00,1780,7470,1.0,0,0,...,7,1050,730,1960,0,98146,47.5123,-122.337,1780,8113
9,3793500160,20150312T000000,323000.0,3,2.50,1890,6560,2.0,0,0,...,7,1890,0,2003,0,98038,47.3684,-122.031,2390,7570


In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21613 entries, 0 to 21612
Data columns (total 21 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   id             21613 non-null  int64  
 1   date           21613 non-null  object 
 2   price          21613 non-null  float64
 3   bedrooms       21613 non-null  int64  
 4   bathrooms      21613 non-null  float64
 5   sqft_living    21613 non-null  int64  
 6   sqft_lot       21613 non-null  int64  
 7   floors         21613 non-null  float64
 8   waterfront     21613 non-null  int64  
 9   view           21613 non-null  int64  
 10  condition      21613 non-null  int64  
 11  grade          21613 non-null  int64  
 12  sqft_above     21613 non-null  int64  
 13  sqft_basement  21613 non-null  int64  
 14  yr_built       21613 non-null  int64  
 15  yr_renovated   21613 non-null  int64  
 16  zipcode        21613 non-null  int64  
 17  lat            21613 non-null  float64
 18  long  

In [7]:
#Mendeteksi Missing Value
import pandas as pd

missing_value_format = ['N.A', 'na', 'n.a', 'n/a', '?', '-']

df = pd.read_csv('kc_house_data.csv', na_values = missing_value_format)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21613 entries, 0 to 21612
Data columns (total 21 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   id             21613 non-null  int64  
 1   date           21613 non-null  object 
 2   price          21613 non-null  float64
 3   bedrooms       21613 non-null  int64  
 4   bathrooms      21613 non-null  float64
 5   sqft_living    21613 non-null  int64  
 6   sqft_lot       21613 non-null  int64  
 7   floors         21613 non-null  float64
 8   waterfront     21613 non-null  int64  
 9   view           21613 non-null  int64  
 10  condition      21613 non-null  int64  
 11  grade          21613 non-null  int64  
 12  sqft_above     21613 non-null  int64  
 13  sqft_basement  21613 non-null  int64  
 14  yr_built       21613 non-null  int64  
 15  yr_renovated   21613 non-null  int64  
 16  zipcode        21613 non-null  int64  
 17  lat            21613 non-null  float64
 18  long  

In [9]:
#Cek Data yang ter-duplikat
df.duplicated

<bound method DataFrame.duplicated of                id             date      price  bedrooms  bathrooms  \
0      7129300520  20141013T000000   221900.0         3       1.00   
1      6414100192  20141209T000000   538000.0         3       2.25   
2      5631500400  20150225T000000   180000.0         2       1.00   
3      2487200875  20141209T000000   604000.0         4       3.00   
4      1954400510  20150218T000000   510000.0         3       2.00   
5      7237550310  20140512T000000  1225000.0         4       4.50   
6      1321400060  20140627T000000   257500.0         3       2.25   
7      2008000270  20150115T000000   291850.0         3       1.50   
8      2414600126  20150415T000000   229500.0         3       1.00   
9      3793500160  20150312T000000   323000.0         3       2.50   
10     1736800520  20150403T000000   662500.0         3       2.50   
11     9212900260  20140527T000000   468000.0         2       1.00   
...           ...              ...        ...       

In [13]:
#Hapus Data Duplikat
df.drop_duplicates()

Unnamed: 0,id,date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,...,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
0,7129300520,20141013T000000,221900.0,3,1.00,1180,5650,1.0,0,0,...,7,1180,0,1955,0,98178,47.5112,-122.257,1340,5650
1,6414100192,20141209T000000,538000.0,3,2.25,2570,7242,2.0,0,0,...,7,2170,400,1951,1991,98125,47.7210,-122.319,1690,7639
2,5631500400,20150225T000000,180000.0,2,1.00,770,10000,1.0,0,0,...,6,770,0,1933,0,98028,47.7379,-122.233,2720,8062
3,2487200875,20141209T000000,604000.0,4,3.00,1960,5000,1.0,0,0,...,7,1050,910,1965,0,98136,47.5208,-122.393,1360,5000
4,1954400510,20150218T000000,510000.0,3,2.00,1680,8080,1.0,0,0,...,8,1680,0,1987,0,98074,47.6168,-122.045,1800,7503
5,7237550310,20140512T000000,1225000.0,4,4.50,5420,101930,1.0,0,0,...,11,3890,1530,2001,0,98053,47.6561,-122.005,4760,101930
6,1321400060,20140627T000000,257500.0,3,2.25,1715,6819,2.0,0,0,...,7,1715,0,1995,0,98003,47.3097,-122.327,2238,6819
7,2008000270,20150115T000000,291850.0,3,1.50,1060,9711,1.0,0,0,...,7,1060,0,1963,0,98198,47.4095,-122.315,1650,9711
8,2414600126,20150415T000000,229500.0,3,1.00,1780,7470,1.0,0,0,...,7,1050,730,1960,0,98146,47.5123,-122.337,1780,8113
9,3793500160,20150312T000000,323000.0,3,2.50,1890,6560,2.0,0,0,...,7,1890,0,2003,0,98038,47.3684,-122.031,2390,7570


In [4]:
#Cek Jumlah Data yang Ter-duplikat
import pandas as pd 

df = pd.read_csv('kc_house_data.csv');
df.duplicated().sum()

0

In [14]:
#Cek Jumlah Data setelah Menghapus Data yang Ter-duplikat
df.shape

(21613, 21)

# Visualisasi Data dan Geographic Information System

In [15]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.linear_model import LinearRegression
import folium
from folium.plugins import MarkerCluster, HeatMap
import tkinter as tk
from tkinter import ttk
from matplotlib.backends.backend_tkagg import FigureCanvasTkAgg, NavigationToolbar2Tk
import webbrowser

data = pd.read_csv('kc_house_data.csv')
data.dropna(inplace=True)

#========================================TKINTER========================================
root = tk.Tk()
root.title("Dashboard Prediksi Harga Rumah")
root.geometry("1800x1200")

#Frame
frame_btn = tk.Frame(root)
frame_btn.pack(pady=10)
frame_visual = tk.Frame(root)
frame_visual.pack(fill=tk.BOTH, expand=True)
frame_gis = tk.Frame(root)
frame_gis.pack(side=tk.RIGHT, fill=tk.BOTH, expand=True)
#=======================================================================================
#====================================Visualisasi Data===================================
def visualize_data():
    global canvas, toolbar

    #membuat figur dan axis untuk tataletak 2x2
    sns.set_style("whitegrid")
    gmbr, sumbu = plt.subplots(2, 2, figsize=(10, 8))
    warna = sns.color_palette("husl", 8)

    #diagram lingkar: Distribusi Harga Rumah Berdasarka Luas (sqft)
    bins = [0, 1000,2000, 3000, 4000, 5000, data['sqft_living'].max()]
    label = ['<1000 sqft', '1000-2000 sqft', '2000-3000 sqft', '3000-4000 sqft', '4000-5000 sqft', '>5000 sqft']
    data['sqft_category'] = pd.cut(data['sqft_living'], bins=bins, labels=label)
    distribusi_harga = data.groupby('sqft_category', observed=False)['price'].sum() #total hargga per kategori luas
    sumbu[0, 0].pie(distribusi_harga, labels=label, autopct='%1.1f%%', colors=warna, startangle=90)
    sumbu[0, 0].set_title('Distribusi Rumah Berdasarkan Luas')
    sumbu[0, 0].set_xlabel('Kategiri Luas Rumah')
    sumbu[0, 0].set_ylabel('Total Harga')

    #diagram batang: Rata rata Harga berdasarkan Jumlah Kamar Tidur
    harga_kamar = data.groupby('bedrooms')['price'].mean()
    sumbu[0, 1].bar(harga_kamar.index, harga_kamar.values,color=warna)
    sumbu[0, 1].set_title('Rata-rata Harga Berdasarkan Jumlah Kamar')
    sumbu[0, 1].set_xlabel('Jumlah Kamar')
    sumbu[0, 1].set_ylabel('Rata-rata Harga')

    #scatter plot hubungan antara luas rumah dengan harga (ditambah garis tren)
    sumbu[1, 0].scatter(data['sqft_living'], data['price'], alpha=0.5, c=data['price'], cmap='coolwarm')
    x = data ['sqft_living'].values.reshape(-1, 1)
    y = data['price']
    model = LinearRegression()
    model.fit(x, y)
    pred = model.predict(x)
    sumbu[1, 0].plot(data['sqft_living'], pred, color='red', linewidth=2)
    sumbu[1, 0].set_title("Hubungan Luas Rumah dengan Harga")
    sumbu[1, 0].set_xlabel('Luas Rumah')
    sumbu[1, 0].set_ylabel('Harga')

    #line plot: rata rata harga rumah berdasarkan tahun dibangun
    harga_perthn = data.groupby('yr_built')['price'].mean()
    sumbu[1,1].plot(harga_perthn.index, harga_perthn.values, marker='o', linestyle='-', color='purple')
    sumbu[1,1].set_title("Harga vs Tahun Dibangun")
    sumbu[1,1].set_xlabel("Tahun Dibangun")
    sumbu[1,1].set_xlabel("Rata-rata Harga")

    #menyesuaikan layout
    plt.tight_layout()
    for widget in frame_visual.winfo_children():
        widget.destroy()
    canvas = FigureCanvasTkAgg(gmbr, master=frame_visual)
    canvas_widget = canvas.get_tk_widget()
    canvas_widget.pack(expand=True, fill=tk.BOTH, padx=20, pady=20)
    toolbar = NavigationToolbar2Tk(canvas, frame_visual)
    toolbar.update()
    toolbar.pack(side=tk.BOTTOM, fill=tk.X)
#=======================================================================================
#=============================Geographic Information System=============================
def open_map(heatmap=False):
    m = folium.Map(location=[data["lat"].mean(), data["long"].mean()], zoom_start=10)
    marker = MarkerCluster().add_to(m)
    #loop untuk menambahkan marker
    for _, row in data.iterrows():
        folium.Marker(
            location=[row["lat"], row["long"]],
            popup=f"ID: {row['id']}, Harga: ${row['price']:,}",
            tooltip=row['id']
        ).add_to(marker)

    if heatmap:
        heat_data = [[row["lat"], row["long"], row["price"]] for _, row in data.iterrows() if pd.notna(row["lat"]) and pd.notna(row["long"])]
        HeatMap(heat_data, radius=15, blur=10, max_zoom=1).add_to(m)
    map_path = "house_map.html"
    m.save(map_path)
    webbrowser.open(map_path)

def gis_menu():
    top = tk.Toplevel(root)
    top.title("Pilih Mode GIS")
    top.geometry("400x200")

    gis_btn = tk.Frame(top)
    gis_btn.pack(pady=20, padx=20, fill=tk.BOTH, expand=True)
    btn_marker = tk.Button(gis_btn, text="Marker Cluster", command=lambda: open_map(False), width=30, height=2)
    btn_marker.pack(pady=10)
    btn_heat = tk.Button(gis_btn, text="Heat Map", command=lambda: open_map(True), width=30, height=2)
    btn_heat.pack(pady=10)

#Buttons
btn_visual = tk.Button(frame_btn, text="Tampilkan Visual Data", command=visualize_data, width=30, height=2)
btn_visual.grid(row=0,column=0, padx=10, pady=10)
btn_gis = tk.Button(frame_btn, text="Tampilkan GIS", command=gis_menu, width=30, height=2)
btn_gis.grid(row=0,column=1, padx=10, pady=10)

root.mainloop()