### Package

In [2]:
# Package
import pandas as pd
import numpy as np
from scipy import stats

### Load Data

In [3]:
# Load Data
df = pd.read_csv('rumah_bekasi.csv')
df.head()

Unnamed: 0,Harga,Lokasi,LT,LB,Kamar,Kamar Mandi,Carport
0,Rp 542 Juta,"Grand Wisata, Bekasi",67 m²,47 m²,2,1,
1,Rp 800 Juta,"Harapan Indah, Bekasi",102 m²,210 m²,4,3,
2,"Rp 1,13 Miliar","Bekasi Timur, Bekasi",180 m²,220 m²,4,3,
3,Rp 800 Juta,"Bekasi, Bekasi",65 m²,58 m²,2,2,
4,Rp 890 Juta,"Jati Asih, Bekasi",84 m²,60 m²,2,1,


In [4]:
# Summary
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200 entries, 0 to 199
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Harga        200 non-null    object 
 1   Lokasi       200 non-null    object 
 2   LT           200 non-null    object 
 3   LB           200 non-null    object 
 4   Kamar        200 non-null    int64  
 5   Kamar Mandi  200 non-null    int64  
 6   Carport      95 non-null     float64
dtypes: float64(1), int64(2), object(4)
memory usage: 11.1+ KB


### Data Precessing

In [5]:
# Check Missing Value
df.isnull().sum()

Harga            0
Lokasi           0
LT               0
LB               0
Kamar            0
Kamar Mandi      0
Carport        105
dtype: int64

In [6]:
# Handling Missing Value
tanpa_carport = 0
df['Carport'] = df['Carport'].fillna(tanpa_carport).astype(int)
df.isnull().sum()

Harga          0
Lokasi         0
LT             0
LB             0
Kamar          0
Kamar Mandi    0
Carport        0
dtype: int64

In [7]:
# Check Duplicated
df.duplicated().sum()

5

In [8]:
# Handling Duplicated
df = df.drop_duplicates()
df = df.reset_index()
df.duplicated().sum()

0

In [9]:
# Handling colomns
df.columns = df.columns.str.lower()
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 195 entries, 0 to 194
Data columns (total 8 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   index        195 non-null    int64 
 1   harga        195 non-null    object
 2   lokasi       195 non-null    object
 3   lt           195 non-null    object
 4   lb           195 non-null    object
 5   kamar        195 non-null    int64 
 6   kamar mandi  195 non-null    int64 
 7   carport      195 non-null    int32 
dtypes: int32(1), int64(3), object(4)
memory usage: 11.6+ KB


In [10]:
df.head()

Unnamed: 0,index,harga,lokasi,lt,lb,kamar,kamar mandi,carport
0,0,Rp 542 Juta,"Grand Wisata, Bekasi",67 m²,47 m²,2,1,0
1,1,Rp 800 Juta,"Harapan Indah, Bekasi",102 m²,210 m²,4,3,0
2,2,"Rp 1,13 Miliar","Bekasi Timur, Bekasi",180 m²,220 m²,4,3,0
3,3,Rp 800 Juta,"Bekasi, Bekasi",65 m²,58 m²,2,2,0
4,4,Rp 890 Juta,"Jati Asih, Bekasi",84 m²,60 m²,2,1,0


In [11]:
# Cleaning lt & lb
df['lt'] = df['lt'].str.replace('m²','').str.strip().astype(int)
df['lb'] = df['lb'].str.replace('m²','').str.strip().astype(int)


In [12]:
# Cleaning lokasi & Create kota
df['kota'] = df['lokasi'].str.split(',').str[1].str.strip()
df['lokasi'] = df['lokasi'].str.split(',').str[0].str.strip()

In [13]:
# Check Value
df['harga'].value_counts()

harga
Rp 1,1 Miliar     12
Rp 800 Juta        9
Rp 890 Juta        6
Rp 550 Juta        5
Rp 1,9 Miliar      5
                  ..
Rp 1,33 Miliar     1
Rp 990 Juta        1
Rp 1,11 Miliar     1
Rp 2,93 Miliar     1
Rp 940 Juta        1
Name: count, Length: 95, dtype: int64

In [14]:
# Cleaning harga
df['harga'] = df['harga'].str.split( )
df['jumlah'] = df['harga'].str[2]
df['harga'] = df['harga'].str[1].str.replace(',','.').astype(float)
df['jumlah'] = df['jumlah'].str.replace('Miliar','1_000_000_000').str.replace('Juta','1_000_000').astype(int)
df['harga'] = df['jumlah']*df['harga'].astype('int64')

In [15]:
# Cleaning dataset
df = df.drop(['index', 'jumlah'], axis=1)
df

Unnamed: 0,harga,lokasi,lt,lb,kamar,kamar mandi,carport,kota
0,542000000,Grand Wisata,67,47,2,1,0,Bekasi
1,800000000,Harapan Indah,102,210,4,3,0,Bekasi
2,1000000000,Bekasi Timur,180,220,4,3,0,Bekasi
3,800000000,Bekasi,65,58,2,2,0,Bekasi
4,890000000,Jati Asih,84,60,2,1,0,Bekasi
...,...,...,...,...,...,...,...,...
190,1000000000,Jatibening,99,70,2,1,0,Bekasi
191,1000000000,Jatibening,130,120,4,3,0,Bekasi
192,940000000,Galaxy,60,120,3,3,0,Bekasi
193,1000000000,Galaxy,126,150,3,2,0,Bekasi


In [16]:
# Clean summary
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 195 entries, 0 to 194
Data columns (total 8 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   harga        195 non-null    int64 
 1   lokasi       195 non-null    object
 2   lt           195 non-null    int32 
 3   lb           195 non-null    int32 
 4   kamar        195 non-null    int64 
 5   kamar mandi  195 non-null    int64 
 6   carport      195 non-null    int32 
 7   kota         195 non-null    object
dtypes: int32(3), int64(3), object(2)
memory usage: 10.0+ KB


### Problem

Kamu ingin membeli rumah di Bekasi untuk tempat tinggal. Untuk membantu pengambilan keputusan, proyek ini mengumpulkan data listing rumah dari **Rumah123** (lokasi: Bekasi), membersihkan data, melakukan analisis deskriptif, menghitung *confidence interval* 95% untuk "harga wajar", menguji hipotesis apakah rumah dengan **Carport** lebih mahal dibandingkan tanpa Carport, dan menguji korelasi apakah **luas tanah** atau **luas bangunan** lebih kuat berhubungan dengan harga.

### Analisa

Dalam melakukan analisa data untuk mencapai tujuan yang diinginkan, Anda perlu mengikuti soal/pertanyaan/instruksi berikut ini :
1. Hitung rata-rata, median, standar deviasi, skewness, dan kurtosis dari semua kolom numerik.

In [22]:
df.describe()

Unnamed: 0,harga,lt,lb,kamar,kamar mandi,carport
count,195.0,195.0,195.0,195.0,195.0,195.0
mean,1060882000.0,101.661538,96.317949,2.902564,2.030769,0.851282
std,1227994000.0,104.729245,88.229793,0.955582,1.049829,1.374824
min,330000000.0,55.0,12.0,2.0,1.0,0.0
25%,680000000.0,64.0,50.0,2.0,1.0,0.0
50%,980000000.0,78.0,75.0,3.0,2.0,0.0
75%,1000000000.0,104.0,100.0,3.0,2.5,2.0
max,15000000000.0,1200.0,745.0,10.0,8.0,10.0


In [18]:
filter = df[['harga', 'lt', 'lb', 'kamar', 'kamar mandi', 'carport',]]
mean = filter.mean()
median = filter.median()
std = filter.std()
skew = filter.skew()
kurtosis = filter.kurtosis()

pd.DataFrame({
    'Avg': mean,
    'Median':median,
    'Std':std,
    'Skew':skew,
    'Kurtosis':kurtosis
})

Unnamed: 0,Avg,Median,Std,Skew,Kurtosis
harga,1060882000.0,980000000.0,1227994000.0,8.460652,88.696431
lt,101.6615,78.0,104.7292,7.730876,70.760838
lb,96.31795,75.0,88.22979,4.847178,29.562773
kamar,2.902564,3.0,0.9555824,2.63192,15.499666
kamar mandi,2.030769,2.0,1.049829,1.90963,7.057172
carport,0.8512821,0.0,1.374824,3.878551,22.039232


Dari statistik deskriptif rumah Bekasi, terlihat bahwa mayoritas rumah berada di kelas menengah: harga berkisar di sekitar Rp 980 juta, dengan luas tanah dan bangunan rata-rata di rentang 75–100 m². Namun, dataset ini menyimpan beberapa outlier yang sangat besar—mulai dari rumah seharga Rp 15 miliar, luas tanah 1.200 m², hingga carport sebanyak 10 unit. Outlier-outlier ini menyebabkan penyebaran data menjadi sangat lebar. Sementara itu, fitur seperti jumlah kamar tidur dan kamar mandi jauh lebih stabil, didominasi 2–3 kamar tidur dan 1–2 kamar mandi. Secara keseluruhan, dataset menggambarkan pasar rumah Bekasi yang didominasi rumah tipikal keluarga, namun diselingi properti premium yang sangat ekstrem dan memengaruhi distribusi data.

2. Anda perlu mempersiapkan uang untuk pembelian rumah ini sehingga Anda harus mengetahui berapa kisaran harga rumah yang wajar di Bekasi ?

In [24]:
std = df['harga'].std()
N = len(df)
low, up = stats.norm.interval(0.95,loc=df['harga'].mean(),scale=std/np.sqrt(N))
low = round(low)
up = round(up)
print('Lower Limit:',low)
print('Upper Limit:',up)
pd.DataFrame({
    'Index':['Harga Rumah'],
    'Minimal': [low],
    'Maximal':[up]
})


Lower Limit: 888525755
Upper Limit: 1233238348


Unnamed: 0,Index,Minimal,Maximal
0,Harga Rumah,888525755,1233238348


Karena dataset rumah Bekasi mengandung outlier ekstrem hingga belasan miliar, gambaran harga menjadi bias. Untuk menemukan harga yang benar-benar mewakili pasar, digunakan confidence interval 95%. Hasilnya menunjukkan bahwa rentang harga rumah yang wajar berada di antara:

Rp 888.525.755 – Rp 1.233.238.348

Rentang ini menunjukkan bahwa sebagian besar rumah Bekasi sebenarnya berada di kisaran 900 jutaan hingga 1,2 miliar, sedangkan nilai di luar batas tersebut kemungkinan merupakan outlier atau properti premium yang tidak mencerminkan kondisi pasar umum.

3. Saat ini Anda belum memiliki mobil sehingga `Carport` bukan prioritas saat ini. Anda mau tahu apakah rumah dengan `Carport` lebih mahal dibandingkan tanpa `Carport`

In [None]:
wajar = df[df['harga'].between(low,up)]
tanpa_carport = wajar[wajar['carport']==0]
Ada_carport = wajar[wajar['carport']>0]
t_stat, p_val = stats.ttest_ind(tanpa_carport['harga'],Ada_carport['harga'])
print('T-Statistic:',t_stat)
print('P-value:',p_val) 
pd.DataFrame({
    'T-Statistic':[t_stat],
    'P-value':[p_val]
}).round(3)

T-Statistic: -3.2870630526855114
P-value: 0.001450062179227406


Unnamed: 0,T-Statistic,P-value
0,-3.287,0.001


Setelah menghapus outlier dengan CI 95%, uji t dua sampel menunjukkan bahwa harga kos dengan carport dan tanpa carport memang berbeda secara signifikan. Dengan p-value 0.00145 < 0.05, hipotesis nol ditolak. Nilai t-statistik -3.28 menunjukkan arah perbedaan: kos dengan carport memiliki harga rata-rata lebih tinggi dibandingkan kos tanpa carport. Artinya, keberadaan carport terbukti memberi nilai tambah pada harga kos

4. Jika harus memilih, apakah Anda lebih baik membeli tanah yang luas ataukah membeli bangunan yang luas ?

In [21]:
corr_r_lt, pval_p_lt = stats.pearsonr(wajar['lt'], wajar['harga'])
corr_r_lb, pval_p_lb = stats.pearsonr(wajar['lb'], wajar['harga'])

print(f"r-correlation: {corr_r_lt:.3f}, p-value: {pval_p_lt:.3f}")
print(f"r-correlation: {corr_r_lb:.3f}, p-value: {pval_p_lb:.3f}")

pd.DataFrame({
    'Index':['r-correlation','p-value'],
    'Luas Bangunan':[corr_r_lb,corr_r_lt],
    'Luas Tanah':[pval_p_lb,pval_p_lt] 
})

r-correlation: -0.016, p-value: 0.880
r-correlation: 0.076, p-value: 0.477


Unnamed: 0,Index,Luas Bangunan,Luas Tanah
0,r-correlation,0.075529,0.47674
1,p-value,-0.016012,0.880258


Ketika saya menguji apakah ukuran tanah dan bangunan berpengaruh terhadap harga, hasilnya justru menunjukkan cerita yang berbeda dari dugaan awal. Nilai korelasi luas tanah terhadap harga hanya -0.02, dan luas bangunan terhadap harga 0.08. Keduanya sangat dekat dengan nol, menandakan hampir tidak ada hubungan linear. Ditambah lagi, p-value masing-masing 0.88 dan 0.47, jauh di atas 0.05.

Artinya, dalam dataset yang sudah dibersihkan dari outlier, ukuran tanah maupun bangunan tidak memiliki pengaruh signifikan terhadap harga rumah. Harga tampaknya ditentukan oleh faktor lain—bukan sekadar besar kecilnya tanah atau bangunan.

### Kesimpulan

Dari awal melihat dataset rumah Bekasi, satu hal yang langsung menonjol adalah adanya outlier ekstrem—rumah dengan harga hingga belasan miliar, luas tanah dan bangunan yang sangat besar, serta jumlah carport yang jauh di atas normal. Mayoritas rumah, bagaimanapun, berada pada kisaran menengah: harga sekitar Rp 980 juta, luas tanah dan bangunan sekitar 75–100 m², dengan 2–3 kamar tidur dan 1–2 kamar mandi.

Untuk mendapatkan gambaran harga rumah yang wajar, dilakukan confidence interval 95%. Hasilnya menunjukkan bahwa harga rumah yang realistis berada di antara Rp 888 juta hingga Rp 1,23 miliar. Dengan interval ini, kita bisa memfokuskan analisis pada rumah yang mewakili pasar, dan tidak terpengaruh oleh outlier ekstrem.

Selanjutnya, saya meneliti pengaruh fasilitas carport terhadap harga kos menggunakan uji t dua sampel. Hasilnya sangat jelas: p-value 0.00145 < 0.05, sehingga H0 ditolak, dan t-statistik -3.28 menunjukkan bahwa kos dengan carport memiliki harga rata-rata lebih tinggi dibanding kos tanpa carport. Ini menegaskan bahwa carport bukan sekadar fasilitas tambahan, tetapi memberi nilai ekonomi nyata pada properti.

Namun, ketika melihat ukuran tanah dan bangunan, hasil uji korelasi Pearson menunjukkan nilai yang sangat kecil: r = -0.02 untuk luas tanah dan r = 0.08 untuk luas bangunan, dengan p-value jauh di atas 0.05. Artinya, ukuran tanah maupun bangunan tidak memiliki hubungan linear yang signifikan dengan harga rumah di dataset ini. Faktor harga kemungkinan ditentukan oleh elemen lain, seperti lokasi, jumlah karport, jumlah kamar atau jumlah kamar mandi.

Secara keseluruhan, dari dataset rumah Bekasi bisa disimpulkan sebagai berikut:

- Mayoritas rumah berada di segmen menengah, namun terdapat outlier ekstrem yang perlu diwaspadai.

- Harga wajar berada di kisaran **Rp 888 juta – Rp 1,23 miliar** setelah menghilangkan outlier.

- Carport berpengaruh signifikan terhadap harga kos—memiliki carport berarti harga rata-rata lebih tinggi.

- Ukuran tanah dan bangunan tidak mempengaruhi harga secara linear dalam dataset ini.

Dengan gabungan temuan ini, kita memperoleh gambaran pasar rumah Bekasi yang realistis: mayoritas rumah tipikal keluarga, harga dipengaruhi fasilitas tertentu.