<center>

<img src="https://drive.google.com/uc?id=1f1gGVI-rxcHjA90WEGNvvtSXF1pAxQwg" alt="Fasilkom UI" width="300"/>

CSGE603130 • Kecerdasan Artifisial dan Sains Data Dasar

Semester Ganjil 2022/2023

Fakultas Ilmu Komputer, Universitas Indonesia

## *Proyek Akhir KASDD - Daegu Apartement*
</center>

## Informasi Pengerjaan
**Anggota Kelompok (Nama - NPM - Kelas)**
1. Charles Pramudana - 2006596491 - KASDD A
2. Cynthia Philander - 2006597292 - KASDD A
3. Jeremy Christianto - 2006462885 - KASDD A
4. Kelvin Erlangga - 2006596964 - KASDD A

---
<br/>

**Referensi**
1. https://towardsdatascience.com/clearly-explained-pearson-v-s-spearman-correlation-coefficient-ada2f473b8#:~:text=One%20more%20difference%20is%20that,apply%20Spearman%20and%20not%20Pearson.
2. https://machinelearningmastery.com/feature-selection-for-regression-data/

## Langkah Pengerjaan
1. Mengimport library yang dibutuhkan
2. Membaca dan Memahami Datasets
3. Data Preprocessing
    - Menangani missing value
    - Menangani duplikasi data
    - Menangani outlier
    - Encode fitur kategorikal
    - Normalisasi data
    
4. Exploratory Data Analysis
    - Fasilitas yang Paling Berpengaruh terhadap Harga Apartemen
    - Perbedaan Harga Apartemen yang Dibangun Setelah dan Sebelum Tahun 2000
    - Waktu Penjualan yang paling tinggi dibandingkan waktu lainnya
    - Tren perubahan harga penjualan apartemen tahunan
    - Korelasi Banyak Fasilitas dan Instansi Pendidikan Terdekat terhadap Apartemen Family Friendly
    - Distribusi Biaya Penjualan Apartemen per Sqft Untuk Tiap Tipe Hallway

5. Pembuatan Model
    - Model Klasifikasi
    - Model Regresi
    - Model Clustering

In [None]:
!pip uninstall sweetviz

In [None]:
# For data manipulation
import pandas as pd
import numpy as np

# For data visualization
import matplotlib.pyplot as plt
import matplotlib.font_manager
import seaborn as sns
import plotly.express as px

# For model selection
from sklearn.linear_model import LinearRegression, Lasso, Ridge
from sklearn.preprocessing import LabelEncoder
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import f_classif
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.neural_network import MLPClassifier
from collections import Counter
from matplotlib import pyplot
from numpy import where
from imblearn.over_sampling import SMOTE, BorderlineSMOTE, SVMSMOTE, ADASYN
from imblearn.under_sampling import RandomUnderSampler, NearMiss
import scipy.cluster.hierarchy as shc
from sklearn.cluster import AgglomerativeClustering

# For data processing
from sklearn.model_selection import train_test_split, StratifiedKFold, RepeatedKFold, GridSearchCV, cross_val_score
from sklearn.feature_selection import SelectKBest, mutual_info_regression, f_regression
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import MinMaxScaler


# For model evaluation
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
from sklearn.model_selection import KFold

## Membaca dan Memahami Datasets

### Membaca Datasets

In [None]:
daegu_df = pd.read_csv("06_DaeguApartments.csv")
daegu_df

### Memahami Datasets

In [None]:
daegu_df.info()

In [None]:
daegu_df.describe()

## Data Preprocessing

### Handling Missing Values

In [None]:
# Missing values

# Jumlah missing values
def cek_null(df):
    col_na = df.isnull().sum().sort_values(ascending=True)
    percent = col_na / len(df)
    
    missing_data = pd.concat([col_na, percent], axis=1, keys=['Total', 'Percent'])
    
    if (missing_data[missing_data['Total'] > 0].shape[0] == 0):
        print("Tidak ditemukan missing value pada dataset")
        
    else:
        print(missing_data[missing_data['Total'] > 0])
print("Missing values sebelum ditangani: ")
cek_null(daegu_df)
print()

# Menangani missing values
# Untuk atribute "FamilyFriendly", null value akan dihilangkan karena hanya 2% data dan karena Family Friendly adalah target variabel sehingga akan mempengaruhi hasil prediksi jika dilakukan imputasi
daegu_df.dropna(inplace=True)
print("Missing values sesudah ditangani: ", end="")
cek_null(daegu_df)

### Handling Duplicate Values

In [None]:
# Duplikasi data

# Jumlah duplikasi data
print("Jumlah duplikasi data sebelum ditangani: " + str(daegu_df.duplicated().sum()))
print()

# Menangani duplikasi data
daegu_df = daegu_df.drop_duplicates(inplace = False)
print("Jumlah duplikasi data sesudah ditangani: " + str(daegu_df.duplicated().sum()))

### Handling Outliers

In [None]:
cat_cols = ["HallwayType", "HeatingType", "AptManageType", "TimeToBusStop", "TimeToSubway", "SubwayStation", "FamilyFriendly"]
num_cols = [i for i in daegu_df.columns if i not in cat_cols]

In [None]:
# Outlier

# Melihat jumlah outliers pada data menggunakan IQR
# Menghitung quartil 1 dan 3.
Q1 = daegu_df[num_cols].quantile(0.25)
Q3 = daegu_df[num_cols].quantile(0.75)

# Menghitung RUB dan RLB.
IQR = Q3 - Q1
lower_limit = Q1 - 1.5*IQR
upper_limit = Q3 + 1.5*IQR

# Menampilkan banyaknya outlier pada atribut.
outliers = (daegu_df[num_cols] < lower_limit) | (daegu_df[num_cols] > upper_limit)
print ("Outlier pada tiap atribut sebelum ditangani:")
print(outliers.sum())

In [None]:
# # Menangani outlier dengan mengganti outlier dengan median
# print("Outlier pada tiap atribut sesudah ditangani:")
# for col in daegu_df.select_dtypes(np.number).drop("FamilyFriendly", axis = 1).columns:
#     q3 = daegu_df[col].quantile(0.75)
#     q1 = daegu_df[col].quantile(0.25)
#     iqr = q3 - q1
#     lower_bound = q1 - (1.5 * iqr) 
#     upper_bound = q3 + (1.5 * iqr)
    
#     median = daegu_df.loc[(daegu_df[col] >= lower_bound)&(daegu_df[col] <= upper_bound), col].median()
#     daegu_df[col] = np.where((daegu_df[col] < lower_bound)|(daegu_df[col] > upper_bound), median, daegu_df[col])

#     # Menghitung jumlah outlier setelah ditangani
#     outlier_atas = daegu_df.loc[daegu_df[col] > upper_bound, col].count()
#     outlier_bawah = daegu_df.loc[daegu_df[col] < lower_bound, col].count()
#     print(f"{col}:  " + str(outlier_atas+outlier_bawah))

In [None]:
# Copy df sebelum encoding untuk EDA
temp_clean = daegu_df.copy()

### Encoding Categorical Variables

In [None]:
# Melakukan one-hot encoding data kategorikal

daegu_df = pd.get_dummies(daegu_df, drop_first=True)
daegu_df.head()

In [None]:
daegu_df.info()

## Exploratory Data Analysis

### Fasilitas yang Paling Berpengaruh terhadap Harga Apartemen

> Fasilitas yang terdapat pada dataset mencakup fasilitas yang berada di dalam kompleks apartemen, yaitu fasilitas parkir dan elevator, serta fasilitas yang berada di dekat apartemen, seperti kantor publik, rumah sakit, pusat perbelanjaan, mal, dan fasilitas lainnya. Untuk mencari fasilitas yang paling berpengaruh terhadap harga apartemen, akan digunakan nilai korelasi sebagai acuan tingkat pengaruh suatu variabel terhadap harga apartemen. 

In [None]:
# Slicing dataframe untuk atribut fasilitas
df_facilities = daegu_df.iloc[:, 6:8].join(daegu_df.iloc[:, 10:21].join(daegu_df["SalePrice"]))
df_facilities

In [None]:
plt.subplots(figsize=(10,10))
corr = df_facilities.corr()
sns.heatmap(corr, cmap="YlGnBu", annot=True)
plt.title(
    "Korelasi Antar Fasilitas dan Nilai Jual", 
    fontsize = 16,
)

In [None]:
# correlation between Price
print("Nilai korelasi pearson antara variabel fasilitas dengan harga jual:")
df_facilities.corr()['SalePrice']

**Insights** <br/>
> Berdasarkan correlation map antar variabel dan daftar nilai korelasi pearson variabel-variabel fasilitas dengan harga jual, variabel yang memiliki nilai korelasi tertinggi terhadap SalePrice adalah fasilitas parkir bertipe basement dengan nilai korelasi sebesar 0.51. Selain itu, fasilitas yang berada dekat dengan apartemen yang memiliki korelasi tertinggi adalah fasilitas kantor publik dan fasilitas lainnya dengan nilai korelasi sebesar -0.46 dan -0.44. <br>
> Fasilitas sekolah tidak terlalu berpengaruh terhadap nilai jual dari suatu apartemen.<br>
> Kesimpulan yang bisa didapatkan adalah bahwa jumlah fasilitas parkir bertipe basement berpengaruh secara positif atau berbanding lurus dengan harga jual apartemen, sedangkan jumlah fasilitas kantor publik dan fasilitas lainnya justru berbanding terbalik dengan harga jual apartemen.

### Perbedaan Harga Apartemen yang Dibangun Setelah dan Sebelum Tahun 2000

> Bar Chart dipilih karena memiliki fungsionalitas yang lebih baik dalam melakukan visualisasi data yang berbasis perbandingan antara dua variabel. Pada konteks EDA kali ini, variabel yang dimaksud adalah harga setelah tahun 2000 dan sebelum tahun 2000.

In [None]:
# Copy SalePrice and YearBuilt columns from daegu df for EDA
pr_yr_df = daegu_df[['SalePrice', 'YearBuilt']].copy()

# Group Data By YearBuilt
by_year_pr = pr_yr_df.groupby(pr_yr_df['YearBuilt'], as_index=False).mean()

# Create YearCategory column to indicate whether the apartment was built before or after 2000
by_year_pr['YearCategory'] = by_year_pr.apply(
                                lambda x: ">= 2000" if x['YearBuilt'] >= 2000 else "< 2000", 
                                axis=1
                            )
by_year_pr.head()

In [None]:
# Plot bar chart for YearCategory Visualization
fig = px.bar(
    by_year_pr, 
    x="YearBuilt", 
    y="SalePrice", 
    color="YearCategory",
    title="Perbandingan Harga Apartemen Sebelum dan Sesudah Tahun 2000")

fig.update_layout({
    "paper_bgcolor":'rgba(255,255,255,1)',
    "plot_bgcolor":'rgba(255,255,255,1)'
})

fig.update_xaxes(showline=True, linewidth=1.5, linecolor='grey')
fig.update_yaxes(showgrid=True, gridwidth=1, gridcolor='lightgrey')
fig.update_yaxes(showline=True, linewidth=1.5, linecolor='grey')

fig.show()

In [None]:
# Group Data by YearCategory
temp_df = by_year_pr.drop("YearBuilt", axis = 1)
by_year_cat_pr = temp_df.groupby(temp_df['YearCategory'], as_index=False).mean()

# Plot Bar chart for YearCategory Visualization based by YearCategory
fig = px.bar(
    by_year_cat_pr, 
    x="YearCategory", 
    y="SalePrice", 
    color="YearCategory",
    text_auto='s',
    title="Perbandingan Harga Apartemen Sebelum dan Sesudah Tahun 2000")
    
fig.update_layout({
    "paper_bgcolor":'rgba(255,255,255,1)',
    "plot_bgcolor":'rgba(255,255,255,1)'
})

fig.update_xaxes(showline=True, linewidth=1.5, linecolor='grey')
fig.update_yaxes(showgrid=True, gridwidth=1, gridcolor='lightgrey')
fig.update_yaxes(showline=True, linewidth=1.5, linecolor='grey')

fig.show()

**Insights** <br/>
> Berdasarkan grafik pertama, kita dapat melihat bahwa rata-rata harga apartemen yang dibangun sebelum tahun 2000 berada di kisaran paling rendah 71 ribu pada tahun 1980 hingga paling tinggi 181 ribu pada tahun 1986. Rentang rata-rata harga tersebut cenderung `lebih rendah` jika dibandingkan rentang rata-rata harga apartemen yang dibangun setelah tahun 2000 yang berada di kisaran paling rendah 134 ribu pada tahun 2003 hingga paling tinggi 348 ribu pada tahun 2015. Dari grafik pertama, kita juga dapat melihat bahwa semakin baru tahun pembuatan apartemen, harga penjualan juga cenderung meningkat. Untuk grafik kedua, kita dapat mengetahui generalisasi dari grafik pertama. Dapat dilihat bahwa rata-rata harga apartemen yang dibangun sebelum tahun 2000, yaitu sebesar 121 ribu, lebih rendah dibanding rata-rata harga apartemen yang dibangun setelah atau pada tahun 2000, yaitu sebesar 243 ribu. Namun, generalisasi ini belum tentu akurat karena data harga apartemen per tahun bangun yang dibangun setelah atau pada tahun 2000 lebih banyak, yakni ada 9 data, jika dibandingkan dengan data harga apartemen per tahun bangun yang dibangun sebelum tahun 2000, yakni hanya ada 7 data.

### Waktu Tertentu Ketika Penjualan Apartemen Lebih Tinggi Dari Biasanya

In [None]:
penjualan_tahun = daegu_df.groupby(['YrSold']).size().rename('penjualan').reset_index()
data_penjualan_tahun = pd.DataFrame(penjualan_tahun)
data_penjualan_tahun

In [None]:
fig = px.line(
    penjualan_tahun, 
    x="YrSold", 
    y="penjualan", 
    title="Grafik penjualan apartemen per tahun")
fig.show()

Pertama, ketika kita lihat perbandingan jumlah penjualan pertahun, maka dapat dilihat bahwa pada tahun 2014 penjualan yang terjadi terlihat paling tinggi di banding tahun-tahun lainnya.

In [None]:
penjualan_bulan = daegu_df.groupby(['MonthSold']).size().rename('penjualan').reset_index()
data_penjualan_bulan = pd.DataFrame(penjualan_bulan)
data_penjualan_bulan

### 

In [None]:
fig = px.line(
    penjualan_bulan, 
    x="MonthSold", 
    y="penjualan", 
    title="Grafik penjualan apartemen per bulan")
fig.show()

Selanjutnya, apabila dilihat dari data penjualan yang terjadi pada setiap bulan, penjualan pada bulan Maret menyentuh data penjualan yang tertinggi dibandingkan bulan-bulan lainnya. 

In [None]:
penjualan_tahun_bulan = daegu_df.groupby(['YrSold', 'MonthSold']).size().rename('penjualan').reset_index()
data_penjualan_tahun_bulan = pd.DataFrame(penjualan_tahun_bulan)
data_penjualan_tahun_bulan

In [None]:
col = "penjualan"
max_penjualan = penjualan_tahun_bulan.loc[penjualan_tahun_bulan[col].idxmax()]
print("Nilai tertinggi penjualan tertinggi adalah", max_penjualan['penjualan'], "pada tahun", max_penjualan['YrSold'], "dan bulan", max_penjualan['MonthSold'])

print('Detail 5 penjualan tertinggi')
top_penjualan = penjualan_tahun_bulan.nlargest(n=5, columns=['penjualan'])
top_penjualan

In [None]:
mean_penjualan = penjualan_tahun_bulan['penjualan'].mean()
median_penjualan = penjualan_tahun_bulan['penjualan'].median()
print("rata_rata penjualan per periode bulan dan tahun", mean_penjualan)
print("median penjualan per periode bulan dan tahun", median_penjualan)

Berdasarkan tabel di atas, dapat dilihat bahwa lima penjualan tertinggi ada pada Juli 2017 dengan 147 penjualan, Januari 2016 dengan 106 penjualan, Juni 2017 dengan 101 penjualan, April 2013 dengan 82 penjualan, dan Mei 2013 dengan 80 penjualan. Apabila dibandingkan dengan rata-rata dan median penjualan per periode bulan dan tahun, maka dapat dilihat bahwa terdapat waktu dimana penjualan apartemen lebih tinggi dari biasanya, dengan penjualan tertinggi ada pada Juli 2017.

In [None]:
penjualan_tahun_bulan.boxplot(column =['penjualan'], grid = False)

Dari boxplot di atas, dapat dilihat outliers penjualan yang lebih tinggi dari biasanya, yaitu penjualan pada Juli 2017 dengan 147 penjualan, Januari 2016 dengan 106 penjualan, Juni 2017 dengan 101 penjualan. 

### Tren Perubahan Harga Penjualan Apartemen dari Tahun ke Tahun!

Untuk melihat tren perubahan harga penjualan apartemen dari tahun ke tahun, kita akan menggunakan data harga jual rata-rata apartemen per tahunnya, lalu akan divisualisasikan dengan barplot sehingga lebih mudah bagi kita untuk menganalisis trennya.

In [None]:
harga_tahunan = daegu_df.groupby('YearBuilt')['SalePrice'].mean().rename('Harga rata-rata').reset_index()
display(harga_tahunan)
harga_tahunan.set_index('YearBuilt', inplace=True)

In [None]:
plt.figure(figsize=(15, 8))
sns.barplot(
    x= harga_tahunan.index,
    y='Harga rata-rata',  
    data=harga_tahunan,
    color='orange'
)
plt.show()

Berdasarkan barplot di atas, kita langsung dapat menyimpulkan tren perubahan harga penjualan apartemen dari tahun ke tahun, yaitu tren bergerak turun pada periode 1978-1980, lalu bergerak naik pada periode 1980-1986, kemudian bergerak turun pada periode 1986-1992, lalu bergerak naik pada periode 1992-1993, kemudian bergerak turun pada periode 1993-1997, lalu bergerak naik pada periode 1997-2007, kemudian bergerak turun pada periode 2007-2009, dan bergerak naik pada periode 2009-2015.

Jika kita melihat barplot di atas dengan timeframe yang panjang, dapat disimpulkan bahwa tren perubahan harga penjualan apartemen dari tahun 1978-2015 terus bergerak naik. Hal ini tentunya sesuai dengan realita di kehidupan bahwa harga tanah/bangunan (properti) akan terus naik karena jumlah tanah tidak bisa bertambah, sedangkan jumlah manusia terus bertambah. Ini artinya permintaan/kebutuhan akan properti akan semakin banyak, sedangkan persediaan tanah akan semakin sedikit, sehingga menyebabkan harga akan terus naik, namun harga tetap bisa turun dalam timeframe yang kecil, misalnya 1-2 tahun.

### Korelasi Banyak Fasilitas dan Instansi Pendidikan Terdekat terhadap Apartemen Family Friendly

> Heatmap dipilih karena memiliki fungsionalitas yang lebih baik dalam melakukan visualisasi data yang berbasis korelasi. Pada konteks kali ini, kami menggunakan metode korelasi Point Biserial karena dapat membandingkan data numerik (banyak fasilitas dan instansi pendidikan) dengan data dikotomi (Family Friendly dan Non Family Friendly).

In [None]:
# Select facility and school columns
facilities_col = [i for i in temp_clean.columns.tolist() if 'N_FacilitiesNearBy' in i]
facilities_col.remove('N_FacilitiesNearBy(Total)')

school_col = [i for i in temp_clean.columns.tolist() if 'N_SchoolNearBy' in i]
school_col.remove('N_SchoolNearBy(Total)')

data_corr = temp_clean[facilities_col + school_col]
data_corr

In [None]:
# Calculate Point Biserial Correlation for and school columns
from scipy.stats import pointbiserialr

_corr = list()
for col in data_corr.columns:
    biserial_corr = pointbiserialr(data_corr[col], temp_clean["FamilyFriendly"])
    print(f"Hasil Pvalues {col}:", "Signifikan" if biserial_corr[0] < 0.05 else "Tidak Signifikan")
    _corr.append(biserial_corr[0])

corr_df = pd.DataFrame(_corr, index=data_corr.columns)
corr_df.columns = ["FamilyFriendly"]

corr_df

In [None]:
# Sort Point Biserial Correlation for facility and school columns
heatmap_data = corr_df\
                .sort_values(by='FamilyFriendly', key=abs, ascending=False)

# Visualize the Heatmap
sns.heatmap(heatmap_data, annot=True, linewidths=.5, fmt= '.2f')
plt.title(
    "Korelasi Linear Banyak Fasilitas dan Instansi Pendidikan Terdekat Terhadap Family Friendly", 
    fontsize = 10,
    y=1.06
)

**Insights** <br/>
- Fasilitas yang paling berkorelasi secara linear adalah taman dengan korelasi positif. Dengan kata lain, semakin banyak taman terdekat, semakin besar kemungkinan apartemen tergolong family friendly dan apartemen yang tergolong family friendly cenderung memiliki banyak taman.
- Instansi pendidikan yang paling berkorelasi secara linear adalah universitas dengan korelasi negatif. Dengan kata lain, semakin banyak universitas, semakin kecil kemungkinan apartemen tergolong family friendly dan apartemen yang tergolong family friendly cenderung memiliki sedikit universitas.
- Terlihat dari p values yang dihasilkan oleh point biserial,semua korelasi sekolah terdekat dengan family friendly tergolong signifikan. Dengan kata lain, terdapat perbedaan rata-rata banyak sekolah terdekat yang signifikan antara apartemen yang family friendly dan non family friendly. Untuk fasilitas terdekat, banyak kantor publik, mall, rumah sakit, dan fasilitas lainnya cenderung lebih signifikan jika dibandingkan antara apartemen yang family friendly dan non family friendly.

### Distribusi Biaya Penjualan Apartemen per Sqft Untuk Tiap Tipe Hallway

> Violin plot dipilih karena memiliki fungsionalitas yang baik dalam melakukan visualisasi data yang berbasis distribusi antara dua variabel secara menyeluruh. Pada konteks EDA kali ini, variabel yang dimaksud adalah tipe Hallway dan Biaya Penjualan Apartemen per Sqft.

In [None]:
# Copy columns needed for the problem
pr_mgmt_apt_df = temp_clean[['SalePrice', 'HallwayType', 'Size(sqf)']].copy()

pr_mgmt_apt_df['PricePerSqft'] = pr_mgmt_apt_df['SalePrice'] / pr_mgmt_apt_df['Size(sqf)']
pr_mgmt_apt_df = pr_mgmt_apt_df.drop(['SalePrice', 'Size(sqf)'], axis = 1)\

pr_mgmt_apt_df

In [None]:
# Visualize violin plot
fig = px.violin(
    pr_mgmt_apt_df, 
    x="HallwayType", 
    y="PricePerSqft",
    box=True,
    title="Distribusi Biaya Penjualan Apartemen per Sqft Untuk Tiap Tipe Hallway"
)

fig.update_layout({
    "paper_bgcolor":'rgba(255,255,255,1)',
    "plot_bgcolor":'rgba(255,255,255,1)'
})

fig.update_xaxes(showline=True, linewidth=1.5, linecolor='grey')
fig.update_yaxes(showgrid=True, gridwidth=1, gridcolor='lightgrey')
fig.update_yaxes(showline=True, linewidth=1.5, linecolor='grey')

fig.show()

**Insights** <br/>
- Harga penjualan apartemen per square feet bervariasi pada masing-masing tipe lorong, misal tipe teras yang cenderung terdistribusi pada 200-300, tipe koridor yang cenderung terdistribusi pada 100-200, dan tipe campuran teras dan koridor cenderung terdistribusi pada 100-200.
- Tipe lorong teras cenderung memiliki harga jual yang lebih mahal dibandingkan tipe lorong lainnya.
- Tipe campuran teras dan koridor lebih terdistribusi secara merata dibandingkan tipe lainnya yang masih memiliki outlier normal.

## Modelling

### Regression

Menentukan data yang akan digunakan dan proses pembuatan fitur target, yaitu price per square feet.

In [None]:
X = daegu_df.iloc[:, 1:42]

# Create new variable: Price per size (square feet)
size_unit = daegu_df.iloc[:, 0]
daegu_df["price_per_sqf"] = daegu_df['SalePrice']/daegu_df['Size(sqf)']
y = daegu_df["price_per_sqf"]

df_reg = X.join(y)

#### Feature Selection

Menggunakan metode korelasi, yaitu menggunakan variabel yang memiliki korelasi tinggi dengan variabel target dan menghapus variabel yang memiliki korelasi tinggi dengan variabel lainnya.

In [None]:
# Correlation with the output variable
corr = df_reg.corr()
cor_target = abs(corr["price_per_sqf"])

# Selecting highly correlated features
relevant_features = cor_target[cor_target > 0.5]
print("Variabel-variabel yang memiliki korelasi tinggi dengan variabel target:")
relevant_features

In [None]:
# Identification of correlation among variable selected above
# The identification is done by manually observing the correlation values among variable pairs
print(df_reg[["YearBuilt","YrSold"]].corr())
print(df_reg[["N_FacilitiesInApt","YearBuilt"]].corr())
print(df_reg[["N_FacilitiesInApt","YrSold"]].corr())

> Berdasarkan hasil analisis nilai korelasi variabel dengan variabel target, didapatkan bahwa terdapat tiga buah variabel yang memiliki korelasi tinggi dengan nilai jual, yaitu tahun bangun, tahun terjual dan jumlah fasilitas yang berada dalam apartemen. Selanjutnya, berdasarkan hasil analisis antara variabel tersebut, ditemukan bahwa variabel N_FacilitiesInApt dan YrSold memiliki korelasi yang tergolong tinggi sehingga variabel N_FacilitiesInApt akan di drop karena memiliki korelasi yang lebih rendah dengan variabel target.

In [None]:
X = X.drop(columns=['N_FacilitiesInApt'])

Menggunakan metode Lasso (least absolute shrinkage and selection operator) untuk meningkatkan performa dari model.

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state=42)

In [None]:
scaler = MinMaxScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

In [None]:
lasso_feat = Lasso(alpha=1)
lasso_feat.fit(X_train, y_train)

In [None]:
# Show each feature importance value and save the important value
importance = lasso_feat.coef_
listFitur = []
for i,v in enumerate(importance):
    if (abs(v)> 0.2):
        listFitur += [i]
    print('Feature: %0d, Score: %.5f' % (i,v))

# plot feature importance
plt.bar([x for x in range(len(importance))], importance)
plt.show()

In [None]:
# Create new predictor variable dataframe from the selected features
X = X.iloc[:, listFitur]

Berikut ini adalah daftar fitur yang terpilih berdasarkan metode korelasi dan metode lasso.

In [None]:
X.info()

#### Model Training and Testing

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state=42)
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

1. Linear Regression Model

In [None]:
linear = LinearRegression()

# create a KFold object with 5 folds
kfold = KFold(n_splits=10)

# use the KFold object to split the training data into training and validation sets
for train_index, val_index in kfold.split(X_train):
    # get the training and validation data
    X_train_fold, X_val_fold = X_train[train_index], X_train[val_index]
    y_train_fold, y_val_fold = y_train.iloc[train_index], y_train.iloc[val_index]

    # fit the model on the training data
    linear.fit(X_train_fold, y_train_fold)

    # evaluate the model on the validation data
    score = linear.score(X_val_fold, y_val_fold)
    print(f"Validation score: {score:.3f}")

In [None]:
# predict test data
y_linear_predict = linear.predict(X_test)
y_linear_predict

Berikut ini adalah perbandingan hasil prediksi dengan nilai aktual

In [None]:
plt.figure(figsize=(10,10))
plt.scatter(y_test, y_linear_predict, c='crimson')

p1 = max(max(y_linear_predict), max(y_test))
p2 = min(min(y_linear_predict), min(y_test))
plt.plot([p1, p2], [p1, p2], 'b-')
plt.xlabel('Actual Sale Price Value', fontsize=15)
plt.ylabel('Predicted Sale Price Value', fontsize=15)
plt.axis('equal')
plt.show()

In [None]:
print("Evaluation Metrics For Linear Regression Model:")
print('MAE: %.3f' % mean_absolute_error(y_test, y_linear_predict))
print('MSE: %.3f' % mean_squared_error(y_test, y_linear_predict))
print('RMSE: %.3f' % np.sqrt(mean_squared_error(y_test, y_linear_predict)))
print('R-Squared: %.7f' % r2_score(y_test, y_linear_predict))

> Hasil evaluasi menunjukkan bahwa model mampu menjelaskan sekitar 82.85% variability dari target variable. Nilai ini sudah tergolong baik untuk model linear regression. Selain itu, didapatkan nilai mean absolute error sebesar 26.164, mean squared error sebesar 1261.01, dan root mean squared error sebesar 35.51.

In [None]:
print("Koefisien persamaan linear: \n", linear.coef_)
print("Intersep persamaan linear: \n", linear.intercept_)

> Persamaan linear yang didapatkan adalah price_per_sqf = 121.14 + 72.18 * YearBuilt + 156.78 * YrSold + 26.70 * Size(sqf) -119.22 * N_parkingLot(basement) + 78.1 * N_FacilitiesNearby(Mall) + ...

2. Ridge Regression model

In [None]:
ridge = Ridge(alpha=1)
# use the KFold object to split the training data into training and validation sets
for train_index, val_index in kfold.split(X_train):
    # get the training and validation data
    X_train_fold, X_val_fold = X_train[train_index], X_train[val_index]
    y_train_fold, y_val_fold = y_train.iloc[train_index], y_train.iloc[val_index]

    # fit the model on the training data
    ridge.fit(X_train_fold, y_train_fold)

    # evaluate the model on the validation data
    score = ridge.score(X_val_fold, y_val_fold)
    print(f"Validation score: {score:.3f}")

In [None]:
y_ridge_predict = ridge.predict(X_test)
y_ridge_predict

Berikut ini adalah perbandingan hasil prediksi dengan nilai aktual

In [None]:
plt.figure(figsize=(10,10))
plt.scatter(y_test, y_ridge_predict, c='crimson')

p1 = max(max(y_ridge_predict), max(y_test))
p2 = min(min(y_ridge_predict), min(y_test))
plt.plot([p1, p2], [p1, p2], 'b-')
plt.xlabel('Actual Sale Price Value', fontsize=15)
plt.ylabel('Predicted Sale Price Value', fontsize=15)
plt.axis('equal')
plt.show()

In [None]:
print("Evaluation Metrics For Ridge Regression Model:")
print('MAE: %.3f' % mean_absolute_error(y_test, y_ridge_predict))
print('MSE: %.3f' % mean_squared_error(y_test, y_ridge_predict))
print('RMSE: %.3f' % np.sqrt(mean_squared_error(y_test, y_ridge_predict)))
print('R-Squared: %.7f' % r2_score(y_test, y_ridge_predict))

> Hasil evaluasi menunjukkan bahwa model mampu menjelaskan sekitar 82.86% variability dari target variable. Nilai ini sudah tergolong baik untuk model ridge regression. Selain itu, didapatkan nilai mean absolute error sebesar 26.187, mean squared error sebesar 1260.61, dan root mean squared error sebesar 35.51.

In [None]:
print("Koefisien persamaan linear: \n", ridge.coef_)
print("Intersep persamaan linear: \n", ridge.intercept_)

> Persamaan linear yang didapatkan adalah price_per_sqf = 121.21 + 72.48 * YearBuilt + 156.38 * YrSold + 26.51 * Size(sqf) -117.36 * N_parkingLot(basement) + 77.41 * N_FacilitiesNearby(Mall) + ...

3. Lasso Regression Model

In [None]:
lasso = Lasso(alpha=0.5)
# use the KFold object to split the training data into training and validation sets
for train_index, val_index in kfold.split(X_train):
    # get the training and validation data
    X_train_fold, X_val_fold = X_train[train_index], X_train[val_index]
    y_train_fold, y_val_fold = y_train.iloc[train_index], y_train.iloc[val_index]

    # fit the model on the training data
    lasso.fit(X_train_fold, y_train_fold)

    # evaluate the model on the validation data
    score = lasso.score(X_val_fold, y_val_fold)
    print(f"Validation score: {score:.3f}")

In [None]:
y_lasso_predict = lasso.predict(X_test)
y_lasso_predict

Berikut ini adalah perbandingan hasil prediksi dengan nilai aktual

In [None]:
plt.figure(figsize=(10,10))
plt.scatter(y_test, y_lasso_predict, c='crimson')

p1 = max(max(y_lasso_predict), max(y_test))
p2 = min(min(y_lasso_predict), min(y_test))
plt.plot([p1, p2], [p1, p2], 'b-')
plt.xlabel('Actual Sale Price Value', fontsize=15)
plt.ylabel('Predicted Sale Price Value', fontsize=15)
plt.axis('equal')
plt.show()

In [None]:
print("Evaluation Metrics For Lasso Regression Model:")
print('MAE: %.3f' % mean_absolute_error(y_test, y_lasso_predict))
print('MSE: %.3f' % mean_squared_error(y_test, y_lasso_predict))
print('RMSE: %.3f' % np.sqrt(mean_squared_error(y_test, y_lasso_predict)))
print('R-Squared: %.7f' % r2_score(y_test, y_lasso_predict))

> Hasil evaluasi menunjukkan bahwa model mampu menjelaskan sekitar 82.04% variability dari target variable. Nilai ini sudah tergolong baik untuk model lasso regression. Selain itu, didapatkan nilai mean absolute error sebesar 27.39, mean squared error sebesar 1320.99, dan root mean squared error sebesar 36.34.

In [None]:
print("Koefisien persamaan linear: \n", lasso.coef_)
print("Intersep persamaan linear: \n", lasso.intercept_)

> Persamaan linear yang didapatkan adalah price_per_sqf = 92.84 + 88.1 * YearBuilt + 153.30 * YrSold + 19.80 * Size(sqf) -82.95 * N_parkingLot(basement) + 58.63 * N_FacilitiesNearby(Mall) + ...

4. Random Forest Regression

In [None]:
from sklearn.ensemble import RandomForestRegressor
random_forest = RandomForestRegressor()

# Define the hyperparameter values to test
param_grid = {
    'n_estimators': [10, 30, 50],
    'max_depth': [5, 10],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [5, 10, 15]
}

# Create the grid search object
grid_search_rf = GridSearchCV(estimator=random_forest, param_grid=param_grid, cv=5)

# Fit the grid search object to the data
grid_search_rf.fit(X_train, y_train)

# Print the best parameters and score
print(grid_search_rf.best_params_)
print(grid_search_rf.best_score_)

In [None]:
rf_cv = RandomForestRegressor(**grid_search_rf.best_params_)
rf_cv.fit(X_train, y_train)
y_rf_predict = rf_cv.predict(X_test)

Berikut ini adalah perbandingan hasil prediksi dengan nilai aktual

In [None]:
plt.figure(figsize=(10,10))
plt.scatter(y_test, y_rf_predict, c='crimson')

p1 = max(max(y_rf_predict), max(y_test))
p2 = min(min(y_rf_predict), min(y_test))
plt.plot([p1, p2], [p1, p2], 'b-')
plt.xlabel('Actual Sale Price Value', fontsize=15)
plt.ylabel('Predicted Sale Price Value', fontsize=15)
plt.axis('equal')
plt.show()

In [None]:
print("Evaluation Metrics For Random Forest Regression Model:")
print('MAE: %.3f' % mean_absolute_error(y_test, y_rf_predict))
print('MSE: %.3f' % mean_squared_error(y_test, y_rf_predict))
print('RMSE: %.3f' % np.sqrt(mean_squared_error(y_test, y_rf_predict)))
print('R-Squared: %.7f' % r2_score(y_test, y_rf_predict))

> Hasil evaluasi menunjukkan bahwa model mampu menjelaskan sekitar 94.87% variability dari target variable. Nilai ini sudah tergolong sangat baik dan reliable. Selain itu, didapatkan nilai mean absolute error sebesar 12.71, mean squared error sebesar 376.99, dan root mean squared error sebesar 19.42.

5. MLP Regression

In [None]:
from sklearn.neural_network import MLPRegressor
mlp_reg = MLPRegressor()

# Define the hyperparameter values to test
param_grid = {
    'hidden_layer_sizes': [3,5,10, 20],
    'alpha': [0.1, 0.3, 0.5],
    'learning_rate_init': [0.01, 0.1, 0.2],
    'activation': ['relu', 'identity']
}
# Create the grid search object
grid_search_nn = GridSearchCV(estimator=mlp_reg, param_grid=param_grid, cv=5, n_jobs=-1)

# Fit the grid search object to the data
grid_search_nn.fit(X_train, y_train)

# Print the best parameters and score
print(grid_search_nn.best_params_)
print(grid_search_nn.best_score_)

In [None]:
mlp_cv = MLPRegressor(**grid_search_nn.best_params_)
mlp_cv.fit(X_train, y_train)
y_mlp_predict = mlp_cv.predict(X_test)

Berikut ini adalah perbandingan hasil prediksi dengan nilai aktual

In [None]:
plt.figure(figsize=(10,10))
plt.scatter(y_test, y_mlp_predict, c='crimson')

p1 = max(max(y_rf_predict), max(y_test))
p2 = min(min(y_rf_predict), min(y_test))
plt.plot([p1, p2], [p1, p2], 'b-')
plt.xlabel('Actual Sale Price Value', fontsize=15)
plt.ylabel('Predicted Sale Price Value', fontsize=15)
plt.axis('equal')
plt.show()

In [None]:
print("Evaluation Metrics For MLP Regression Model:")
print('MAE: %.3f' % mean_absolute_error(y_test, y_mlp_predict))
print('MSE: %.3f' % mean_squared_error(y_test, y_mlp_predict))
print('RMSE: %.3f' % np.sqrt(mean_squared_error(y_test, y_mlp_predict)))
print('R-Squared: %.7f' % r2_score(y_test, y_mlp_predict))

> Hasil evaluasi menunjukkan bahwa model mampu menjelaskan sekitar 82.79% variability dari target variable. Nilai ini sudah tergolong baik untuk model MLP regression. Selain itu, didapatkan nilai mean absolute error sebesar 26.13, mean squared error sebesar 1265.31, dan root mean squared error sebesar 35.57

### Classification


#### Persiapan


In [None]:
# Encode target terlebih dahulu menjadi numerik dengan natural progression (label encoder)
le = LabelEncoder()
daegu_df["FamilyFriendly"] = le.fit_transform(daegu_df["FamilyFriendly"])

X_raw = daegu_df.drop(["FamilyFriendly"],axis=1)
y = daegu_df["FamilyFriendly"]

In [None]:
# Menghitung Komposisi Data
Counter(y)

> Dapat kita lihat dari counter di atas, dataset cenderung memiliki komposisi label 4:1 (label 0 : label 1). Komposisi tersebut tergolong imbalanced karena perbedaan antarkelas cenderung signifikan, yakni hingga 2976. Untuk itu, kita dapat membuat Stratified Sampling dengan StratifiedKFold.

In [None]:
# Mendefinisikan StratifiedKFold
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=123)

In [None]:
# Mendefinisikan scaler yang digunakan
scaler = MinMaxScaler()

In [None]:
# Menentukan nilai k terbaik dengan GridSearchCV

# import Grid Search CV
from sklearn.model_selection import GridSearchCV

estimator_knn = Pipeline([
    ('prep',scaler),
    ('clf', KNeighborsClassifier())])

# parameter yang akan di tunning
tunned_params = [
  { 
    'clf__n_neighbors': list(range(1, len(X_raw.columns)+1))
  } 
]

print("##### Tuning hyper-parameters model KNN #####")
print()

clfKNN = GridSearchCV(estimator_knn, 
                        tunned_params,
                        scoring="roc_auc",
                        cv=kf,
                        verbose = 2
                    )

clfKNN.fit(X_raw, y)

print("Best parameters set found on development set:")
print()
print(clfKNN.best_params_)

In [None]:
# Memilih 7 variable terbaik dari independent variable kita untuk dilatih pada model
selector = SelectKBest(f_classif, k=7) # memilih 7 variable terbaik dari features kita
X = selector.fit_transform(X_raw, y)

In [None]:
# Detail feature apa saja yang kita ambil
input_features = selector.feature_names_in_
selector.get_feature_names_out(input_features=input_features)

In [None]:
# Mendefinisikan metriks ukur untuk StratifiedKFold
def evaluate_classifier_performance(str_model, model):
    print(f"Hasil Evaluasi Model {str_model} Untuk Semua Fold")
    print()

    accuracy_score = cross_val_score(model, X, y, cv= kf, scoring="accuracy")
    f1_macro = cross_val_score(model, X, y, cv= kf, scoring="f1_macro")
    f1_micro = cross_val_score(model, X, y, cv= kf, scoring="f1_micro")
    precision_macro = cross_val_score(model, X, y, cv= kf, scoring="precision_macro")
    precision_micro = cross_val_score(model, X, y, cv= kf, scoring="precision_micro")
    recall_macro = cross_val_score(model, X, y, cv= kf, scoring="recall_macro")
    recall_micro = cross_val_score(model, X, y, cv= kf, scoring="recall_micro")
  
    print("Penghitungan Makro dan Mikro pada Model Klasifikasi: ")
    print(f'Accuracy Average: {"{:.2f}".format(accuracy_score.mean())}')
    print(f'F1 Macro Average: {"{:.2f}".format(f1_macro.mean())}')
    print(f'F1 Micro Average:  {"{:.2f}".format(f1_micro.mean())}')
    print(f'Precision Macro Average: {"{:.2f}".format(precision_macro.mean())}')
    print(f'Precision Micro Average: {"{:.2f}".format(precision_micro.mean())}')
    print(f'Recall Macro Average: {"{:.2f}".format(recall_macro.mean())}')
    print(f'Recall Micro Average: {"{:.2f}".format(recall_micro.mean())}')
    print()

#### Implementasi Naive Bayes

In [None]:
# Mengaktifkan/memanggil/membuat fungsi klasifikasi Naive Bayes
modelnb = GaussianNB()

pipeline_gaussian = Pipeline([
    ('prep',MinMaxScaler()),
    ('clf', modelnb)])

evaluate_classifier_performance("Gaussian Naives Bayes", pipeline_gaussian)

#### Implementasi KNN

In [None]:
KNN = KNeighborsClassifier(n_neighbors=7)

pipeline_knn = Pipeline([
    ('prep',scaler),
    ('clf', KNN)])

evaluate_classifier_performance("KNearestNeighbor", pipeline_knn)

#### Implementasi MLPClassifier

In [None]:
# classifier dengan activation function 'logistic'
classifier_logistic = MLPClassifier(solver='adam', alpha=1e-5, random_state=42,
                           hidden_layer_sizes=50, max_iter=150, 
                           learning_rate_init=0.2, activation='logistic')

# classifier dengan activation function 'relu'
classifier_relu = MLPClassifier(solver='adam', alpha=1e-5, random_state=42,
                           hidden_layer_sizes=50, max_iter=150, 
                           learning_rate_init=0.2, activation='relu')

In [None]:
# Buat Pipeline
pipeline_relu = Pipeline([
    ('prep',scaler),
    ('clf', classifier_relu)])

pipeline_logistic = Pipeline([
    ('prep',scaler),
    ('clf', classifier_logistic)])

In [None]:
print("Metrics evaluasi untuk model dengan activation function 'logistic'")
evaluate_classifier_performance("MLP Logistic", pipeline_logistic)

In [None]:
print("Metrics evaluasi untuk model dengan activation function 'relu'")
evaluate_classifier_performance("MLP ReLU", pipeline_relu)

In [None]:
for i in daegu_df.columns:
    if len(daegu_df[i].unique())==1:
        print(i)

In [None]:
counter_y = Counter(y)
print(counter_y)

In [None]:
# scatter plot
pyplot.figure(figsize=(12, 10))

for label, _ in counter_y.items():
    row_ix = where(y == label)[0]
    pyplot.scatter(X[row_ix, 0], X[row_ix, 1], label=str(label))
    pyplot.legend()
pyplot.show()

In [None]:
# transform the dataset
smote = SMOTE()

In [None]:
# Buat Pipeline
from imblearn.pipeline import Pipeline

pipeline_relu_over = Pipeline([
    ('prep',scaler),
    ('ovs', smote),
    ('clf', classifier_relu)])

In [None]:
# Evaluasi relu dengan oversampling
np.seterr(under='ignore') # Untuk mengignore underflow error
evaluate_classifier_performance("MLP ReLU dengan Oversampling", pipeline_relu_over)

In [None]:
# define undersample strategy
undersample = RandomUnderSampler(sampling_strategy='majority')

In [None]:
# Buat Pipeline
from imblearn.pipeline import Pipeline

pipeline_relu_under = Pipeline([
    ('prep',scaler),
    ('uns', undersample),
    ('clf', classifier_relu)])

In [None]:
# Evaluasi relu dengan oversampling
evaluate_classifier_performance("MLP ReLU dengan Undersampling", pipeline_relu_under)

### K-Means Clustering

#### Pemilihan Fitur

In [None]:
cluster_df = daegu_df[['SalePrice', 'Size(sqf)', 'Floor']]

Kode di atas bertujuan untuk memilih fitur yang akan digunakan untuk clustering. Pemilihan fitur didasarkan pada kondisi fisik dari apartemen beserta harga apartemen tersebut.

#### Penentuan Jumlah Cluster

In [None]:
from sklearn.cluster import KMeans
distortions = []
K = range(1,15)
for k in K:
    kmeanModel = KMeans(n_clusters=k)
    kmeanModel.fit(cluster_df)
    distortions.append(kmeanModel.inertia_)

plt.figure(figsize=(16,8))
plt.plot(K, distortions, 'bx-')
plt.xlabel('k')
plt.ylabel('Distortion')
plt.title('The Elbow Method showing the optimal k')
plt.show()


Gambar di atas menunjukkan grafik elbow method untuk clustering dengan K-Means. Berdasarkan elbow method di atas terjadi perubahan signifikan saat jumlah cluster = 2 dan perubahan menjadi kurang signifikan setelah jumlah cluster > 4.  

In [None]:
from sklearn.metrics import silhouette_samples, silhouette_score
from yellowbrick.cluster import SilhouetteVisualizer
fig, ax = plt.subplots(3, 2, figsize=(20,10))
silhouette = []
for k in [2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15]:
    # Create KMeans instance for different number of clusters
    clusterer = KMeans(n_clusters = k, n_init=10)

    # Draw silhouette diagram
    visualizer = SilhouetteVisualizer(clusterer, colors = 'yellowbrick')
    visualizer.fit(cluster_df)
    visualizer.show()

    # Compute silhoutte score
    # This gives a perspective into the density and separation of the formed clusters
    cluster_labels = clusterer.fit_predict(cluster_df)
    silhouette_avg = silhouette_score(cluster_df, cluster_labels)
    
    print(
        "For n_clusters =",
        k,
        "The average silhouette_coefficient is :",
        silhouette_avg,
    )

Pada kode di atas dilakukan perhitungan silhouette coefficient antara 2 - 15 cluster. Berdasarkan hasil perhitungan silhouette coefficient, didapatkan hasil bahwa jumlah cluster 2 memiliki silhouette coefficient terbesar. Selain itu, pembagian cluster juga terlihat paling merata di antara gambar jumlah cluster lainnya. Oleh karena itu, dipilih jumlah cluster / K = 2 untuk K-Means.

#### Membuat Model K-Means dengan jumlah cluster = 2

In [None]:
kmeans = KMeans(n_clusters=2)
cluster_assignment = kmeans.fit_predict(cluster_df)
data_with_clusters = pd.DataFrame(cluster_df.copy(), columns=('SalePrice', 'Size(sqf)', 'Floor'))
data_with_clusters['Clusters'] = cluster_assignment 
data_with_clusters

Dapat dilihat pada tabel di atas pembagian cluster dari setiap data.

In [None]:
# Create figure
fig = plt.figure(figsize = (15, 10))
ax = plt.axes(projection ="3d")

# Prepare data
x = data_with_clusters['SalePrice']
y = data_with_clusters['Size(sqf)']
z = data_with_clusters['Floor']
cluster = data_with_clusters['Clusters']
 
# Create plot
ax.scatter(x, y, z, c = cluster, cmap = "rainbow")
plt.title("Clusters of Apartment")
ax.set_xlabel('Harga')
ax.set_ylabel('Ukuran (sqf)')
ax.set_zlabel('Lantai')

# Show plot
plt.show()

Dapat dilihat dari gambar di atas pembagian cluster pada bidang 3D.

In [None]:
jumlah_klaster = data_with_clusters.groupby(['Clusters']).size().rename('Cluster').reset_index()
data_jumlah_klaster = pd.DataFrame(jumlah_klaster)
data_jumlah_klaster

Dapat dilihat dari tabel di atas jumlah apartemen pada setiap cluster. 

In [None]:
data_jumlah_klaster.plot(kind='pie', y='Cluster', autopct='%1.2f%%')

Dapat dilihat dari gambar pie chart di atas persentase dari kedua cluster.

#### Visualisasi Cluster Untuk Setiap Fitur

In [None]:
harga_klaster = data_with_clusters.groupby(['Clusters'])['SalePrice'].mean().reset_index()
data_harga_klaster = pd.DataFrame(harga_klaster)
data_harga_klaster

In [None]:
fig = px.bar(
    harga_klaster, 
    x="Clusters", 
    y="SalePrice", 
    title="Grafik rata-rata harga jual apartemen per cluster")
fig.show()

Tabel dan grafik di atas menunjukkan rata-rata harga jual dari kedua cluster.

In [None]:
ukuran_klaster = data_with_clusters.groupby(['Clusters'])['Size(sqf)'].mean().reset_index()
data_ukuran_klaster = pd.DataFrame(ukuran_klaster)
data_ukuran_klaster

In [None]:
fig = px.bar(
    ukuran_klaster, 
    x="Clusters", 
    y="Size(sqf)", 
    title="Grafik rata-rata ukuran (sqf) apartemen per cluster")
fig.show()

Tabel dan grafik di atas menunjukkan rata-rata harga ukuran dari kedua cluster.

In [None]:
tinggi_klaster = data_with_clusters.groupby(['Clusters'])['Floor'].mean().reset_index()
data_tinggi_klaster = pd.DataFrame(tinggi_klaster)
data_tinggi_klaster

In [None]:
fig = px.bar(
    tinggi_klaster, 
    x="Clusters", 
    y="Floor", 
    title="Grafik rata-rata jumlah lantai apartemen per cluster")
fig.show()

Tabel dan grafik di atas menunjukkan rata-rata jumlah lantai dari kedua cluster.

### Agglomerative Clustering

#### Penentuan Jumlah Cluster

In [None]:
model_ac  = AgglomerativeClustering(distance_threshold = 0, n_clusters = None, linkage = 'ward', affinity = 'euclidean')  
clustering = model_ac.fit(cluster_df)
clustering.labels_

In [None]:
import scipy.cluster.hierarchy as sch
dendrogram = sch.dendrogram(sch.linkage(cluster_df, method='ward'))

Berdasarkan hasil dendrogram di atas, dapat dilihat bahwa garis vertikal terpanjang adalah garis yang menghubungkan dua buah cluster berwarna hijau dan merah sehingga dapat disimpulkan bahwa jumlah cluster optimal yang bisa didapatkan adalah 2 cluster.

#### Membuat Model Agglomerative Clustering

In [None]:
clustering = AgglomerativeClustering(n_clusters=2, linkage='ward', affinity='euclidean')  
ac_clustering = clustering.fit_predict(cluster_df)

In [None]:
data_with_clusters_ac = pd.DataFrame(cluster_df.copy(), columns=('SalePrice', 'Size(sqf)', 'Floor'))
data_with_clusters_ac['Clusters'] = ac_clustering
data_with_clusters_ac

Tabel di atas menunjukkan data apartemen beserta pengelompokkan tiap data ke dalam cluster sesuai agglomerative clustering model.

In [None]:
# Create figure
fig = plt.figure(figsize = (15, 10))
ax = plt.axes(projection ="3d")

# Prepare data
x = data_with_clusters_ac['SalePrice']
y = data_with_clusters_ac['Size(sqf)']
z = data_with_clusters_ac['Floor']
cluster = data_with_clusters_ac['Clusters']

# Create plot
ax.scatter(x, y, z, c = clustering.labels_, cmap = "rainbow")
plt.title("Clusters of Apartment")
ax.set_xlabel('Harga')
ax.set_ylabel('Ukuran (sqf)')
ax.set_zlabel('Lantai')

# Show plot
plt.show()

Gambar di atas menunjukkan pembagian cluster apartemen pada bidang 3D.

In [None]:
jumlah_klaster_ac = data_with_clusters_ac.groupby(['Clusters']).size().rename('Cluster').reset_index()
data_jumlah_klaster_ac = pd.DataFrame(jumlah_klaster_ac)
data_jumlah_klaster_ac

Tabel di atas menunjukkan jumlah apartemen pada setiap cluster.

In [None]:
data_jumlah_klaster_ac.plot(kind='pie', y='Cluster', autopct='%1.2f%%')

Pie Chart di atas menunjukkan persentase pembagian apartemen pada setiap cluster.

In [None]:
harga_klaster_ac = data_with_clusters_ac.groupby(['Clusters'])['SalePrice'].mean().reset_index()
data_harga_klaster_ac = pd.DataFrame(harga_klaster_ac)
data_harga_klaster_ac

In [None]:
fig = px.bar(
    harga_klaster_ac, 
    x="Clusters", 
    y="SalePrice", 
    title="Grafik rata-rata harga jual apartemen per cluster")
fig.show()

Tabel dan grafik di atas menunjukkan rata-rata harga jual dari kedua cluster.

In [None]:
ukuran_klaster_ac = data_with_clusters_ac.groupby(['Clusters'])['Size(sqf)'].mean().reset_index()
data_ukuran_klaster_ac = pd.DataFrame(ukuran_klaster_ac)
data_ukuran_klaster_ac

In [None]:
fig = px.bar(
    ukuran_klaster_ac, 
    x="Clusters", 
    y="Size(sqf)", 
    title="Grafik rata-rata ukuran (sqf) apartemen per cluster")
fig.show()

Tabel dan grafik di atas menunjukkan rata-rata ukuran apartemen dari kedua cluster.

In [None]:
tinggi_klaster_ac = data_with_clusters_ac.groupby(['Clusters'])['Floor'].mean().reset_index()
data_tinggi_klaster_ac = pd.DataFrame(tinggi_klaster_ac)
data_tinggi_klaster_ac

In [None]:
fig = px.bar(
    tinggi_klaster_ac, 
    x="Clusters", 
    y="Floor", 
    title="Grafik rata-rata jumlah lantai apartemen per cluster")
fig.show()

Tabel dan grafik di atas menunjukkan rata-rata jumlah lantai apartemen dari kedua cluster.

<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=455ce48e-6e90-4936-ac85-af3ac4c7c66a' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>