# IMPORT LIBARY | MODUL A

In [None]:
import pandas as pd 
import numpy as np 
import seaborn as sns 
import matplotlib.pyplot as plt 
import tkinter as tk 

# IMPORT DATASET

In [None]:
# Membuat variable data path untuk menuju ke direktori dataset disimpan
data_path = 'datasets/DATA RUMAH.csv'
# Menggunakan pandas untuk membaca data csv dari variable data path
df = pd.read_csv(data_path) 
# Menampilkan 10 data teratas dari dataset
df.head(10)


CEK DIMENSI DATA

In [None]:
# Melihat dimensi data
dimension = df.shape
print(f"Dimensi dari data : {dimension}")

MELIHAT TIPE DATA SETIAP KOLOM

In [None]:
# Melihat tipe data pada setiap kolom
df.info()

MENENTUKAN NAMA FITUR

In [None]:
df.columns

In [None]:
# Melihat deskripsi data pada setiap kolom
df.describe()

MENANGANI DATA YANG BERMASALAH

In [None]:
# Fungsi untuk melihat jumlah data duplikat dan data kosong
count_duplicated = df.duplicated().sum() 
print(f"Jumlah data duplikat : {count_duplicated}")


count_missing_value = df.isna().sum().sum()
print(f"Jumlah Data Kosong atau missing value :  {count_missing_value}")

In [None]:
# Untuk menangani apabila terdapat missing value 
if count_missing_value > 0:
     for x in df.columns:
          if df[x].dtype == 'object':
               df[x] = df[x].fillna().mode()[0]
               print('data dengan type object sudah ditangani')
          else:
               df[x] = df[x].fillna().mean()
               print('data dentgan type numerik sudah ditangani')
else:
     print('Tidak ada data yang perlu ditangani')

In [None]:
# Menghapus apabila terdapat data duplikat
df = df.drop_duplicates()

In [None]:
df = df.drop(columns=['NO', 'NAMA RUMAH'], axis=1)

MENENTUKAN FITUR (X) DAN LABEL (Y)

In [None]:
# Menentukan label x dan y
x = df[['LB', 'LT', 'KT', 'KM', 'GRS']]
y = df['HARGA']

In [None]:
def normalisasi_numerik(X):
    return (X - X.min() / X.max() - X.min())


In [None]:
for x in df.columns:
    df[x] = normalisasi_numerik(df[x])


In [None]:
# Cek Data setelah di normalisasi
df.head()

# EXPLORATORY DATA ANALYS | MODUL A

In [None]:
plt.figure(figsize=(10, 6))
plt.title('Statistik Deskriptif Harga Rumah')
sns.histplot(data=df, x='HARGA', bins=5, kde=True)

plt.title("Distribusi Harga Rumah")
plt.xlabel("Harga Rumah (Rupiah)")
plt.ylabel("Frekuensi")
plt.show()

In [None]:
for i in df.columns:
    sns.boxplot(df[i])
    plt.show()

    # Fungsi untuk mencari data outlier, 
    # Kolom yang memilik outlier yang signifikan yaitu 'LT' yang berada di atas 1200 

In [None]:
# Korelasi Harga rumah dengan luas bangunan 
plt.figure(figsize=(10, 6))
plt.title("Korelasi Harga rumah dengan luas bangunan")

sns.scatterplot(data=df, x='LB', y='HARGA')
plt.ylabel("Harga Rumah (rupiah)")
plt.xlabel("Luas Bangunan")
plt.show()

In [None]:
# Korelasi harga rumah dengan luas tanah 
plt.figure(figsize=(10, 6))
plt.title("Korelasi harga rumah dengan luas tanah")
sns.scatterplot(data=df, y='HARGA', x='LT')
plt.ylabel('Harga Rumah (rupiah)')
plt.xlabel('Luas Tanah')


In [None]:
# Korelasi Jumlah Kamar tidur dengan harga rumah 
plt.figure(figsize=(10, 6))
plt.title("Korelasi harga rumah dengan jumlah kamar tidur")
sns.scatterplot(data=df, x='KT', y="HARGA")
plt.xlabel("Jumlah Kamar")
plt.ylabel("Harga Rumah")

In [None]:
# Korelasi Jumlah Kamar Mandi Dengan Harga Rumah 
plt.figure(figsize=(10, 6))
plt.title("Korelasi harga rumah dengan jumlah kamar mandi")
sns.scatterplot(data=df, x='KM', y='HARGA')
plt.xlabel("Jumlah Kamar Mandi")
plt.ylabel("Harga Rumah")
plt.show()

In [None]:
plt.figure(figsize=(10, 8))
plt.title("Korelasi harga rumah dengan jumlah garasi")
sns.scatterplot(data=df, x='GRS', y='HARGA')
plt.xlabel("Jumlah Garasi")
plt.ylabel("Harga Rumah (rupiah)")

# MODUL B | DATA CLASSIFICATION (LINEAR REGRESION)

TRAIN TEST SPLIT FUNCTION

In [None]:
def train_test_split(data, test_size = 0.2, random_state = 42, target_columns = 'HARGA'):
    data_test = data.sample(frac = test_size, random_state = random_state)
    data_train = data.drop(data_test.index)
    
    X_train = data_train.drop(columns=[target_columns])
    X_test = data_test.drop(columns=[target_columns])
    
    y_test = data_test[target_columns]
    y_train = data_train[target_columns]
    
    return X_train, X_test, y_test, y_train

X_train, X_test, y_test, y_train = train_test_split(df)

print("============ Dimensi Data Train Dan Test =============")
print(f"X_Train : {X_train.shape}")
print(f"y_Train : {y_train.shape}")
print(f"X_Test : {X_test.shape}")
print(f"y_Test : {y_test.shape}")

STANDARISASI DATA

In [None]:
x_tr_std = X_train.std()
x_tr_mean = X_train.mean()
X_train = (X_train - x_tr_mean) / x_tr_std
X_test = (X_test - x_tr_mean) / x_tr_std

ALGORITMA DARI DATA CLASSIFICATION

In [None]:
class LinearRegresion:
    def __init__(self):
        self.beta = None
        
    def fit(self, x_tr, y_tr):
        x_tr_b = np.column_stack([np.ones(x_tr.shape[0]), x_tr])
        b = np.linalg.inv(x_tr_b.T @ x_tr_b) @ x_tr_b.T @ y_tr
        print(f"Beta Adalah {b}")
        self.beta = b
        
    def predict(self, X_te):
        X_tr_b = np.column_stack([np.ones(X_te.shape[0]), X_te])
        return X_tr_b @ self.beta

TRAIN DATA

In [None]:
ln = LinearRegresion()
ln.fit(X_train, y_train)

In [None]:
def define_linear(LB, LT, KM, KT, GRS):
    X = np.array([[LB, LT, KM, KT, GRS]])
    return ln.predict(X)[0]

PREDIKSI DATA TRAIN

In [None]:
predict_train = ln.predict(X_train)

PREDIKSI DENGAN DATA TEST

In [None]:
predict_test = ln.predict(X_test)

EVALUASI MODEL

In [None]:
def evaluasi(y, y_pred):
    r2 = 1 - (np.sum((y - y_pred)**2)) / (np.sum((y-y.mean())**2))
    mae = np.mean(np.abs(y-y_pred))
    mse = np.mean((y-y_pred)**2)
    rmse = np.sqrt(mse)
    print(f'R2 : {r2}')
    print(f'MAE : {mae}')
    print(f'MSE : {mse}')
    print(f'RMSE : {rmse}')

EVALUASI MODEL DENGAN DATA TRAIN

In [None]:
evaluasi(y_train, predict_train)

EVALUASI MODEL DENGAN DATA TEST

In [None]:
evaluasi(y_test, predict_test)

MENGUBAH DATA KE LABEL

In [None]:
def to_classification(values, br, bs):
    if values < br:
        return "Rendah"
    elif values <= bs:
        return "Sedang"
    else:
        return "Tinggi"

In [None]:
batas_rendah = np.percentile(y_test, 33)
batas_sedang = np.percentile(y_test, 66)
p_map = [to_classification(p, batas_rendah, batas_sedang) for p in predict_test]
test_map = [to_classification(p, batas_rendah, batas_sedang) for p in y_test]
t_map = [to_classification(p, batas_rendah, batas_sedang) for p in predict_train]

# MODUL C | CONFUSION MATRIX

In [None]:
def confusion(y_true, y_pred):
    labels = ["Rendah", "Sedang", "Tinggi"]
    matrix = [[0 for _ in labels] for _ in labels]
    label_id = {lable: i for i, lable in enumerate(labels)}
    
    for y, t in zip(y_true, y_pred):
        matrix[label_id[y]][label_id[t]] += 1
        
    plt.figure(figsize=(20, 6))
    plt.legend("Korelasi Data Prediksi dan Actual Data")
    sns.heatmap(matrix, annot=True, cmap='Blues', cbar=False, xticklabels=labels, yticklabels=labels)
    plt.show()
    return matrix

In [None]:
matrix = confusion(test_map, p_map)

print(f'Hasil Confusion Matrix Adalah {matrix}')

PLOT REFRESION VISUALISATION

In [None]:
def plot_regresi(y, y_pred):
    plt.scatter(x=y, y=y_pred)
    plt.plot([y.min(), y.max()], [y.min(), y.max()], '--r')
    plt.xlabel('Data Actual')
    plt.ylabel('Data Prediksi')
    plt.show()

    residual = y - y_pred

    plt.scatter(x=y_pred, y=residual)
    plt.axhline(0, linestyle='--', color='red')
    plt.xlabel('Data Actual')
    plt.ylabel('Data Prediksi')
    plt.show()

    sns.histplot(data=residual)
    plt.show()

In [None]:
plot_regresi(y_test, predict_test)

# GUI | MODUL D 

In [None]:
import tkinter as tk 
from tkinter import ttk,messagebox 

class GUI: 
    def __init__(self, root, tabCtrl):
        self.root = root 
        self.root.geometry("500x600")
        self.root.title("GUI IMPLEMENTASI LINEAR REGRESION")
        self.tabCtrl = tabCtrl 
        self.bg = '#e7eaeb'
        self.form_font = ("Segoe UI", 9, "bold")
        self.render_GUI()

    def render_GUI(self):
        tab1 = tk.Frame(self.tabCtrl, bg=self.bg)
        self.tabCtrl.add(tab1, text='Prediksi Data')

        header = tk.Frame(tab1, bg='#FFFFFF', height=50, relief='solid', borderwidth=1)
        header.pack(fill='x', padx=10, pady=20)
        header_label = tk.Label(header, bg='#FFFFFF', text="Prediksi Harga Rumah", font=("Segoe UI", 10, "bold"), fg="black")
        header_label.pack(pady=10)

        form_container = tk.Frame(tab1, bg=self.bg)
        form_container.pack(fill='y', padx=10, pady=20)

        #Luas Bangunan
        lb_label = tk.Label(form_container, bg=self.bg, text="LUAS BANGUNAN", font=self.form_font)
        lb_label.pack(pady=10)
        self.entry_lb = tk.Entry(form_container, bg='#FFFFFF', font=self.form_font)
        self.entry_lb.pack()


        #Luas Tanah
        lt_label = tk.Label(form_container, bg=self.bg, text="LUAS TANAH", font=self.form_font)
        lt_label.pack(pady=10)
        self.entry_lt = tk.Entry(form_container, bg='#FFFFFF', font=self.form_font)
        self.entry_lt.pack()

        #Jumlah Kamar Tidur
        kt_label = tk.Label(form_container, bg=self.bg, text="Jumlah Kamar Tidur", font=self.form_font)
        kt_label.pack(pady=10)
        self.entry_kt = tk.Entry(form_container, bg='#FFFFFF', font=self.form_font)
        self.entry_kt.pack()


        #Jumlah Kamar Mandi
        km_label = tk.Label(form_container, bg=self.bg, text="Jumlah Kamar Mandi", font=self.form_font)
        km_label.pack(pady=10)
        self.entry_km = tk.Entry(form_container, bg='#FFFFFF', font=self.form_font)
        self.entry_km.pack()


        #Jumlah garasi
        grs_label = tk.Label(form_container, bg=self.bg, text="Jumlah garasi", font=self.form_font)
        grs_label.pack(pady=10)
        self.entry_grs = tk.Entry(form_container, bg='#FFFFFF', font=self.form_font)
        self.entry_grs.pack()

        submit_btn = tk.Button(form_container, bg='#A8DF8E', text='PREDIKSI', fg='white', font=('Segoe UI', 10, "bold"), relief='groove', command=self.analys)
        submit_btn.pack(fill='x', pady=20)

    def analys(self):
        try:
            LB = float(self.entry_lb.get())
            LT = float(self.entry_lt.get())
            KT = float(self.entry_kt.get())
            KM = float(self.entry_km.get())
            GRS = float(self.entry_grs.get())

            nilai = define_linear(LB, LT, KT, KM, GRS)


            messagebox.showinfo('Hasil', f"Prediksi Harga Rumah: Rp {nilai:,.0f}")

        except ValueError:
            messagebox.showerror('Error', 'Error, Terjadi Kesalahan')


if __name__ == "__main__":
    root = tk.Tk()
    tabCtrl = ttk.Notebook(root)
    tabCtrl.pack(expand=True, fill='both')
    GUI(root, tabCtrl)
    root.mainloop()
