# Project Description: Dự Đoán Giá Nhà

## Mô tả dữ liệu:

Dataset bao gồm 100 hàng và ba cột:

1. Width: Chiều rộng của ngôi nhà (tính bằng mét).

2. Length: Chiều dài của ngôi nhà (tính bằng mét).

3. Price: Giá bán của ngôi nhà (tính bằng triệu VND).

## Mục tiêu:

Xây dựng một mô hình Linear Regression dự đoán giá nhà dựa trên các đặc trưng về kích thước nhà, bao gồm chiều rộng (width) và chiều dài (length).

## Level 1 : Sử dụng nghiệm chính xác

In [None]:
import pandas as pd                                    # thư viện dùng để đọc, tạo df, ...
import numpy as np                                     # thư viện dùng cho tính toán, ma trận, vector, mảng, ...
import matplotlib.pyplot as plt                        # thư viện dùng để vẽ hình đơn giản
import seaborn as sns                                  # thư viện dùng để vẽ hình đẹp hơn
from sklearn.model_selection import train_test_split   # tách thành tập train test theo tỉ lệ bạn cho
from sklearn.linear_model import LinearRegression      # thư viện dùng để Linear regression
import warnings                                        # xóa cảnh báo
warnings.filterwarnings("ignore")

In [2]:
df = pd.read_csv('C:/Users/84909/Linear Regression/Datasets/House_Price_2.csv') 

NameError: name 'pd' is not defined

## Descriptive Statistics

In [None]:
df.info()

In [1]:
df['width'] = df['width'].astype(float)

display(df.dtypes)

# converting 'Weight' from float to int
df['length'] = df['length'].astype(float)

# displaying the datatypes
display(df.dtypes)

NameError: name 'df' is not defined

In [None]:
df.width = pd.to_numeric(df.width, downcast='float')
df.length = pd.to_numeric(df.length, downcast='float')

In [None]:
X = df[['width','length']]
X.shape

In [None]:
y = np.array(df['price']).reshape(100, 1)
y.shape

In [None]:
# Pairplot
sns.pairplot(df)
plt.show()

# Correlation matrix
corr_matrix = df.corr()
sns.heatmap(corr_matrix, annot=True)
plt.show()

## Nghiệm chính xác

$$
  \theta = (Z^TZ)^{-1}Z^T\mathrm y
$$

Với $Z$ là ma trận Vandermonde a.k.a ma trận $X$ thêm một cột bias giá trị 1.

In [None]:
Z = np.concatenate([X, np.ones((X.shape[0], 1))], axis=1)   ## thêm một cột vào sau X và gán vào Z
Z[-5:]

In [None]:
np.linalg.inv(Z.T @ Z) @ Z.T @ y

In [None]:
# theta = np.linalg.inv((Z.T @ Z)) @ Z.T @ y
theta = np.dot(np.matmul(np.linalg.inv(Z.T @ Z), Z.T), y)
theta

Hàm tìm được:

$$
\hat{y} =  4992438.83485118*width + 1997577.09722778 *length + 844994.82587483
$$

## Predict

In [None]:
width = 15
length = 10

In [None]:
theta

In [None]:
y_pred = theta[0] * width + theta[1] * length + theta[2]
y_pred

In [None]:
fig = plt.figure(figsize = (10, 8))
ax = plt.axes(projection ="3d")
ax.scatter3D(df.width, df.length, df.price, color = 'gray', s = 100)
ax.scatter3D(width, length, y_pred, color = 'red', s = 120)
plt.show()

In [None]:
import plotly.graph_objects as go

In [None]:
# Tạo scatter plot 3D
fig = go.Figure()

# Vẽ các điểm từ dataframe
fig.add_trace(go.Scatter3d(
    x=df['width'],
    y=df['length'],
    z=df['price'],
    mode='markers',
    marker=dict(size=5, color='blue'),
    name='Actual Data'
))

# Vẽ điểm dự đoán
fig.add_trace(go.Scatter3d(
    x=[width],
    y=[length],
    z=[y_pred],
    mode='markers',
    marker=dict(size=10, color='red', symbol='diamond'),
    name='Predicted Value'
))

# Thêm nhãn cho các trục
fig.update_layout(
    scene=dict(
        xaxis_title='Width',
        yaxis_title='Length',
        zaxis_title='Price'
    ),
    title='3D Scatter Plot with Predicted Value'
)

# Hiển thị biểu đồ
fig.show()