#### Thêm các thư viện cần thiết

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.impute import SimpleImputer
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler
from sklearn.metrics import mean_squared_error
from sklearn.linear_model import LinearRegression

#### Thêm dữ liệu và xem tổng quan dữ liệu

In [None]:
duLieuBanDau = pd.read_csv('HousingData.csv')
df = duLieuBanDau.copy()
print(df)

In [None]:
df.info()

In [None]:
df.describe()

In [None]:
df.columns

#### Kiểm tra dữ liệu bị thiếu và bổ sung dữ liệu bị thiếu

In [None]:
df.isnull()

In [None]:
df.isnull().sum()

In [None]:
cotSo = [
    'CRIM',
    'ZN',
    'INDUS',
    'AGE',
    'LSTAT'
]

boSungGiaTri = SimpleImputer(strategy='mean')
df[cotSo] = boSungGiaTri.fit_transform(df[cotSo])

In [None]:
cotPhanLoai = ['CHAS']

boSungGiaTriPhanLoai = SimpleImputer(strategy='most_frequent')
df[cotPhanLoai] = boSungGiaTriPhanLoai.fit_transform(df[cotPhanLoai])

In [None]:
df.info()

#### Minh hoạ bằng biểu đồ

In [None]:
cacCot = [
            'CRIM',
            'ZN',
            'INDUS',
            'CHAS',
            'NOX',
            'RM',
            'AGE',
            'DIS',
            'RAD',
            'TAX',
            'PTRATIO',
            'B',
            'LSTAT',
            'MEDV'
        ]

for cot in cacCot:
    plt.figure(figsize=(10, 6))
    sns.boxplot(y=cot, data=df)
    plt.title(f'Biểu đồ hộp của {cot}')
    plt.ylabel(cot)
    plt.grid(True)
    plt.show()

In [None]:
for cot in cacCot:
    plt.figure(figsize=(10, 6))
    sns.histplot(x=cot, data=df)
    plt.title(f'Biểu đồ histogram của {cot}')
    plt.xlabel(cot)
    plt.ylabel('Tần suất')
    plt.show()

#### Chuẩn hoá dữ liệu

In [None]:
cacCotCanChuanHoa = [
    'CRIM',
    'ZN',
    'TAX',
    'B'
]

chuanHoaMinMax = MinMaxScaler()

df[cacCotCanChuanHoa] = chuanHoaMinMax.fit_transform(df[cacCotCanChuanHoa])

print("Dữ liệu đã chuẩn hóa:")
print(df[cacCotCanChuanHoa].head())

#### Ma trận tương quan

In [None]:
maTranTuongQuan = df.corr()

plt.figure(figsize=(20, 10))

sns.heatmap(maTranTuongQuan, annot=True, cmap='coolwarm')

plt.show()

#### Chia dữ liệu thành biến đầu vào X và biến đầu ra Y

In [None]:
x = df.drop(columns=['RAD', 'MEDV'])
y = df['MEDV']

#### Chia dữ liệu thành tập huấn luyện và tập kiểm tra

In [None]:
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42)

# In ra kích thước của các tập dữ liệu
print("Kích thước của x_train:", x_train.shape)
print("Kích thước của x_test:", x_test.shape)
print("Kích thước của y_train:", y_train.shape)
print("Kích thước của y_test:", y_test.shape)

#### Khởi tạo và huấn luyện mô hình

In [None]:
moHinh = LinearRegression()
moHinh.fit(x_train, y_train)

#### Dự đoán trên tập kiểm tra

In [None]:
duDoanGia = moHinh.predict(x_test)

print("Giá nhà thực tế trên tập kiểm tra: ", y_test.values[:5])
print("Giá nhà kiểm tra dự đoán: ", duDoanGia[:5])

#### Tính toán chỉ số lỗi trung bình bình phương (Mean Squared Error - MSE)

In [None]:
chiSoLoiTrungBinhBinhPhuong = mean_squared_error(y_test, duDoanGia)
print(f"Chỉ số lỗi trung bình bình phương: {chiSoLoiTrungBinhBinhPhuong}")