In [5]:
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.preprocessing import MinMaxScaler
from sklearn.model_selection import train_test_split

# Đọc dữ liệu huấn luyện từ file train.csv
train_data = pd.read_csv('train.csv')

# Xác định các đặc trưng (features) và nhãn (label)
features = train_data[['OverallQual', 'GrLivArea', 'GarageCars', 'TotalBsmtSF', 'YearBuilt']].fillna(0)  # Xử lý missing values
label = train_data['SalePrice']

# Chia dữ liệu thành tập huấn luyện và tập validation
X_train, X_val, y_train, y_val = train_test_split(features, label, test_size=0.2, random_state=42)

# Chuẩn hóa dữ liệu
scaler = MinMaxScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_val_scaled = scaler.transform(X_val)

# Tạo mô hình Linear Regression
model = LinearRegression()

# Huấn luyện mô hình Linear Regression
model.fit(X_train_scaled, y_train)

# Dự báo giá trên tập validation với mô hình Linear Regression
y_pred = model.predict(X_val_scaled)

# Tính toán Mean Squared Error
mse = mean_squared_error(y_val, y_pred)

# In kết quả
print("Hiệu suất của mô hình Linear Regression:")
print(f"Mean Squared Error: {mse}")

Hiệu suất của mô hình Linear Regression:
Mean Squared Error: 1581119650.3936496


In [6]:
import numpy as np
from sklearn.metrics import mean_squared_error, mean_absolute_error

# Danh sách các giá trị alpha để thử
alpha_values = [0.01, 0.05, 0.1, 0.2]

best_rmse = float('inf')  # Giá trị RMSE nhỏ nhất
best_mae = float('inf')  # Giá trị MAE nhỏ nhất
best_alpha_rmse = None  # Giá trị alpha tương ứng với RMSE nhỏ nhất
best_alpha_mae = None  # Giá trị alpha tương ứng với MAE nhỏ nhất

for alpha in alpha_values:
    # Tạo mô hình Ridge với giá trị alpha hiện tại
    model = Ridge(alpha=alpha)

    # Huấn luyện mô hình Ridge
    model.fit(X_train_scaled, y_train)

    # Dự báo giá trên tập validation với mô hình Ridge
    y_pred = model.predict(X_val_scaled)

    # Tính toán RMSE và MAE
    rmse = np.sqrt(mean_squared_error(y_val, y_pred))
    mae = mean_absolute_error(y_val, y_pred)

    # Kiểm tra xem RMSE và MAE có nhỏ hơn giá trị tốt nhất hiện tại không
    if rmse < best_rmse:
        best_rmse = rmse
        best_alpha_rmse = alpha

    if mae < best_mae:
        best_mae = mae
        best_alpha_mae = alpha

# In kết quả tốt nhất
print("Kết quả tốt nhất:")
print(f"RMSE nhỏ nhất: {best_rmse} (Alpha: {best_alpha_rmse})")
print(f"MAE nhỏ nhất: {best_mae} (Alpha: {best_alpha_mae})")

Kết quả tốt nhất:
RMSE nhỏ nhất: 39770.663911983975 (Alpha: 0.01)
MAE nhỏ nhất: 25415.625340799194 (Alpha: 0.01)


In [7]:
import pandas as pd
from sklearn.linear_model import Lasso
from sklearn.metrics import mean_squared_error
from sklearn.preprocessing import MinMaxScaler
from sklearn.model_selection import train_test_split

# Đọc dữ liệu huấn luyện từ file train.csv
train_data = pd.read_csv('train.csv')

# Xác định các đặc trưng (features) và nhãn (label)
features = train_data[['OverallQual', 'GrLivArea', 'GarageCars', 'TotalBsmtSF', 'YearBuilt']].fillna(0)  # Xử lý missing values
label = train_data['SalePrice']

# Chia dữ liệu thành tập huấn luyện và tập validation
X_train, X_val, y_train, y_val = train_test_split(features, label, test_size=0.2, random_state=42)

# Chuẩn hóa dữ liệu
scaler = MinMaxScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_val_scaled = scaler.transform(X_val)

# Tạo mô hình Lasso
model = Lasso()

# Huấn luyện mô hình Lasso
model.fit(X_train_scaled, y_train)

# Dự báo giá trên tập validation với mô hình Lasso
y_pred = model.predict(X_val_scaled)

# Tính toán Mean Squared Error
mse = mean_squared_error(y_val, y_pred)

# In kết quả
print("Hiệu suất của mô hình Lasso:")
print(f"Mean Squared Error: {mse}")

Hiệu suất của mô hình Lasso:
Mean Squared Error: 1581446850.1235857


In [10]:
from sklearn.metrics import mean_squared_error, mean_absolute_error

# Danh sách các giá trị alpha để thử
alpha_values = [0.1, 0.5, 1.0, 2.0]

best_rmse = float('inf')  # Giá trị RMSE nhỏ nhất
best_mae = float('inf')  # Giá trị MAE nhỏ nhất
best_alpha_rmse = None  # Giá trị alpha tương ứng với RMSE nhỏ nhất
best_alpha_mae = None  # Giá trị alpha tương ứng với MAE nhỏ nhất

for alpha in alpha_values:
    # Tạo mô hình Lasso với giá trị alpha hiện tại
    model = Lasso(alpha=alpha)

    # Huấn luyện mô hình Lasso
    model.fit(X_train_scaled, y_train)

    # Dự báo giá trên tập validation với mô hình Lasso
    y_pred = model.predict(X_val_scaled)

    # Tính toán RMSE và MAE
    rmse = np.sqrt(mean_squared_error(y_val, y_pred))
    mae = mean_absolute_error(y_val, y_pred)

    # Kiểm tra xem RMSE và MAE có nhỏ hơn giá trị tốt nhất hiện tại không
    if rmse < best_rmse:
        best_rmse = rmse
        best_alpha_rmse = alpha

    if mae < best_mae:
        best_mae = mae
        best_alpha_mae = alpha

# In kết quả tốt nhất
print("Kết quả tốt nhất:")
print(f"RMSE nhỏ nhất: {best_rmse} (Alpha: {best_alpha_rmse})")
print(f"MAE nhỏ nhất: {best_mae} (Alpha: {best_alpha_mae})")

Kết quả tốt nhất:
RMSE nhỏ nhất: 39763.72004089199 (Alpha: 0.1)
MAE nhỏ nhất: 25414.777304015108 (Alpha: 0.1)
