## Dự đoán giá đất

In [18]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score

# Tạo dữ liệu mẫu từ bảng giá đất
# Giả sử dữ liệu có các cột: "Khu vực", "Loại đất", "Vị trí", "Giá đất"
import pandas as pd

# Dữ liệu mẫu
data = {
    "Khu vực": ["Vũng Tàu", "Bà Rịa", "Phú Mỹ", "Long Điền", "Châu Đức", "Xuyên Mộc"],
    "Loại đất": ["Đất ở", "Đất nông nghiệp", "Đất thương mại", "Đất ở", "Đất rừng", "Đất nuôi trồng"],
    "Vị trí": [1, 2, 3, 4, 5, 1],
    "Giá đất": [27400000, 9100000, 5850000, 2500000, 1600000, 218000]
}

# Chuyển thành DataFrame
df = pd.DataFrame(data)

# Xuất ra file CSV (giữ tiêu đề)
df.to_csv("giadat.csv", index=False, encoding="utf-8")

print("File giadat.csv đã được tạo thành công!")

# Chuyển đổi dữ liệu dạng chuỗi sang số bằng Label Encoding
df["Khu vực"] = df["Khu vực"].astype('category').cat.codes
df["Loại đất"] = df["Loại đất"].astype('category').cat.codes

# Chia dữ liệu thành đầu vào (X) và đầu ra (y)
X = df[["Khu vực", "Loại đất", "Vị trí"]]
y = df["Giá đất"]

# Chia tập dữ liệu thành tập huấn luyện và kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Chuẩn hóa dữ liệu
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Huấn luyện mô hình Random Forest
model = RandomForestRegressor(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# Dự đoán trên tập kiểm tra
y_pred = model.predict(X_test)

# Đánh giá mô hình
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)
print(f"MSE: {mse}")
print(f"R²: {r2}")

# Hàm dự đoán giá đất
def predict_price(khu_vuc, loai_dat, vi_tri):
    input_data = pd.DataFrame([[khu_vuc, loai_dat, vi_tri]], columns=["Khu vực", "Loại đất", "Vị trí"])
    input_data["Khu vực"] = input_data["Khu vực"].astype('category').cat.codes
    input_data["Loại đất"] = input_data["Loại đất"].astype('category').cat.codes
    input_data = scaler.transform(input_data)
    return model.predict(input_data)[0]

# Ví dụ sử dụng: Dự đoán giá đất tại Vũng Tàu, đất ở, vị trí 1
print(predict_price("Bà Rịa", "Đất ở", 2),"m^2")


File giadat.csv đã được tạo thành công!
MSE: 312639988990600.0
R²: -2.7342409625918958
2149660.0 m^2
