In [1]:
!pip install pandas numpy scikit-learn matplotlib

Defaulting to user installation because normal site-packages is not writeable



[notice] A new release of pip is available: 24.2 -> 24.3.1
[notice] To update, run: C:\Users\User\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.12_qbz5n2kfra8p0\python.exe -m pip install --upgrade pip


In [2]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
import matplotlib.pyplot as plt


In [None]:

# 1. Đọc dữ liệu
flood_data = pd.read_csv('/path/to/your/flood.csv')


In [None]:

# 2. Chuẩn bị dữ liệu
X = flood_data.drop('FloodProbability', axis=1)  # Tất cả các features
y = flood_data['FloodProbability']  # Biến mục tiêu


In [None]:
# 3. Chia tập train/test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [None]:
# 4. Tạo và huấn luyện mô hình
model = LinearRegression()
model.fit(X_train, y_train)

# 5. Dự đoán trên tập test
y_pred = model.predict(X_test)

In [None]:
# 6. Đánh giá mô hình
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_test, y_pred)

print('Kết quả đánh giá mô hình:')
print(f'Root Mean Square Error: {rmse:.4f}')
print(f'R-squared Score: {r2:.4f}')


In [None]:
# 7. Hiển thị các hệ số của mô hình
coefficients = pd.DataFrame({
    'Feature': X.columns,
    'Coefficient': model.coef_
})
coefficients = coefficients.sort_values(by='Coefficient', key=abs, ascending=False)

print('\nHệ số của các biến (top 10 quan trọng nhất):')
print(coefficients.head(10))

In [None]:
# 8. Vẽ biểu đồ so sánh giá trị thực tế và dự đoán
plt.figure(figsize=(10, 6))
plt.scatter(y_test, y_pred, alpha=0.5)
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'r--', lw=2)
plt.xlabel('Giá trị thực tế')
plt.ylabel('Giá trị dự đoán')
plt.title('So sánh giá trị thực tế và dự đoán')
plt.show()

In [None]:
# 9. Vẽ biểu đồ hệ số của các biến
plt.figure(figsize=(12, 6))
plt.bar(coefficients['Feature'][:10], coefficients['Coefficient'][:10])
plt.xticks(rotation=45, ha='right')
plt.xlabel('Biến')
plt.ylabel('Hệ số')
plt.title('Top 10 biến quan trọng nhất trong mô hình')
plt.tight_layout()
plt.show()

In [None]:
# 10. Function để dự đoán cho dữ liệu mới
def predict_flood_probability(model, new_data):
    """
    Dự đoán xác suất lũ lụt cho dữ liệu mới
    
    Parameters:
    model: Mô hình đã được huấn luyện
    new_data: DataFrame chứa dữ liệu mới (phải có cùng các cột với dữ liệu training)
    
    Returns:
    Xác suất lũ lụt dự đoán
    """
    return model.predict(new_data)

# Ví dụ sử dụng hàm dự đoán:
# Giả sử ta có một mẫu dữ liệu mới
sample_data = X_test.iloc[0:1]  # Lấy một mẫu từ tập test
prediction = predict_flood_probability(model, sample_data)
print(f'\nDự đoán xác suất lũ lụt cho mẫu mới: {prediction[0]:.4f}')