In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [2]:
df = pd.read_csv('q1_result.csv')

In [3]:
df.head()

Unnamed: 0,Phuong,Thang,Nam,Gia_1m
0,Phường Bến Nghé,1,2021,768291700.0
1,Phường Bến Nghé,1,2022,420509500.0
2,Phường Bến Nghé,1,2023,958262000.0
3,Phường Bến Nghé,1,2024,654757000.0
4,Phường Bến Nghé,1,2025,1321299000.0


In [4]:
df.sort_values(by=['Phuong','Nam'], ascending=True, inplace=True)
df.reset_index(drop=True, inplace=True)

In [5]:
df['Time'] = df['Nam'].astype(str) + '-' + df['Thang'].astype(str).str.zfill(2)

In [6]:
df.drop(columns=['Nam', 'Thang'], inplace=True)

In [7]:
df.columns = ['Phuong', 'GiaTri', 'Time']
df = df[['Phuong', 'Time', 'GiaTri']]

In [8]:
df.head()

Unnamed: 0,Phuong,Time,GiaTri
0,Phường Bến Nghé,2021-01,768291700.0
1,Phường Bến Nghé,2021-02,898140100.0
2,Phường Bến Nghé,2021-03,704132500.0
3,Phường Bến Nghé,2021-04,685859300.0
4,Phường Bến Nghé,2021-05,701032800.0


# Chuẩn hóa

In [9]:
df.Time = pd.to_datetime(df.Time)

In [10]:
df["year"] = df["Time"].dt.year
df["month"] = df["Time"].dt.month
df["quarter"] = df["Time"].dt.quarter

In [11]:
df["month_sin"] = np.sin(2 * np.pi * df["month"]/12)
df["month_cos"] = np.cos(2 * np.pi * df["month"]/12)

In [12]:
# df = pd.get_dummies(df, columns=["Phuong"])

In [13]:
df["GiaTri_log"] = np.log1p(df["GiaTri"])

In [14]:
df = df.sort_values(["Phuong", "Time"]).reset_index(drop=True)

In [15]:
df = df[['Time', 'Phuong', 'year', 'month', 'quarter', 'month_sin', 'month_cos', 'GiaTri_log', 'GiaTri']]

In [None]:
# giá trị của tháng trước, 2 tháng trước
for lag in [1, 2, 3]:
    df[f"GiaTri_log_lag{lag}"] = df.groupby("Phuong")["GiaTri_log"].shift(lag)

In [None]:
# trung bình 3 tháng, 6 tháng gần nhất)
df["GiaTri_log_roll3"] = df.groupby("Phuong")["GiaTri_log"].shift(1).rolling(window=3).mean()
df["GiaTri_log_roll6"] = df.groupby("Phuong")["GiaTri_log"].shift(1).rolling(window=6).mean()
df = df.dropna().reset_index(drop=True)

In [18]:
df.head(10)

Unnamed: 0,Time,Phuong,year,month,quarter,month_sin,month_cos,GiaTri_log,GiaTri,GiaTri_log_lag1,GiaTri_log_lag2,GiaTri_log_lag3,GiaTri_log_roll3,GiaTri_log_roll6
0,2021-07-01,Phường Bến Nghé,2021,7,3,-0.5,-0.8660254,20.454367,764220600.0,20.478504,20.368065,20.346183,20.397584,20.440124
1,2021-08-01,Phường Bến Nghé,2021,8,3,-0.8660254,-0.5,20.873333,1161913000.0,20.454367,20.478504,20.368065,20.433646,20.439239
2,2021-09-01,Phường Bến Nghé,2021,9,3,-1.0,-1.83697e-16,20.428921,745019900.0,20.873333,20.454367,20.478504,20.602068,20.482155
3,2021-10-01,Phường Bến Nghé,2021,10,4,-0.8660254,0.5,20.378369,708293200.0,20.428921,20.873333,20.454367,20.585541,20.491562
4,2021-11-01,Phường Bến Nghé,2021,11,4,-0.5,0.8660254,20.588378,873813700.0,20.378369,20.428921,20.873333,20.560208,20.496927
5,2021-12-01,Phường Bến Nghé,2021,12,4,-2.449294e-16,1.0,20.451922,762354600.0,20.588378,20.378369,20.428921,20.465223,20.533645
6,2022-01-01,Phường Bến Nghé,2022,1,1,0.5,0.8660254,19.856978,420509500.0,20.451922,20.588378,20.378369,20.47289,20.529215
7,2022-02-01,Phường Bến Nghé,2022,2,1,0.8660254,0.5,20.74316,1020093000.0,19.856978,20.451922,20.588378,20.299093,20.42965
8,2022-03-01,Phường Bến Nghé,2022,3,1,1.0,6.123234000000001e-17,20.244688,619664200.0,20.74316,19.856978,20.451922,20.350687,20.407955
9,2022-04-01,Phường Bến Nghé,2022,4,2,0.8660254,-0.5,20.480911,784778000.0,20.244688,20.74316,19.856978,20.281608,20.377249


In [20]:
df.to_csv('data.csv', index=False)

# Model

In [23]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import ElasticNet
from sklearn.metrics import mean_squared_error, r2_score

In [22]:
features = [
    "year", "month", "quarter", "month_sin", "month_cos",
    "GiaTri_log_lag1", "GiaTri_log_lag2", "GiaTri_log_lag3",
    "GiaTri_log_roll3", "GiaTri_log_roll6"
]
target = "GiaTri_log"

# Train-test split theo thời gian
split_point = int(len(df) * 0.8)
train_df = df.iloc[:split_point]
test_df = df.iloc[split_point:]


X_train, y_train = train_df[features], train_df[target]
X_test, y_test = test_df[features], test_df[target]

print("Train shape:", X_train.shape, y_train.shape)
print("Test shape:", X_test.shape, y_test.shape)

Train shape: (386, 10) (386,)
Test shape: (97, 10) (97,)


In [24]:
model = ElasticNet(alpha=0.01, l1_ratio=1.0, random_state=42)

# Train
model.fit(X_train, y_train)

# Dự đoán
y_pred = model.predict(X_test)

# Đánh giá
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
r2 = r2_score(y_test, y_pred)

print("ElasticNet RMSE:", rmse)
print("ElasticNet R2:", r2)


ElasticNet RMSE: 0.30151217465657004
ElasticNet R2: -0.07333781550881757


# Biểu đồ so sánh

In [35]:
import plotly.graph_objects as go

# Nếu y_test, y_pred đang là dạng log, nhớ inverse_transform trước
y_true = y_test.values.flatten()
y_pred_vals = y_pred.flatten()

fig = go.Figure()

# Giá trị thực tế
fig.add_trace(go.Scatter(
    y=y_true,
    # x=X_test['year'].astype(str) + '-' + X_test['month'].astype(str).str.zfill(2),
    mode="lines+markers",
    name="Thực tế"
))

# Giá trị dự đoán
fig.add_trace(go.Scatter(
    y=y_pred_vals,
    # x=X_test['year'].astype(str) + '-' + X_test['month'].astype(str).str.zfill(2),
    mode="lines+markers",
    name="Dự đoán"
))

fig.update_layout(
    title="So sánh giá trị thực tế và dự đoán (ElasticNet)",
    xaxis_title="Thời gian",
    yaxis_title="Giá trị",
    template="plotly_white"
)

fig.show()


In [None]:
import numpy as np
import plotly.graph_objects as go

# --- So sánh thực tế và dự đoán trên tập test ---
fig = go.Figure()

# Đường thực tế
fig.add_trace(go.Scatter(
    y=y_test,
    mode='lines+markers',
    name='Thực tế'
))

# --- Dự đoán 1 điểm tương lai ---
X_last = X_test.iloc[-1].values.reshape(1, -1)
future_pred = model.predict(X_last)[0]

# Ghép thêm điểm mới vào chuỗi dự đoán
y_pred_extended = np.append(y_pred, future_pred)

# Đường dự đoán (đã nối điểm mới)
fig.add_trace(go.Scatter(
    y=y_pred_extended,
    mode='lines+markers',
    name='Dự đoán + Tương lai'
))

# Layout
fig.update_layout(
    title="So sánh giá trị thực tế, dự đoán và điểm tương lai (ElasticNet)",
    xaxis_title="Thời gian (index)",
    yaxis_title="Giá trị chuẩn hóa",
    template="plotly_white"
)

fig.show()



X does not have valid feature names, but ElasticNet was fitted with feature names



# Save model

In [30]:
import joblib

# Lưu model
joblib.dump(model, "model/elasticnet_model.pkl")

# Khi cần load lại
loaded_model = joblib.load("model/elasticnet_model.pkl")

# Dùng lại để dự đoán
y_loaded_pred = loaded_model.predict(X_test)