# Tiền Xử Lý


In [20]:
import pandas as pd
import numpy as np

# 1️⃣ Đọc file Excel gốc
# Một số file thống kê của SSI, VNDIRECT, HNX... thường có 2 dòng tiêu đề → ta gộp lại
df = pd.read_excel("KQGD-102-ThongKeGia-20241015-20251015-1-0157.xls", header=[0, 1])

# 2️⃣ Gộp 2 dòng tiêu đề thành 1 chuỗi tên cột duy nhất
df.columns = ['_'.join([str(c).strip() for c in col if str(c) != 'nan']) for col in df.columns.values]

# Kiểm tra tên cột sau khi gộp
print(df.columns.tolist())

['STT_Unnamed: 0_level_1', 'Ngày_Unnamed: 1_level_1', 'Mã_Unnamed: 2_level_1', 'Tham\n chiếu_Unnamed: 3_level_1', 'Mở \ncửa_Unnamed: 4_level_1', 'Đóng\n cửa_Unnamed: 5_level_1', 'Cao\nnhất_Unnamed: 6_level_1', 'Thấp\n nhất_Unnamed: 7_level_1', 'Trung\n bình_Unnamed: 8_level_1', 'Thay đổi giá_+/-', 'Thay đổi giá_%', 'GD khớp lệnh_KL', 'GD khớp lệnh_GT', 'GD thỏa thuận_KL', 'GD thỏa thuận_GT', 'Tổng giao dịch_KL', 'Tổng giao dịch_GT', 'Vốn hóa\n thị trường_Unnamed: 17_level_1']


In [21]:
df = df.rename(columns={
    "Ngày_Unnamed: 1_level_1": "Date",
    "Mở \ncửa_Unnamed: 4_level_1": "Open",
    "Đóng\n cửa_Unnamed: 5_level_1": "Close",
    "Cao\nnhất_Unnamed: 6_level_1": "High",
    "Thấp\n nhất_Unnamed: 7_level_1": "Low",
    "Tổng giao dịch_KL": "Volume"
})

In [22]:
df = df[["Date", "Open", "High", "Low", "Close", "Volume"]]
import numpy as np

# Đổi kiểu dữ liệu ngày
df["Date"] = pd.to_datetime(df["Date"], errors="coerce")
print(df.head(10)[["Date", "Close"]])

# Loại bỏ dòng trống hoặc lỗi
df = df.dropna(subset=["Date", "Close", "Volume"]).reset_index(drop=True)

# Nếu dữ liệu Volume có ký tự phân cách (vd: "2,910,800") thì chuyển về số
df["Volume"] = df["Volume"].replace({",": ""}, regex=True).astype(float)
df["Open"] = df["Open"].astype(float)
df["High"] = df["High"].astype(float)
df["Low"] = df["Low"].astype(float)
df["Close"] = df["Close"].astype(float)

# Tính tỷ suất sinh lợi hằng ngày
df["Return"] = df["Close"].pct_change()

# Trung bình động (Moving Average)
df["MA20"] = df["Close"].rolling(20).mean()
df["MA50"] = df["Close"].rolling(50).mean()

# RSI
def calc_RSI(series, period=14):
    delta = series.diff()
    gain = np.where(delta > 0, delta, 0)
    loss = np.where(delta < 0, -delta, 0)
    avg_gain = pd.Series(gain).rolling(period).mean()
    avg_loss = pd.Series(loss).rolling(period).mean()
    rs = avg_gain / avg_loss
    return 100 - (100 / (1 + rs))

df["RSI"] = calc_RSI(df["Close"])
df = df.dropna().reset_index(drop=True)


        Date  Close
0 2024-10-15  137.0
1 2024-10-16  136.3
2 2024-10-17  137.0
3 2024-10-18  137.0
4 2024-10-21  135.5
5 2024-10-22  133.1
6 2024-10-23  134.2
7 2024-10-24  134.3
8 2024-10-25  134.0
9 2024-10-28  134.9


In [23]:
print(df.head(5))



        Date   Open   High    Low  Close     Volume    Return     MA20  \
0 2024-12-23  149.5  149.9  148.7  149.8  4310913.0  0.002007  146.360   
1 2024-12-24  150.0  150.8  149.4  150.4  4037903.0  0.004005  147.120   
2 2024-12-25  150.6  151.2  150.4  150.8  4668104.0  0.002660  147.715   
3 2024-12-26  151.0  151.4  149.1  149.8  2820057.0 -0.006631  148.235   
4 2024-12-27  149.5  149.9  148.7  149.6  4611705.0 -0.001335  148.500   

      MA50        RSI  
0  139.464  62.121212  
1  139.732  68.253968  
2  140.022  58.041958  
3  140.278  51.048951  
4  140.530  60.833333  


# Build ENV


In [None]:
class TradingEnv:
    def __init__(self, data, initial_balance=10000):
        self.data = data
        self.initial_balance = initial_balance
        self.reset()
    
    def reset(self):
        self.cash = self.initial_balance
        self.position = 0
        self.current_step = 0
        self.portfolio_values = []
        return self._get_state()
    
    def _get_state(self):
        return self.data.iloc[self.current_step]
    
    def step(self, action):
        """
        action: 'BUY', 'SELL', 'HOLD'
        """
        price = self.data.iloc[self.current_step]["Close"]
        
        if action == "BUY" and self.cash >= price:
            self.position += 1
            self.cash -= price
        elif action == "SELL" and self.position > 0:
            self.position -= 1
            self.cash += price
        
        portfolio_value = self.cash + self.position * price
        self.portfolio_values.append(portfolio_value)

        self.current_step += 1
        done = self.current_step >= len(self.data) - 1
        return self._get_state(), portfolio_value, done


# Market Itelligence


In [25]:
# Tóm tắt thị trường hiện tại từ dữ liệu (các chỉ báo) để gửi cho Gemini.
def build_market_summary(row):
    text = (
        f"Ngày {row['Date'].date()} - "
        f"Giá đóng cửa: {row['Close']:.2f}, "
        f"MA20: {row['MA20']:.2f}, MA50: {row['MA50']:.2f}, "
        f"RSI: {row['RSI']:.2f}. "
    )
    if row['MA20'] > row['MA50']:
        text += "Xu hướng ngắn hạn: Tăng. "
    else:
        text += "Xu hướng ngắn hạn: Giảm. "
    if row['RSI'] > 70:
        text += "Thị trường đang quá mua."
    elif row['RSI'] < 30:
        text += "Thị trường đang quá bán."
    return text


In [26]:
import re
import google.generativeai as genai

# --- Cấu hình API ---
genai.configure(api_key="AIzaSyCOxyHaB3mLmknqN1GLlxDesTQpqFvhpzE")

# --- Bộ nhớ cache toàn cục ---
cache = {}

def ask_gemini(summary):
    """
    Gửi tóm tắt thị trường (market summary) đến Gemini
    và nhận về 2 giá trị:
        - action: BUY / SELL / HOLD
        - reason: lời giải thích ngắn gọn
    Có cơ chế cache để tránh gọi lại API nếu summary trùng nhau.
    """

    # --- Kiểm tra cache ---
    if summary in cache:
        return cache[summary]

    # --- Prompt chuẩn ---
    prompt = f"""
    You are a trading agent.
    Based on the following market summary, decide the best action: BUY, SELL, or HOLD.

    Market Summary:
    {summary}

    Please respond in the following exact format:
    Action: <BUY/SELL/HOLD>
    Reason: <one short sentence explaining the reason for this decision>
    """

    # --- Gọi Gemini ---
    model = genai.GenerativeModel("gemini-2.5-flash")
    try:
        response = model.generate_content(prompt, generation_config={"temperature": 0.2})
        text = response.text.strip()
    except Exception as e:
        print(f"⚠️ Lỗi khi gọi Gemini: {e}")
        return "HOLD", f"Error calling Gemini ({e})"

    # --- Phân tích phản hồi ---
    match_action = re.search(r"Action:\s*(BUY|SELL|HOLD)", text, re.IGNORECASE)
    match_reason = re.search(r"Reason:\s*(.*)", text, re.IGNORECASE)

    action = match_action.group(1).upper() if match_action else "HOLD"
    reason = match_reason.group(1).strip() if match_reason else "No explanation provided."

    # --- Lưu vào cache ---
    cache[summary] = (action, reason)

    return action, reason

# Đánh giá sức khỏe Agent

In [27]:
import numpy as np

def performance_metrics(portfolio_values):
    daily_returns = np.diff(portfolio_values) / portfolio_values[:-1]
    mean_return = np.mean(daily_returns)
    std_return = np.std(daily_returns)
    
    # 1. ARR
    arr = (portfolio_values[-1] / portfolio_values[0]) ** (252 / len(daily_returns)) - 1
    
    # 2. Sharpe Ratio
    sr = mean_return / std_return * np.sqrt(252)
    
    # 3. Max Drawdown
    cum_max = np.maximum.accumulate(portfolio_values)
    drawdowns = (portfolio_values - cum_max) / cum_max
    mdd = np.min(drawdowns)
    
    # 4. Calmar Ratio
    cr = arr / abs(mdd)
    
    # 5. Sortino Ratio
    downside_std = np.std([r for r in daily_returns if r < 0])
    sor = mean_return / downside_std * np.sqrt(252)
    
    # 6. Volatility
    vol = std_return * np.sqrt(252)
    
    return {
        "ARR": arr,
        "Sharpe": sr,
        "Calmar": cr,
        "Sortino": sor,
        "MDD": mdd,
        "Volatility": vol
    }


# Chạy

In [None]:
# === Cell thay thế: Chạy mô phỏng và xuất báo cáo Excel ===
import pandas as pd
import numpy as np
from collections import OrderedDict

# Giả định: TradingEnv, build_market_summary, ask_gemini, performance_metrics, df tồn tại trong notebook

env = TradingEnv(df)
state = env.reset()

records = []  # lưu nhật ký từng ngày: Date, Action, Reason, Portfolio_Value, MA20, MA50, RSI

while True:
    # build summary từ state (theo notebook)
    summary = build_market_summary(state)

    # Gọi agent — agent có thể trả action hoặc (action, reason)
    try:
        res = ask_gemini(summary)
    except Exception as e:
        # Nếu lỗi gọi LLM, tạm fallback: HOLD (an toàn) và reason nêu lỗi
        action = "HOLD"
        reason = f"ask_gemini error: {e}"
    else:
        # xử lý kiểu trả về
        if isinstance(res, tuple) or isinstance(res, list):
            # (action, reason) hoặc (action,)...
            action = res[0]
            reason = res[1] if len(res) > 1 else ""
        else:
            action = res
            reason = ""

    # Thực hiện bước trên env
    step_out = env.step(action)
    # env.step có thể trả (state, portfolio_value, done) theo notebook — đảm bảo unpack an toàn
    if isinstance(step_out, tuple) and len(step_out) >= 3:
        # lấy 3 thứ đầu (phù hợp với notebook)
        state, portfolio_value, done = step_out[0], step_out[1], step_out[2]
    else:
        raise RuntimeError("env.step() trả về định dạng bất thường; kiểm tra signature của env.step")

    # Lấy ngày hiện tại an toàn
    current_date = None
    # ưu tiên lấy từ env nếu có
    if hasattr(env, "current_step"):
        # cố gắng lấy ngày từ df theo current_step
        idx = max(0, min(env.current_step, len(df)-1))
        current_row = df.iloc[idx]
        current_date = pd.to_datetime(current_row["Date"])
    else:
        # fallback: nếu state là dict có 'Date'
        if isinstance(state, dict) and "Date" in state:
            current_date = pd.to_datetime(state["Date"])
        else:
            # fallback chung: nếu df có cột Date, lấy theo số bản ghi đã lưu
            if len(records) < len(df):
                current_date = pd.to_datetime(df.iloc[len(records)]["Date"])
            else:
                current_date = pd.to_datetime(df["Date"].iloc[-1])

    # tìm hàng df tương ứng với current_date (so sánh normalize để tránh mismatch về time)
    sel = df[pd.to_datetime(df["Date"]).dt.normalize() == pd.to_datetime(current_date).normalize()]
    if sel.empty:
        # nếu không tìm được bằng equality, chọn dòng bằng index tương ứng nếu env cung cấp current_step
        if hasattr(env, "current_step"):
            row = df.iloc[max(0, min(env.current_step, len(df)-1))]
        else:
            # an toàn: tạo row rỗng
            row = pd.Series({"MA20": np.nan, "MA50": np.nan, "RSI": np.nan})
    else:
        row = sel.iloc[0]

    ma20 = row.get("MA20", np.nan)
    ma50 = row.get("MA50", np.nan)
    rsi  = row.get("RSI", np.nan)

    # lưu record
    records.append(OrderedDict([
        ("Date", pd.to_datetime(current_date)),
        ("Action", action),
        ("Reason", reason),
        ("Portfolio_Value", portfolio_value),
        ("MA20", ma20),
        ("MA50", ma50),
        ("RSI", rsi),
    ]))
    if done:
        break

# Sau khi loop kết thúc: tính metrics (lọc NaN trong portfolio_values)
pv = np.array(env.portfolio_values, dtype=float)
pv = pv[~np.isnan(pv)] if pv.size>0 else pv

metrics = performance_metrics(pv)  # dict: ARR, Sharpe, Calmar, Sortino, MDD, Volatility

# Chuẩn bị DataFrame cho export
df_actions = pd.DataFrame(records).sort_values("Date").reset_index(drop=True)
df_metrics = pd.DataFrame(list(metrics.items()), columns=["Metric", "Value"])

# Xuất file Excel (2 sheet)
output_file = "FinAgent_Report.xlsx"
with pd.ExcelWriter(output_file, engine="openpyxl") as writer:
    df_actions.to_excel(writer, sheet_name="Actions & Portfolio", index=False)
    df_metrics.to_excel(writer, sheet_name="Performance Metrics", index=False)

print(f"✅ Xuất báo cáo thành công: {output_file}")



✅ Xuất báo cáo thành công: FinAgent_Report.xlsx
