In [None]:
!pip install pulp



In [None]:
import networkx as nx
import random
import pulp
from scipy.special import gamma
from itertools import islice

# --- CẤU HÌNH ---
NUM_NODES = 32
NUM_LINKS = 250
LINK_CAPACITY = 300
TARGET_CONNECTIONS = 1000
WEIBULL_SHAPE = 0.8
MEAN_BANDWIDTH = 50
WEIBULL_SCALE = MEAN_BANDWIDTH / gamma(1 + 1/WEIBULL_SHAPE)

# --- CÁC HÀM CƠ BẢN (GIỮ NGUYÊN) ---
def generate_network_topology(num_nodes, num_links):
    while True:
        G = nx.gnm_random_graph(num_nodes, num_links, directed=True)
        if nx.is_weakly_connected(G): break
    for u, v in G.edges():
        G[u][v]['capacity'] = LINK_CAPACITY
        G[u][v]['residual_capacity'] = LINK_CAPACITY
    return G

def get_weibull_bandwidth():
    return max(1.0, random.weibullvariate(WEIBULL_SCALE, WEIBULL_SHAPE))

def find_path_sufficient_bandwidth(G, source, target, bandwidth):
    try:
        shortest_paths = nx.shortest_simple_paths(G, source, target)
        for path in islice(shortest_paths, 10):
            is_feasible = True
            for i in range(len(path) - 1):
                u, v = path[i], path[i+1]
                if G[u][v]['residual_capacity'] < bandwidth:
                    is_feasible = False; break
            if is_feasible: return path
    except: return None
    return None

def simulate_traffic_loading(G, target_count):
    connections = []
    request_id = 0
    failures = 0
    print(f"1. Đang nạp traffic (Mục tiêu: {target_count})...")
    while len(connections) < target_count and failures < 200:
        src = random.randint(0, NUM_NODES - 1)
        dst = random.randint(0, NUM_NODES - 1)
        while src == dst: dst = random.randint(0, NUM_NODES - 1)
        bw = get_weibull_bandwidth()
        path = find_path_sufficient_bandwidth(G, src, dst, bw)
        if path:
            for i in range(len(path) - 1): G[path[i]][path[i+1]]['residual_capacity'] -= bw
            shortest_ideal = nx.shortest_path(G, src, dst)
            connections.append({
                'request_id': request_id, 'source': src, 'target': dst,
                'bandwidth': round(bw, 2), 'current_path': path,
                'path_length': len(path) - 1,
                'is_shortest_path': (len(path) == len(shortest_ideal))
            })
            request_id += 1; failures = 0
        else: failures += 1
    return connections

# --- BƯỚC MỚI: TẠO KHOẢNG TRỐNG ---
def simulate_network_churn(G, traffic_requests, removal_rate=0.1):
    print(f"\n2. Đang giải phóng {removal_rate*100}% kết nối để tạo khoảng trống...")

    # Chọn ngẫu nhiên các kết nối để xóa
    num_to_remove = int(len(traffic_requests) * removal_rate)
    removed_indices = random.sample(range(len(traffic_requests)), num_to_remove)

    # Cập nhật lại dung lượng mạng (trả lại băng thông)
    remaining_traffic = []
    for i, req in enumerate(traffic_requests):
        if i in removed_indices:
            # Trả lại băng thông cho mạng
            path = req['current_path']
            bw = req['bandwidth']
            for j in range(len(path) - 1):
                u, v = path[j], path[j+1]
                G[u][v]['residual_capacity'] += bw
        else:
            remaining_traffic.append(req)

    print(f"-> Đã xóa {num_to_remove} kết nối. Mạng lưới giờ đã thoáng hơn!")

    # Cập nhật lại trạng thái is_shortest_path cho các kết nối còn lại
    # (Vì mạng thoáng hơn, đường ngắn nhất cũ có thể đã khả dụng, nhưng ở đây ta giữ nguyên
    # trạng thái cũ để xem thuật toán tối ưu có tự tìm ra không)
    return remaining_traffic

# --- REOPT_SIM ---
def run_reopt_sim(G, traffic_requests, max_reroutes_T=50):
    print(f"\n3. --- CHẠY AGENT RL (|T| = {max_reroutes_T}) ---")

    # Chỉ tối ưu những thằng đang đi đường dài
    candidates = [r for r in traffic_requests if not r['is_shortest_path']]
    print(f"Số kết nối cần tối ưu (candidates): {len(candidates)}")

    if len(candidates) == 0: return

    link_capacity = {(u, v): G[u][v]['capacity'] for u, v in G.edges()}
    request_options = {}

    for req in traffic_requests:
        rid = req['request_id']
        src, dst = req['source'], req['target']
        current_path = req['current_path']
        opts = [{'path': current_path, 'cost': len(current_path)-1, 'is_new': False}]

        # Luôn thử tìm đường ngắn nhất hiện tại (giờ đã có thể đi được do bước Churn)
        try:
            shortest_path = nx.shortest_path(G, src, dst)
            # Nếu đường ngắn nhất thực sự ngắn hơn đường đang đi
            if len(shortest_path) < len(current_path):
                opts.append({'path': shortest_path, 'cost': len(shortest_path)-1, 'is_new': True})
        except: pass
        request_options[rid] = opts

    prob = pulp.LpProblem("Reopt", pulp.LpMinimize)
    x = {}
    for rid, opts in request_options.items():
        for i in range(len(opts)): x[(rid, i)] = pulp.LpVariable(f"x_{rid}_{i}", cat='Binary')

    # Objective
    total_load = 0
    for rid, opts in request_options.items():
        bw = next(r for r in traffic_requests if r["request_id"] == rid)["bandwidth"]
        for i, opt in enumerate(opts): total_load += x[(rid, i)] * bw * opt['cost']
    prob += total_load

    # Constraints
    for rid, opts in request_options.items():
        prob += pulp.lpSum([x[(rid, i)] for i in range(len(opts))]) == 1

    for u, v in G.edges():
        load = 0
        for rid, opts in request_options.items():
            bw = next(r for r in traffic_requests if r["request_id"] == rid)["bandwidth"]
            for i, opt in enumerate(opts):
                if (u, v) in zip(opt['path'], opt['path'][1:]): load += x[(rid, i)] * bw
        prob += load <= link_capacity[(u, v)]

    cnt = 0
    for rid, opts in request_options.items():
        for i, opt in enumerate(opts):
            if opt['is_new']: cnt += x[(rid, i)]
    prob += cnt <= max_reroutes_T

    print("Đang giải ILP...")
    prob.solve(pulp.PULP_CBC_CMD(msg=0))

    if pulp.LpStatus[prob.status] == 'Optimal':
        init_load = sum(r['bandwidth'] * (len(r['current_path']) - 1) for r in traffic_requests)
        final_load = pulp.value(prob.objective)
        saved = init_load - final_load
        rerouted = sum(1 for rid, opts in request_options.items() for i, opt in enumerate(opts) if pulp.value(x[(rid, i)])==1 and opt['is_new'])
        print(f"KẾT QUẢ: Tiết kiệm {saved:.2f} băng thông.")
        print(f"Số kết nối định tuyến lại: {rerouted}")
    else:
        print("Không tìm thấy giải pháp.")

# --- CHẠY ---
net = generate_network_topology(NUM_NODES, NUM_LINKS)
# Nạp đầy
full_data = simulate_traffic_loading(net, TARGET_CONNECTIONS)
# Xóa bớt để tạo lỗ hổng
churned_data = simulate_network_churn(net, full_data, removal_rate=0.1)
# Tối ưu
run_reopt_sim(net, churned_data, max_reroutes_T=50)

1. Đang nạp traffic (Mục tiêu: 1000)...

2. Đang giải phóng 10.0% kết nối để tạo khoảng trống...
-> Đã xóa 100 kết nối. Mạng lưới giờ đã thoáng hơn!

3. --- CHẠY REOPT_SIM (|T| = 50) ---
Số kết nối cần tối ưu (candidates): 110
Đang giải ILP...
KẾT QUẢ: Tiết kiệm 842.09 băng thông.
Số kết nối định tuyến lại: 40


In [None]:
import copy

# --- 1. ĐỊNH NGHĨA THUẬT TOÁN CŨ (GREEDY) ---
def run_greedy_reopt(G_original, traffic_requests_original):
    print("\n--- CHẠY THUẬT TOÁN CŨ (SEQUENTIAL GREEDY) ---")

    # Tạo bản sao dữ liệu để không ảnh hưởng đến thuật toán kia
    G = copy.deepcopy(G_original)
    traffic_requests = copy.deepcopy(traffic_requests_original)

    candidates = [r for r in traffic_requests if not r['is_shortest_path']]
    print(f"Số lượng candidate ban đầu: {len(candidates)}")

    rerouted_count = 0
    bw_saved = 0
    initial_load = sum(r['bandwidth'] * (len(r['current_path']) - 1) for r in traffic_requests)

    # Duyệt qua từng candidate và xử lý ngay lập tức
    for req in candidates:
        src, dst = req['source'], req['target']
        bw = req['bandwidth']
        current_path_len = len(req['current_path']) - 1

        try:
            # Tìm đường ngắn nhất hiện tại
            shortest_path = nx.shortest_path(G, src, dst)
            new_len = len(shortest_path) - 1

            # Nếu đường mới ngắn hơn đường cũ
            if new_len < current_path_len:
                # KIỂM TRA DUNG LƯỢNG (Make-Before-Break)
                # Phải đảm bảo đường mới có đủ residual capacity
                is_feasible = True
                for i in range(len(shortest_path) - 1):
                    u, v = shortest_path[i], shortest_path[i+1]
                    if G[u][v]['residual_capacity'] < bw:
                        is_feasible = False
                        break

                if is_feasible:
                    # THỰC HIỆN ĐỔI NGAY (Cập nhật đồ thị)
                    # 1. Trừ dung lượng ở đường mới
                    for i in range(len(shortest_path) - 1):
                        u, v = shortest_path[i], shortest_path[i+1]
                        G[u][v]['residual_capacity'] -= bw

                    # (Lưu ý: Trong mô phỏng đơn giản này ta không cộng lại dung lượng đường cũ
                    # ngay lập tức để mô phỏng sự khắt khe của Make-Before-Break,
                    # hoặc có thể cộng lại tùy giả định. Ở đây ta giả định chiếm dụng tài nguyên mới xong mới nhả cũ)

                    rerouted_count += 1
                    bw_saved += (bw * current_path_len) - (bw * new_len)
        except nx.NetworkXNoPath:
            pass

    print(f"KẾT QUẢ GREEDY:")
    print(f"- Số kết nối định tuyến lại: {rerouted_count}")
    print(f"- Băng thông tiết kiệm được: {bw_saved:.2f}")
    return bw_saved

# --- 2. CHẠY SO SÁNH TRÊN CÙNG DATA ---

# BƯỚC 1: Chuẩn bị dữ liệu chung (Data gốc)
print("1. Đang chuẩn bị môi trường mạng chung...")
# Tạo mạng
master_network = generate_network_topology(NUM_NODES, NUM_LINKS)
# Nạp đầy
master_data = simulate_traffic_loading(master_network, TARGET_CONNECTIONS)
# Tạo khoảng trống (Churn)
master_churned_data = simulate_network_churn(master_network, master_data, removal_rate=0.1)

# BƯỚC 2: Chạy Greedy (Thuật toán cũ)
# Copy dữ liệu để công bằng
greedy_net = copy.deepcopy(master_network)
greedy_data = copy.deepcopy(master_churned_data)
saved_greedy = run_greedy_reopt(greedy_net, greedy_data)

# BƯỚC 3: Chạy Reopt_sim (Thuật toán của bài báo)
# Copy lại dữ liệu gốc lần nữa
reopt_net = copy.deepcopy(master_network)
reopt_data = copy.deepcopy(master_churned_data)
# Chạy reopt_sim (Sử dụng hàm bạn đã có ở câu trả lời trước)
# Lưu ý: Hàm run_reopt_sim cần sửa lại chút để trả về giá trị 'saved' nếu muốn so sánh tự động,
# nhưng nhìn log in ra cũng được.
run_reopt_sim(reopt_net, reopt_data, max_reroutes_T=50)

# BƯỚC 4: Nhận xét
print("\n" + "="*40)
print("SO SÁNH KẾT QUẢ")
print(f"Thuật toán cũ (Greedy) tiết kiệm: {saved_greedy:.2f}")
print("Thuật toán mới (Reopt_sim) tiết kiệm: (Xem kết quả ILP bên trên)")
print("="*40)

1. Đang chuẩn bị môi trường mạng chung...
1. Đang nạp traffic (Mục tiêu: 1000)...

2. Đang giải phóng 10.0% kết nối để tạo khoảng trống...
-> Đã xóa 100 kết nối. Mạng lưới giờ đã thoáng hơn!

--- CHẠY THUẬT TOÁN CŨ (SEQUENTIAL GREEDY) ---
Số lượng candidate ban đầu: 119
KẾT QUẢ GREEDY:
- Số kết nối định tuyến lại: 31
- Băng thông tiết kiệm được: 360.84

3. --- CHẠY REOPT_SIM (|T| = 50) ---
Số kết nối cần tối ưu (candidates): 119
Đang giải ILP...
KẾT QUẢ: Tiết kiệm 369.07 băng thông.
Số kết nối định tuyến lại: 32

SO SÁNH KẾT QUẢ
Thuật toán cũ (Greedy) tiết kiệm: 360.84
Thuật toán mới (Reopt_sim) tiết kiệm: (Xem kết quả ILP bên trên)


In [None]:
import networkx as nx
import numpy as np
import random
from itertools import islice

class RLPathSelector:
    def __init__(self, k_paths=5):
        self.K = k_paths
        # Giả sử dùng Q-Learning đơn giản hoặc Deep Q-Network (DQN)
        # Ở đây minh họa logic chọn đường
        self.epsilon = 0.1 # Tỷ lệ khám phá

    def get_features(self, G, path, request_bw):
        """Trích xuất đặc trưng của một con đường để làm input cho RL"""
        path_edges = list(zip(path, path[1:]))
        residuals = [G[u][v]['residual_capacity'] for u, v in path_edges]

        # Đặc trưng 1: Nút cổ chai (Bottleneck)
        min_res = min(residuals)
        # Đặc trưng 2: Tải trung bình
        avg_res = sum(residuals) / len(residuals)
        # Đặc trưng 3: Độ dài
        length = len(path) - 1

        return [min_res, avg_res, length]

    def select_path(self, G, source, target, bandwidth):
        """
        Thay thế cho hàm find_path cũ.
        Bây giờ sẽ chọn 1 trong K đường tốt nhất dựa trên "Trí tuệ"
        """
        # 1. Tìm K ứng viên (K-Shortest Paths)
        try:
            candidates = list(islice(nx.shortest_simple_paths(G, source, target), self.K))
        except:
            return None

        if not candidates:
            return None

        # 2. Lọc bỏ các đường không đủ băng thông ngay lập tức (Hard Constraint)
        valid_candidates = []
        for path in candidates:
            path_edges = list(zip(path, path[1:]))
            if all(G[u][v]['residual_capacity'] >= bandwidth for u, v in path_edges):
                valid_candidates.append(path)

        if not valid_candidates:
            return None

        # 3. RL Chọn đường (Decision Making)
        # Đây là chỗ RL tỏa sáng thay vì chỉ lấy valid_candidates[0]

        # --- LOGIC RL (Mô phỏng) ---
        if random.random() < self.epsilon:
            # Khám phá: Chọn ngẫu nhiên để học cái mới
            selected_path = random.choice(valid_candidates)
        else:
            # Khai thác: Chọn đường có điểm số cao nhất từ Model
            # (Ở đây bạn sẽ gọi Model.predict(features))

            # Ví dụ heuristic thông minh mà RL có thể học được:
            # "Chọn đường có Bottleneck lớn nhất (Load Balancing)"
            # thay vì đường ngắn nhất.
            best_score = -1
            selected_path = valid_candidates[0]

            for path in valid_candidates:
                feats = self.get_features(G, path, bandwidth)
                # Giả sử Model học được trọng số: 0.7 * Bottleneck - 0.3 * Length
                score = 0.7 * feats[0] - 0.3 * feats[2]

                if score > best_score:
                    best_score = score
                    selected_path = path

        return selected_path

# --- CÁCH SỬ DỤNG TRONG REOPT_SIM ---
# Khởi tạo Agent
rl_agent = RLPathSelector(k_paths=5)



In [None]:
import networkx as nx
import copy
from itertools import islice

# --- 1. CLASS: "TRỢ LÝ THÔNG MINH" (MÔ PHỎNG RL) ---
class SmartPathSelector:
    def __init__(self, k_search=10):
        self.K = k_search

    def select_best_path(self, G, src, dst, required_bw):
        """
        Thay vì chọn đường ngắn nhất một cách mù quáng,
        hàm này chọn đường 'Tốt nhất' trong Top-K dựa trên độ thoáng của đường.
        """
        try:
            # 1. Lấy Top-K đường ngắn nhất
            # (RL sẽ quan sát K đường này)
            candidates = list(islice(nx.shortest_simple_paths(G, src, dst), self.K))
        except:
            return None

        if not candidates:
            return None

        # 2. Lọc các đường hợp lệ (Đủ băng thông)
        valid_paths = []
        for path in candidates:
            path_edges = list(zip(path, path[1:]))
            residuals = [G[u][v]['residual_capacity'] for u, v in path_edges]
            min_residual = min(residuals)

            if min_residual >= required_bw:
                # Lưu lại đường đi và 'Điểm số' của nó
                # Điểm số = Dung lượng dư thừa còn lại (Càng lớn càng tốt)
                valid_paths.append({
                    'path': path,
                    'cost': len(path) - 1,
                    'score': min_residual  # Heuristic mà RL sẽ học được
                })

        if not valid_paths:
            return None

        # 3. Ra quyết định (Action)
        # Chọn đường có Score cao nhất (Thoáng nhất)
        # Nếu Score bằng nhau, chọn đường ngắn nhất (cost thấp nhất)
        best_choice = max(valid_paths, key=lambda x: (x['score'], -x['cost']))

        return best_choice['path']

# --- 2. HÀM REOPT MỚI TÍCH HỢP SMART SELECTOR ---
def run_smart_reopt_sim(G, traffic_requests, selector, max_reroutes_T=50, name="Smart Reopt"):
    print(f"\n--- CHẠY {name} (|T|={max_reroutes_T}) ---")

    candidates = [r for r in traffic_requests if not r['is_shortest_path']]
    print(f"Số candidates: {len(candidates)}")

    if len(candidates) == 0: return 0

    link_capacity = {(u, v): G[u][v]['capacity'] for u, v in G.edges()}
    request_options = {}

    # --- PHẦN KHÁC BIỆT CHÍNH: SINH CỘT ---
    for req in traffic_requests:
        rid = req['request_id']
        src, dst = req['source'], req['target']
        current_path = req['current_path']
        bw = req['bandwidth']

        # Option 0: Đường cũ
        opts = [{'path': current_path, 'cost': len(current_path)-1, 'is_new': False}]

        # Option 1: Đường Mới (Do Smart Selector chọn)
        if not req['is_shortest_path']:
            # GỌI TRỢ LÝ THÔNG MINH Ở ĐÂY
            smart_path = selector.select_best_path(G, src, dst, bw)

            if smart_path:
                # Chỉ thêm nếu nó khác đường cũ
                if smart_path != current_path:
                    opts.append({
                        'path': smart_path,
                        'cost': len(smart_path)-1,
                        'is_new': True
                    })

        request_options[rid] = opts

    # --- GIẢI ILP (GIỮ NGUYÊN) ---
    prob = pulp.LpProblem("Smart_Reopt", pulp.LpMinimize)
    x = {}
    for rid, opts in request_options.items():
        for i in range(len(opts)): x[(rid, i)] = pulp.LpVariable(f"x_{rid}_{i}", cat='Binary')

    # Objective
    total_load = 0
    for rid, opts in request_options.items():
        bw = next(r for r in traffic_requests if r["request_id"] == rid)["bandwidth"]
        for i, opt in enumerate(opts): total_load += x[(rid, i)] * bw * opt['cost']
    prob += total_load

    # Constraints
    for rid, opts in request_options.items():
        prob += pulp.lpSum([x[(rid, i)] for i in range(len(opts))]) == 1

    for u, v in G.edges():
        load = 0
        for rid, opts in request_options.items():
            bw = next(r for r in traffic_requests if r["request_id"] == rid)["bandwidth"]
            for i, opt in enumerate(opts):
                if (u, v) in zip(opt['path'], opt['path'][1:]): load += x[(rid, i)] * bw
        prob += load <= link_capacity[(u, v)]

    cnt = 0
    for rid, opts in request_options.items():
        for i, opt in enumerate(opts):
            if opt['is_new']: cnt += x[(rid, i)]
    prob += cnt <= max_reroutes_T

    prob.solve(pulp.PULP_CBC_CMD(msg=0))

    if pulp.LpStatus[prob.status] == 'Optimal':
        init_load = sum(r['bandwidth'] * (len(r['current_path']) - 1) for r in traffic_requests)
        final_load = pulp.value(prob.objective)
        saved = init_load - final_load
        rerouted = sum(1 for rid, opts in request_options.items() for i, opt in enumerate(opts) if pulp.value(x[(rid, i)])==1 and opt['is_new'])
        print(f"KẾT QUẢ: Tiết kiệm {saved:.2f} băng thông.")
        print(f"Số kết nối định tuyến lại: {rerouted}")
        return saved
    else:
        print("Không tìm thấy giải pháp.")
        return 0

# --- 3. KỊCH BẢN CHẠY THỬ NGHIỆM SO SÁNH ---

print("\n" + "="*60)
print("THỬ NGHIỆM: STANDARD REOPT vs. SMART REOPT (RL PROXY)")
print("="*60)

# BƯỚC 1: Tạo dữ liệu khó (10% Churn)
# Dùng lại dữ liệu master nếu có, hoặc tạo mới
print("1. Chuẩn bị dữ liệu...")
net_test = generate_network_topology(32, 250)
data_full = simulate_traffic_loading(net_test, 600) # Load nhẹ hơn chút để dễ thấy đường khác
data_churn = simulate_network_churn(net_test, data_full, removal_rate=0.1)

# BƯỚC 2: Chạy Standard Reopt (Cách cũ: Chỉ tìm Shortest Path)
# Để mô phỏng cách cũ, ta dùng SmartSelector nhưng K=1 (Chỉ xem xét đúng 1 đường ngắn nhất)
print("\n>>> RUN 1: STANDARD REOPT (Chỉ chọn Shortest Path)")
net_std = copy.deepcopy(net_test)
data_std = copy.deepcopy(data_churn)
# Selector 'ngu': K=1 nghĩa là chỉ nhìn thấy đường ngắn nhất, tắc là bỏ
std_selector = SmartPathSelector(k_search=1)
saved_std = run_smart_reopt_sim(net_std, data_std, std_selector, max_reroutes_T=50, name="Standard Reopt")

# BƯỚC 3: Chạy Smart Reopt (Cách mới: Chọn trong Top-10 đường tốt nhất)
print("\n>>> RUN 2: SMART REOPT (Chọn đường thoáng nhất trong Top-10)")
net_smart = copy.deepcopy(net_test)
data_smart = copy.deepcopy(data_churn)
# Selector 'thông minh': K=10, tìm đường vòng một chút nhưng thoáng
smart_selector = SmartPathSelector(k_search=10)
saved_smart = run_smart_reopt_sim(net_smart, data_smart, smart_selector, max_reroutes_T=50, name="Smart Reopt")

# BƯỚC 4: Kết luận
print("\n" + "*"*40)
print(f"TỔNG KẾT:")
print(f"Standard Reopt (Shortest): {saved_std:.2f}")
print(f"Smart Reopt (RL Proxy):    {saved_smart:.2f}")
if saved_smart > saved_std:
    diff = saved_smart - saved_std
    print(f"-> Smart Reopt HIỆU QUẢ HƠN: +{diff:.2f} ({ (diff/saved_std if saved_std>0 else 100) * 100 :.1f}%)")
    print("-> Lý do: Nó tìm được các đường thay thế (Alternative Paths) khi đường ngắn nhất bị tắc.")
else:
    print("-> Hai thuật toán ngang nhau (Mạng chưa đủ phức tạp để RL phát huy).")
print("*"*40)


THỬ NGHIỆM: STANDARD REOPT vs. SMART REOPT (RL PROXY)
1. Chuẩn bị dữ liệu...
1. Đang nạp traffic (Mục tiêu: 600)...

2. Đang giải phóng 10.0% kết nối để tạo khoảng trống...
-> Đã xóa 60 kết nối. Mạng lưới giờ đã thoáng hơn!

>>> RUN 1: STANDARD REOPT (Chỉ chọn Shortest Path)

--- CHẠY Standard Reopt (|T|=50) ---
Số candidates: 46
KẾT QUẢ: Tiết kiệm 544.68 băng thông.
Số kết nối định tuyến lại: 9

>>> RUN 2: SMART REOPT (Chọn đường thoáng nhất trong Top-10)

--- CHẠY Smart Reopt (|T|=50) ---
Số candidates: 46
KẾT QUẢ: Tiết kiệm 399.37 băng thông.
Số kết nối định tuyến lại: 15

****************************************
TỔNG KẾT:
Standard Reopt (Shortest): 544.68
Smart Reopt (RL Proxy):    399.37
-> Hai thuật toán ngang nhau (Mạng chưa đủ phức tạp để RL phát huy).
****************************************


In [None]:
import numpy as np
import torch
import torch.nn as nn
import torch.optim as optim
import random
from collections import deque

# ==========================================
# PHẦN 1: MÔI TRƯỜNG GIẢ LẬP (ENVIRONMENT)
# ==========================================
class NetworkEnv:
    def __init__(self):
        # Giả sử mạng có 3 đường đi (Candidates) cho một cặp nguồn-đích
        # Mỗi đường có dung lượng tối đa (Capacity)
        self.path_capacities = np.array([100.0, 100.0, 80.0])
        self.current_load = np.array([0.0, 0.0, 0.0]) # Load hiện tại
        self.num_paths = 3

    def reset(self):
        """Reset mạng về trạng thái ngẫu nhiên (để train đa dạng)"""
        # Random load ban đầu từ 20% đến 50%
        self.current_load = self.path_capacities * np.random.uniform(0.2, 0.5, size=self.num_paths)
        return self.get_state()

    def get_state(self):
        """State là tỷ lệ sử dụng (Utilization) của các đường"""
        utilization = self.current_load / self.path_capacities
        return utilization # Ví dụ: [0.5, 0.2, 0.8]

    def step(self, action, demand):
        # 1. Kiểm tra quá tải
        if self.current_load[action] + demand > self.path_capacities[action]:
            # [SỬA 1] Giảm hình phạt xuống -10 thôi (thay vì -100)
            # Để agent hiểu là "hơi sai" chứ không phải "chết luôn"
            reward = -10
            done = True
            return self.get_state(), reward, done

        # 2. Cập nhật load
        self.current_load[action] += demand

        # 3. Tính toán load balancing
        utilization = self.current_load / self.path_capacities
        max_util = np.max(utilization)
        std_util = np.std(utilization) # Độ lệch chuẩn (càng nhỏ càng đều)

        # [SỬA 2] CÔNG THỨC THƯỞNG MỚI (DỄ HỌC HƠN)
        # Thưởng cứng +10 điểm vì đã định tuyến thành công
        # Cộng thêm điểm nếu giữ mạng cân bằng (std thấp) và thoáng (max thấp)
        reward = 10 + (1.0 - max_util) + (1.0 - std_util)

        done = False
        return self.get_state(), reward, done

# ==========================================
# PHẦN 2: BỘ NÃO AI (DQN AGENT)
# ==========================================
class DQN(nn.Module):
    def __init__(self, input_dim, output_dim):
        super(DQN, self).__init__()
        self.fc1 = nn.Linear(input_dim, 64)
        self.fc2 = nn.Linear(64, 64)
        self.fc3 = nn.Linear(64, output_dim) # Output ra điểm số cho từng đường

    def forward(self, x):
        x = torch.relu(self.fc1(x))
        x = torch.relu(self.fc2(x))
        return self.fc3(x)

class Agent:
    def __init__(self, state_size, action_size):
        self.state_size = state_size
        self.action_size = action_size
        self.memory = deque(maxlen=2000)
        self.gamma = 0.95    # Discount factor
        self.epsilon = 1.0   # Tỷ lệ khám phá (lúc đầu khám phá 100%)
        self.epsilon_min = 0.01
        self.epsilon_decay = 0.995
        self.model = DQN(state_size, action_size)
        self.optimizer = optim.Adam(self.model.parameters(), lr=0.001)
        self.criterion = nn.MSELoss()

    def act(self, state):
        # Epsilon-Greedy: Đôi khi chọn bừa để khám phá đường mới
        if np.random.rand() <= self.epsilon:
            return random.randrange(self.action_size)
        state_tensor = torch.FloatTensor(state).unsqueeze(0)
        with torch.no_grad():
            q_values = self.model(state_tensor)
        return torch.argmax(q_values).item() # Chọn hành động có điểm cao nhất

    def remember(self, state, action, reward, next_state, done):
        self.memory.append((state, action, reward, next_state, done))

    def replay(self, batch_size):
        if len(self.memory) < batch_size:
            return

        minibatch = random.sample(self.memory, batch_size)

        for state, action, reward, next_state, done in minibatch:
            target = reward
            if not done:
                next_state_tensor = torch.FloatTensor(next_state).unsqueeze(0)
                target = reward + self.gamma * torch.max(self.model(next_state_tensor)).item()

            state_tensor = torch.FloatTensor(state).unsqueeze(0)
            target_f = self.model(state_tensor)

            # Cập nhật giá trị Q cho hành động đã chọn
            target_f[0][action] = target

            # Train model
            self.optimizer.zero_grad()
            loss = self.criterion(target_f, self.model(state_tensor))
            loss.backward()
            self.optimizer.step()

        if self.epsilon > self.epsilon_min:
            self.epsilon *= self.epsilon_decay

# ==========================================
# PHẦN 3: TRAINING LOOP (VÒNG LẶP HUẤN LUYỆN)
# ==========================================
env = NetworkEnv()
agent = Agent(state_size=3, action_size=3)
batch_size = 32
EPISODES = 500

print("--- BẮT ĐẦU TRAINING ---")
for e in range(EPISODES):
    state = env.reset()
    total_reward = 0

    for time in range(20):
        # [SỬA 3] GIẢM DEMAND XUỐNG
        # Thay vì 5-15, chỉ cho demand từ 1-5 thôi.
        # Mục đích: Để mạng sống sót qua 20 bước, Agent mới học cách sắp xếp.
        demand = np.random.uniform(1, 5)

        action = agent.act(state)
        next_state, reward, done = env.step(action, demand)
        agent.remember(state, action, reward, next_state, done)
        state = next_state
        total_reward += reward

        if done:
            break

        agent.replay(batch_size)

    if (e+1) % 50 == 0:
        # Nếu Score > 200 (tức là trung bình mỗi bước > 10 điểm) -> Là đã HỌC TỐT
        print(f"Episode: {e+1}/{EPISODES}, Score: {total_reward:.2f}, Epsilon: {agent.epsilon:.2f}")

print("--- TRAINING HOÀN TẤT ---")

# ==========================================
# PHẦN 4: TEST (SO SÁNH VỚI GREEDY)
# ==========================================
print("\n--- TEST: RL vs GREEDY (Shortest Path) ---")

# Reset môi trường cho công bằng
env.reset()
test_state = env.get_state()
print(f"Load ban đầu: {test_state}")
demand = 20.0

# 1. GREEDY (Giả sử đường 0 là ngắn nhất)
# Greedy sẽ luôn chọn đường 0 bất kể nó có đầy hay không
greedy_action = 0
print(f"Greedy chọn đường {greedy_action} (Mặc định ngắn nhất)")

# 2. RL PREDICTION
agent.epsilon = 0 # Tắt chế độ random, dùng 100% trí tuệ đã học
rl_action = agent.act(test_state)
print(f"RL chọn đường {rl_action}")

# Phân tích
if test_state[0] > test_state[1] and rl_action == 1:
    print("=> KẾT LUẬN: RL THÔNG MINH! Nó tránh đường 0 đang đông để sang đường 1 thoáng hơn.")
elif rl_action == greedy_action:
    print("=> KẾT LUẬN: RL chọn giống Greedy (có thể do đường 0 vẫn còn tốt).")

--- BẮT ĐẦU TRAINING ---
Episode: 50/500, Score: 229.93, Epsilon: 0.01
Episode: 100/500, Score: 230.21, Epsilon: 0.01
Episode: 150/500, Score: 227.90, Epsilon: 0.01
Episode: 200/500, Score: 227.68, Epsilon: 0.01
Episode: 250/500, Score: 229.97, Epsilon: 0.01
Episode: 300/500, Score: 227.86, Epsilon: 0.01
Episode: 350/500, Score: 225.01, Epsilon: 0.01
Episode: 400/500, Score: 225.60, Epsilon: 0.01
Episode: 450/500, Score: 230.38, Epsilon: 0.01
Episode: 500/500, Score: 229.17, Epsilon: 0.01
--- TRAINING HOÀN TẤT ---

--- TEST: RL vs GREEDY (Shortest Path) ---
Load ban đầu: [0.32749894 0.35011508 0.41509271]
Greedy chọn đường 0 (Mặc định ngắn nhất)
RL chọn đường 0
=> KẾT LUẬN: RL chọn giống Greedy (có thể do đường 0 vẫn còn tốt).


In [None]:
print("\n--- TEST KỊCH BẢN KHÓ: ÉP AGENT PHẢI NÉ ĐƯỜNG NGẮN ---")

# 1. TẠO TÌNH HUỐNG GIẢ ĐỊNH (Rigged Scenario)
env.reset()
# Cố tình set đường 0 (Shortest) bị đầy 95%
# Đường 1 và 2 rất thoáng (chỉ 10%)
# Format: [Đường 0, Đường 1, Đường 2]
env.current_load = np.array([95.0, 10.0, 10.0])
# Capacity gốc là [100, 100, 80] -> Vậy load ratio sẽ là [0.95, 0.1, 0.125]

rigged_state = env.get_state()
print(f"Trạng thái mạng: {rigged_state}")
print("(Đường 0 [Index 0] đang bị nghẽn 95%!)")

demand = 10.0 # Một luồng dữ liệu lớn cần đi qua

# 2. HÀNH VI CỦA GREEDY
# Greedy thì "mù", chỉ biết đường 0 là ngắn nhất -> Đâm đầu vào.
greedy_action = 0
print(f"\n>> Greedy: Chọn đường {greedy_action} (Shortest Path)")
if env.current_load[greedy_action] + demand > env.path_capacities[greedy_action]:
    print("   KẾT QUẢ GREEDY: ❌ GÂY NGHẼN MẠNG! (Load vượt quá 100)")
else:
    print("   KẾT QUẢ GREEDY: May mắn thoát.")

# 3. HÀNH VI CỦA RL
agent.epsilon = 0 # Tắt random
rl_action = agent.act(rigged_state)

print(f"\n>> RL Agent: Chọn đường {rl_action}")

if rl_action != 0:
    print("   KẾT QUẢ RL: ✅ THÔNG MINH! Agent đã né đường 0 để chọn đường thoáng hơn.")
    # Kiểm tra xem đường mới có chịu nổi không
    new_load = env.current_load[rl_action] + demand
    if new_load <= env.path_capacities[rl_action]:
        print("   -> Định tuyến thành công, mạng vẫn an toàn.")
else:
    print("   KẾT QUẢ RL: ❌ Thất bại, vẫn chọn đường nghẽn (Cần train thêm).")


--- TEST KỊCH BẢN KHÓ: ÉP AGENT PHẢI NÉ ĐƯỜNG NGẮN ---
Trạng thái mạng: [0.95  0.1   0.125]
(Đường 0 [Index 0] đang bị nghẽn 95%!)

>> Greedy: Chọn đường 0 (Shortest Path)
   KẾT QUẢ GREEDY: ❌ GÂY NGHẼN MẠNG! (Load vượt quá 100)

>> RL Agent: Chọn đường 1
   KẾT QUẢ RL: ✅ THÔNG MINH! Agent đã né đường 0 để chọn đường thoáng hơn.
   -> Định tuyến thành công, mạng vẫn an toàn.
