# 小作业一： 静态博弈与纳什均衡

同学们在前三节课上已经学习了完全信息静态博弈的概念，以及在博弈中的纳什均衡的存在和其求解方法。
在这次作业中，你们将会回顾之前的知识，并用python来实现静态博弈的求解。
## 目录

本次作业主要分为以下几个部分：
- 静态博弈的定义和回报矩阵
- （混合）策略的回报
- 纳什均衡的求解
    - 规划求解法
    - 支撑求解法

## 提交说明：
请同学们在canvas上提交，本次作业满分100分，占总成绩15%。

**注意，请同学们在提交的版本中不要添加和删改notebook中的函数名，我们会根据这些实现的函数来进行评分。如有其他问题，请联系助教。**

提交文件名设置为 `{姓名}_{学号}_hw1.ipynb`，如`小明_123_hw1.ipynb`.


## 静态博弈的定义和回报矩阵
通过课程的学习，我们知道了一个完全信息静态博弈的数学定义如下：
- $N$个玩家
- 玩家们的行动集合 $\{\mathcal{A}_1, \mathcal{A}_2,\ldots, \mathcal{A}_N\}$
- 玩家们的回报函数 $\{u_i: \mathcal{A}_1 \times \mathcal{A}_2 \times \ldots \times \mathcal{A}_N \rightarrow \mathbb{R} | i=1,2\ldots, N \}$

### 练习一 (10分)
基于上述信息，我们可以构造出每个玩家的回报矩阵（记为$\mathbf{R}^i$），**请根据下面的文字描述信息，写出所有玩家的回报矩阵。**
一个航班中的两位不同的乘客手提箱，两个手提箱的价值相同，航空公司的经理承诺会给他们最多5英镑的价值赔偿。
但是，经理想要知道手提箱的真正价值，于是他将两个乘客分开并让他们写下他们的行李箱的价值（2到5之间的整数），并告诉他们如下规则：
- 如果两个人给出的数字是相同的，那么他们都将得到这个数字的赔偿。
- 如果他们两个人给出的数字是不同的, 不是一般性，我们假设 $x < y$, 那么给出$x$的乘客将获得$x+2$的补偿, 而另一个乘客将获得$x-2$的补偿。
请将该问题建模成为一个双人静态博弈，并给出他们各自的回报矩阵（提示，是一个$4\times 4$的矩阵）。
**并将你的答案填入下面的矩阵之中:**

$$
\mathbf{R}^1 = \left[\begin{matrix}
2 & 4 & 4 & 4 \\
0 & 3 & 5 & 5 \\
0 & 1 & 4 & 5 \\
0 & 1 & 2 & 5
\end{matrix}\right] 
\quad 
\mathbf{R}^2 = \left[\begin{matrix}
2 & 0 & 0 & 0 \\
4 & 3 & 1 & 1 \\
4 & 5 & 4 & 2 \\
4 & 5 & 5 & 5
\end{matrix}\right].
$$
$$
r_1 = 2, r_2 = 3, r_3 = 4, r_4 = 5
$$

## （混合）策略的回报
现在，假设 $N=2, \mathcal{A}_1 = \mathcal{A}_2 = \{1,2\}$, 以及相应的回报矩阵为
$$
\mathbf{R}^1 = \left[\begin{matrix}
r^1_{11} & r^1_{12} \\
r^1_{21} & r^1_{22}
\end{matrix}\right] 
\quad 
\mathbf{R}^2 = \left[\begin{matrix}
r^2_{11} & r^2_{12} \\
r^2_{21} & r^2_{22}
\end{matrix}\right].
$$

如果玩家一选择动作 $i$ 并且玩家二选择动作 $j$, 那么相应地双方就会得到奖励 $r^1_{ij}$ 和 $r^2_{ij}$.

接着我们使用 $\pi_1 = \alpha\in [0,1] $ 表示玩家一的策略, 其中 $\alpha$ 代表他选择动作一的概率, 而 $1-\alpha$ 是执行动作二的概率。 类似的，我们也可以用 $\pi_2 = \beta$ 来表示玩家二的策略。

基于双方的策略 $(\alpha, \beta)$, 我们可以计算出双方的 **期望回报**。我们记 $V^1(\alpha, \beta)$ 和 $V^2(\alpha, \beta)$ 分别为玩家一和玩家二的在这一情况下的期望回报:

$$
\begin{aligned} V^{1}(\alpha, \beta) &=\alpha \beta r^1_{11}+\alpha(1-\beta) r^1_{12}+(1-\alpha) \beta r^1_{21}+(1-\alpha)(1-\beta) r^1_{22} \\ &=u^1 \alpha \beta+\alpha\left(r^1_{12}-r^1_{22}\right)+\beta\left(r^1_{21}-r^1_{22}\right)+r^1_{22} \ \ \ \ (1)\end{aligned}      
$$  
$$
\begin{aligned} V^{2}(\alpha, \beta) &=\alpha \beta r^2_{11}+\alpha(1-\beta) r^2_{12}+(1-\alpha) \beta r^2_{21}+(1-\alpha)(1-\beta) r^2_{22} \\ &=u^2 \alpha \beta+\alpha\left(r^2_{12}-r^2_{22}\right)+\beta\left(r^2_{21}-r^2_{22}\right)+r^2_{22}\ \ \ \ (2) \end{aligned}  
$$

其中定义

$$
\begin{aligned} u^1 &=r^1_{11}-r^1_{12}-r^1_{21}+r^1_{22} \ \ \ \ (3)\\  u^2 &=r^2_{11}-r^2_{12}-r^2_{21}+r^2_{22}.\ \ \ (4)\end{aligned}  
$$
### 练习二（10分）
在接下来的练习中，你将要使用python代码来完成期望回报的计算（请填充下图#TODO注释的代码块）：

In [8]:
! pip install -q numpy
import numpy as np
from copy import deepcopy
import warnings
warnings.filterwarnings('ignore')

#  implement Eqs. (3) and (4)
def U(payoff):    
    ########### TODO: Compute u ###########
    #
    u = payoff[0][0] - payoff[0][1] - payoff[1][0] + payoff[1][1]
    # Hello teacher, I think the formula should use subscript instead of superscript for better understanding.
    #
    ########### END TODO ############################
    
    return u
  
    
# expected payoff Eqs (1) and (2)
def V(alpha, beta, payoff):
    ########### TODO: Compute expected payoff of given strategies alpha and beta ###########
    #
    v = U(payoff) * alpha * beta + alpha * (payoff[0][1] - payoff[1][1]) + beta * (payoff[1][0] - payoff[1][1]) + payoff[1][1]
    #
    ########### END TODO ##############################################################################
    
    return v


payoff_1 = np.array([[0, 3], 
                     [1, 2]]) # Example payoff matrix for player 1
payoff_2 = np.array([[3, 2], 
                     [0, 1]]) # Example payoff matrix for player 2

pi_alpha = 0. # initial strategy for player 1
pi_beta = 0.9 # initial strategy for player 2

u_alpha = U(payoff_1)
u_beta = U(payoff_2)
v_1 = V(pi_alpha, pi_beta, payoff_1)
v_2 = V(pi_alpha, pi_beta, payoff_2)

print('Expected payoff for agent 1:', v_1, '; agent 2:', v_2)

Expected payoff for agent 1: 1.1 ; agent 2: 0.09999999999999998


You should consider upgrading via the 'D:\Miniconda3\python.exe -m pip install --upgrade pip' command.


#### Bonus （10分）: 使用线性代数的向量/矩阵运算完成上述期望回报的计算：

In [9]:
sigma_1 = np.array([pi_alpha, 1-pi_alpha])
sigma_2 = np.array([pi_beta, 1-pi_beta])
############### TODO: Use linear algebraic calculation to compute expected payoffs ################################
#
payoff1 = sigma_2 @ (sigma_1 @ payoff_1)
payoff2 = sigma_2 @ (sigma_1 @ payoff_2)
#   
############################ END TODO #####################################
print(payoff1, payoff2)

# Use nashpy to check to result
! pip install -q nashpy -i https://pypi.douban.com/simple/
import nashpy as nash
game = nash.Game(payoff_1, payoff_2)

print("Expected payoff calculated by nashpy is:", game[sigma_1, sigma_2])

1.1 0.09999999999999998
Expected payoff calculated by nashpy is: [1.1 0.1]


You should consider upgrading via the 'D:\Miniconda3\python.exe -m pip install --upgrade pip' command.


## 纳什均衡的求解
在课程的学习中，我们学习了纳什均衡的基本求解方法，这其中比较通用的是规划求解法以及支撑集求解法。接下来，你将通过python代码来实现简单的双人零和博弈的线性规划求解以及支撑集求解法。

### 规划求解法
在这一节中我们将回顾线性规划的相关知识，并且了解如何将一个双人零和博弈建模成线性规划问题并使用求解器求解。
#### 线性规划
线性规划指的是求解目标函数以及约束都为线性时的优化问题。通常一个线性规划问题的数学表示为

\begin{aligned}
\min ~ c^\top x \\
s.t. Ax = b \\ 
x \geq 0
\end{aligned}

在这其中，矩阵$A$和向量$b$是由问题定义而确定，向量$x$是期望被求解以最小化目标值的向量。
接下来我们将通过一个简单的例子来说明如何将一个实际问题构造成线性规划的形式并且输入到求解器中进行求解：
> 一个农夫拥有一块大小为$L$平方公里的田地，他希望在上面种植小麦、大麦或者两种都种植一部分。农夫拥有的原材料是有限的，只有$K$公斤肥料，$P$公斤杀虫剂。对于小麦的种植来说，每平方公里需要$F_1$ 千克肥料以及$P_1$ 千克杀虫剂。类似的，大麦的需求分别是$F_2$ 和 $P_2$。记$S_1$为每平方公里小麦的售价而$S_2$为每平方公里大麦的售价。农夫需要找出一个满足条件的种植分配方法来最大化自己的种植收益。

这是一个典型的线性规划问题，假设$x_1$分别是$x_2$小麦和大麦的种植面积。上述问题可以被表述为：
\begin{aligned}
\max \quad S_1\cdot x_1+S_2\cdot x_2 & \quad & \text{(最大化收益)}\\
\text{Subject to} \quad x_1 + x_2 & \leq L \quad & \text{(总体种植面积约束)} \\
F_1\cdot x_1+F_2\cdot x_2 & \leq F \quad & \text{(肥料约束)} \\
P_1\cdot x_1 + P_2\cdot x_2 & \leq P \quad & \text{(杀虫剂约束)} \\
x_1\geq 0, x_2 & \geq 0 \quad & \text{(正确性（非负）约束)}
\end{aligned}

##### 只用`cvxopt`求解上述问题

定 $L = 50, S_1 = 1.5, S_2 = 2.5, F_1 = 1.0, P_1 = 2.0, F_2 = 4.0, P_2 = 3.0, F = 100, P = 100$, 我们使用`cvxopt`作为该线性规划问题的[求解器](https://en.wikipedia.org/wiki/List_of_optimization_software). 你需要将先前列出的目标和约束转换成一个`cvxopt`支持的标准矩阵格式，然后将约束矩阵输入进去得到最优解。

- [`cvxopt`的参考文档](https://cvxopt.org/userguide/coneprog.html#linear-programming)

提示: `cvxopt` 的标准输入形式是最小化问题. 
一些转换规则：
- $\max c^\top x \iff \min -c^T x$
- $Gx + s = h, s \geq 0 \iff Gx \leq h$
- $x \geq 0 \iff -x \leq 0$

### 练习三 （20分）
请根据上述例子，实现这一问题的线性规划求解。

In [10]:
import numpy as np
! pip install -q cvxopt -i https://pypi.douban.com/simple/
from cvxopt import matrix, solvers

L = 50.
S_1, S_2 = 1.5, 2.5
F_1, P_1 = 1.0, 2.0
F_2, P_2 = 4.0, 3.0
F = 100.
P = 100.

################## TODO: Compute c, G and h for cvxopt (please refere to the above link for the examples of using cxopt) ###
#
#          Write your code here
# HINT:
#     for objective,construct min c^Tx
#     for inequality constraints, construct Gx <= h with G of shape (M+N, N+1)
c = matrix([-S_1, -S_2]) #\min -c^T x
G = matrix([[F_1, P_1, -1., 0.], [F_2, P_2, 0., -1.]]) # Gx <= h
h = matrix([F, P, 0., 0.])# Gx <= h
################### END TODO ######################################



print("Start solving ...")
sol = solvers.lp(c, G, h)

print("The solution is:\n", sol['x'])

Start solving ...
     pcost       dcost       gap    pres   dres   k/t
 0: -7.5000e+01 -3.2500e+02  6e+01  1e-02  3e+00  1e+00
 1: -7.7709e+01 -1.0203e+02  5e+00  1e-03  3e-01  1e-01
 2: -7.9948e+01 -8.0391e+01  9e-02  3e-05  5e-03  5e-03
 3: -7.9999e+01 -8.0004e+01  9e-04  3e-07  5e-05  5e-05
 4: -8.0000e+01 -8.0000e+01  9e-06  3e-09  5e-07  5e-07
 5: -8.0000e+01 -8.0000e+01  9e-08  3e-11  5e-09  5e-09
Optimal solution found.
The solution is:
 [ 2.00e+01]
[ 2.00e+01]



You should consider upgrading via the 'D:\Miniconda3\python.exe -m pip install --upgrade pip' command.


##### 双人零和博弈的线性规划问题建模
假设零和博弈的回报矩阵分别是 $R$ 和 $-R$, 玩家的策略记为 $p \in \Delta_{\mathcal{A}},q \in \Delta_{\mathcal{B}}$, $\Delta_{\mathcal{A}}=\{\mu \in \mathbb{R}^{|\mathcal{A}|} | \sum_{i=1}^{|\mathcal{A}|} \mu_i =1, \mu_i \ge 0\}$ 为在动作集合$\mathcal{A}$上的混合策略空间。

在之前的课程中我们知道可以将一个双人零和博弈问题转化为一个 min-max 问题：

$$\min_{q \in \Delta_\mathcal{B}} \max_{p \in \Delta_\mathcal{A}} p^T R q$$

进而可以将其转化为两个对偶线性规划的求解问题：

\begin{align}
\min \quad & w \\ 
s.t. \quad & \sum_j R_{ij}q_j \leq w, \forall i = 1,\cdots, |\mathcal{A}| \\
& \sum_j q_j = 1 \\ 
& q_j \geq 0, \forall j = 1,\cdots, |\mathcal{B}|
\end{align}


### 练习四 （20分）
请按照上述求解过程，实现双人零和博弈的求解

In [11]:
import numpy as np
from cvxopt import matrix, solvers


def solve(R: np.ndarray):
    M, N = R.shape
    ########### TODO: Compute c, G, h, A, b based on the payoff matrix R ############
    #
    # Write your code here.
    #
    # HINT: variables: x = [q_1, ..., q_N, w]^T of shape (N+1, 1)  
    #     for objective,construct min c^Tx
    #     for equality constraints, construct Ax^T = b with A of shape (1, N+1)
    #     for inequality constraints, construct Gx <= h with G of shape (M+N, N+1)
    #
    # for objective
    c = matrix(np.zeros((N+1, 1))) 
    c[N, 0] = 1. # c^T x = w

    # for equality constraints
    A = np.ones((1, N+1))
    A[0, N] = 0.
    A = matrix(A)
    b = np.ones((1, 1))
    b = matrix(b)

    # for inequality constraints
    G = np.zeros((M+N, N+1))
    G[:M, :N] = R
    G[:M, N] = -1. * np.ones((M))
    G[M:, :N] = -1. * np.identity(N)
    G = matrix(G)
    h = matrix(np.zeros((M+N, 1)))
    ########################## END TODO #############################################
    
    
    
    sol = solvers.lp(c, G, h, A, b)
    
    print("The nash policy for player 2 in this game is:\n", sol['x'][:-1])    # q_1, ..., q_N
    print("The expected payoff is:", sol['x'][-1])     # w


print("For game Rock Paper Scissors")
R_1 = np.array([[0, -1, 1], [1, 0, -1], [-1, 1, 0]], dtype=np.float)
solve(R_1)

print("-"*50)
print("For game Matching Pennies")

R_2 = np.array([[-1, 1], [1, -1]], dtype=np.float)
solve(R_2)

For game Rock Paper Scissors
     pcost       dcost       gap    pres   dres   k/t
 0:  0.0000e+00 -0.0000e+00  8e+00  2e+00  3e+00  1e+00
 1: -2.4691e-02  2.4691e-02  4e-02  1e-01  1e-01  9e-02
 2: -2.0022e-04  2.0022e-04  6e-04  1e-03  2e-03  9e-04
 3: -2.0010e-06  2.0010e-06  6e-06  1e-05  2e-05  9e-06
 4: -2.0010e-08  2.0010e-08  6e-08  1e-07  2e-07  9e-08
 5: -2.0010e-10  2.0010e-10  6e-10  1e-09  2e-09  9e-10
Optimal solution found.
The nash policy for player 2 in this game is:
 [ 3.33e-01]
[ 3.33e-01]
[ 3.33e-01]

The expected payoff is: -2.0009830567980356e-10
--------------------------------------------------
For game Matching Pennies
     pcost       dcost       gap    pres   dres   k/t
 0:  0.0000e+00 -0.0000e+00  6e+00  2e+00  2e+00  1e+00
 1: -3.3473e-02  3.3473e-02  9e-03  8e-02  9e-02  1e-01
 2: -3.2671e-04  3.2671e-04  1e-04  8e-04  1e-03  1e-03
 3: -3.2668e-06  3.2668e-06  1e-06  8e-06  1e-05  1e-05
 4: -3.2668e-08  3.2668e-08  1e-08  8e-08  1e-07  1e-07
Optimal soluti

### 支撑求解法
在之前的课程中我们已经学习了使用支撑求解法来求解静态博弈问题的纳什均衡，接下来我们会进行必要的回顾，然后使用python实现该算法。
#### 算法回顾
支撑求解法的基本思想在于
- 通过不断地枚举纳什均衡中可能的支撑策略集合
- 然后求解出符合最优应对条件的策略支撑分布
- 接着验证该分布是否是纳什均衡。

### 练习五 （40分）
请根据上述算法描述实现代码

##### 支撑集枚举
下述代码是生成枚举集合，提示：可以使用`python`的`itertools`库进行组合的枚举

In [12]:
def nontrivial_potential_support_pairs(M: int, N: int):
    """A generator for the potential support pairs' indices
    M: the number of action of player 1
    N: the number of action of player 2
    """
    ############# TODO: implement the generator for the potential support pairs ##############
    #
    #            Write your code here
    #
    #    HINT:
    #        your code should not "return" something
    #        but use "yield"
    import itertools
    for i in range(1, M+1):
        sp1 = itertools.combinations(range(M), i)
        for sp_1 in sp1:
            for j in range(1, N+1):
                sp2 = itertools.combinations(range(N), j)
                for sp_2 in sp2:
                    yield sp_1, sp_2
    ##################### END TODO ##########################################
    
    
    

    
print("Test enumeration correctness for M=2, N=2 ...")
for sp1, sp2 in nontrivial_potential_support_pairs(2, 2):
    print("enumerate to", sp1, sp2)

############## Correct output is like this ################
# Test enumeration correctness for M=2, N=2 ...
# enumerate to (0,) (0,)
# enumerate to (0,) (1,)
# enumerate to (0,) (0, 1)
# enumerate to (1,) (0,)
# enumerate to (1,) (1,)
# enumerate to (1,) (0, 1)
# enumerate to (0, 1) (0,)
# enumerate to (0, 1) (1,)
# enumerate to (0, 1) (0, 1)

Test enumeration correctness for M=2, N=2 ...
enumerate to (0,) (0,)
enumerate to (0,) (1,)
enumerate to (0,) (0, 1)
enumerate to (1,) (0,)
enumerate to (1,) (1,)
enumerate to (1,) (0, 1)
enumerate to (0, 1) (0,)
enumerate to (0, 1) (1,)
enumerate to (0, 1) (0, 1)


##### 生成符合最优应对条件的支撑集策略分布
接下来我们要根据枚举得到的支撑集，计算出符合条件的分布，具体细节请参考第二次课程。
我们首先实现一个计算分布的工具函数：

In [13]:
def solve(payoff, support1, support2):
    """Solve the best response condition according to supports
    
    In this function, your need to create the nash best response condition as
    a linear system, i.e. solve x s.t. Mx = b
    """
    ################ TODO: create constraints to ##############################################
    ########  ensure differences between pairs of pure strategies are the same ################
    #
    # Write your code here
    #
    M = np.zeros((len(support1), payoff.shape[1]))
    for i in range(len(support1)):
        M[i, :] = payoff[support1[i], :] - payoff[support1[i - 1], :]
    M = M[:-1, :]
    ################# END TODO #########################
    
    
    
    ######################## TODO: constraints to ###########################
    ################## ensure the nonsupported columns are of zero prob #########
    #
    # Write your code here
    #
    for i in range(payoff.shape[1]):
        if i not in support2:
            tool = []
            for j in range(payoff.shape[1]):
                tool.append(int(i == j))
            M = np.append(M, np.array([tool]), axis=0)
    #########################################################################
    
       
    
    ######################## TODO: constraints to ###########################
    ################## ensure the probs of all supports sum to one #########
    #
    # Write your code here
    #
    M = np.append(M, np.ones((1, M.shape[1])), axis=0)
    b = np.append(np.zeros(len(M) - 1), [1])
    #########################################################################
    
     
    # Then we use np.linalg to solve the linear system
    prob = np.linalg.solve(M, b)
    return prob

通过上述求解线性问题的函数我们来枚举生成每个支撑集的策略。

In [14]:
def compute_support_strategy(A, B, support1, support2):
    """A generator for computing support strategies 
    according to best response condition
    A: payoff of player 1 
    B: payoff of player 2
    support1: support of player 1 
    support2: support of player 2
    """
    
    ############# TODO: solve the problem to get each player's strategy ##############
    #
    # Write your Code here
    #
    #    HINT:
    #        you'll need to compute two strategies using the above defined solve() functoin
    #    and name them as "s1" and "s2"
    #
    s1 = solve(B.T, support2, support1)
    s2 = solve(A, support1, support2)
    ############################### END TODO #############################################

    return s1, s2


接着我们需要检查计算出来的策略关于给定的支撑集的合法性，即，检查非支撑的元素的概率质量是否为0，反之亦然。

In [15]:
def check_support(strategy, support, tol: float=1e-16):
    """ Check whether the strategy obeys support
    tol: tolerance for float number check, 
        i.e to check a > 0 --> a > tol, vice versa
    """
    ################## TODO: check the correctness of a strategy given support #########
    #
    # Write your code here
    #
    for i in support:
        if strategy[i] < tol:
            return False
    return True
    #####################################################################################
    

对于合法的支撑策略，接下来我们要验证其是否为纳什均衡

In [16]:
def is_ne(pi1, pi2, support1, support2, A, B):
    """Test if current pair is nash equilibrium
    i.e. this is a pair of best response.
    """
    
    payoffs1 = np.dot(A, pi2)
    payoffs2 = np.dot(B.T, pi1)
    
    support_payoffs1 = payoffs1[np.array(support1)]
    support_payoffs2 = payoffs2[np.array(support2)]
    
    return (
        payoffs1.max() == support_payoffs1.max() 
        and payoffs2.max() == support_payoffs2.max()
    )

有了这些工具函数之后，我们就可以开始实现纳什均衡的支撑集求解算法了。

In [17]:
def support_enumeration(A, B, tol=1e-16):
    M, N = A.shape
    for support1, support2 in nontrivial_potential_support_pairs(M, N):
        try:
            s1, s2 = compute_support_strategy(A, B, support1, support2)
        except np.linalg.LinAlgError:
            # since some cases have too many constraints than variables
            continue
        if check_support(s1, support1, tol) and check_support(s2, support2, tol) \
            and is_ne(s1, s2, support1, support2, A, B):
            yield s1, s2


A = np.array([[3, 3], [2, 5], [0, 6]])
B = np.array([[3, 2], [2, 6], [3, 1]])

print("Nash equiliria:", list(support_enumeration(A, B)))

# Test your answer with nashpy
import nashpy as nash
game = nash.Game(A, B)

print("\nOutput of nashpy:" ,list(game.support_enumeration()))

Nash equiliria: [(array([1., 0., 0.]), array([1., 0.])), (array([0.8, 0.2, 0. ]), array([0.66666667, 0.33333333])), (array([0.        , 0.33333333, 0.66666667]), array([0.33333333, 0.66666667]))]

Output of nashpy: [(array([1., 0., 0.]), array([1., 0.])), (array([0.8, 0.2, 0. ]), array([0.66666667, 0.33333333])), (array([0.        , 0.33333333, 0.66666667]), array([0.33333333, 0.66666667]))]
