
### Отчет по исследованию матричных игр

**Выполнил**: Решетников Егор Алексеевич (ПМ-41) (reshetnikov.e.a@mail.ru)

**Преподаватель**: Гурьянов М.А., кафедра ВМ-1


Весенний семестр, 2022 год

МИЭТ, Зеленоград

### Глава 1. Инструментарий

Матричные игры
$$
G = 
\left(
\begin{matrix}
  a_{1,1} & a_{1,2} & \cdots & a_{1,n} \\
  a_{2,1} & a_{2,2} & \cdots & a_{2,n} \\
  \vdots  & \vdots  & \ddots & \vdots  \\
  a_{m,1} & a_{m,2} & \cdots & a_{m,n} 
\end{matrix}
\right)
$$
Стратегия игрока А:
$$
x = [x_1,x_2,\cdots, x_m]\\
\sum x_i = 1
$$
Стратегия игрока B:
$$
y = [y_1,y_2,\cdots, y_n]\\
\sum y_j = 1
$$
Математическое ожидание выигрыша:
$$
F = X \cdot G \cdot Y' = \sum_{i,j}a_{ij}x_iy_j
$$

______________________
#### Задача линейного программирования, решаемая linprog
ЗЛП (задача линейного программирования) - сделать выигрыш $F$ максимальным.
______________________

##### Оптимальная стратегия. Метод минимакс и максимин.
**Определение**. Для каждого игрока для каждой из стратегий можно посчитать минимальный выигрыш или максимальный проигрыш.

Минимальный выигрыш для игрока $A$ при выборе стратегии $j$ - минимальный элемент в соответствующей строке
$$
\alpha_j = \min_i G[i,j]
$$

Игрок А всегда старается выбрать стратегию так чтобы его минимальный возможный выигрыш был максимальным. т.е. для него цена игры при худшем раскладе будет
$$
\alpha = \max_j \min_i G[i,j]
$$

Это число называют **максимин** или **нижняя цена игры**

Максимальный проигрыш для игрока $A$ при выборе стратегии $i$ - минимальный элемент в соответствующей строке

$$
\beta_i = \max_i G[i,j]
$$

Второй игрок старается сделать свой проигрыш в худшем для него раскладе как можно меньше. тогда он старается минимизировать потери :

$$
\beta = \min_j \max_i G[i,j]
$$

Это число называют **минимакс** или **верхняя цена игры**



##### Теорема
Если **нижняя цена игры** и **верхняя цена игры** совпадают то говорят что в игре есть оптимальная стратегия для двух игроков - **седловая точка**

Алгоритм анализа матричной игры:

* **Шаг 1**: Проанализировать текст игры и определить стратегии игроков (задать количество строк и количество столбцов)
* **Шаг 2**: Для каждого хода каждого игрока выбрать и рассчитать функцию выигрыша. Для антогонистических игр убедиться что для обоих игроков функция означает одно и то же.
* **Шаг 3**: Составить платежную матрицу игры
* **Шаг 4**: Поставить ЗЛП (на лабах 1-3 будем делать этот шаг упрощенно)
* **Шаг 5**: Упростить платежную матрицу методом СДС (начиная с лаб.4)
* **Шаг 6А**: Решить в чистых стратегиях (если есть седловая точка)
* **Шаг 6Б**: Решить в смешанных стратегиях (если нет седловой точки)

### Глава 2. Задания

#### Задание 1

Дана матричная игра с платёжной матрицей
$$
G = 
\begin{matrix}
\left(
\begin{matrix}
   3 & 9 & 2 & 1 \\
   7 & 8 & 5 & 6 \\
   4 & 7 & 3 & 5 \\
   5 & 6 & 1 & 7 \\
\end{matrix}
\right)
& 
\begin{matrix}
   1 \\
   [5] \\
   3 \\
   1 \\
\end{matrix}
\\
\begin{matrix}
7 & 9 & [5] & 7
\end{matrix} & 
\end{matrix}
$$

Как видно у матрицы есть вполне четкое оптимальное решение

**Задание для лабораторной**: Написать программу которая проверяет наличие оптимальной стратегии и выводит его. Не используем **linprog**

In [6]:
## Код на Питоне

import numpy as np

# Функция проверки наличия оптимальной стратегии и его вывода для произвольной платежной матрицы
def solve(game: np.ndarray):
    print("(индексы начинаются с 0)")
    # т.к. использовать linprog нельзя, найдем максимин и минимакс "в лоб"

    # Найдем максимин
    min_column_numbers = [np.where(row==min(row))[0][0]  for row in game]
    max_value = -1000000
    maxmin_row_number = 0
    maxmin_column_number = 0
    for row_number, column_number in zip(range(game.shape[0]), min_column_numbers):
            if game[row_number][column_number] > max_value:
                max_value = game[row_number][column_number]
                maxmin_row_number = row_number
                maxmin_column_number = column_number
    print("Оптимальная стратегия игрока 1: i = {0}".format(maxmin_row_number))

    # Найдем минимакс
    max_row_numbers = [np.where(row==max(row))[0][0]  for row in game.T]
    min_value = 1000000000
    minmax_column_number = 0
    minmax_row_number = 0
    for row_number, column_number in zip(max_row_numbers, range(game.shape[1])):
        if game[row_number][column_number] < min_value:
            min_value = game[row_number][column_number]
            minmax_column_number = column_number
            minmax_row_number = row_number
    print("Оптимальная стратегия игрока 2: j = {0}".format(minmax_column_number))

    # Проверяем, найдена ли седловая точка
    if minmax_column_number == maxmin_column_number and maxmin_row_number == minmax_row_number:
        print("Нижние и верхние цены совпали, найдена седловая точка")
        print("i = {0}".format(maxmin_row_number))
        print("j = {0}".format(minmax_column_number))
        print("Значение седловой точки: {0}".format(game[maxmin_row_number][minmax_column_number]))

# произвольная платежная матрица (из задания)
game = np.array([[3, 9, 2, 1], [7, 8, 5, 6], [4, 7, 3, 5], [5, 6, 1, 7]])

# Вызов функции:
solve(game)

(индексы начинаются с 0)
Оптимальная стратегия игрока 1: i = 1
Оптимальная стратегия игрока 2: j = 2
Нижние и верхние цены совпали, найдена седловая точка
i = 1
j = 2
Значение седловой точки: 5


#### Linprog и решение задач оптимизации с ее использованием

$$
G = 
\begin{matrix}
\left(
\begin{matrix*}[r]
  2 & 0\\
  0 & 6
\end{matrix*}
\right)
& 
\begin{matrix}
  0 \\
  [0]
\end{matrix}
\\
\begin{matrix}
[2] & 6
\end{matrix} & 
\end{matrix}
$$

In [2]:
from scipy.optimize import linprog
import numpy as np

f =  [-1, -1]
Game = [[2, 0],[0, 6]]
b = [1, 1]
res = linprog(f,Game,b)
cost = -1/res.fun
strategy = res.x * cost
print (cost)
print (strategy)
##print (res)

1.5
[0.75 0.25]


$$
G = 
\begin{matrix}
\left(
\begin{matrix}
   1 & 0 & 4 \\
   5 & 3 & 8  \\
   6 & 0 & 1  
\end{matrix}
\right)
& 
\begin{matrix}
   0 \\
   [3] \\
   0 \\
\end{matrix}
\\
\begin{matrix}
6 & [3] & 8 
\end{matrix} & 
\end{matrix}
$$

In [3]:
f =  [-1, -1, -1]
Game = [[1, 0, 4],[5, 3, 8],[6, 0, 1]]
b = [1, 1, 1]
res = linprog(f,Game,b)
cost = -1/res.fun
strategy = res.x * cost
## print (cost)
## print (strategy)
## print (res)

## As you can see, the numerical method has its limitations 
# - it can lack precision
# In this case  the Game has an optimum in Pure srtategies 
# so the cost and the strategy should consist of INT only. 
# Lets fix

strategy = np.round(np.array(strategy),1)
print (round(cost))
print (strategy)

3
[0. 1. 0.]


In [4]:
## Код на Питоне

f =  [-1, -1, -1, -1]

## Do not forget to interrupt long 
# lines of code for better readability. 
# the width of 80 simbols is considered 
# to be the maximum for most usecases

Game = [[3, 9, 2, 1],
    [7, 8, 5, 6],
    [4, 7, 3, 5],
    [5, 6, 1, 7]]

b = [1, 1, 1, 1]
res = linprog(f,Game,b)
cost = -1/res.fun
strategy = res.x * cost
## print (cost)
## print (strategy)
## print (res)

strategy = np.round(np.array(strategy),1)
print (round(cost))
print (max(strategy))

## Note that we found best strategy for the player B. 
# Try to understand why and how to check 
# the outcome for player A by yourself. 
# Read manuals for LINPROG
f =  np.array([-1, -1, -1, -1])

game = np.array([[3, 9, 2, 1],
                 [7, 8, 5, 6],
                 [4, 7, 3, 5],
                 [5, 6, 1, 7]])

b = np.array([1, 1, 1, 1])
res = linprog(f,game,b)
print(res.fun)
cost = res.fun
strategy = res.x * cost
## print (cost)
## print (strategy)
## print (res)

strategy = np.round(np.array(strategy),1)
print (round(cost))
print (strategy)


5
1.0
-0.20000000258614797
0
[-0. -0. -0. -0.]


#### Задание 3
Выбрать текстовую игру и разобрать ее по 6 шагам (у студентов не должны повторяться игры)

**"камень-ножницы-бумага"**

Каждый игрок во время своего хода независимо от другого выбирает одну из трех стратегий, называемых «камень», «ножницы» и «бумага». Выбранные стратегии сравниваются. Если они совпадают, выигрыш первого игрока составляет 0 (ничья), в
противном случае побеждает игрок с более сильной стратегией. «Камень»
считается сильнее «ножниц», которые, в свою очередь, сильнее «бумаги»,
которая сильнее «камня». Выигрыш победившего игрока составляет 1,
проигравшего -1.

#### Алгоритм анализа матричной игры
* **Шаг 1**: Проанализировать текст игры и определить стратегии игроков (задать количество строк и количество столбцов)

Старетгия каждого из игроков заключаются в выборе "камня", "ножниц" или "бумаги". Таким образом, в нашей платёжной матрице будет 3 строки и 3 столбца.

* **Шаг 2**: Для каждого хода каждого игрока выбрать и рассчитать функцию выигрыша. Для антогонистических игр убедиться что для обоих игроков функция означает одно и то же

Функция выигрыша для первого игрока имеет вид:

$$
F_{1} =
\begin{cases}
0 & x=y\\
1 & (x, y) ∈ \{(3, 1), (2, 1), (3, 2)\}\\
-1 & (x, y) ∈ \{(2, 1), (2, 3), (3, 1)\}
\end{cases}
$$

Здесь 1 - "Камень", 2 - "Ножницы", 3 - "Бумага".

Так как выигрыш первого игрока равен проигрышу второго, то: $$ F_{2}(x,y)=-F_{1}(x,y)$$

* **Шаг 3**: Составить платежную матрицу игры
Платежная матрицы игры имеет вид:
$$
G = 
\begin{matrix}
\left(
\begin{matrix}
   0 & 1 & -1\\
   -1 & 0 & 1\\
   1 & -1 & 0\\
\end{matrix}
\right)
& 
\begin{matrix}
   "Камень" \\
   "Ножницы" \\
   "Бумага" \\
\end{matrix}
\\
\begin{matrix}
"Камень" & "Ножницы" & "Бумага"
\end{matrix} & 
\end{matrix}
$$



* **Шаг 4**: Поставить ЗЛП (на лабах 1-3 будем делать этот шаг упрощенно)

Стратегия игрока А:
$$
x = [x_1,x_2,\cdots, x_m]\\
\sum x_i = 1
$$
Стратегия игрока B:
$$
y = [y_1,y_2,\cdots, y_n]\\
\sum y_j = 1
$$
Математическое ожидание выигрыша:
$$
F = X \cdot G \cdot Y' = \sum_{i,j}a_{ij}x_iy_j
$$
ЗЛП (задача линейного программирования) - сделать выигрыш  𝐹  максимальным.

* **Шаг 5**: Упростить платежную матрицу методом СДС (начиная с лаб.4)

* **Шаг 6**: Решить в смешанных стратегиях (если нет седловой точки)

In [10]:
## Код на Питоне

# Задаим платженую матрицу и вызовем функцию из задания 1
game = np.array([[0, 1, -1], [-1, 0, 1], [1, -1, 0]])

solve(game)

f =  [-1, -1, -1]
Game = [[0, 1, -1], [-1, 0, 1], [1, -1, 0]]
b = [1, 1, 1]
res = linprog(f,Game,b)
cost = -1/res.fun
strategy = res.x * cost
print (round(cost))
print (max(strategy))

(индексы начинаются с 0)
Оптимальная стратегия игрока 1: i = 0
Оптимальная стратегия игрока 2: j = 0
0
0.33333334885712756


**Просуммируем, задания для исполнителей:**
1. Составить конспект называющийся "Глава 1: Инструментарий" где изложить методы поиска седловой точки, 6 шагов разбора игры и сопуствующие термины и определения которые необходимы для понимания вашего текста.
2. Написать программу проверяющую произвольную платежную матрицу на наличие седловых точек. Должна в читаемом виде выводить ответ.
3. Скопировать пример с linprog и поменять так, чтобы он искал решение не для игрока B, а для игрока А
4. Выбрать **текстовую** игру и разобрать ее по 6 шагам (у студентов не должны повторяться игры)

**Задания для разработки**:
1. Убрать лишний теоретический материал и лучше сгруппировать информацию
2. Выбрать демо задачу и оформить ее разбор по всем 6 шагам.
3. Найти в интернете или придумать как минимум 25 игр (их словестное описание) для индивидуальных заданий.

25 игр ищем всей группой, каждый должен предложить уникальную игру и разложить ее по всем 6 шагам. Решить ее linprog.

**Замечание**:
На первой лабораторной работе это нормально не понимать всех аргументов **linprog** и запутаться в происходящем. Мы закладываем основу для нескольких лабораторных работ сразу. Если у вас есть предложения как сделать подачу материала лучше или интереснее - пишите замечания и предложения в разработку.  