# Лекция 6. Метод укрупнения состояний в анализе моделей функциональной надежности

 - Метод агрегирования с использованием параметров связи
 - Агрегирование на основе принципа эквивалентности потоков
 - Управление ресурсами в однопроцессорной системе с неоднородными заявками

## Метод агрегирования с использованием параметров связи

В лекции 5 мы видели, что даже в простейших системах массового обслуживания при большом количестве параметров получить точное решение становится довольно сложно. Если же говорить о реальных моделях СМО, то это становится просто нереально. Нужны какие-то рациональные способы упрощения модели с минимальными потерями точности.

Рассмотрим в качестве примера расширение задачи лабораторной работы: 

$K$ программистов могут писать программы для выполнения на одном из $M$ серверов, при этом программа не попадает сразу на сервер, а обрабатывается на одном из $N$ специальных компьютеров, которые проверяют отсутствие вирусов. Интенсивность работы программистов $\lambda$, интенсивность работы компьютеров-антивирусов $\nu$, интенсивность работы основных серверов $\mu$, программа оказывается с вирусом с вероятностью $p$. Если программа с вирусом, она получает отказ обслуживания на основных серверах. Ни в каких частях системы очередь не образуется. 

Будем рассматривать трехмерный вектор состояний системы: $\zeta(t)=(\zeta_1(t),\zeta_2(t), \zeta_3(t))$, где $\zeta_1(t)$ - количество программистов, которые пишут программу в момент времени $t$, $\zeta_2(t)$ - количество программ, которые проверяются на наличие вирусов, $\zeta_3(t)$ - количество программ, которые выполняются на основных серверах.

Рассмотрим только частный случай: $K=2, M=2, N=2$. Введем состояния:

$S_{200}$ - все программисты пишут программу, сервера и компьютеры свободны;

$S_{110}$ - один программист пишет, одна программа проверяется на вирус;

$S_{101}$ - один программист пишет, одна программа выполняется на сервере;

$S_{011}$ - оба программиста ожидают ответа, одна программа проверяется на вирус, другая выполняется на сервере;

$S_{020}$ - оба программиста ожидают ответа, обе программы проверяются на вирус;

$S_{002}$ - оба программиста ожидают ответа, обе программы выполняются на сервере.

Граф состояний:

<img src="dia1.jpeg">


По данному графу состояний можно составить систему дифференциальных уравнений, а также найти финальные вероятности. Однако при увеличении $K, M, N$ размерность задачи очень быстно возрастает. Уже при $K=N=M=10$ нарисовать граф состояний и следовательно составить уравнения для финальных вероятностей становится практически нереально.

В этой ситуации можно использовать метод укрупнения состояний. Суть метода состоит в том, чтобы анализ сложной системы производить по частям, с помощью укрупненных (агрегированных) моделей. В каждой такой модели подробно представлена только некоторая часть системы, а влияние остальных частей отражается некоторым обобщенным параметром (параметром связи).

Предложим декомпозицию нашей задачи в виде двух моделей.

В первой модели совокупность серверов и компьютеров по проверке наличия вирусов заменим только одним обобщенный параметром - интенсивностью обслуживания $\mu_{\text{общ}}$. Тогда модель будет обычной моделью рождения гибели для замкнутой системы:

<img src="dia2.jpeg">

$$P_0=\left(1+\frac{K\lambda}{\mu_{\text{общ}}}+\frac{K(K-1)\lambda^2}{\mu_{\text{общ}}^2}+\ldots+\frac{K!\lambda^K}{\mu_{\text{общ}}^K}\right)^{-1}\tag{1}$$
$$P_1=P_0\frac{K\lambda}{\mu_{\text{общ}}}\tag{2}$$
$$P_2=P_0\frac{K(K-1)\lambda^2}{\mu_{\text{общ}}^2}\tag{3}$$
$$\ldots$$
$$L_{\text{сист}}=\sum_{k=1}^K k\cdot P_k\tag{4}$$
$$T_{\text{сист}}=\frac{L_{\text{сист}}}{\lambda(K-L_{\text{сист}})}\tag{5}$$

Однако пока остается неизвестным параметр связи $\mu_{\text{общ}}$. 

Во второй модели будем считать, что в системе постоянно циркулируют $L_{\text{сист}}$ заявок. В качестве состояний системы возьмем количество заявок, обрабатываемых на основных серверах: $$S_0, S_1, S_2, \ldots, S_{L_{\text{сист}}}$$

<img src="dia3.jpeg">

$$\nu_n=(1-p)\nu\cdot \min{(N,L_{\text{сист}}-n)}, n=0,\ldots,L_{\text{сист}}-1\tag{6}$$
$$\mu_n=\mu\cdot \min{(M, n)}, n=1,2, \ldots,L_{\text{сист}}\tag{7}$$

Для данной системы опять же, как для схемы рождения, гибели, можно посчитать финальные вероятности:

$$\pi_0=\left(1+\frac{\nu_0}{\mu_1}+\frac{\nu_0\nu_1}{\mu_1\mu_2}+\ldots\right)^{-1}\tag{8}$$
$$\pi_1=\pi_0\cdot \frac{\nu_0}{\mu_1}\tag{9}$$
$$\pi_2=\pi_0\cdot \frac{\nu_0\nu_1}{\mu_1\mu_2}\tag{10}$$
$$\ldots$$

Тогда $$\mu_{\text{общ}}=\sum_{n=1}^{L_{\text{сист}}}\pi_n\cdot \mu_n\tag{11}$$

Таким образом, чтобы разрешить $(1-5)$ нужно знать $\mu_{\text{общ}}$, чтобы разрешить (6-11), нужно знать $L_{\text{сист}}$. Значит совместное решение (1-11) позволяет найти оба параметра связи и выразить основные показатели эффективности системы.  

## Агрегирование на основе принципа эквивалентности потоков

Рассмотренный метод агрегирования на основе параметров связи обладает, как правило, существенной методической погрешностью за счет того, что на параметр $L_{\text{сист}}$ во второй модели накладывается ограничение целочисленности, тогда как в первой модели этого ограничения нет.

Для нивелирования этой погрешности можно использовать так называемый *принцип эквивалентности потоков*. В этом случае часть системы заменяется агрегированным узлом с очередью. 

Принцип эквивалентности потоков состоит в том, что агрегированный узел при любом числе заявок в нем должен обеспечивать такой же поток во внешнюю сеть (такую же пропускную способность), как заменяемая им подсистема.

Рассмотрим его использование на прирмере предыдуще задачи. Задача также разбивается на две взаимосвязанные модели: 1 модель - получение программ от программистов, 2 модель - обработка полученных программ на серверах и компьютерах антивирусах.

В отличие от предыдущей модели, здесь в первой модели параметр потока обслуживания $\mu_{\text{общ}}$ не остается постоянным, а зависит от количества программистов, уже пославших программу во вторую модель:

<img src="dia4.jpeg">

Формулы расчета опять же стандартны для процесса рождения, гибели:
$$P_0=\left(1+\frac{K\lambda}{\mu(1)}+\frac{K(K-1)\lambda^2}{\mu(1)\mu(2)}+\ldots+\frac{K!\lambda^K}{\prod_{k=1}^K\mu_k}\right)^{-1}\tag{12}$$
$$P_1=P_0\frac{K\lambda}{\mu(1)}\tag{13}$$
$$P_2=P_0\frac{K(K-1)\lambda^2}{\mu(1)\mu(2)}\tag{14}$$
$$\ldots$$
$$L_{\text{сист}}=\sum_{k=1}^K k\cdot P_k\tag{15}$$
$$T_{\text{сист}}=\frac{L_{\text{сист}}}{\lambda(K-L_{\text{сист}})}\tag{16}$$
$$\mu_{\text{ср}}=\sum_{k=1}^K\mu(n)\cdot P_n\tag{17}$$

Вторую модель используем для нахождения $\mu(i)$. В данном случае мы также не ограничиваемся постоянным параметром $L_{\text{сист}}$, а проводим расчеты при всех его возможных значениях $L_{\text{сист}}=1,2,3,\dots,K$. Имеем следующий граф состояний для фазы обслуживания:

<img src="dia5.jpeg">

$$\nu_n=(1-p)\nu\cdot \min{(N,u-n)}, n=0,\ldots,u-1\tag{18}$$
$$\mu_n=\mu\cdot \min{(M, n)}, n=1,2, \ldots,u\tag{19}$$

$$\pi_0=\left(1+\frac{\nu_0}{\mu_1}+\frac{\nu_0\nu_1}{\mu_1\mu_2}+\ldots\right)^{-1}\tag{20}$$
$$\pi_1=\pi_0\cdot \frac{\nu_0}{\mu_1}\tag{21}$$
$$\pi_2=\pi_0\cdot \frac{\nu_0\nu_1}{\mu_1\mu_2}\tag{22}$$
$$\ldots$$
$$\mu(u)=\sum_{n=0}^{u-1}\mu_n\pi_n\tag{23}$$

Расчеты по формулам (18-23) повторяют для каждого $u=\overline{1,K}$. Полученные значения $\mu(n)$ используют в формулах (12-17).

## Управление ресурсами в однопроцессорной системе с неоднородными заявками

В системах оперативной обработки заявок в качестве основного критерия эффективности чаще всего используют среднее время обслуживания заявок $T_{\text{сист}}$. 

Ранее мы рассматривали простейший входящий поток с однородными заявками - среднее время выполнения каждой заявки одинаково. Однако если предположить, что эти средние времена отличаются друг от друга и такие заявки попадают в очередь, то возникает резонный вопрос, будет ли влиять алгоритм вынимания заявок из очереди на суммарное среднее время обслуживания заявок. Например, мы может сначала выбирать из очереди все заявки с минимальным средним временем выполнения, или наоборот с максимальным временем выполнения, или может вообще их как-то хитро перемешивать. Ответ на этот вопрос дает алгорим Shortest-processing-task-first (SPT) - рекомендует выбирать на обслуживание сначала заявки с минимальным временем выполнения.

Рассмотрим на простом примере: пусть имеется три типа заявок со средним временем выполнения: $t_1=1, t_2=2, t_3=3$. Среднее время обслуживания складывается из ожидания в очереди и времени выполнения, усредненным по всем заявкам:

При порядке обслуживания $t_1=1, t_2=2, t_3=3$ получаем:

$$T_{\text{сист}}=\frac{1}{3}\cdot\left( t_1+(t_1+t_2)+(t_1+t_2+t_3) \right)=\frac{1}{3}\cdot\left( 1+(1+2)+(1+2+3) \right)=\frac{1+3+6}{3}=\frac{10}{3}\approx 3.33$$

А теперь, например, поменяем порядок: $t_2=2, t_1=1, t_3=3$:

$$T_{\text{сист}}=\frac{1}{3}\cdot\left( t_2+(t_1+t_2)+(t_1+t_2+t_3) \right)=\frac{1}{3}\cdot\left( 2+(1+2)+(1+2+3) \right)=\frac{2+3+6}{3}=\frac{11}{3}\approx 3.67$$

Из приведенных примеров видно, что перемещение вперед задач с меньшим временем выполнения приводит к уменьшению среднего времени обслуживания.

Таким образом, алгоритм SPT дает оптимальное значение среднего времени обслуживания при известных средних временах выполнения заявок.

Однако часто в реальных задачах информация о среднем времени выполнения неоднородных заявок часто отсутствует и ее собирают в ходе вычислительного процесса, что также требует разработки алгоритмов.

Рассмотрим один из таких алгоритмов, который получил название RR (Round Robin) - алгоритм циклического обслуживания. Заявки поступают с интенсивностью $\lambda$ в очередь,откуда они выбираются и исполняются процессором. Для обслуживания каждой заявки отводится постоянный квант времени $q$. Если работа была выполнена за врем $q$, она покидает систему. В противном случае она вновь поступает в конец очереди и ожидает предоставления ей очередного кванта времени. В результате такой нехитрой манипуляции среднее время, которое отводится на выполнение более трудоемких задач автоматически увеличивается, поскольку они больше раз попадают в очередь.