# Валидация урновой модели

В этом ноутбуке мы исследуем вероятности распределений шариков по урнам, полученные с помощью имитационного моделирования (метода Монте-Карло) и аналитических моделей.

Для нас представляют интерес три случайные переменные:

- $\mu_0$: число урн, в которых не оказалось шариков
- $\mu_1$: число урн, в которых оказалось по одному шарику
- $\mu_2$: число урн, в которых оказалось два и больше шариков

In [6]:
%load_ext autoreload
%autoreload 2

The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload


In [7]:
from rfidam.baskets import BasketsOccupancyProblem, estimate_occupancy_rates, mean_num, Occupancy
from rfidam.utils import bcolors, get_err, fmt_err, highlight, pluralize

from tabulate import tabulate
from tqdm.notebook import tqdm, trange
import numpy as np
import matplotlib.pyplot as plt

Определим вспомогательные методы для однотипной подстветки таблиц и форматирования строк.

In [8]:
def fmt_header(s):
    return highlight(s, bcolors.OKBLUE)

def fmt_delim(s):
    return highlight(s, bcolors.OKCYAN)

def fmt_float(x):
    return f'{x:.4f}'

Все эксперименты будем проводить для случая числа корзин $N = 8$ и разного числа шариков $K = 0, 1, 4, 8, 10$.

In [9]:
N_BASKETS = 8
N_BALLS = [0, 1, 4, 8, 10]

## Расчет методом Монте-Карло

Сначала проверим, как меняется число пустых урн ($\mu_0$), урн с единственным шариком ($\mu_1$) и урн с несколькими шариками ($\mu_2$) в зависимости от числа шариков с помощью метода Монте-Карло. Для этого промоделируем распределение шаров по урнам много раз и рассчитаем частоту возникновения $m_0$ пустых урн, $m_1$ урн с одним шаром и $m_2$ урн с несколькими шарами.

In [12]:
# Run Monte-Carlo:
ESTIMATIONS = [estimate_occupancy_rates(N_BASKETS, n_balls, n_iters=tqdm(range(50000), leave=False)) for n_balls in tqdm(N_BALLS)]

# Compute mean values:
ESTIMATED_MEANS = [Occupancy(
    empty=mean_num(est.empty),
    single=mean_num(est.single),
    many=mean_num(est.many)) for est in ESTIMATIONS]

HBox(children=(HTML(value=''), FloatProgress(value=0.0, max=5.0), HTML(value='')))

HBox(children=(HTML(value=''), FloatProgress(value=0.0, max=100000.0), HTML(value='')))

HBox(children=(HTML(value=''), FloatProgress(value=0.0, max=100000.0), HTML(value='')))

HBox(children=(HTML(value=''), FloatProgress(value=0.0, max=100000.0), HTML(value='')))

HBox(children=(HTML(value=''), FloatProgress(value=0.0, max=100000.0), HTML(value='')))

HBox(children=(HTML(value=''), FloatProgress(value=0.0, max=100000.0), HTML(value='')))




In [13]:
# Print average number of empty baskets, baskets with a single ball and baskets with multiple balls:
rows = [(fmt_header(n_balls), est.empty, est.single, est.many) for n_balls, est in zip(N_BALLS, ESTIMATED_MEANS)]
headers = [fmt_header(s) for s in ['Num. balls', 'Avg. empty', 'Avg. single', 'Avg. collided']]
print(tabulate(rows, headers=headers))

  [94mNum. balls[0m    [94mAvg. empty[0m    [94mAvg. single[0m    [94mAvg. collided[0m
------------  ------------  -------------  ---------------
           [94m0[0m       8              0                0
           [94m1[0m       7              1                0
           [94m4[0m       4.68839        2.68256          0.62905
           [94m8[0m       2.74638        3.14571          2.10791
          [94m10[0m       2.10483        3.00076          2.89441


In [14]:
# Print probabilities that M urns are empty, have single or multiple balls
rows = []
for n_balls, occupancy in zip(N_BALLS, ESTIMATIONS):
    rows.append([fmt_delim(f'{n_balls} ball{pluralize(n_balls)}')] + [''] * N_BASKETS)
    rows.append([fmt_header('Empty baskets')] + list(occupancy.empty))
    rows.append([fmt_header('Baskets with single ball')] + list(occupancy.single))
    rows.append([fmt_header('Baskets with many balls')] + list(occupancy.many))
headers = [fmt_header(s) for s in [''] + list(range(N_BASKETS + 1))]
print(tabulate(rows, headers=headers))

[94m[0m                          [94m0[0m        [94m1[0m        [94m2[0m        [94m3[0m        [94m4[0m        [94m5[0m        [94m6[0m        [94m7[0m              [94m8[0m
------------------------  -------  -------  -------  -------  -------  -------  -------  -------  -------
[96m0 balls[0m
[94mEmpty baskets[0m             0.0      0.0      0.0      0.0      0.0      0.0      0.0      0.0      1
[94mBaskets with single ball[0m  1.0      0.0      0.0      0.0      0.0      0.0      0.0      0.0      0
[94mBaskets with many balls[0m   1.0      0.0      0.0      0.0      0.0      0.0      0.0      0.0      0
[96m1 ball[0m
[94mEmpty baskets[0m             0.0      0.0      0.0      0.0      0.0      0.0      0.0      1.0      0
[94mBaskets with single ball[0m  0.0      1.0      0.0      0.0      0.0      0.0      0.0      0.0      0
[94mBaskets with many balls[0m   1.0      0.0      0.0      0.0      0.0      0.0      0.0      0.0      0
[96m4 ball

## Сравнение среднего числа урн разного типа, рассчитанного из аналитики и метода Монте-Карло

Рассчитаем распределения величин $\mu_0$, $\mu_1$ и $\mu_2$ с помощью аналитической модели и сравним результаты с тем, что было получено выше с помощью метода Монте-Карло.

In [15]:
# Create UrnProblem instances for various balls count:
PROBLEMS = [BasketsOccupancyProblem(N_BASKETS, n_balls) for n_balls in N_BALLS]

# Compute analytically average number of empty baskets, baskets with a single ball and baskets with multiple balls:
ANALYTIC_MEANS = [problem.avg_count for problem in tqdm(PROBLEMS)]

HBox(children=(HTML(value=''), FloatProgress(value=0.0, max=5.0), HTML(value='')))




### Среднее число пустых урн, урн с одним или многими шариками 

Сравним средние значения числа урн без шариков ($\mathbb{E}\mu_0$), урн с одним шариков ($\mathbb{E}\mu_1$) и урн с двумя или более шариками ($\mathbb{E}\mu_2$).

In [16]:
# Display analytic vs estimated urns counts and compute errors
rows = []
for n_balls, analytic, estimated in zip(N_BALLS, ANALYTIC_MEANS, ESTIMATED_MEANS):
    rows.append([fmt_delim(f'{n_balls} ball{pluralize(n_balls)}')] + [''] * 3)
    rows.append([fmt_header('Analytic'), fmt_float(analytic.empty), fmt_float(analytic.single), fmt_float(analytic.many)])
    rows.append([fmt_header('Monte-Carlo'), fmt_float(estimated.empty), fmt_float(estimated.single), fmt_float(estimated.many)])
    rows.append([
        fmt_header('Error'), 
        fmt_err(estimated.empty, analytic.empty), 
        fmt_err(estimated.single, analytic.single), 
        fmt_err(estimated.many, analytic.many),
    ])
headers = [fmt_header(s) for s in ['', 'Empty baskets', 'Baskets with one ball', 'Baskets with many balls']]
print(tabulate(rows, headers=headers))

[94m[0m             [94mEmpty baskets[0m    [94mBaskets with one ball[0m    [94mBaskets with many balls[0m
-----------  ---------------  -----------------------  -------------------------
[96m0 balls[0m
[94mAnalytic[0m     8.0000           0.0000                   0.0000
[94mMonte-Carlo[0m  8.0000           0.0000                   0.0000
[94mError[0m        [92m0.0000[0m           [92m0.0000[0m                   [92m0.0000[0m
[96m1 ball[0m
[94mAnalytic[0m     7.0000           1.0000                   0.0000
[94mMonte-Carlo[0m  7.0000           1.0000                   0.0000
[94mError[0m        [92m0.0000[0m           [92m0.0000[0m                   [92m0.0000[0m
[96m4 balls[0m
[94mAnalytic[0m     4.6895           2.6797                   0.6309
[94mMonte-Carlo[0m  4.6884           2.6826                   0.6290
[94mError[0m        [92m0.0002[0m           [92m0.0011[0m                   [92m0.0029[0m
[96m8 balls[0m
[94mAnalytic[0m

### Распределение числа пустых урн

Проверим, что распределение числа пустых урн имеет вид

$$
\mathbb{P}\{\mu_0 = m\} = \frac{ \binom{N}{m} {K\brace N-m} (N - m)! }{N^K},
$$
где $\begin{Bmatrix} K\\N-m \end{Bmatrix}$ - число Стирлинга 2-го рода (число разбиений $K$ шаров на $N-m$ непустых подмножеств).

In [17]:
rows = []
for n_balls, analytic, estimated in zip(N_BALLS, PROBLEMS, ESTIMATIONS):
    rows.append([fmt_delim(f'{n_balls} ball{pluralize(n_balls)}')] + [''] * N_BASKETS)
    rows.append([fmt_header('Analytic')] + [fmt_float(x) for x in analytic.empty])
    rows.append([fmt_header('Monte-Carlo')] + [fmt_float(x) for x in estimated.empty])
    rows.append([fmt_header('Error')] + [fmt_err(es, an, min_abs_val=.01) for es, an in zip(estimated.empty, analytic.empty)])
headers = [fmt_header(s) for s in [''] + list(range(N_BASKETS + 1))]
print(tabulate(rows, headers=headers))

[94m[0m             [94m0[0m       [94m1[0m       [94m2[0m       [94m3[0m       [94m4[0m       [94m5[0m       [94m6[0m       [94m7[0m         [94m8[0m
-----------  ------  ------  ------  ------  ------  ------  ------  ------  ---
[96m0 balls[0m
[94mAnalytic[0m     0.0000  0.0000  0.0000  0.0000  0.0000  0.0000  0.0000  0.0000    1
[94mMonte-Carlo[0m  0.0000  0.0000  0.0000  0.0000  0.0000  0.0000  0.0000  0.0000    1
[94mError[0m        [92m0.0000[0m  [92m0.0000[0m  [92m0.0000[0m  [92m0.0000[0m  [92m0.0000[0m  [92m0.0000[0m  [92m0.0000[0m  [92m0.0000[0m    [92m0[0m
[96m1 ball[0m
[94mAnalytic[0m     0.0000  0.0000  0.0000  0.0000  0.0000  0.0000  0.0000  1.0000    0
[94mMonte-Carlo[0m  0.0000  0.0000  0.0000  0.0000  0.0000  0.0000  0.0000  1.0000    0
[94mError[0m        [92m0.0000[0m  [92m0.0000[0m  [92m0.0000[0m  [92m0.0000[0m  [92m0.0000[0m  [92m0.0000[0m  [92m0.0000[0m  [92m0.0000[0m    [92m0[0m
[96m4 balls

### Распределение числа урн с одним шариком

В текущей версии мы используем формулу для расчета вероятности $\mathbb{P}\{\mu_1 = m\}$, взятую в работе [1]:

$$
\mathbb{P}\{\mu_1 = m\} = \frac{N! K!}{m! N^K} \sum\limits_{z=0}^{K - m} \frac{(-1)^z (N - m - z)^{K - m - z}}{(K - m - z)! z! (N - m - z)!}.
$$
где $N$ - число урн, $K$ - число шаров.

К сожалению, эта формула не работает при $K > N$ (в знаменателе образуется факториал отрицательного числа), поэтому в этом случае пользуемся методом Монте-Карло для оценки вероятности.

> [1] Vales-Alonso, J.; Bueno-Delgado, M.V.; Egea-López, E.; Alcaraz, J.J.; Pérez-Mañogil, J.M. On the Optimal Identification of Tag Sets in Time-Constrained RFID Configurations. Sensors 2011, 11, 2946-2960. https://doi.org/10.3390/s110302946.

In [18]:
rows = []
for n_balls, analytic, estimated in zip(N_BALLS, PROBLEMS, ESTIMATIONS):
    rows.append([fmt_delim(f'{n_balls} ball{pluralize(n_balls)}')] + [''] * N_BASKETS)
    rows.append([fmt_header('Analytic')] + [fmt_float(x) for x in analytic.single])
    rows.append([fmt_header('Monte-Carlo')] + [fmt_float(x) for x in estimated.single])
    rows.append([fmt_header('Error')] + [fmt_err(es, an, min_abs_val=.01) for es, an in zip(estimated.single, analytic.single)])
headers = [fmt_header(s) for s in [''] + list(range(N_BASKETS + 1))]
print(tabulate(rows, headers=headers))

[94m[0m             [94m0[0m       [94m1[0m       [94m2[0m       [94m3[0m       [94m4[0m       [94m5[0m       [94m6[0m       [94m7[0m            [94m8[0m
-----------  ------  ------  ------  ------  ------  ------  ------  ------  ------
[96m0 balls[0m
[94mAnalytic[0m     1.0000  0.0000  0.0000  0.0000  0.0000  0.0000  0.0000  0.0000  0
[94mMonte-Carlo[0m  1.0000  0.0000  0.0000  0.0000  0.0000  0.0000  0.0000  0.0000  0
[94mError[0m        [92m0.0000[0m  [92m0.0000[0m  [92m0.0000[0m  [92m0.0000[0m  [92m0.0000[0m  [92m0.0000[0m  [92m0.0000[0m  [92m0.0000[0m  [92m0[0m
[96m1 ball[0m
[94mAnalytic[0m     0.0000  1.0000  0.0000  0.0000  0.0000  0.0000  0.0000  0.0000  0
[94mMonte-Carlo[0m  0.0000  1.0000  0.0000  0.0000  0.0000  0.0000  0.0000  0.0000  0
[94mError[0m        [92m0.0000[0m  [92m0.0000[0m  [92m0.0000[0m  [92m0.0000[0m  [92m0.0000[0m  [92m0.0000[0m  [92m0.0000[0m  [92m0.0000[0m  [92m0[0m
[96m4 balls[0m
[

Возможные ошибки для случая 10 шариков - прямое следствие того, что в аналитической модели при $K > N$ тоже используется метод Монте-Карло. Избежать их можно, если повысить точность расчета (но лучше все-таки разработать формулу, учитывающую случай $K > N$).