# Analityczny wzór na liczbę par "osób i dni":
$$ x = {{n}\choose{2}} \cdot {{h}\choose{2}} \cdot \Big (p^2 \cdot \frac{1}{d} \Big )^2 $$
gdzie:
* $x$ - liczba podejrzanych par "osób i dni",
* $n$ - liczba osób,
* $p$ - prawdopodobieństwo przenocowania w hotelu,
* $h$ - liczba hoteli,
* $d$ - liczba dni.

In [35]:
from math import factorial
def expected_results(n, p, h, d):
    ncr = lambda n,r: factorial(n) // factorial(r) // factorial(n - r)
    return ncr(n, 2) * ncr(h, 2) * (p**2 * 1/d)**2

expected_results(10**4, 0.1, 10**2, 10**2)

2474.752500000001

# Implementacja symulacji i analizy wyników:

In [37]:
from itertools import combinations
from math import factorial
from random import random
from random import randrange

'''
Parametry wejściowe:
(int)   n - liczba osób
(float) p - prawdobodobieństwo przenocowania w hotelu
(int)   h - liczba hoteli
(int)   d - liczba dni
'''

def simulate(n, p, h, d):
    pair_map = dict()
    for day in range(d):
        hotel_map = dict()
        for person in range(n):
            if (random() < p):
                hotel = randrange(0, h)
                if (hotel not in hotel_map):
                    hotel_map[hotel] = [person]
                else:
                    hotel_map[hotel].append(person)
        for hotel, hotel_guests in hotel_map.items():
            for pair in combinations(hotel_guests, 2):
                if (pair not in pair_map):
                    pair_map[pair] = 1
                else:
                    pair_map[pair] += 1
    return pair_map

def analyze(pair_map):
    results = {'pairs_number': 0, 'pairs_days_number': 0,
               'people_number': 0, 'histogram': dict()}
    suspected_set = set()
    #n coose r function
    ncr = lambda n,r: factorial(n) // factorial(r) // factorial(n - r)

    for pair, days_number in pair_map.items():
        if days_number >= 2:
            results['pairs_number'] += 1
            suspected_set.add(pair[0])
            suspected_set.add(pair[1])
            pair_days = ncr(days_number, 2)
            results['pairs_days_number'] += pair_days
        if (days_number not in results['histogram']):
            results['histogram'][days_number] = 1
        else:
            results['histogram'][days_number] += 1
    results['people_number'] = len(suspected_set)
    return results

#example run
result = simulate(10 ** 4, 0.1, 10 ** 2, 10 ** 2)
print(analyze(result))      

{'pairs_number': 2484, 'pairs_days_number': 2492, 'people_number': 3660, 'histogram': {1: 489658, 2: 2480, 3: 4}}


# Wielokrotne przeprowadzenie symulacji i uśrednienie wyników:

In [40]:
#helper functions
def add_pair_maps(first, second):
    result = {'pairs_number':      first['pairs_number'] + second['pairs_number'], 
              'pairs_days_number': first['pairs_days_number'] + second['pairs_days_number'],
              'people_number':     first['people_number'] + second['people_number'],
              'histogram': dict()}
    for key, value in first['histogram'].items():
        result['histogram'][key] = value
    for key, value in second['histogram'].items():
        if key in result['histogram']:
            result['histogram'][key] += value
        else:
            result['histogram'][key] = value
    return result

def calc_avarage(results_sum, times):
    result = {'pairs_number':  results_sum['pairs_number'] // times, 
          'pairs_days_number': results_sum['pairs_days_number'] // times,
          'people_number':     results_sum['people_number'] // times,
          'histogram': dict()}
    for key, value in results_sum['histogram'].items():
        result['histogram'][key] = value // times
    return result


#run several times and avarage results
times = 10
n = 10 ** 4
p = 0.1
h = 10 ** 2
d = 10 ** 2

all_res = {'pairs_number': 0, 'pairs_days_number': 0,
           'people_number': 0, 'histogram': dict()}

for x in range(times):
    result = simulate(n, p, h, d)
    res = analyze(result)
    print(res)
    all_res = add_pair_maps(all_res, res)
print('Avarage of {} runs: '.format(times), calc_avarage(all_res, times))
    


{'pairs_number': 2458, 'pairs_days_number': 2478, 'people_number': 3628, 'histogram': {1: 492350, 2: 2448, 3: 10}}
{'pairs_number': 2423, 'pairs_days_number': 2431, 'people_number': 3609, 'histogram': {1: 495864, 2: 2419, 3: 4}}
{'pairs_number': 2435, 'pairs_days_number': 2451, 'people_number': 3646, 'histogram': {1: 495203, 2: 2427, 3: 8}}
{'pairs_number': 2405, 'pairs_days_number': 2425, 'people_number': 3559, 'histogram': {1: 492285, 2: 2395, 3: 10}}
{'pairs_number': 2519, 'pairs_days_number': 2539, 'people_number': 3717, 'histogram': {1: 497275, 2: 2509, 3: 10}}
{'pairs_number': 2597, 'pairs_days_number': 2615, 'people_number': 3765, 'histogram': {1: 497204, 2: 2588, 3: 9}}
{'pairs_number': 2481, 'pairs_days_number': 2495, 'people_number': 3643, 'histogram': {1: 498774, 2: 2474, 3: 7}}
{'pairs_number': 2459, 'pairs_days_number': 2473, 'people_number': 3644, 'histogram': {1: 498433, 2: 2452, 3: 7}}
{'pairs_number': 2434, 'pairs_days_number': 2446, 'people_number': 3626, 'histogram':

# Odpowiedzi na pytania:  
* Jak bardzo różnią się od siebie liczba par “osób i dni” oraz liczba podejrzanych par osób? Czy przybliżone obliczenia korzystające ze wzoru analitycznego są poprawne?  
  
  Odp. Liczba par "osób i dni" jest zawsze większa od liczby podejrzanych par osób, ponieważ uwzględnia również różne kombinacje dwóch dni spotkania dla par, które spotkały się więcej niż 2 razy. Przybliżone obliczenia korzystające ze wzoru analitycznego zgadzają się z wynikami symulacji.
  
  
* Jak dużo jest par osób, które spotkały się w więcej niż w 2 dni? Dlaczego tak jest?  
  
  Odp. Par osób, które spotkały się więcej niż w 2 dni jest bardzo niewiele, wynika to z bardzo małego prawdopodobieństwa (dwie osoby muszą wybrać się w co najmniej 3 te same dni do tych samych hoteli).
  
  
* Jaka jest minimalna i maksymalna liczba podejrzanych osób, znając liczbę podejrzanych par osób?  
  
  Odp. Znając liczbę podejrzanych par osób - $x$, można wyznaczyć minimalną i maksymalną liczbę podejrzanych osób korzystając ze wzorów:  
  
  $$ y_{max} = 2 \cdot x $$  
  $$ y_{min} =  \Bigg \lceil \frac{1 + \sqrt{8x +1}}{2} \Bigg \rceil$$
  gdzie:
  * $y_{max}$ - maksymalna liczba podejrzanych osób,  
  * $y_{min}$ - minimalna liczba podejrzanych osób. Wzór na $y_{min}$ został wyprowadzony ze wzoru na kombinacje bez powtórzeń.
  