## Задание 1

#Моделирование пуассоновской случайной величины
Процесс приема заказа хорошо моделируется распределением Пуассона - которое позволяет оценить интенсивность событий, или среднее количество событий за единицу времени.

Сервис по заказу такси “Блиц” расширяется и открывается в городе Барнаул. Необходимо рассчитать примерную нагрузку на таксистов. Доступа к данным с заказами у нас нет – ещё бы, это же ценная информация! Поэтому придется эти данные сгенерировать. Напишем функцию, возвращающую случайные значения, распределенные по закону Пуассона.

Как вы знаете, вероятность того, что пуассоновская случайная величина имеет значение k, равно ${f(k, l)=l^k e^{-l} / k!}$, где $l$ (лямбда) - параметр распределения.

На практике мы немного модифицируем эту формулу, чтобы оптимизировать программу: при решении подсчитывать факториал на каждой итерации не нужно.

Для того, чтобы сгенерировать значения такой случайной величины, воспользуемся следующим алгоритмом: выберем случайное число y из промежутка $[0, 1]$. Затем будем суммировать $f(k, l)$ до тех пор, пока сумма не превысит выбранного числа $y$. Тот k, на котором сумма превысила y - это и есть наш результат.

Таким образом мы находим, при каком k значение кумулятивной функции распределения превышает выбранное случайное число.

**Входные данные**: параметр $l$.

**Результат**: напишите функцию poisson(l), которая будет возвращать значения, распределённые по закону Пуассона с параметром $l$.

Например, poisson(3) чаще всего будет возвращать 2 или 3.

In [3]:
# решение одного студента из группы (платформа не принимает)
import random as rd
import math
import numpy as np

def poisson(l):
    y = rd.random()
    k=0
    s = (l**k)*math.exp(-l) / math.factorial(k) 
    while s <= y:
        k+=1
        f = (l**k)*math.exp(-l) / math.factorial(k)
        s += f
    return k

print(np.mean([poisson(5) for i in range(200000)]))
print(np.mean([np.random.poisson(5) for i in range(200000)]))

4.997525
5.003485


In [None]:
# решение одного студента из группы (платформа приняла)
import random as rd
import math

def poisson(l):
    y = rd.random()
    
    sum = math.exp(-l) 
    if sum > y:
        return 0
    else:
        f = math.exp(-l)*l
        sum = sum + f
        if sum > y:
            return 1
        else:
            k=2
            while sum <= y:
                f = f*l / k
                sum += f
                k+=1
        return (k-1)

print(np.mean([poisson(5) for i in range(200000)]))

4.99838


In [3]:
import random
import math
import numpy as np
# вариант предложен ассистентом курса
def poisson(l):
    y = random.random()
    k = 0
    sum = math.exp(-l)
    f = math.exp(-l)
    while sum < y:
        k += 1
        f *= l / k
        sum += f
    return k

print(np.mean([poisson(5) for i in range(200000)]))

4.993


In [None]:
# см. https://hpaulkeeler.com/simulating-poisson-random-variables-direct-method/
# платформа приняла

import math
import random


def poisson(l):
    exp_l = math.exp(-l)
    k = -1
    prod_rand = 1
    while prod_rand > exp_l:
        prod_rand *= random.random()
        k += 1
    return k

print(np.mean([poisson(3) for i in range(2000000)]))

3.0008665


In [None]:
# Решение от автора:
import math
import random
def poisson(l):
    s, p, r, i = math.exp(-l), math.exp(-l), random.random(), 0
    while s < r:
        i += 1
        p = p * l / i;
        s += p
    return i

## 2

# Насколько модельные данные отличаются от реальных?

Отлично, сервис “Блиц” зашел на рынок транспортных услуг Барнаула и успешно доставляет пассажиров из точки А в точку N! Пришло время проверить, насколько сгенерированные нами ранее данные отличаются от реальных.

Для этого напишем функцию, которая генерирует массив случайных значений и сравнивает его с реальными данными – находит средний квадрат разности. Это стандартная метрика для нахождения отклонения одной величины от другой.

Будем считать, что у нас есть данные по дням за последний год (365 чисел). А именно, пусть у нас есть массив, i-й элемент которого содержит число пассажиров, перевезённых одним водителем в i-й день года. Будем считать, что эта случайная величина имеет распределение Пуассона.

Вам требуется найти параметр lambda (напомним, что среднее значение пуассоновской величины как раз равно этому параметру). Затем, используя результат из предыдущей задачи, сгенерируйте 365 чисел. Имея два массива (исходные данные и сгенерированные вами), посчитайте средний квадрат разности между соответствующими значениями: sum((data_real[i] - data_generated[i])2)/365.

**Входные данные**: массив data_real из 365 элементов, каждый из элементов равен количеству перевезённых пассажиров в соответствующий день.

**Результат**: напишите функцию poisson_error(data), которая сгенерирует массив data_generated и вернёт средний квадрат разности между исходными и сгенерированными данными.

In [1]:
import math
import random
import numpy as np


def poisson(l):
    exp_l = math.exp(-l)
    k = -1
    prod_rand = 1
    while prod_rand > exp_l:
        prod_rand *= random.random()
        k += 1
    return k


def poisson_error(data):
    year = 365
    data_real = np.array(data)
    l = data_real.mean()
    data_generated = np.array([poisson(l) for i in range(year)])
    return np.sum(np.square(data_real - data_generated))/year


In [None]:
real = [poisson(15) for i in range(365)]
poisson_error(real)

27.90958904109589

In [None]:
# Решение от автора:
import math
import random

def poisson(l):
    s, p, r, i = math.exp(-l), math.exp(-l), random.random(), 0
    while s < r:
        i += 1
        p = p * l / i;
        s += p
    return i

def poisson_error(data):
    n = len(data)
    l = sum(data) / n
    s = 0.0
    for i in range(n):
        s += (data[i] - poisson(l)) ** 2
    return s / n

## Задание 3

# Вероятность перевезти ровно k пассажиров
Корбен, водитель сервиса такси “Блиц” решил заключить пари с другом. Он утверждает, что завтра у него будет ровно $k$ заказов. Используя исторические данные, найдите параметр пуассоновского распределения $l$ (лямбда) и оцените эту вероятность.

**Входные данные**: данные по поездкам data за предыдущие 365 дней и число k.

**Результат**: напишите функцию poisson_prob(data, k), вероятность того, что водитель завтра перевезёт ровно k пассажиров.

**Пример**: допустим, что data имеет распределение Пуассона с параметром l=3. Тогда функция poisson_prob(data, 3) должна вернуть 0.22404180765538773 .

In [13]:
import numpy as np

def poisson_prob(data, k):
    l = np.mean(data)
    return l**k * math.exp(-l) / np.math.factorial(k)


test_data = [poisson(3) for i in range(365)]

poisson_prob(test_data, 3)

0.223986406849875

In [14]:
# Комментарий ассистента курса:
# Там в условии задания ошибка с аргументами
# На вход функции передаются k и l
def poisson_prob(k, l):
    result = math.exp(-l)
    for i in range(1, k + 1):
        result *= (l / i)
    return result

In [16]:
import math

def poisson_prob(k, l):
    return l**k * math.exp(-l) / math.factorial(k)


poisson_prob(3, 3)

0.22404180765538775

In [None]:
# Решение от автора:
def poisson_prob(k, l):
    result = math.exp(-l)
    for i in range(1, k + 1):
        result *= (l / i)
    return result

## Задание 4

# Время ожидания следующего пассажира
Пусть заказы в течение рабочей смены (8 часов) водителя не имеют пиков (т. е., это процесс Пуассона). Корбен хочет сделать перерыв на обед, но не хочет пропускать заказы - тут без вашей помощи не обойтись. Посчитайте матожидание времени до следующего заказа, чтобы Корбен смог спланировать свой перекус.

**Входные данные**: как и в предыдущей задаче, вам доступны исторические данные по заказам за предыдущий год data (массив data из 365 элементов).

**Результат**: напишите функцию time_to_order(data), которая восстанавливает параметр l пуассоновского распределения и возвращает ожидаемое время до следующего заказа в часах.

Например, если вычисленный параметр распределения l будет равен 3, то функция time_to_order должна вернуть 2.6666666666666665. Подсказка: используйте экспоненциальное распределение.

In [11]:
# https://courses.lumenlearning.com/introstats1/chapter/the-exponential-distribution/#fs-idp122384032

import numpy as np

def time_to_order(data):
    return 8/ np.mean(data)


real = [poisson(3) for i in range(365)]

print(time_to_order(real))

2.744360902255639


In [None]:
# Решение от автора:
def time_to_order(data):
    l = sum(data) / len(data)
    return 8 / l

## Задание 5

# Смесь распределений
Количество клиентов сервиса “Блиц” разнится изо дня в день. В целом, мы можем выделить обычные дни (основной поток), а также дни, когда происходят некоторые “знаковые” события (дополнительный поток): например, концерты или футбольные матчи. В такие “знаковые” дни пассажиропоток, а следовательно и число клиентов, растет. Необходимо найти параметры распределений основного потока и дополнительного.

Пусть вам даны количества поездок за предыдущие 365 дней и массив с номерами дней, которые были праздничными. Необходимо вернуть параметры пуассоновского распределения для обычных дней и для праздничных.

**Входные данные**: массив data с данными о количестве поездок и массив days с номерами праздничных дней (индексация с нуля).

**Результат**: напишите функцию estimate_parameters(data, days), возвращающую кортеж из двух чисел (l_usual, l_special). l_usual - параметр распределения в обычные дни, l_special - в праздничные.

In [44]:
def estimate_parameters(data, days):
    data, days = np.array(data), np.array(days)
    l_usual, l_special = np.delete(data, days).mean(), data[days].mean()
    return l_usual, l_special


real = [poisson(3) for i in range(365)]
idx = random.sample(range(364), 52)
estimate_parameters(real, idx)

(3.207667731629393, 2.75)

In [None]:
# Решение от автора:
def estimate_parameters(data, days):
    days = set(days)
    usual, holidays = [], []
    for i in range(len(data)):
        if i in days:
            holidays.append(data[i])
        else:
            usual.append(data[i])
    return (sum(usual) / len(usual), sum(holidays) / len(holidays))