# 1. Моделирование пуассоновской случайной величины 

Сервис по заказу такси “Блиц” расширяется и открывается в городе Барнаул. Необходимо рассчитать примерную нагрузку на таксистов. Доступа к данным с заказами у нас нет – ещё бы, это же ценная информация! Поэтому придется эти данные сгенерировать. Напишем функцию, возвращающую случайные значения, распределенные по закону Пуассона.

Как вы знаете, вероятность того, что пуассоновская случайная величина имеет значение $k$, равно $f(k, l)=\frac{l^k e^{-l}} {k!}$, где $l$(лямбда) - параметр распределения.

Для того, чтобы сгенерировать значения такой случайной величины, воспользуемся следующим алгоритмом: выберем случайное число $y$ из промежутка [0, 1]. Затем будем суммировать  $f(k, l)$ до тех пор, пока сумма не превысит выбранного числа (y). Тот $k$, на котором сумма превысила $y$ - это и есть наш результат.
Таким образом мы находим, при каком $k$ значение кумулятивной функции распределения превышает выбранное случайное число.

- **Входные данные**: параметр l.
- **Результат**: напишите функцию poisson(l), которая будет возвращать значения, распределённые по закону Пуассона с параметром l.
- **Пример входных данных**: A = [[1, 2]], B=[[2], [1]], C=[[5]]
Например, poisson(3) чаще всего будет возвращать 2 или 3. 

In [69]:
import random
from math import exp, factorial
def f(k,l):
    return pow(l,k)*exp(-l)/factorial(k)
def poisson(l):
    y = random.random()
    k = 0
    sum = f(0,l)
    while sum <= y: #после 170 размер k превышает разремеры переменной типа float
        k += 1
        sum += f(k,l)
    return k
# Среднее значение
sum([poisson(3) for i in range(1000)])/1000

2.94

# 2. Насколько модельные данные отличаются от реальных?
Отлично, сервис “Блиц” зашел на рынок транспортных услуг Барнаула и успешно доставляет пассажиров из точки А в точку N! Пришло время проверить, насколько сгенерированные нами ранее данные отличаются от реальных.
Для этого напишем функцию, которая генерирует массив случайных значений и сравнивает его с реальными данными – находит средний квадрат разности. Это стандартная метрика для нахождения отклонения одной величины от другой.

Будем считать, что у нас есть данные по дням за последний год (365 чисел). А именно, пусть у нас есть массив, $i-й$ элемент которого содержит число пассажиров, перевезённых одним водителем в $i-й$ день года. Будем считать, что эта случайная величина имеет **распределение Пуассона**.

Вам требуется найти параметр lambda (напомним, что среднее значение пуассоновской величины как раз равно этому параметру). Затем, используя результат из предыдущей задачи, сгенерируйте 365 чисел. Имея два массива (исходные данные и сгенерированные вами), посчитайте средний квадрат разности между соответствующими значениями: sum((data_real[i] - data_generated[i])2)/365.

**Входные данные**: массив data_real из 365 элементов, каждый из элементов равен количеству перевезённых пассажиров в соответствующий день.
**Результат**: напишите функцию poisson_error(data), которая сгенерирует массив data_generated и вернёт средний квадрат разности между исходными и сгенерированными данными. 

In [59]:
f(0,3)

0.049787068367863944

In [None]:
# Напишите ваш код ниже
import random
from math import exp, factorial
def f(k,l):
    return pow(l,k)*exp(-l)/factorial(k)
def poisson(l):
    y = random.random()
    k = 0
    sum = f(0,l)
    while sum <= y:
        k += 1
        sum += f(k,l)
    return k

def poisson_error(data):
    lmbd = sum(data)/len(data)
    data_generated = [poisson(lmbd) for i in range(len(data))]
    return sum([(data[i] - data_generated[i])**2 for i in range(len(data))])/len(data)

# 3. Вероятность перевезти ровно k пассажиров

Корбен, водитель сервиса такси “Блиц” решил заключить пари с другом. Он утверждает, что завтра у него будет ровно $k$ заказов. Используя исторические данные, найдите параметр пуассоновского распределения $l$ (лямбда) и оцените эту вероятность.

**Входные данные**: данные по поездкам data за предыдущие 365 дней и число k.
**Результат**: напишите функцию poisson_prob(data, k), вероятность того, что водитель завтра перевезёт ровно k пассажиров.
**Пример**: допустим, что data имеет распределение Пуассона с параметром l=3. Тогда функция poisson_prob(data, 3) должна вернуть 0.22404180765538773 . 

In [None]:
def poisson_prob(data, k):
    lmbd = sum(data)/len(data)
    return f(k,lmbd)

# 4. Время ожидания следующего пассажира
Пусть заказы в течение рабочей смены (8 часов) водителя не имеют пиков (т. е., это процесс Пуассона). Корбен хочет сделать перерыв на обед, но не хочет пропускать заказы - тут без вашей помощи не обойтись. Посчитайте матожидание времени до следующего заказа, чтобы Корбен смог спланировать свой перекус.

- **Входные данные**: как и в предыдущей задаче, вам доступны исторические данные по заказам за предыдущий год data (массив data из 365 элементов).
- **Результат**: напишите функцию time_to_order(data), которая восстанавливает параметр l пуассоновского распределения и возвращает ожидаемое время до следующего заказа в часах.
Например, если вычисленный параметр распределения l будет равен 3, то функция time_to_order должна вернуть 2.6666666666666665. Подсказка: используйте экспоненциальное распределение. 

In [70]:
def time_to_order(data):
    lmbd = sum(data)/len(data)
    return 1/lmbd*8

# 5. Смесь распределений
Количество клиентов сервиса “Блиц” разнится изо дня в день. В целом, мы можем выделить обычные дни (основной поток), а также дни, когда происходят некоторые “знаковые” события (дополнительный поток): например, концерты или футбольные матчи. В такие “знаковые” дни пассажиропоток, а следовательно и число клиентов, растет. Необходимо найти параметры распределений основного потока и дополнительного.

Пусть вам даны количества поездок за предыдущие **365** дней и массив с номерами дней, которые были праздничными. Необходимо вернуть параметры пуассоновского распределения для обычных дней и для праздничных.

- **Входные данные:** массив data с данными о количестве поездок и массив days с номерами праздничных дней (индексация с нуля).
- **Результат:** напишите функцию estimate_parameters(data, days), возвращающую кортеж из двух чисел (l_usual, l_special). l_usual - параметр распределения в обычные дни, l_special - в праздничные. 

In [None]:
#    data1 = data[data.index.isin(days)].copy()
#    data2 = data[~data.index.isin(days)].copy()

In [109]:
import numpy as np
data = [1,2,3,4,5,6,7]
days = [0,3,4,6]

In [110]:
def estimate_parameters(data, days):
    anti_index = list(set([i for i in range(len(data))]) - set(days))
    data1 = data[days].copy()
    data2 = data[anti_index].copy()
    lmbd1 = sum(data1)/len(data1)
    lmbd2 = sum(data2)/len(data2)
    return (lmbd2,lmbd1)

In [111]:
%timeit estimate_parameters(data, days)

11.8 µs ± 402 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [120]:
def estimate_parameters(data, days):
    anti_index = list(set([i for i in range(len(data))]) - set(days))
    data1 = [data[x] for x in days]
    data2 = [data[x] for x in anti_index]
    lmbd1 = sum(data1)/len(data1)
    lmbd2 = sum(data2)/len(data2)
    return (lmbd2,lmbd1)

In [121]:
%timeit estimate_parameters3(data, days)

5.3 µs ± 114 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [116]:
# Решение автора задачи (самое быстрое, тк в одном цикле  селектим по индексам)
def estimate_parameters2(data, days):
    days = set(days)
    usual, holidays = [], []
    for i in range(len(data)):
        if i in days:
            holidays.append(data[i])
        else:
            usual.append(data[i])
    return (sum(usual) / len(usual), sum(holidays) / len(holidays))

In [117]:
%timeit estimate_parameters2(data, days)

1.68 µs ± 41.1 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)
