# Task 1

Ви аналізуєте відгуки на мобільний додаток в App Store. За останній місяць користувачі залишили 2000 оцінок:

Оцінка  Кількість відгуків
- 1 ⭐       120
- 2 ⭐       180
- 3 ⭐       320
- 4 ⭐       580
- 5 ⭐       800

In [74]:
import numpy as np
import pandas as pd

values = np.array([1, 2, 3, 4, 5])
rates = np.array([120, 180, 320, 580, 800])

# CDF and PMF
pmf = rates / rates.sum()
cdf = np.cumsum(pmf)

# Results
df = pd.DataFrame({"Rating": values, "PMF": pmf, "CDF": cdf})
print(df)

# E[X] = sum(x * p(x))
expect = np.sum(values * pmf)
print(f"E[X] = {expect} ⭐️")

# Var(X) = E[X^2] - (E[X])^2
var = np.sum(values**2 * pmf) - expect**2
print(f"Var(X) = {var:.4f} ⭐️⭐️") # :-)

# σ = sqrt(Var(X))
sigma = np.sqrt(var)
print(f"σ = {sigma:.4f} ⭐️")

# Probs
# P(X <= 2) -> CDF[1]
prob_1_2 = cdf[1]
print(f"P(X <= 2: {prob_1_2} or {prob_1_2:.1%}")

# P(X >= 4) -> 1 - P(X <= 3) -> 1 - CDF[2]
prob_4_5 = 1 - cdf[2]
print(f"P(X >= 4): {prob_4_5} or {prob_4_5:.1%}")

#  Median
median_idx = np.argmax(cdf >= 0.5)
print(f"Median = {values[median_idx]} ⭐️")

   Rating   PMF   CDF
0       1  0.06  0.06
1       2  0.09  0.15
2       3  0.16  0.31
3       4  0.29  0.60
4       5  0.40  1.00
E[X] = 3.88 ⭐️
Var(X) = 1.4456 ⭐️⭐️
σ = 1.2023 ⭐️
P(X <= 2: 0.15 or 15.0%
P(X >= 4): 0.69 or 69.0%
Median = 4 ⭐️


# Task 2

Ви аналізуєте роботу служби доставки інтернет-магазину. За статистикою, кожне замовлення доставляється вчасно з ймовірністю 0.88. Сьогодні відправлено 50 замовлень.

Кількість вчасно доставлених замовлень $X$ описується біноміальним розподілом $X∼Binomial(n=50,p=0.88)$

In [72]:
from scipy.stats import binom
import numpy as np

n = 50
p = 0.88

# Create binom distribution
binom_dist = binom(n, p)
# E[X] = n * p
expect = binom_dist.mean()
print(f"E[x] = {expect} orders")

# σ = sqrt(np(1-p))
sigma = binom_dist.std()
print(f"σ = {sigma:.2f} orders")

# Probs
prob_all = binom_dist.pmf(k=50)
print(f"P(X = 50) = {prob_all:.4f} or {prob_all:.2%}")

prob_45 = binom_dist.pmf(k=45)
print(f"P(X = 45) = {prob_45:.4f} or {prob_45:.2%}")

prob_interval = binom_dist.cdf(46) - binom_dist.cdf(41)
print(f"P(42 <= X <= 46) = {prob_interval:.4f} or {prob_interval:.2%}")

# If more than 5 items are late, then a min value of late items is 6 => we're looking for P(X <= 44)
prob_more_than_5_late = binom.cdf(44, n, p)
print(f"P(X <= 44): {prob_more_than_5_late:.4f} or {prob_more_than_5_late:.2%}")

E[x] = 44.0 orders
σ = 2.30 orders
P(X = 50) = 0.0017 or 0.17%
P(X = 45) = 0.1674 or 16.74%
P(42 <= X <= 46) = 0.7263 or 72.63%
P(X <= 44): 0.5647 or 56.47%


# Task 3

Ви аналізуєте потік замовлень в інтернет-магазині. В середньому надходить 6 замовлень на годину, тобто одне замовлення кожні 10 хвилин.

Час між замовленнями $T$ описується показниковим розподілом з параметром  $λ=6$ замовлень на годину або $λ=0.1$ замовлень на хвилину.


In [None]:
from scipy.stats import expon

lam = 0.1

#  Exponential Distribution
exp_dist = expon(scale=1 / lam)

# E[X] = 1 / λ
expectation = exp_dist.mean()
print(f"E[T] = {expectation} min")

# σ = E[X] = 1 / λ
sigma = exp_dist.std()
print(f"σ = {sigma} min")

# P(T < 5)
prob_5 = exp_dist.cdf(5)
print(f"P(T < 5) = {prob_5:.4f} or {prob_5:.2%}")

# P(T > 15)
prob_15 = 1 - exp_dist.cdf(15)
print(f"P(T > 15) = {prob_15:.4f} or {prob_15:.2%}")

# P(5 < T < 15)
prob_5_15 = exp_dist.cdf(15) - exp_dist.cdf(5)
print(f"P(5 < T < 15) = {prob_5_15:.4f} or {prob_5_15:.2%}")

# Median
median = exp_dist.ppf(0.5)
print(f"Median = {median:.4f} min")

E[T] = 10.0 min
σ = 10.0 min
P(T < 5) = 0.3935 or 39.35%
P(T > 15) = 0.2231 or 22.31%
P(5 < T < 15) = 0.3834 or 38.34%
Median = 6.9315 min


# Task 4

Минулого року середній бал студентів на іспиті з математики становив 72 бали. Цього року викладач змінив методику підготовки і хоче перевірити, чи вплинуло це на результати.

Зібрано результати 35 випадкових студентів:

- Вибіркове середнє: $\overline{x} = 76.8$  балів
- Вибіркове стандартне відхилення: $s=14.2$ балів
- Розмір вибірки: $ n=35$

$H_{0}: \mu = 72$

$H_{1}: \mu \neq 72$ 

***Висновок:*** *Отримане значення $p$-value ($0.0536$) трохи перевищує встановлений рівень значущості $\alpha = 0.05$. Це не дозволяє впевнено відхилити нульову гіпотезу, оскільки існує ризик помилки I роду. Доцільно провести додаткове дослідження на більшій вибірці для остаточного підтвердження ефективності нової методики.*

In [None]:
import numpy as np
from scipy import stats

# Initial values
mu = 72 
s = 14.2
x = 76.8
n = 35

#  Standard Error
SE = s / np.sqrt(n)
print(f"SE = {SE:.4f}")

# t-stats
t = (x - mu )/ SE
print(f"t-stats: {t:.4f}")

# p-value
p_value = 2 * (1 - stats.t.cdf(t, n - 1))
print(f"p_value = {p_value:.4f}") 

# 95% interval
confidence_level = 0.95
alpha = 1 - confidence_level
t_critical = stats.t.ppf(1 - alpha/2, n - 1)

error = t_critical * SE
lower_bound = x - error
upper_bound = x + error

print(f"t-critical: {t_critical:.4f}")
print(f"Interval: [{lower_bound:.2f}, {upper_bound:.2f}] scores")
print(f"Interval width: {upper_bound - lower_bound:.2f} scores")

SE = 2.4002
t-stats: 1.9998
p_value = 0.0536
t-critical: 2.0322
Interval: [71.92, 81.68] scores
Interval width: 9.76 scores
