## Задача 1

Известно, что в генеральной совокупности средняя продолжительность жизни мужчин в Европе составляет µ0 = 75,1 года. Вам дана некоторая выборка мужчин, продолжительность жизни которых составляет 56, 81, 72, 65, 67, 62 и 70 лет соответственно. Проверьте нулевую гипотезу о том, что средняя продолжительность мужчин в выборке не отличается от среднего совокупности: µ0 = µ1.

##### Решение

Воспользуемся формулой для нахождения t-критерия Стьюдента:
$$
t = \frac{\mu_1 - \mu_0}{\frac{\sigma}{\sqrt{n}}}
$$



In [20]:
import math


def get_t(mu_0, mu_1, sigma, n):
    return (mu_1 - mu_0) / (sigma / math.sqrt(n))


sample_universe = [56, 81, 72, 65, 67, 62, 70]
n = len(sample_universe)
mu_1 = sum(sample_universe) / n
mu_0 = 75.1

sigma = math.sqrt(sum([(i - mu_1) ** 2 for i in sample_universe]) / (n - 1))

t = get_t(mu_0, mu_1, sigma, n)

print(f"T-stats: {abs(t):.2f}")

T-stats: 2.51


Из интернетов мы нашли, что значение коэффициента Стьюдента для $\alpha$ = 0.05 и 7 степеней свободы составляет 2.44. Соответственно, полученный нами коэффициент превышает найденный. 

### Таким образом, мы отклоняем нулевую гипотезу о равенстве средней продолжительности жизни мужчин в генеральной совокупности и данной выборке.

## Задача 2
По выборке объёма n = 35 найден средний вес изделий, изготовленных на заводе: µ1 = 144 г. Известно, что по ГОСТу средний вес деталей составляет µ0 = 135 г. Среднеквадратичное в выборке равняется σ = 50 г. Проверьте нулевую гипотезу о равенстве средних: µ0 = µ1.

#### Решение

Собственно, используем ту же формулу:

In [21]:
n = 35
mu_1 = 144
mu_0 = 135
sigma = 50

t = get_t(mu_0, mu_1, sigma, n)

print(f"T-stats: {abs(t):.2f}")

T-stats: 1.06


Из интернетов мы нашли, что значение коэффициента Стьюдента для $\alpha$ = 0.05 и 35 степеней свободы составляет 2.032. Соответственно, полученный нами коэффициент меньше критического. 

### Таким образом, мы принимаем нулевую гипотезу о равенстве средних. Там из-за угла электронный болван подсказывает, что можно не лазить в интернеты за критическими значениями, а воспользоваться библиотекой stats и методом t.ppf, но мы лёгких путей не ищем :)

## Задача 3
Согласно статистике, в некотором городе в 100 заведениях общепита среднее число сотрудников составляет 12,4 со стандартным отклонением 4,8. Определите доверительный интервал 95% числа работников общепита.

#### Решение

Воспользуемся формулой для нахождения доверительного интервала:

$$
CI = \bar{x} \pm z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}
$$

где:
- $\bar{x}$ — среднее значение выборки,
- $z_{\alpha/2}$ — критическое значение нормального распределения для уровня значимости $\alpha$,
- $\sigma$ — стандартное отклонение генеральной совокупности,
- $n$ — размер выборки.

По условию задачи мы используем 95% доверительный интервал, для которого $z_{\alpha/2} \approx 1.96$.

Соответственно:

In [23]:
def get_left_right_CI(x_, n, sigma, z):
    return (x_ - z * sigma / math.sqrt(n), x_ + z * sigma / math.sqrt(n))

x_ = 12.4
n = 100
sigma = 4.8
z = 1.96
left, right = get_left_right_CI(x_, n, sigma, z)

print(f"95% confidence interval: [{left:.2f}, {right:.2f}]")

95% confidence interval: [11.46, 13.34]


### Ответ: доверительный интервал для 95% работников общепита составляет: $[11.46; 13.34]$.

## Задача 4

Для случайной выборки из совокупности из 54 наблюдений известны следующие величины:

Сумма значений в наблюдениях = 450
Сумма квадратов отклонения значений от среднего = 2600

Вычислите доверительный интервал 95% для математического ожидания.

#### Решение



In [24]:
n = 54
x_ = 450 / n
M_x2 = 2600
sigma = math.sqrt(M_x2 / (n - 1))
z = 2.0057459953178687 # нашли в интернетах по доверию 95% и 54 степеням свободы

left, right = get_left_right_CI(x_, n, sigma, z)
print(f"95% confidence interval: [{left:.2f}, {right:.2f}]")

95% confidence interval: [6.42, 10.25]


### Ответ: доверительный интервал для математического ожидания с уровнем доверия 95% составляет:$[6.42; 10.24]$.

## Задача 5.

Дана реализация двух случайных ненормально распределённых величин X и Y. Проверьте нулевую гипотезу о равенстве средних значений: µx = µy. Подсказка: воспользуйтесь непараметрическим тестом (критерием Манна — Уитни).

In [2]:
import scipy.stats as stats

x = [-2, 1, 4, -1, 5, 7, 9, 0, 12]
y = [6, -3, 2, 1, 0, 4, 2]

alpha = 0.05

u_stat, p_value = stats.mannwhitneyu(x, y)

print(f"u-stat: {u_stat:.2f}")
print(f"p-value: {p_value:.2f}")

if p_value < alpha:
    print("Reject H0")
else:
    print("Fail to reject H0")

u-stat: 38.50
p-value: 0.49
Fail to reject H0


Это удивительно, но код для последней задачи практически полностью написал Codeium. Ну, кроме того, что я изначально знал, как прописать stats.mannwhitneyu() - мы где-то это в DS Intro проходили, и у меня в Обсидиане сохранилась запись. 

### Ответ: с 95% вероятностью средние значения в данных выборках равны.
