**Задача 1**

Из партии батареек с номинальным напряжением 12 В наугад выбрано семь штук. Согласно показаниям высокоточного вольтметра, фактически выдаваемое ими напряжение составило: 12,9; 11,6; 13,5; 13,9; 12,1; 11,9; 13,0 В соответственно. Можно ли считать, что среднее напряжение действительно равно 12 В?

Для решения задачи будем использовать критерий Стьюдента.
Гипотеза Н0: среднее напряжение равно 12 В.
Альтернативная гипотеза Н1: среднее напряжение не равно 12 В.
Уровень значимости (вероятность совершить ошибку первого рода) выберем $ α $ = 0.05.

Статистика критерия вычисляется по следующей формуле:
$ t = \frac{\bar{x} - \mu}{s / \sqrt{n}} $,

где:

$ \bar{x} $ - выборочное среднее,

$ \mu $ - предполагаемое среднее,

$ s $ - выборочное стандартное отклонение,

$ n $ - размер выборки


Для принятия решения сначала необходимо вычислить p-значение, используя t-распределение с (n-1) степенями свободы.
Затем p-значение сравнивается с уровнем значимости $ α $:

- если p-значение < $ α $, то мы отклоняем нулевую гипотезу и делаем вывод, что среднее статистически отличается от предполагаемого среднего;
- иначе, мы не можем отвергнуть нулевую гипотезу и делаем заключение, что нет достаточных оснований утверждать, что среднее выборки отличается от предполагаемого среднего


Перейдем к проверке гипотезы на языке Python

In [12]:
import scipy.stats as stats
import numpy as np

voltages = [12.9, 11.6, 13.5, 13.9, 12.1, 11.9, 13.0]

mean_voltage = np.mean(voltages)

std_voltage = np.std(voltages)

t_stat = (mean_voltage - 12) / (std_voltage / np.sqrt(7))

p_value = stats.t.sf(abs(t_stat), len(voltages) - 1)  # 6 степеней свободы (n-1)

alpha = 0.05

print("Статистика теста", t_stat)
if p_value < alpha:
    print(f'{p_value} < {alpha}: Среднее напряжение статистически отличается от 12 В.')
else:
    print(f'{p_value} >= {alpha}: Нет достаточных оснований утверждать, что среднее напряжение отличается от 12 В.')

Статистика теста 2.330692321357024
0.029292600022017112 < 0.05: Среднее напряжение статистически отличается от 12 В.


**Задача 2**

Есть два различных метода определения процентного содержания жира в мясе. Доля жира для 10 образцов мяса была определена каждым из двух методов. Позволяют ли полученные результаты сделать вывод о том, что один метод даёт в среднем более высокие показания, чем другой?

\begin{array}{|c|c|c|}
\hline
Образец & Метод I & Метод II \\
\hline
1 & 23,1 & 22,7 \\
\hline
2 & 23,2 & 23,6 \\
\hline
3 & 26,5 & 27,1 \\
\hline
4 & 26,6 & 27,4 \\
\hline
5 & 27,1 & 27,4 \\
\hline
6 & 48,3 & 46,8 \\
\hline
7 & 40,5 & 40,4 \\
\hline
8 & 25,0 & 24,9 \\
\hline
9 & 38,4 & 38,1 \\
\hline
10 & 23,5 & 23,8 \\
\hline
\end{array}



Т-статистика теста:

$ t = \frac{\overline{x_1} - \overline{x_2}}{s / \sqrt{n}} $

In [9]:
sample = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
method_1 = [23.1, 23.2, 26.5, 26.6, 27.1, 48.3, 40.5, 25.0, 38.4, 23.5]
method_2 = [22.7, 23.6, 27.1, 27.4, 27.4, 46.8, 40.4, 24.9, 38.1, 23.8]

# T-тест для парных выборок
t, p = stats.ttest_rel(method_1, method_2)

print("Статистика теста", t)
if p < 0.05:
    print(f'{p} < 0.05 => Результаты показывают, что Метод I дает в среднем более высокие показания, чем Метод II.')
else:
    print(f'{p} >= 0.05 => Результаты не позволяют сделать вывод о том, что один метод дает в среднем более высокие показания, чем другой.')


Статистика теста 1.7154884978678027e-15
0.9999999999999987 >= 0.05 => Результаты не позволяют сделать вывод о том, что один метод дает в среднем более высокие показания, чем другой.


**Задача 3**

Для проверки гипотезы о том, что жители городов имеют в среднем более высокое систолическое артериальное давление, чем жители сельской местности, было проведено обследование 10 горожан и 9 жителей села примерно одного возраста. Получены следующие данные об уровне давления для горожан: 132, 111, 119, 138, 200, 131, 138, 170, 159, 140; для селян: 115, 190, 127, 155, 148, 121, 116, 121, 197. Можно ли считать верной выдвинутую гипотезу на уровне значимости 0,05?

Статистика теста:

$t = \frac{\overline{x}_1 - \overline{x}_2}{s_{12} * \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}$,

где

- $ \overline{x}_1 $ и $ \overline{x}_2 $ - средние выборок,

- $ s_{12} - объединённая стандартная ошибка $,

- $ n_1 $ и $ n_2 $ - размеры выборок.


In [14]:
import scipy.stats as stats

city = [132, 111, 119, 138, 200, 131, 138, 170, 159, 140]
village = [115, 190, 127, 155, 148, 121, 116, 121, 197]

# T-тест для независимых выборок
t, p_value = stats.ttest_ind(city, village, equal_var=False)

if p_value < 0.05:
    print(f'{p_value} < 0.05 => Результаты показывают, что горожане имеют в среднем более высокое систолическое артериальное давление, чем жители села.')
else:
    print(f'{p_value} >= 0.05 => Результаты не позволяют сделать вывод о том, что горожане имеют в среднем более высокое систолическое артериальное давление, чем жители села.')


0.9726844997417494 >= 0.05 => Результаты не позволяют сделать вывод о том, что горожане имеют в среднем более высокое систолическое артериальное давление, чем жители села.


**Задача 4**

Известно, что 52% новорождённых детей — мальчики, а 48% — девочки. В случайной выборке из 5 000 человек в возрасте от 30 до 60 лет мужчин оказалось 2 500. Можно ли на уровне значимости 0,05 считать, основываясь на этих данных, что смертность среди мужчин и женщин одинакова?

In [4]:
import scipy.stats as stats
import numpy as np

alpha = 0.05

n = 5000
x = 2500

# Пропорция мужчин в выборке
p_hat = x / n

# Стандартное отклонение пропорции
sigma_p = np.sqrt(p_hat * (1 - p_hat) / n)

# Z-статистика
z = (p_hat - 0.52) / sigma_p

p_value = 2 * stats.norm.cdf(-abs(z))

print("Статистика теста", z)
if p_value > alpha:
    print("Не удалось отвергнуть нулевую гипотезу. Нет достаточных доказательств, чтобы сделать вывод о том, что смертность среди мужчин и женщин различна.")
else:
    print("Отвергаем нулевую гипотезу. Существуют доказательства того, что смертность среди мужчин и женщин различна.")


Статистика теста -2.8284271247461925
Отвергаем нулевую гипотезу. Существуют статистически значимые доказательства того, что смертность среди мужчин и женщин различна.


Таким образом, на уровне значимости 0,05 мы можем отвергнуть нулевую гипотезу и сделать вывод, что смертность среди мужчин и женщин в возрасте от 30 до 60 лет не одинакова.

**Задача 5**

В первом эксперименте для сравнения двух средних X1=17, X2=16 применялся t-критерий Стьюдента, и эти различия оказались значимы (p = 0, 001).

Во втором исследовании, также при помощи t - критерия, сравнивались два средних X1=17, X2=36, и эти различия не значимы при p = 0,8. В чем может быть причина таких результатов, при условии, что нулевая и альтернативная гипотезы в обоих случаях одинаковы?

Возможные причины результатов:

Разный размер выборки: размер выборки влияет на мощность статистического теста. Чем больше размер выборки, тем выше мощность теста, и тем больше вероятность обнаружить статистически значимые различия. По-видимому, во втором исследовании размер выборки был меньше, чем в первом, что привело к неспособности обнаружить значимые различия.

Большая дисперсия. Чем больше дисперсия, тем труднее обнаружить статистически значимые различия. Возможно, во втором исследовании дисперсия была больше, чем в первом, что также могло привести к более низкой мощности теста.

