## Задача 1
Из партии батареек с номинальным напряжением 12 В наугад выбрано семь штук. Согласно показаниям высокоточного вольтметра, фактически выдаваемое ими напряжение составило: 12,9; 11,6; 13,5; 13,9; 12,1; 11,9; 13,0 В соответственно. Можно ли считать, что среднее напряжение действительно равно 12 В?

### Решение
Предположим, что $$H_{\text{0}}: E[x_{\text{i}}] = 12$$
Тогда $$H_{\text{А}}: E[x_{\text{i}}] \neq 12$$
Используем T-критерий Стьюдента для одной выборки. При уровне значимости $ \alpha = 0.05 $ получим:</br>
Выборочное среднее значение: $ \bar{x} = \frac{\sum x_i}{n} $</br>
Выборочное стандартное отклонение  $s = \sqrt{\frac{\sum (x_i - \bar{x})^2}{n-1}}$</br>
T-критерий: $ t = \frac{\bar{x} - \mu}{s / \sqrt{n-1}} $</br>
Критическое значение: $t_{\text{a/2}} = t_{\text{табл}}(1 - \alpha/2, \text{df})$</br>
Степени свободы: $ \text{df} = n - 1 $</br>
</br>
#### Результаты вычислений:

Выборочное среднее:  $\bar{x} = 12.7 $</br>
Выборочное стандартное отклонение:  $ s = 0.858 $</br>
t -статистика: $ t = 2.158 $</br>
Критическое значение  t : $ t_{\text{crit}} = 2.447 $</br>

$$  |t| = 2.158 < 2.447  $$ </br>
Следовательно, у нас нет оснований отвергнуть нулевую гипотезу, но результат находится на грани статистической значимости. В таком случае, решение о том, отвергать или не отвергать нулевую гипотезу, требует более глубокого анализа.

## Задача 2
Есть два различных метода определения процентного содержания жира в мясе. Доля жира для 10 образцов мяса была определена каждым из двух методов. Позволяют ли полученные результаты сделать вывод о том, что один метод даёт в среднем более высокие показания, чем другой?

| Образец | Метод I | Метод II |
|---------|---------|----------|
|    1    |  23,1   |   22,7   |
|    2    |  23,2   |   23,6   |
|    3    |  26,5   |   27,1   |
|    4    |  26,6   |   27,4   |
|    5    |  27,1   |   27,4   |
|    6    |  48,3   |   46,8   |
|    7    |  40,5   |   40,4   |
|    8    |  25,0   |   24,9   |
|    9    |  38,4   |   38,1   |
|   10    |  23,5   |   23,8   |

### Решение
Нулевая гипотеза ($ H_0 $): </br>
Средние значения для двух методов одинаковы:  
$$ \mu_{\text{Метод I}} = \mu_{\text{Метод II}} $$
Альтернативная гипотеза ($ H_a $)</br>
Среднее значение одного метода больше:  
$$ \mu_{\text{Метод I}} > \mu_{\text{Метод II}}  $$

Используем Т-критерий для парных выборок, так как ведется работа с одними и теми же образцами.
$$
t = \frac{\bar{d}\sqrt{n-1}}{s_0}
$$
Критическое значение  $t_{\text{crit}}$  для  $df = 9$  и  $\alpha = 0.05$:

$$t_{\text{crit}} \approx 1.833$$

#### Результаты вычислений:


In [157]:
import numpy as np
from scipy.stats import t, ttest_rel

method_1 = [23.1, 23.2, 26.5, 26.6, 27.1, 48.3, 40.5, 25.0, 38.4, 23.5]
method_2 = [22.7, 23.6, 27.1, 27.4, 27.4, 46.8, 40.4, 24.9, 38.1, 23.8]


# Парный t-тест
t_test = ttest_rel(method_1, method_2)
print(f"Парный t-тест: {t_test}")

Парный t-тест: TtestResult(statistic=1.7154884978678027e-15, pvalue=0.9999999999999987, df=9)


$$  p  \approx  1  $$ </br>
Следовательно, у нас нет оснований отвергнуть нулевую гипотезу. В среднем значения обоих методов можно считать равными при $\alpha = 0.05$ 

## Задача 3
Для проверки гипотезы о том, что жители городов имеют в среднем более высокое систолическое артериальное давление, чем жители сельской местности, было проведено обследование 10 горожан и 9 жителей села примерно одного возраста. Получены следующие данные об уровне давления для горожан: 132, 111, 119, 138, 200, 131, 138, 170, 159, 140; для селян: 115, 190, 127, 155, 148, 121, 116, 121, 197. Можно ли считать верной выдвинутую гипотезу на уровне значимости 0,05?

### Решение
Воспользуемся t-тестом для двух выборок с независимыми наблюдениями.</br>
Нулевая гипотеза:</br>
Средние давления у горожан и селян равны $$ \mu_{\text{город}} = \mu_{\text{село}} $$
Среднее давление у горожан больше $$ \mu_{\text{город}} > \mu_{\text{село}} $$


In [169]:
from scipy.stats import ttest_ind

# Данные
city_bp = np.array([132, 111, 119, 138, 200, 131, 138, 170, 159, 140])
village_bp = np.array([115, 190, 127, 155, 148, 121, 116, 121, 197])

# Проведение t-теста
t_stat, p_value = ttest_ind(city_bp, village_bp, alternative='greater')

print(f"t-тест для независимых выборок: {t_stat}")
print(f"p-value для независимых выборок: {p_value}")

t-тест для независимых выборок: 0.035165199049777565
p-value для независимых выборок: 0.486178812200461


$$  p  \approx  0.5  $$ </br>
Следовательно, у нас нет оснований отвергнуть нулевую гипотезу. Выдвинутую гипотезу можно считать верной на уровне значимости 0,05 

## Задача 4
Известно, что 52% новорождённых детей — мальчики, а 48% — девочки. В случайной выборке из 5 000 человек в возрасте от 30 до 60 лет мужчин оказалось 2 500. Можно ли на уровне значимости 0,05 считать, основываясь на этих данных, что смертность среди мужчин и женщин одинакова?

Воспользуемся хи-квадратом для решения задачи</br>
Нулевая гипотеза:</br>
Смертность среди мужчин и женщин одинакова $$ \mu_{\text{ж}} = \mu_{\text{м}} $$
Смертность среди мужчин и женщин не одинакова $$ \mu_{\text{ж}} \neq \mu_{\text{м}} $$


In [200]:
from scipy.stats import chi2_contingency

# Ожидаемые и наблюдаемые значения
observed = np.array([[2500, 2500]])  # Наблюдаемое количество мужчин и женщин
expected = np.array([[5000*0.52, 5000*0.48]])  # Ожидаемое количество мужчин и женщин

# Рассчитываем статистику хи-квадрат
chi, p, dof, expected = chi2_contingency(observed)

print(f"Статистика хи-квадрат: {chi}")

Статистика хи-квадрат: 0.0


Критическое значение по таблице 3.841
$$0 < 3.841 $$
Значение статистики попадает в доверительную область. Следовательно, нет обоснований отвергнуть нулевую гипотезу. Можно на уровне значимости 0,05 считать, основываясь на этих данных, что смертность среди мужчин и женщин одинакова.

## Задача 5
В первом эксперименте для сравнения двух средних X1=17, X2=16 применялся t-критерий Стьюдента, и эти различия оказались значимы (p = 0, 001).

Во втором исследовании, также при помощи t - критерия, сравнивались два средних X1=17, X2=36, и эти различия не значимы при p = 0,8. В чем может быть причина таких результатов, при условии, что нулевая и альтернативная гипотезы в обоих случаях одинаковы?

### Решение
Различие в значимости результатов двух экспериментов при одинаковых гипотезах может быть обусловлено несколькими факторами
1. <b>Размеры выборок</b>
    В первом эксперименте, несмотря на небольшое различие между средними (X1 = 17, X2 = 16), различие оказалось статистически значимым (p = 0,001). Это может указывать на то, что выборки были достаточно большими, чтобы выявить даже незначительные различия. Во втором эксперименте, где разница между средними намного больше (X1 = 17, X2 = 36), но p = 0,8, возможно, выборки были малыми или имели высокую вариабельность, из-за чего не удалось обнаружить значимость, несмотря на большое различие между средними.
2. <b>Вариативность в данных и выбросы</b>
    Если во втором исследовании вариация в данных была высока (большие стандартные отклонения), это может затруднить нахождение статистически значимой разницы между средними, даже если разница между ними велика. В таком случае t-критерий будет менее чувствительным к таким различиям.
3. <b>Шумы в данных</b>
4. <b>Распределение данных</b>
    Если данные в одном из экспериментов не соответствуют нормальному распределению или другие предположения для применения t-критерия нарушаются, это может повлиять на результат теста. В таких случаях возможно, что t-критерий даст неверный результат (например, высокое p-значение), даже если разница между средними велика.