# Задание 1 (на сопоставление)

### Таблица сопоставлений:
| Статистика | Условие |
|---|---|
| 1. z-тест | E) проверка среднего выборки на конкретное значение при известной дисперсии |
| 2. t-тест | B) проверка среднего выборки на конкретное значение при неизвестной дисперсии |
| 3. F-тест | F) сравнение дисперсий двух выборок |
| 4. χ²-тест | G) наличие или отсутствие связи между параметрами |
| 5. ANOVA | A) анализ различий между многими выборками |

**Примечания:**

* C) соответствие структуры данных гипотетической модели — это не прямое соответствие ни одному из перечисленных статистических тестов. Для проверки соответствия структуры данных модели используются другие методы, такие как тесты на добротность подгонки (например, тест хи-квадрат для проверки соответствия распределения).
* D) проверка дисперсии выборки на конкретное значение при известном среднем — это также не прямое соответствие. Для проверки дисперсии часто используют хи-квадрат тест (но при других условиях).

# Задание 2 (про порошок)

### Проверка необходимости настройки дозатора с помощью z-теста

Мы проверим, нужно ли настраивать дозатор, используя z-тест.

**1. Формулировка гипотез:**

* **Нулевая гипотеза (H0):** Истинное среднее значение веса порошка в коробке равно 3 кг (µ = 3).
* **Альтернативная гипотеза (H1):** Истинное среднее значение веса порошка в коробке не равно 3 кг (µ ≠ 3).

**2. Уровень значимости:**

α = 0.05 (5%)

**3. Вычисление z-статистики:**

* Среднее выборочное (x̄) = 3.005 кг
* Среднее генеральное (µ) = 3 кг
* Стандартное отклонение (σ) = 0.015 кг
* Размер выборки (n) = 50

Формула для z-статистики:  z = (x̄ - µ) / (σ / √n)

z = (3.005 - 3) / (0.015 / √50) ≈ 2.357

**4. Вычисление p-value:**

Для двустороннего z-теста с z = 2.357, мы можем использовать функцию `norm.cdf()` из библиотеки `scipy.stats` в Python:



In [34]:
import numpy as np
from scipy.stats import norm

# Данные
x_bar = 3.005
mu = 3
sigma = 0.015
n = 50
alpha = 0.05

# Расчет z-статистики
z_statistic = (x_bar - mu) / (sigma / np.sqrt(n))

# Расчет p-значения
p_value = 2 * (1 - norm.cdf(abs(z_statistic)))

# Расчет критического значения z
z_crit = norm.ppf(1 - alpha / 2)

# Вывод результатов
print(f"z-статистика: {z_statistic:.3f}")
print(f"p-значение: {p_value:.3f}")
print(f"Критическое значение z: {z_crit:.3f}")

# Вывод
if p_value < alpha:
    print("\nОтвергаем нулевую гипотезу на основе p-value: дозатор нуждается в настройке.")
if abs(z_statistic) > z_crit:
    print("\nОтвергаем нулевую гипотезу на основе критического значения z: дозатор нуждается в настройке.")



z-статистика: 2.357
p-значение: 0.018
Критическое значение z: 1.960

Отвергаем нулевую гипотезу на основе p-value: дозатор нуждается в настройке.

Отвергаем нулевую гипотезу на основе критического значения z: дозатор нуждается в настройке.


**p-значение:**  p-значение (0.018) меньше уровня значимости (0.05). Это означает, что вероятность получить наблюдаемый результат (или более экстремальный), если бы нулевая гипотеза была верна, очень мала.

**Критическое значение:**  Абсолютное значение z-статистики (2.357) больше критического значения (1.96).  Это означает, что z-статистика попадает в область отвержения нулевой гипотезы.

**Вывод:**

На основе как p-значения, так и сравнения с критическим значением z, мы отвергаем нулевую гипотезу.  Существуют статистически значимые доказательства того, что средний вес порошка в коробках отличается от 3 кг.  Дозатор нуждается в настройке.

# Задание 3 (про двигатели)

### Сравнение средних прочностных характеристик двух материалов

**Условие:**

Необходимо определить, существует ли статистически значимая разница в прочностных характеристиках двух различных материалов.

**Гипотезы:**

* **Нулевая гипотеза (H₀):** μ₁ = μ₂ (прочностные характеристики материалов не различаются).
* **Альтернативная гипотеза (H₁):** μ₁ ≠ μ₂ (прочностные характеристики материалов различаются).

**Данные:**

* **Материал 1:**
    * Размер выборки (n₁) = 15
    * Среднее значение (x̄₁) = 90
    * Стандартное отклонение (s₁) = 2.3
* **Материал 2:**
    * Размер выборки (n₂) = 10
    * Среднее значение (x̄₂) = 88
    * Стандартное отклонение (s₂) = 2.2
* **Уровень значимости:** α = 0.05

**Метод:**

1. **Проверка на равенство дисперсий:**  Проводится тест Левена для проверки гипотезы о равенстве дисперсий двух выборок.
2. **Выбор t-теста:**
    * **Если p-значение теста Левена > α:** Используется стандартный двухвыборочный t-тест (t-тест Стьюдента).
    * **Если p-значение теста Левена ≤ α:** Используется t-тест Уэлча (более устойчивый к неравенству дисперсий).

**Реализация на Python:**

In [None]:
from scipy import stats

# Данные
n1, x1_bar, s1 = 15, 90, 2.3
n2, x2_bar, s2 = 10, 88, 2.2
alpha = 0.05

# Проверка на равенство дисперсий с помощью теста Левена
statistic, p_value_var = stats.levene(np.random.normal(x1_bar, s1, n1), np.random.normal(x2_bar, s2, n2))

# Вывод результатов проверки дисперсий
print(f"Статистика теста Левена: {statistic:.4f}")
print(f"P-value теста Левена: {p_value_var:.4f}")

# Определяем, равны ли дисперсии
equal_var = p_value_var > alpha

if equal_var:
    # Вычисление объединенной выборочной дисперсии (S_p)
    sp = np.sqrt(((n1 - 1) * s1**2 + (n2 - 1) * s2**2) / (n1 + n2 - 2))
    
    # Вычисление t-статистики
    t_stat = (x1_bar - x2_bar) / (sp * np.sqrt(1/n1 + 1/n2))
    
    # Определение критического значения и p-value
    t_crit = stats.t.ppf(1 - alpha / 2, df=n1 + n2 - 2)
    p_value = 2 * (1 - stats.t.cdf(abs(t_stat), df=n1 + n2 - 2))
else:
    # Используем t-тест Уэлча
    t_stat, p_value = stats.ttest_ind_from_stats(mean1=x1_bar, std1=s1, nobs1=n1,
                                                  mean2=x2_bar, std2=s2, nobs2=n2,
                                                  equal_var=False)

    # Определяем критическое значение для Уэлча
    df = (s1**2/n1 + s2**2/n2)**2 / ((s1**2/n1)**2 / (n1-1) + (s2**2/n2)**2 / (n2-1))
    t_crit = stats.t.ppf(1 - alpha / 2, df=df)

# Вывод результатов
print(f"t-статистика: {t_stat:.4f}")
print(f"Критическое значение t: {t_crit:.4f}")
print(f"P-value: {p_value:.4f}")

# Статистический вывод
if abs(t_stat) > t_crit or p_value < alpha:
    print("Нулевая гипотеза отвергнута: существует статистически значимая разница в прочности материалов.")
else:
    print("Нулевая гипотеза не отвергнута: различий в прочности материалов не обнаружено.")

**Вывод:**

Тест Левена на равенство дисперсий показал отсутствие статистически значимых различий между дисперсиями прочности двух материалов (`p-value` = 0.4643).  Двухвыборочный `t-тест Стьюдента` для независимых выборок показал, что `|t| (2.1664)` > `t-критическое (2.0687)`, и `p-value (0.0409) < 0.05`. Это свидетельствует о наличии статистически значимой разницы (на уровне значимости 5%) между средними прочностными характеристиками двух материалов.  Производитель должен учитывать это различие при выборе материала, принимая во внимание как статистическую значимость, так и практическую значимость этой разницы в контексте требований к прочности конструкции.

# Задание 4 (про токи)

### Анализ различий в среднем токе старой и новой схем с помощью двухвыборочного t-теста

Для проверки, следует ли производителю заменить старую конструкцию схемы на новую, мы можем использовать двухвыборочный t-тест.  

**1. Данные:**

У нас есть следующие данные о токах старой и новой схем:

* **Старая схема (10 измерений):**  [80.1, 82.3, 84.1, 82.6, 85.3, 81.3, 83.2, 81.7, 82.2, 81.4]
* **Новая схема (12 измерений):** [80.7, 81.3, 84.6, 81.7, 86.3, 84.3, 83.7, 84.7, 82.8, 84.4, 85.2, 84.9]

**2. Гипотезы:**

* **Нулевая гипотеза (H₀):** Средний ток старой и новой схем одинаков (μ₁ = μ₂).
* **Альтернативная гипотеза (H₁):** Средний ток старой и новой схем различен (μ₁ ≠ μ₂).

**3. Уровень значимости:**

α = 0.05

**4. Проведение t-теста:**

Мы будем использовать Python для выполнения t-теста с предположением о равенстве дисперсий.

In [None]:
from scipy.stats import t, ttest_ind, levene

# Данные
old_scheme = np.array([80.1, 82.3, 84.1, 82.6, 85.3, 81.3, 83.2, 81.7, 82.2, 81.4])
new_scheme = np.array([80.7, 81.3, 84.6, 81.7, 86.3, 84.3, 83.7, 84.7, 82.8, 84.4, 85.2, 84.9])
alpha = 0.05

# Тест Левена для проверки равенства дисперсий
levene_statistic, levene_p_value = levene(old_scheme, new_scheme)
print(f"Тест Левена: Статистика = {levene_statistic:.2f}, p-значение = {levene_p_value:.3f}")

# t-тест Стьюдента
t_statistic, p_value = ttest_ind(old_scheme, new_scheme, equal_var=True)

# Степени свободы
n1 = len(old_scheme)
n2 = len(new_scheme)
df = n1 + n2 - 2

# Критическое значение
t_crit = t.ppf(1 - alpha / 2, df=df)

# Результаты
print(f"\nt-статистика: {t_statistic:.4f}")
print(f"Критическое значение t: {t_crit:.4f}")
print(f"p-значение: {p_value:.4f}")

# Вывод
if p_value < alpha:
    print("\nОтвергаем нулевую гипотезу: существует статистически значимая разница в среднем токе.")
else:
    print("\nНе отвергаем нулевую гипотезу: статистически значимой разницы в среднем токе нет.")


**Вывод:**

Тест Левена показал, что нет статистически значимой разницы между дисперсиями выборок тока для старой и новой схем (p-значение = 0.656 > 0.05).  Поэтому для сравнения средних значений был использован двухвыборочный t-тест Стьюдента, предполагающий равенство дисперсий.

Двухвыборочный t-тест показал, что  разница между средними значениями тока старой и новой схем не является статистически значимой (t-статистика = -1.8657, p-значение = 0.0768 > 0.05). Таким образом, нулевая гипотеза о равенстве средних токов не отвергается.

**Заключение:** 

На основе проведенного анализа нет статистически значимых доказательств, подтверждающих разницу в среднем токе между старой и новой схемами. Следовательно, на данном этапе нет статистических оснований для замены старой схемы на новую. Однако следует помнить, что отсутствие статистически значимой разницы не означает полного отсутствия разницы; результат может быть обусловлен, например, недостаточным размером выборок.

# Задание 5 (про глюкозу)

### Анализ влияния препарата на уровень глюкозы в крови

**1. Цель исследования:** Определить, оказывает ли исследуемый препарат статистически значимое влияние на уровень глюкозы в крови пациентов.

**2. Гипотезы:**

* **H₀ (Нулевая гипотеза):** Препарат не влияет на уровень глюкозы (среднее изменение уровня глюкозы равно нулю).
* **H₁ (Альтернативная гипотеза):** Препарат влияет на уровень глюкозы (среднее изменение уровня глюкозы не равно нулю).
  
**3. Данные:**

* Уровень глюкозы измерялся у 10 пациентов до и после приема препарата.  (Конкретные данные приведены ниже в разделе "Вычисления").
* Уровень значимости: α = 0.05.

**4. Метод:**

Так как измерения проводятся на одних и тех же пациентах до и после приема препарата (парные данные), для анализа используется парный t-тест.

**5. Вычисления (с использованием Python):**



In [None]:
before = np.array([9.6, 8.1, 8.8, 7.9, 9.2, 8.0, 8.4, 10.1, 7.8, 8.1])
after = np.array([7.7, 6.2, 7.4, 7.5, 8.3, 6.2, 8.1, 8.9, 7.4, 7.0])
alpha = 0.05
df = len(before) - 1  # Степени свободы

# Вычисление t-статистики и p-value
t_statistic, p_value = stats.ttest_rel(before, after)

# Вычисление критического значения t
t_critical = t.ppf(1 - alpha / 2, df=df)

# Вывод результатов
print(f"t-статистика: {t_statistic:.3f}")
print(f"p-значение: {p_value:.4f}")
print(f"Критическое значение t: {t_critical:.3f}")

# Статистический вывод на основе сравнения с критическим значением
if abs(t_statistic) > t_critical:
    print("Отвергаем нулевую гипотезу на основе сравнения с критическим значением.")
else:
    print("Не отвергаем нулевую гипотезу на основе сравнения с критическим значением.")

# Статистический вывод на основе p-value
if p_value < alpha:
    print("Отвергаем нулевую гипотезу на основе p-значения.")
else:
    print("Не отвергаем нулевую гипотезу на основе p-значения.")

# Содержательный вывод
if p_value < alpha:
    print("\nПрием препарата оказывает статистически значимый эффект на снижение уровня глюкозы в крови.")
else:
    print("\nНа основании данных нет статистически значимого эффекта от приема препарата.")

**Вывод:**

На основании результатов парного t-теста,  был обнаружен статистически значимый эффект снижения уровня глюкозы в крови после приема препарата.  

Это подтверждается двумя критериями:

1.  ***Сравнение с критическим значением:***  Абсолютное значение t-статистики (5.713) значительно превышает критическое значение (2.262) при уровне значимости 0.05.

2.  ***p-значение:***  p-значение (0.0003) значительно меньше уровня значимости (0.05).

Таким образом, нулевая гипотеза об отсутствии эффекта препарата отвергается.  Полученные результаты указывают на то, что препарат оказывает статистически значимое гипогликемическое действие. 

# Задание 6 (про тросы)

### Сравнение прочности новых и старых кабелей с помощью t-теста Уэлча

**1. Задача:** Определить, существует ли статистически значимая разница в прочности между новыми и старыми кабелями.

**2. Гипотезы:**

* **H₀ (Нулевая гипотеза):** Средняя прочность новых и старых кабелей одинакова (μ₁ = μ₂).
* **H₁ (Альтернативная гипотеза):** Средняя прочность новых и старых кабелей различается (μ₁ ≠ μ₂).

**3. Данные:**

* **Новые кабели:** [92.7, 91.6, 94.7, 93.7, 96.5, 94.3, 93.7, 96.8, 98.9, 99.9]
* **Старые кабели:** [90.1, 92.2, 94.3, 92.1, 93.4, 91.1, 93.2, 91.5]
* **Уровень значимости:** α = 0.01 (1%)
* **Предположение:** Дисперсии прочности для новых и старых кабелей не равны.

**4. Метод:**

Используется двухвыборочный t-тест Уэлча (Welch's t-test) для независимых выборок с неравными дисперсиями, так как предполагается, что дисперсии прочности для новых и старых кабелей различны.

**5. Вычисления (с использованием Python):**

In [None]:
new_cable = np.array([92.7, 91.6, 94.7, 93.7, 96.5, 94.3, 93.7, 96.8, 98.9, 99.9])
old_cable = np.array([90.1, 92.2, 94.3, 92.1, 93.4, 91.1, 93.2, 91.5])
alpha = 0.01

# t-тест Уэлча
t_statistic, p_value = ttest_ind(new_cable, old_cable, equal_var=False)

# Степень свободы (приближенное значение)
n1 = len(new_cable)
n2 = len(old_cable)
df = ((np.var(new_cable, ddof=1)/n1 + np.var(old_cable, ddof=1)/n2)**2) / \
     (((np.var(new_cable, ddof=1)/n1)**2/(n1-1)) + ((np.var(old_cable, ddof=1)/n2)**2/(n2-1)))
df = int(round(df)) # Округление до целого числа


# Критическое значение (двусторонний тест)
t_critical = t.ppf(1 - alpha/2, df=df)

# Результаты
print(f"t-статистика: {t_statistic:.4f}")
print(f"Критическое значение t: {t_critical:.4f}")
print(f"p-значение: {p_value:.4f}")

**Вывод:**

***Статистическая значимость:***  Полученное значение t-статистики (3.1204) превышает критическое значение (2.9768) при уровне значимости 1% (α = 0.01).  Кроме того, p-значение (0.0076) меньше 0.01.  Оба этих критерия указывают на статистически значимую разницу в прочности между новыми и старыми кабелями.


***Практическая значимость:***  Результаты теста показывают, что новые кабели обладают статистически значимо большей прочностью, чем старые кабели. Однако,  важно отметить, что  статистическая значимость не всегда означает практическую значимость.  Необходимо оценить величину разницы в прочности и определить, насколько это различие существенно с точки зрения практического применения кабелей.  Например,  небольшое увеличение прочности может быть несущественным, если оно не приводит к значительному улучшению характеристик или увеличению срока службы.

# Задание 7 (про абитуриентов)

### Анализ влияния подготовительных курсов на результаты тестирования

**1. Цель исследования:** Определить, оказывают ли подготовительные курсы статистически значимое влияние на результаты тестирования абитуриентов.

**2. Гипотезы:**

* **H₀ (Нулевая гипотеза):** Подготовительные курсы не влияют на результаты тестирования (средняя разница в баллах до и после курсов равна нулю).
* **H₁ (Альтернативная гипотеза):** Подготовительные курсы влияют на результаты тестирования (средняя разница в баллах до и после курсов не равна нулю).

**3. Данные:**

* Результаты тестирования 10 абитуриентов до и после прохождения подготовительных курсов.  (Конкретные данные приведены ниже в разделе "Вычисления").
* Уровень значимости: α = 0.01

**4. Методология:**

Поскольку результаты тестирования получены у одних и тех же абитуриентов до и после курсов (парные данные), для анализа используется парный t-тест.

**5. Вычисления (с использованием Python):**

In [None]:
before = np.array([7, 6, 5, 4, 6, 2, 10, 3, 8, 5])
after = np.array([9, 6, 4, 5, 7, 4, 10, 6, 9, 6])

# Разности результатов до и после курсов
differences = after - before

# Парный t-тест
t_statistic, p_value = stats.ttest_1samp(differences, 0)

# Критическое значение
df = len(before) - 1
t_critical = stats.t.ppf(1 - alpha / 2, df=df)

# Вывод результатов
print(f"t-статистика: {t_statistic:.3f}")
print(f"p-значение: {p_value:.3f}")
print(f"Критическое значение: {t_critical:.3f}")

**Вывод:**

При уровне значимости 0.01 (α = 0.01),  не обнаружено статистически значимого влияния подготовительных курсов на результаты тестирования абитуриентов.


**Это заключение основано на двух критериях:**


* Сравнение с критическим значением: Абсолютное значение t-статистики (2.739) меньше критического значения (3.250).

* p-значение: p-значение (0.023) больше уровня значимости (0.01).


Хотя p-значение близко к уровню значимости,  оно все же его превышает.  Следовательно,  нулевая гипотеза (отсутствие влияния курсов) не может быть отвергнута.  Это не означает, что курсы полностью неэффективны, но  на основании имеющихся данных  нельзя утверждать об их статистически значимом влиянии на результаты тестирования при заданном уровне значимости.  

# Задание 8 (про фрукты и IQ)

### Анализ равенства дисперсий IQ с помощью F-теста

**1. Цель исследования:** Проверить гипотезу о равенстве дисперсий показателей IQ в двух группах (питающихся апельсинами и грушами).

**2. Гипотезы:**

* **H₀ (Нулевая гипотеза):** Дисперсии IQ в двух группах равны (σ₁² = σ₂²).
* **H₁ (Альтернативная гипотеза):** Дисперсии IQ в двух группах не равны (σ₁² ≠ σ₂²). Двусторонний тест.

**3. Данные:**

* **Группа 1 (апельсины):** [125, 138, 112, 130, 124, 125, 110, 112, 117, 126]
* **Группа 2 (груши):** [124, 102, 142, 130, 131, 124, 127, 115, 108, 109]
* **Уровень значимости:** α = 0.05
* **Предположение:** Данные в каждой группе имеют нормальное распределение. F-тест чувствителен к отклонениям от нормальности. Проверка на нормальность (например, с помощью теста Шапиро-Уилка) рекомендуется перед применением F-теста.

**4. Методология:**

Для проверки гипотезы о равенстве дисперсий используется F-тест.  В данном случае,  более предпочтительным является тест Левена, который более устойчив к нарушению предположения о нормальности.

**5. Вычисления (с использованием Python):**

In [None]:
from scipy.stats import levene, shapiro

group1 = np.array([125, 138, 112, 130, 124, 125, 110, 112, 117, 126])
group2 = np.array([124, 102, 142, 130, 131, 124, 127, 115, 108, 109])
alpha = 0.05

# 1. Тест Шапиро-Уилка для проверки нормальности в каждой группе
shapiro_statistic_group1, shapiro_p_value_group1 = shapiro(group1)
shapiro_statistic_group2, shapiro_p_value_group2 = shapiro(group2)

print("---- Тест Шапиро-Уилка ----")
print(f"Группа 1 (апельсины): Статистика = {shapiro_statistic_group1:.2f}, p-значение = {shapiro_p_value_group1:.3f}")
print(f"Группа 2 (груши): Статистика = {shapiro_statistic_group2:.2f}, p-значение = {shapiro_p_value_group2:.3f}")

# 2. Проверка на нормальность:
if shapiro_p_value_group1 > alpha and shapiro_p_value_group2 > alpha:
    print("\nГипотеза о нормальности распределения в обеих группах не отвергается.  Продолжаем с тестом Левена.")
    # Тест Левена
    statistic, p_value = levene(group1, group2)
    print("\n---- Тест Левена ----")
    print(f"Статистика Левена: {statistic:.2f}")
    print(f"p-значение: {p_value:.3f}")
    if p_value < alpha:
        print("\nОтвергаем нулевую гипотезу: дисперсии значимо различаются.")
    else:
        print("\nНе отвергаем нулевую гипотезу: дисперсии статистически не различаются.")
else:
    print("\nГипотеза о нормальности распределения в одной или обеих группах отвергается.  Необходимо использовать непараметрический тест для сравнения дисперсий.")

**Вывод:**

* На основании результатов анализа, проведенного с использованием теста Шапиро-Уилка и теста Левена,  можно сделать вывод об отсутствии статистически значимой разницы между дисперсиями показателей IQ в двух группах (питающихся апельсинами и грушами).


* Тест Шапиро-Уилка показал, что гипотеза о нормальном распределении данных не отвергается ни для одной из групп (p-значения > 0.05).  Это подтверждает  применимость параметрического теста Левена для сравнения дисперсий.


* Тест Левена,  в свою очередь,  также не выявил статистически значимой разницы между дисперсиями (p-значение = 0.394 > 0.05).


Таким образом,  можно заключить, что  с учетом уровня значимости 5%,  дисперсии IQ в двух группах статистически не различаются.  Это  важный  результат,  который  может  быть  использован  при  дальнейшем  анализе  данных,  например,  при  сравнении  средних  значений  IQ  в  этих  группах  с  помощью  t-теста  Стьюдента.  Важно  отметить,  что  этот  вывод  основан  на  предположении  о  нормальности  распределения,  которое  было  проверено  с  помощью  теста  Шапиро-Уилка.

# Задание 9 (про самолеты)

# Проверка соответствия эмпирических данных распределениям Пуассона, отрицательному биномиальному и геометрическому

1. **Задача:** Определить, соответствует ли распределение количества вылетов самолетов распределению Пуассона, отрицательному биномиальному или геометрическому распределению.

2. **Гипотезы:**

   * **Распределение Пуассона:**
     * H₀ (Нулевая гипотеза): Эмпирические данные соответствуют распределению Пуассона.
     * H₁ (Альтернативная гипотеза): Эмпирические данные не соответствуют распределению Пуассона.

   * **Отрицательное биномиальное распределение:**
     * H₀ (Нулевая гипотеза): Эмпирические данные соответствуют отрицательному биномиальному распределению.
     * H₁ (Альтернативная гипотеза): Эмпирические данные не соответствуют отрицательному биномиальному распределению.

   * **Геометрическое распределение:**
     * H₀ (Нулевая гипотеза): Эмпирические данные соответствуют геометрическому распределению.
     * H₁ (Альтернативная гипотеза): Эмпирические данные не соответствуют геометрическому распределению.

3. **Данные:**

   * Количество вылетов (x): [1, 2, 3, 4, 5, 6, 7, 8, 9]
   * Наблюдаемая частота (f): [36, 23, 11, 13, 8, 3, 2, 1, 3]
   * Общее количество самолетов: 100
   * Уровень значимости: α = 0.05 (уровень доверия 95%)


4. **Методология:**

   Для проверки соответствия эмпирических данных каждому из трех распределений используется критерий хи-квадрат (χ²).  Для каждого распределения параметры оцениваются следующим образом:

   * **Распределение Пуассона:** Параметр λ (среднее значение) оценивается по эмпирическим данным.
   * **Отрицательное биномиальное распределение:** Параметры p и r оцениваются методом максимального правдоподобия с использованием численной оптимизации.
   * **Геометрическое распределение:** Параметр p оценивается на основе параметра λ распределения Пуассона.

   После оценки параметров для каждого распределения вычисляются ожидаемые частоты с использованием соответствующих функций распределения.  Затем критерий χ² применяется для сравнения наблюдаемых и ожидаемых частот. Решение о соответствии или несоответствии принимается на основе p-значения, полученного в результате теста хи-квадрат;  прямое сравнение со значением критической статистики не производится.


5. **Вычисления (с использованием Python):**


In [59]:
from scipy.stats import chi2, poisson, nbinom, geom, chisquare
from scipy.optimize import minimize

# Данные
flights = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9])
observed = np.array([36, 23, 11, 13, 8, 3, 2, 1, 3])
total = observed.sum()

# Функция для расчета хи-квадрат
def chisquare_test(observed, expected):
    expected = np.where(expected < 5, 5, expected)  # Условие для χ²
    # Нормализация ожидаемых частот
    expected = (expected / expected.sum()) * total
    chi2_stat, p_value = chisquare(observed, f_exp=expected)
    return chi2_stat, p_value


# Распределение Пуассона
lambda_poisson = np.sum(flights * observed) / total
expected_poisson = poisson.pmf(flights, lambda_poisson) * total
chi2_stat_poisson, p_value_poisson = chisquare_test(observed, expected_poisson)
df_poisson = len(flights) - 1 - 1

# Отрицательное биномиальное распределение
def neg_binom_log_likelihood(params, flights, observed):
    p, r = params
    likelihood = np.sum(observed * np.log(nbinom.pmf(flights, r, p)))
    return -likelihood

initial_params = [0.5, 2]
result = minimize(neg_binom_log_likelihood, initial_params, args=(flights, observed), method='Nelder-Mead')
p_opt, r_opt = result.x
expected_nbinom = nbinom.pmf(flights, r_opt, p_opt) * total
chi2_stat_nbinom, p_value_nbinom = chisquare_test(observed, expected_nbinom)
df_nbinom = len(flights) - 1 - 2

# Геометрическое распределение
p_geom = 1/lambda_poisson
expected_geom = geom.pmf(flights, p_geom) * total
chi2_stat_geom, p_value_geom = chisquare_test(observed, expected_geom)
df_geom = len(flights) - 1 -1

# Вывод результатов
alpha = 0.05

print("Распределение Пуассона:")
print(f"  λ: {lambda_poisson:.3f}")
print(f"  χ²-статистика: {chi2_stat_poisson:.4f}")
print(f"  p-значение: {p_value_poisson:.4f}")
print(f"  Соответствует (p>alpha): {p_value_poisson > alpha}")

print("\nОтрицательное биномиальное распределение:")
print(f"  Оптимальные параметры (p, r): ({p_opt:.3f}, {r_opt:.3f})")
print(f"  χ²-статистика: {chi2_stat_nbinom:.4f}")
print(f"  p-значение: {p_value_nbinom:.4f}")
print(f"  Соответствует (p>alpha): {p_value_nbinom > alpha}")

print("\nГеометрическое распределение:")
print(f"  p: {p_geom:.3f}")
print(f"  χ²-статистика: {chi2_stat_geom:.4f}")
print(f"  p-значение: {p_value_geom:.4f}")
print(f"  Соответствует (p>alpha): {p_value_geom > alpha}")

Распределение Пуассона:
  λ: 2.740
  χ²-статистика: 33.3413
  p-значение: 0.0001
  Соответствует (p>alpha): False

Отрицательное биномиальное распределение:
  Оптимальные параметры (p, r): (0.735, 7.613)
  χ²-статистика: 24.3893
  p-значение: 0.0020
  Соответствует (p>alpha): False

Геометрическое распределение:
  p: 0.365
  χ²-статистика: 9.6958
  p-значение: 0.2870
  Соответствует (p>alpha): True


**Вывод:**

**Распределение Пуассона:**  
p-значение (0.0001) значительно меньше уровня значимости (α = 0.05).  Это указывает на существенное несоответствие между эмпирическими данными и распределением Пуассона.  Гипотеза о соответствии данных распределению Пуассона отвергается.

**Отрицательное биномиальное распределение:** p-значение (0.0020) также меньше уровня значимости (α = 0.05).  Хотя значение χ²-статистики ниже, чем для Пуассоновского распределения,  несоответствие между эмпирическими данными и отрицательным биномиальным распределением статистически значимо.  Гипотеза о соответствии данных отрицательному биномиальному распределению также отвергается.  Подходящие параметры (p=0.735, r=7.613) были найдены методом максимального правдоподобия.

**Геометрическое распределение:** p-значение (0.2870) больше уровня значимости (α = 0.05).  Это означает, что нет статистически значимых оснований отвергать гипотезу о соответствии эмпирических данных геометрическому распределению.

**Заключение:**

Из трёх рассмотренных распределений, геометрическое распределение является наиболее подходящей моделью для описания данных о количестве вылетов самолётов, необходимых для обнаружения корабля.

# Задание 10 (про цвет глаз и волос)

### Анализ связи между цветом глаз и цветом волос с помощью критерия хи-квадрат

**1. Цель исследования:** Определить, существует ли статистически значимая связь между цветом глаз и цветом волос.

**2. Гипотезы:**

* **H₀ (Нулевая гипотеза):** Цвет глаз и цвет волос независимы.
* **H₁ (Альтернативная гипотеза):** Цвет глаз и цвет волос зависимы.

**3. Данные:**

| Цвет волос | Голубые | Карие | Зеленые | Всего |
|---|---|---|---|---|
| Светлые | 35 | 28 | 7 | 70 |
| Темные | 52 | 42 | 10 | 104 |
| Рыжие | 13 | 10 | 3 | 26 |
| **Всего** | **100** | **80** | **20** | **200** |

* **Уровень значимости:** α = 0.05 (уровень доверия 95%)

**4. Методология:**

Для анализа используется критерий хи-квадрат (χ²) для таблиц сопряженности. Этот критерий позволяет проверить, насколько наблюдаемые частоты отличаются от частот, ожидаемых при гипотезе о независимости признаков.

**5. Вычисления (с использованием Python):**

In [None]:
from scipy.stats import chi2_contingency, chi2

observed = np.array([[35, 28, 7], [52, 42, 10], [13, 10, 3]])

chi2_stat, p_value, dof, expected = chi2_contingency(observed)

# Критическое значение (хотя p-value предпочтительнее)
chi2_critical = chi2.ppf(1 - 0.05, dof)

print("---- Критерий хи-квадрат ----")
print(f"χ²-статистика: {chi2_stat:.2f}")
print(f"p-значение: {p_value:.3f}")
print(f"Критическое значение χ²: {chi2_critical:.2f}")
print(f"Степени свободы: {dof}")

**Вывод:**

На основании результатов критерия хи-квадрат,  не обнаружено статистически значимой связи между цветом глаз и цветом волос.


**Это заключение основано на следующих наблюдениях:**


   * ***Небольшое значение χ²-статистики:***  Вычисленное значение χ²-статистики (0.10) очень мало, что указывает на незначительное расхождение между наблюдаемыми и ожидаемыми частотами.

   * ***Высокое p-значение:*** p-значение (0.999) значительно больше уровня значимости (обычно 0.05). Это означает, что вероятность наблюдать такие данные (или более экстремальные), если цвет глаз и цвет волос независимы, очень высока.

* ***χ²-статистика меньше критического значения:*** χ²-статистика (0.10) значительно меньше критического значения (9.49).


Таким образом,  нулевая гипотеза о независимости цвета глаз и цвета волос не отвергается.  Нет статистически значимых доказательств,  чтобы  утверждать  о  существовании  связи  между  этими  двумя  признаками.

# Задание 11 (про тигров)

### Влияние типа корма на среднюю массу тигров

**1. Цель исследования:** Определить, оказывает ли тип корма статистически значимое влияние на среднюю массу тигров.

**2. Гипотезы:**

* **H₀ (Нулевая гипотеза):** Средняя масса тигров одинакова во всех группах (тип корма не влияет на массу).
* **H₁ (Альтернативная гипотеза):** Средняя масса тигров хотя бы в одной группе отличается от других (тип корма влияет на массу).

**3. Данные:**

Средняя масса тигров (в кг) в группах с различным типом корма:

* **Группа 1:** `[151, 135, 137, 118, 132, 135, 131, 121, 137, 140, 152, 133, 151, 132]`
* **Группа 2:** `[108, 123, 145, 103, 110, 124, 116, 108, 104, 130, 106, 105, 114, 108]`
* **Группа 3:** `[140, 152, 149, 132, 124, 146, 156, 137, 124, 145, 147, 139, 157, 139]`
* **Группа 4:** `[127, 135, 110, 116, 119, 123, 102, 121, 118, 120, 114, 134, 121, 109]`
* **Уровень значимости:** α = 0.05

**4. Методология:**

Для проверки гипотез используется однофакторный дисперсионный анализ (ANOVA). При отвержении нулевой гипотезы для более детального анализа применяется пост-hoc тест Тьюки (Tukey's HSD).  Перед проведением ANOVA рекомендуется проверить предпосылки о нормальности распределения и равенстве дисперсий в группах.

**5. Вычисления (с использованием Python):**

In [None]:
from scipy.stats import f_oneway
from statsmodels.stats.multicomp import pairwise_tukeyhsd

group1 = np.array([151, 135, 137, 118, 132, 135, 131, 121, 137, 140, 152, 133, 151, 132])
group2 = np.array([108, 123, 145, 103, 110, 124, 116, 108, 104, 130, 106, 105, 114, 108])
group3 = np.array([140, 152, 149, 132, 124, 146, 156, 137, 124, 145, 147, 139, 157, 139])
group4 = np.array([127, 135, 110, 116, 119, 123, 102, 121, 118, 120, 114, 134, 121, 109])

# ANOVA
f_statistic, p_value_anova = f_oneway(group1, group2, group3, group4)

print("---- ANOVA ----")
print(f"F-статистика: {f_statistic:.2f}")
print(f"p-значение: {p_value_anova:.3f}")

# Тест Тьюки (только если p-value ANOVA < 0.05)
if p_value_anova < 0.05:
    all_data = np.concatenate((group1, group2, group3, group4))
    groups = ['Группа 1'] * len(group1) + ['Группа 2'] * len(group2) + ['Группа 3'] * len(group3) + ['Группа 4'] * len(group4)
    tukey_result = pairwise_tukeyhsd(all_data, groups, alpha=0.05)
    print("\n---- Тест Тьюки ----")
    print(tukey_result)

**Вывод:**

***Однофакторный дисперсионный анализ (ANOVA):***

Результаты ANOVA показали статистически значимое влияние типа корма на среднюю массу тигров (F = 21.93, p < 0.001).  Поскольку p-значение значительно меньше 0.05, нулевая гипотеза (отсутствие влияния типа корма) отвергается.

***Пост-hoc тест Тьюки (Tukey's HSD):***

Так как нулевая гипотеза ANOVA была отвергнута, был проведен пост-hoc тест Тьюки для определения парных различий между группами с коррекцией на множественное сравнение (FWER = 0.05).

***Результаты теста Тьюки:***

Следующие различия в средних массах между группами статистически значимы:

* **Группа 1 vs. Группа 2:** Средняя масса тигров в группе 1 статистически значимо выше, чем в группе 2.
* **Группа 1 vs. Группа 4:** Средняя масса тигров в группе 1 статистически значимо выше, чем в группе 4.
* **Группа 2 vs. Группа 3:** Средняя масса тигров в группе 3 статистически значимо выше, чем в группе 2.
* **Группа 3 vs. Группа 4:** Средняя масса тигров в группе 3 статистически значимо выше, чем в группе 4.

Следующие различия в средних массах между группами статистически НЕ значимы:

* **Группа 1 vs. Группа 3**
* **Группа 2 vs. Группа 4**

**Заключение:**
Тип корма оказывает статистически значимое влияние на среднюю массу тигров.  Наблюдаются значительные различия в массе между определенными группами.

# Задание 12 (про белок)

### Анализ влияния наличия выводка и возраста на массу тела африканских землянных белок

**Задача:** Оценить влияние двух факторов — наличия выводка и возраста — на массу тела африканских землянных белок с использованием дисперсионного анализа (ANOVA) на уровне значимости 0.05.

**Факторы:**

1. **Наличие выводка:** Два уровня: без выводка, с выводком.
2. **Возраст:** Три уровня: 1 год, 2 года, 3 и более лет.

**Метод:**

Для анализа будет применен двухфакторный дисперсионный анализ (ANOVA).  В рамках ANOVA будет оценено:

* Влияние каждого фактора (наличие выводка и возраст) на массу тела.
* Влияние взаимодействия между наличием выводка и возрастом на массу тела.

**Гипотезы:**

* **H₀ (Нулевая гипотеза):** Средние значения массы тела не зависят от наличия выводка, возраста и их взаимодействия.
* **H₁ (Альтернативная гипотеза):** Средние значения массы тела зависят хотя бы от одного из факторов (наличие выводка или возраст) или от их взаимодействия.

**Критерий:**

Нулевая гипотеза (H₀) отвергается, если p-значение (p-value) для любого из факторов (наличие выводка, возраст) или их взаимодействия меньше 0.05.

**Код для выполнения анализа:**


In [None]:
import pandas as pd
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm

# Данные
data = {
    "Масса": [
        440, 438, 429, 502, 602,  # Без выводка, 1 год
        892, 868, 855, 866, 932,  # Без выводка, 2 года
        1575, 849, 759, 1602, 1327,  # Без выводка, 3 и более лет
        308, 328, 326, 326, 325,  # С выводком, 1 год
        737, 798, 876, 810, 861,  # С выводком, 2 года
        1001, 901, 958, 1032, 883  # С выводком, 3 и более лет
    ],
    "Выводок": ["Без выводка"] * 15 + ["С выводком"] * 15,
    "Возраст": (["1 год"] * 5 + ["2 года"] * 5 + ["3 и более лет"] * 5) * 2
}

# Преобразование данных в DataFrame
df = pd.DataFrame(data)

# Построение модели ANOVA
model = ols("Масса ~ C(Выводок) + C(Возраст) + C(Выводок):C(Возраст)", data=df).fit()
anova_results = anova_lm(model, typ=2)

# Вывод результатов анализа
print(anova_results)


**Анализ результатов:**

* **Наличие выводка:** p-значение = 0.0137.  Поскольку p < 0.05, наличие выводка оказывает статистически значимое влияние на массу тела африканских землянных белок.

* **Возраст:** p-значение = 0.0000.  Поскольку p < 0.05, возраст также оказывает статистически значимое влияние на массу тела.

* **Взаимодействие (наличие выводка * возраст):** p-значение = 0.4257. Поскольку p > 0.05, взаимодействие между наличием выводка и возрастом не оказывает статистически значимого влияния на массу тела.


**Заключение:**

На основании результатов двухфакторного дисперсионного анализа (ANOVA) можно сделать следующие выводы:

1.  Наличие выводка и возраст независимо влияют на массу тела африканских землянных белок.

2.  Взаимодействие между наличием выводка и возрастом не оказывает статистически значимого влияния на массу тела.