# 5. SciPy

SciPy — это библиотека Python для научных вычислений, которая предоставляет инструменты для статистического анализа, включая проверку гипотез. Рассмотрим два примера: t-критерий Стьюдента для зависимых выборок и критерий хи-квадрат Пирсона для таблиц сопряженности.

## 1. t-критерий Стьюдента для зависимых выборок

Пример: Эффективность препарата

Задача:  
Проверить, снижает ли новый препарат уровень глюкозы в крови у пациентов с диабетом. Измерения проведены до и после приема препарата (зависимые выборки).

Шаги:  
1. Формулируем гипотезы:
- H0: Средний уровень глюкозы до и после приема препарата не отличается.
- H1: Средний уровень глюкозы различается.
2. Проверяем нормальность данных: Используем `skew()` (скошенность) и `kurtosis()` (эксцесс). Значения близкие к 0 указывают на нормальность.
```python
print('Скос до:', data['before'].skew())  # 0.91 (допустимо)
print('Эксцесс до:', data['before'].kurtosis())  # -0.45 (допустимо)
```
3. Вычисляем t-критерий вручную:
- Разности значений: `diff = data['before'] - data['after']`
- Среднее разностей: `mean_diff = diff.mean()` → 3.12
- Стандартное отклонение: `std_diff = diff.std()` → 1.18
- Формула: t = mean_diff/(std_diff/√n) = 3.12/(1.18/√10) = 8.38
4. Сравниваем с критическим значением:
- Степени свободы: df = n − 1 = 9
- По таблице (Таблица 4) для α = 0.05 и df = 9: **Критическое значение = 2.26.**  
  ![image.png](attachment:13fb9c64-e2ce-477d-b6fa-b77ef1d62cae.png)
- Так как 8.38 > 2.26, отвергаем H0
5. Автоматический расчет через SciPy:
```python
from scipy.stats import ttest_rel
t_stat, p_value = ttest_rel(data['before'], data['after'])
print(f"t = {t_stat:.2f}, p-value = {p_value:.5f}")  # t = 8.38, p-value = 0.000015
```
Вывод: p-value < 0.05 → различия статистически значимы.

- Используется для сравнения средних зависимых или независимых выборок.
- Требует нормальности данных.
- Пример: "До vs После" в эксперименте.

## 2. Критерий хи-квадрат Пирсона

Пример: Связь семейного положения и просрочки

Задача:  
Проверить, зависит ли наличие просрочки по кредиту от семейного положения (холост/женат).

Шаги:
1. Формулируем гипотезы:
- H0 : Семейное положение не влияет на просрочку.
- H1 : Влияние есть.
2. Строим таблицу сопряженности: Наблюдаемые частоты (Рис. 14):  
  ![image.png](attachment:71122c8e-8db5-4fee-ac2f-dade820a18c1.png)
```text
Холост: [20 (нет просрочки), 13 (есть просрочка)]
Женат: [30, 37]
```
3. Вычисляем хи-квадрат вручную:
- Ожидаемые частоты (при H0):
```text
Холост: [16.5, 16.5]
Женат: [33.5, 33.5]
```
- Формула: χ2 =∑(Oi − Ei)2/Ei = (20 − 16.5)2/16.5 + (13 − 16.5)2/16.5 + ⋯ = 2.216
4. Сравниваем с критическим значением:
- Степени свободы: df = (2 − 1)(2 − 1) = 1
- По таблице (Таблица 5) для α = 0.05 и df = 1: **Критическое значение = 3.84**
  ![image.png](attachment:3a64d922-51ac-4fa6-b823-6c6d708d2628.png)
- Так как 2.216 < 3.84, нет оснований отвергнуть H0
5. Автоматический расчет через SciPy:
```python
from scipy.stats import chi2_contingency
obs = np.array([[20, 13], [30, 37]])
chi2, p, dof, expected = chi2_contingency(obs, correction=False)
print(f"χ² = {chi2:.3f}, p-value = {p:.3f}")  # χ² = 2.216, p-value = 0.137
```
Вывод: p-value > 0.05 → связь незначима.

In [None]:
-