# Вариант 3
## Задание 1
Предположите с каким вероятностным законом распределен суммарный балл за экзамены. С помощью статистического теста подвержите/опровергните это предположение (первый тест - критерий согласия Колмогорова, если распределение абсолютно непрерывное, либо критерий согласия Пирсона хи-квадрат, если распределение дискретное).

### Формулировка гипотез
- $H_0$: Суммарный балл соответствует нормальному распредению
- $H_1$: Суммарный балл не соответствует нормальному распределению

### Расчет параметров распределения
- Для начала нужно просуммировать оценки за экзамены и записать их в отдельный столбец
- Затем вычислим $\mu$ (среднее): $\mu = \frac{1}{n} \sum_{i=1}^{n} x_i$
- Затем вычислим стандартное отклонение: $\sigma \sqrt{\frac{1}{n-1} \sum_{i=1}^n (x_i - \mu)^2}$

In [5]:
from scipy.stats import kstest, norm
import pandas as pd

data = pd.read_csv("exams_dataset.csv")
data['total_score'] = data['math score'] + data['reading score'] + data['writing score']
total_score = data['total_score']

mu = total_score.mean()
sigma = total_score.std()

print("Выборочное среднее: ", mu)
print("Стандартное отклонение: ", sigma)

Выборочное среднее:  202.404
Стандартное отклонение:  45.47375778013784


### Какое у нас распредение абсолютно непрерывное или дискретное?
У нас дискретное распределение, так как у нас сумма баллов за экзамен может принимать значения 0-300, при чем значения могут быть только целыми числами, поэтому распределение у нас дискретное, а следовательно, мы должны использовать критерий согласия Пирсона хи-квадрат

Чтобы построить статистику, разобьем ось на непересекающиеся отрезки (аналогично тому, как строим гистограмму):
$$- \infty < a_0 < a_1 < ... < a_r < \infty $$

Посмотрим, как отличается гистограмма от теоритического распределения. Пусть $p_i = \mathbb{P}(a_{i-1}, a_i]$. А $n_i$ - число значений выборки на том же отрезке. Рассмотрим статистику: $$ X^2 = \sum_{i=1}^r \frac{(n_i - mp_i)^2}{mp_i}$$ 

Если гипотеза верна, то статистика распределена согласно распределению $X^2(r-1)$. При известном квантиле $h_{1-\alpha}$ распредения $X^2$ критическая область будет выглядеть так: $$(h_{1 - \alpha}, \infty) $$

Если известно семейство распределений, но неизвестны параметры, то параметры можно оценить согласно методу максимальному правдоподобия. Правда, статистика будет иметь другое число степеней свободы: $X^2 \sim X^2(r-l-1)$, где l - число оцениваемых параметров.

### Разобьем данные на интервалы шириной 10 баллов:

In [6]:
import numpy as np

min_score = data["total_score"].min()
max_score = data["total_score"].max()
bins = np.arange(min_score, max_score + 10, 10)
observed, _ = np.histogram(data["total_score"], bins=bins)

### Расчитаем вероятности попадания в интервалы

In [7]:
expected = []
for i in range(len(bins) - 1):
    lower = bins[i]
    upper = bins[i + 1]
    prob = norm.cdf(upper, loc=mu, scale=sigma) - norm.cdf(lower, loc=mu, scale=sigma)
    expected.append(prob * len(data))

### Расчет статистики хи-квадрат

In [21]:
observed = np.array(observed)
expected = np.array(expected)
valid_indices = expected >= 5

observed_filtered = observed[valid_indices]
expected_filtered = expected[valid_indices]

total_observed = observed_filtered.sum()
total_expected = expected_filtered.sum()
expected_filtered = expected_filtered * (total_observed / total_expected)


chi_sq = np.sum((observed_filtered - expected_filtered) ** 2 / expected_filtered)
print(f"Статистика хи-квадрат: {chi_sq}")

Статистика хи-квадрат: 29.79790075418849


### Определение степеней свободы
$r - l - 1  =  r - 3$, где l = 2 - количество оцененных параметров $(\mu, \sigma)$ 

### Сравнение с критическим значением
Для $\alpha = 0.05$ и df = 18, критическое значение $X_{крит}^2 =  28.9$ 

In [22]:
from scipy.stats import chi2
alpha = 0.05
df =  len(expected_filtered) - 3

critical_value = chi2.ppf(1 - alpha, df)
print(f"Критическое значение (α=0.05, df={df}): {critical_value:.3f}")

Критическое значение (α=0.05, df=18): 28.869


In [19]:
from scipy.stats import chisquare
chi_stat, p_value = chisquare(observed_filtered, f_exp=expected_filtered)
print(f"Статистика хи-квадрат: {chi_stat:.3f}")
print(f"P-value: {p_value:.3f}")

Статистика хи-квадрат: 29.798
P-value: 0.073


### Ответ на задание №1
- Статистика хи-квадрат (29.798) > Критическое значение (28.869). Следовательно, отвергаем нулевую гипотезу $H_0$. Распределение суммарного балла не соответствует номальному распределению