In [84]:
%useLatestDescriptors
%use lets-plot, dataframe

In [85]:
// Исходные данные для варианта №4
val data = """
6,40 7,40 7,08 8,87 8,19 11,15 6,68 4,92 7,18 6,29
10,99 8,78 5,68 8,18 8,93 2,38 5,62 8,04 11,52 7,96
6,85 8,56 8,15 7,05 7,69 5,80 4,47 8,64 7,83 8,42
8,96 7,82 6,64 8,00 5,58 9,67 6,03 12,21 7,95 6,53
6,40 8,10 10,95 8,90 4,87 9,34 10,00 6,36 9,86 7,83
"""

val numbers = data.trim().replace(',', '.').replace('\n', ' ').split(" ").filter { it.isNotBlank() }.map { it.toDouble() }

numbers

[6.4, 7.4, 7.08, 8.87, 8.19, 11.15, 6.68, 4.92, 7.18, 6.29, 10.99, 8.78, 5.68, 8.18, 8.93, 2.38, 5.62, 8.04, 11.52, 7.96, 6.85, 8.56, 8.15, 7.05, 7.69, 5.8, 4.47, 8.64, 7.83, 8.42, 8.96, 7.82, 6.64, 8.0, 5.58, 9.67, 6.03, 12.21, 7.95, 6.53, 6.4, 8.1, 10.95, 8.9, 4.87, 9.34, 10.0, 6.36, 9.86, 7.83]

Преобразую в DataColumn для удобства дальнейшей работы с данными.

In [86]:
val values = columnOf(*numbers.toTypedArray())
values

untitled
6400000
7400000
7080000
8870000
8190000
11150000
6680000
4920000
7180000
6290000


### Задание 1

Проверить по выборке 1 (все числа) статистическую гипотезу о нормальном распределении элементов генеральной совокупности (на уровне значимости $\alpha$; $\alpha$ задать
самостоятельно).

Построим график плотности распределения и гистограмму для визуальной оценки нормальности распределения данных.

Используем формулу Стерджесса для определения оптимального количества столбцов (интервалов) в гистограмме:

In [87]:
val n = numbers.size
n

50

In [88]:
val k = (1 + 3.322 * kotlin.math.log10(n.toDouble())).roundToInt()
k


7

Для построения нормального распределения находим среднее значение и среднеквадратичное отклонение выборки.

In [89]:
val mean = values.mean()
val std = values.std()

println("Среднее значение: $mean")
println("Среднеквадратичное отклонение: $std")

Среднее значение: 7.753999999999998
Среднеквадратичное отклонение: 1.9240444222458875


Функция нормального распределения, для визуальной оценки:

In [90]:
import org.apache.commons.math3.distribution.NormalDistribution

val normalDistribution = NormalDistribution(mean, std)
val func = { x: Double -> normalDistribution.density(x) }
val min = values.min()
val max = values.max()

In [91]:
val histogram = letsPlot(data = mapOf("values" to numbers)) +
        geomHistogram(bins = k, fill = "#CCCCCC"){ x = "values" }
histogram

In [92]:
val histogramWithNormalDistribution = letsPlot(data = mapOf("values" to numbers)) +
        geomHistogram(bins = k, fill = "#CCCCCC") {
            x = "values"
            y = "..density.."
        } + geomFunction(fn = func, color = "red", xlim = min to max)

histogramWithNormalDistribution

На графике видно подтверждение нормального распределения данных, так как гистограмма и кривая плотности распределения совпадают.

#### Критерий Пирсона

Выдвенем гипотезу ($H_0$: данные распределены нормально, $H_1$: данные не распределены нормально) и проверим её с помощью критерия Пирсона ($\chi^2$)

Выборочное среднее и среднеквадратичное отклонение. Данные беру из гистограммы.

In [93]:
val sampleMean = (2.24 + 3.92 + 5.61 * 11.0 + 7.3 * 17 + 8.98 * 13 + 10.7 * 5 + 12.4 * 2) / 50.0
sampleMean

7.740200000000001

In [94]:
val sampleStd = kotlin.math.sqrt(((2.24 - sampleMean).pow(2) + (3.92 - sampleMean).pow(2) + (5.61 - sampleMean).pow(2) * 11 + (7.3 - sampleMean).pow(2) * 17 + (8.98 - sampleMean).pow(2) * 13 + (10.7 - sampleMean).pow(2) * 5 + (12.4 - sampleMean).pow(2) * 2) / 50.0)
sampleStd

2.0261663209124765

*Важно*: Если в каком-то интервале эмпирическая частота $n_i < 5$ (малочисленная), этот интервал нужно объединить с соседним, суммируя как $n_i$, так и $n'_i$.

Теоретические частоты для каждого интервала рассчитываются по формуле:

$$
n'_i = n \cdot P_i
$$

где $P_i$ - вероятность попадания элемента в $i$-й интервал для нормального распределения

$$
P_i = \Phi(x_{i+1}) - \Phi(x_i)
$$

Функция Лапласа:

In [95]:
import org.apache.commons.math3.special.Erf

fun laplace(x: Double) = 0.5 * Erf.erf(x / sqrt(2.0))

laplace(Double.NEGATIVE_INFINITY)

-0.5

Границы интервалов из гистограммы (соединяю малочисленные интервалы):

In [96]:
val boundries = listOf(
    Double.NEGATIVE_INFINITY to 6.58,
    6.58 to 7.98,
    7.98 to 9.38,
    9.38 to Double.POSITIVE_INFINITY,
)
boundries

[(-Infinity, 6.58), (6.58, 7.98), (7.98, 9.38), (9.38, Infinity)]

Компоненты Хи-квадрат для каждого интервала рассчитываются по формуле:

$$
\frac{(n_i - n'_i)^2}{n'_i}
$$

In [97]:
val tableData = mapOf<String, Iterable<*>>(
    "intervals" to boundries.map { "${it.first} - ${it.second}" },
    "n_i" to mutableListOf<Double>(),
    "n'_i" to mutableListOf<Double>(),
    "chiSquareComponent" to mutableListOf<Double>() // (n_i - n'_i)^2 / n'_i
)

for ((start, end) in boundries) {
    val (zStart, zEnd) = listOf(start, end).map {  (it - sampleMean) / sampleStd }
    val p = laplace(zEnd) - laplace(zStart)
    val expectedN = n * p
    val observedN = values.count { it >= start && it < end }.toDouble()
    val chiSquareComponent = if (expectedN > 0) (observedN - expectedN).pow(2) / expectedN else 0.0
    (tableData["n_i"] as MutableList<Double>).add(observedN)
    (tableData["n'_i"] as MutableList<Double>).add(expectedN)
    (tableData["chiSquareComponent"] as MutableList<Double>).add(chiSquareComponent)
}

val df = tableData.toDataFrame()
df

intervals,n_i,n'_i,chiSquareComponent
-Infinity - 6.58,14000000,14172746,2106
6.58 - 7.98,13000000,13182527,2527
7.98 - 9.38,15000000,12186329,649641
9.38 - Infinity,8000000,10458398,577882


Хи-квадрат статистика для проверки гипотезы о нормальном распределении данных рассчитывается как сумма компонентов Хи-квадрат для всех интервалов.

In [98]:
val chiSquareStatistic = df.chiSquareComponent.sum()
chiSquareStatistic

1.2321560501863047

Определим количество степеней свободы для критерия Пирсона. Оно рассчитывается по формуле:

$$
k = s - 1 - r
$$

- $s$ - количество интервалов
- 1 — эта единица вычитается, потому что существует одна жесткая связь: сумма всех эмпирических частот должна быть равна объему выборки
- $r$ - количество параметров, оцененных по выборке (в нашем случае это 2: среднее и среднеквадратичное отклонение)

Тогда количество степеней свободы будет равно:


In [99]:
val k = boundries.size - 1 - 2
k

1

$\chi^2_{\text{крит}}$ - критическое значение для уровня значимости $\alpha$ и количества степеней свободы $k$. Находим его по таблице. За уровень значимости $\alpha$ возьмем 0.05, тогда $\chi^2_{\text{крит}} = 3.8$.

In [100]:
if (chiSquareStatistic < 3.8) {
    println("Принимаем гипотезу H0: данные распределены нормально")
} else {
    println("Отвергаем гипотезу H0: данные не распределены нормально")
}

Принимаем гипотезу H0: данные распределены нормально


### Задание 2

Используя выборку 2, вычислить несмещенные оценки для среднего арифметического значения, дисперсии и среднего квадратического отклонения статистического распределения элементов генеральной совокупности.

Выборка 2 это первые 20 чисел из исходных данных.

In [101]:
val values = columnOf(*numbers.take(20).toTypedArray())
values

untitled
6400000
7400000
7080000
8870000
8190000
11150000
6680000
4920000
7180000
6290000


Несмещенная оценка среднего арифметического значения:

In [102]:
val mean2 = values.mean()
mean2

7.612000000000002

Среднее квадратическое отклонение:

In [103]:
val std2 = values.std()
std2

2.1976892170497724

Дисперсия:

In [104]:
val variance2 = std2.pow(2)
variance2

4.829837894736841

### Задание 3

Для выборки 2, считая, что дисперсия элементов генеральной совокупности известна, определить доверительный интервал для оценки среднего арифметического значения генеральной совокупности при доверительной вероятности $Р=1 - \alpha$.


Доверительный интервал

In [106]:
val alpha = 0.05
val q = 1 - alpha
q

0.95

In [110]:
fun inverseLaplace(p: Double): Double {
    require(p in 0.0..1.0)
    return sqrt(2.0) * Erf.erfInv(2 * p)
}

inverseLaplace(0.5)

Infinity

In [111]:
val n = values.size()
n

20

Критическое значение (t):

In [113]:
val t = inverseLaplace(q / 2)
t

1.959963984540054

Предельность ошибки выборки:

In [114]:
val error = t * sampleStd / sqrt(n.toDouble())
error

0.8879902256184545

Тогда доверительный интервал для оценки среднего арифметического значения генеральной совокупности будет:

In [115]:
val (start, end) = mean2 - error to mean2 + error
(start to end)

(6.724009774381547, 8.499990225618456)

### Задание 4

Считая, что дисперсия элементов генеральной совокупности неизвестна, используя
выборку 2, определить доверительный интервал для оценки среднего
арифметического значения генеральной совокупности при доверительной
вероятности Р=1- α.

Считаем по Стьюденту, так как дисперсия неизвестна. Тогда критическое значение будет рассчитываться по распределению Стьюдента.

In [116]:
val k = n - 1
k

19

In [118]:
import org.apache.commons.math3.distribution.TDistribution

val tDist = TDistribution(k.toDouble())
val tCritical = tDist.inverseCumulativeProbability(1 - alpha / 2)
tCritical

2.0930240544083145

In [120]:
val error = tCritical * std2 / sqrt(n.toDouble())
error

1.02855021441301

Доверительный интервал для оценки среднего арифметического значения генеральной совокупности будет:

In [121]:
val (start, end) = mean2 - error to mean2 + error
(start to end)

(6.583449785586992, 8.640550214413011)

Интервал получился шире, чем в случае известной дисперсии, что логично, так как мы не знаем точное значение дисперсии и должны учитывать эту неопределенность в наших расчетах.

### Задание 5

Используя выборку 2, определить доверительный интервал для оценки дисперсии
генеральной совокупности при доверительной вероятности Р=1- α


In [127]:
variance2

4.829837894736841

Доверительный интервал:

In [128]:
import org.apache.commons.math3.distribution.ChiSquaredDistribution

val chiDist = ChiSquaredDistribution(k.toDouble())
val chiSquareLower = chiDist.inverseCumulativeProbability(alpha / 2)
val chiSquareUpper = chiDist.inverseCumulativeProbability(1 - alpha / 2)
chiSquareLower to chiSquareUpper

(8.906516482067273, 32.8523268617312)

In [129]:
(k * variance2) / chiSquareUpper to (k * variance2) / chiSquareLower

(2.793315687690202, 10.303345891153636)

2.1976892170497724