## Язык Julia: статистические критерии (проверка гипотез)
Язык Julia в настоящий момент сильно уступает R по количеству реализованных статистических критериев. Мне не удалось найти даже реализацию одномерного критерия Шапиро-Уилка, не говоря уже о вещах типа http://www.inside-r.org/packages/cran/MVN/docs/HZ.test. Тем не менее, имеются критерии Стьюдента, Уилкоксона-Манна-Уитни, точный критерий Фишера и некоторые другие классические критерии. Реализованы они в пакете [HypothesisTests](https://github.com/JuliaStats/HypothesisTests.jl) ([документация](http://hypothesistestsjl.readthedocs.org/en/latest/index.html)).

Выполним сравнение при помощи критерия Стьюдента для случая, когда равенство дисперсий не предполагается (модификация Уэлча):

In [20]:
using HypothesisTests, DataFrames, RDatasets
iris = dataset("datasets", "iris")
t_test = UnequalVarianceTTest(iris[1], iris[2])

Two sample t-test (unequal variance)
------------------------------------
Population details:
    parameter of interest:   Mean difference
    value under h_0:         0
    point estimate:          2.7859999999999983
    95% confidence interval: (2.6354403195191067,2.9365596804808898)

Test summary:
    outcome with 95% confidence: reject h_0
    two-sided p-value:           1.4595425075862512e-96 (extremely significant)

Details:
    number of observations:   [150,150]
    t-statistic:              36.4632839344491
    degrees of freedom:       225.67831770187826
    empirical standard error: 0.07640562503938086


Для извлечения p-значения служит функция `pvalue`:

In [10]:
pvalue(t_test)

1.4595425075862512e-96

Доверительный интервал (в данном случае для разности средних) можно построить при помощи функции `ci`:

In [33]:
ci(UnequalVarianceTTest(iris[1], iris[2]), tail=:both)

(2.6354403195191067,2.9365596804808898)

По непонятным причинам не удается использовать аргумент `alpha`, чтобы указать требуемый уровень значимости.

По аналогии можно воспользоваться другими критериями, например:

In [35]:
MannWhitneyUTest(iris[1], iris[2])

Approximate Mann-Whitney U test
-------------------------------
Population details:
    parameter of interest:   Location parameter (pseudomedian)
    value under h_0:         0
    point estimate:          2.8

Test summary:
    outcome with 95% confidence: reject h_0
    two-sided p-value:           9.812123178858594e-51 (extremely significant)

Details:
    number of observations in each group: [150,150]
    Mann-Whitney-U statistic:             22497.5
    rank sums:                            [33822.5,11327.5]
    adjustment for ties:                  34842.0
    normal approximation (μ, σ):          (11247.5,750.7640756751849)


Для точного критерия Фишера нужно задать непосредственно значения таблицы сопряженности. Критерий Фишера-Фримена-Гальтона (обобщение точного критерия Фишера для таблиц размером больше 2х2) не реализован.

In [36]:
FisherExactTest(2, 8, 3, 7)

Fisher's exact test
-------------------
Population details:
    parameter of interest:   Odds ratio
    value under h_0:         1.0
    point estimate:          0.5992973050097158
    95% confidence interval: (0.039058381022614184,6.9366062328716955)

Test summary:
    outcome with 95% confidence: fail to reject h_0
    two-sided p-value:           0.9999999999999999 (not significant)

Details:
    contingency table:
        2  8
        3  7


### Выводы
В качестве среды для выполнения классического статистического анализа (с проверками разных предпосылок и применением именных критериев) Julia пока что выглядит не очень впечатляющие. Забегая вперед, скажу, что с машинным обучением дела обстоят гораздо лучше: реализованы сами алгоритмы, способы оценки качества (типа ROC-кривых), кросс-валидация и подбор гиперпараметров.