# **Классификация статистических методов**
Методы статистического анализа данных принято классифицировать по нескольким принципам:

1. По количеству анализируемых признаков

Статистические методы могут быть классифицированы по количеству анализируемых признаков, которые включены в модель исследования. Обычно выделяют три категории: одномерный анализ, многомерный анализ и многомерный анализ с высокой размерностью.

* Одномерный анализ включает в себя методы, которые оперируют только одним исследуемым признаком. Сюда можно отнести такие методы, как тест Стьюдента для сравнения средних двух групп, или однофакторный дисперсионный анализ для анализа различий между двумя или более группами.
* Многомерный анализ включает в себя методы, которые учитывают взаимосвязи между двумя и более признаками. К этой категории относятся методы множественной регрессии, дискриминантного анализа, кластерного анализа и многие другие. Эти методы позволяют учитывать сложные взаимосвязи между переменными и делать более точные прогнозы.
* Многомерный анализ с высокой размерностью включает в себя методы, которые работают с данными, содержащими большое количество признаков. Сюда можно отнести методы машинного обучения, в частности алгоритмы глубокого обучения, которые способны автоматически извлекать сложные закономерности из данных с высокой размерностью.
2. По статистическим принципам, лежащим в основе методов

* Параметрические методы, использующие предположения о распределении данных, такие как t-тест, анализ дисперсии (ANOVA), линейная регрессия и другие. Основаны на оценке параметров распределения (среднее, среднеквадратическое отклонение) и предполагают, что данные подчиняются определенной математической модели. Например, нормальному распределению.
Эти методы позволяют точнее оценить параметры распределения и выявить статистически значимые различия между группами данных. Однако при нарушении предположений о распределении результаты параметрических методов могут оказаться ненадежными.

* Непараметрические методы, которые не требуют предположений и используются для данных с нестандартным распределением, когда данные содержат выбросы или имеют ограниченный размер выборки. Это критерий Манна-Уитни, тест Вилкоксона, критерий Краскела-Уоллиса и другие.
Непараметрические методы обеспечивают более универсальную и надежную альтернативу в случаях, когда параметрические методы не могут быть применены.

Параметрические методы обладают более высокой мощностью и точностью при условии соблюдения предположений о распределении данных, но при нарушении этих предположений могут дать искаженные результаты. Непараметрические методы более устойчивы к отклонениям от распределения и могут быть более надежными в таких случаях.

Таким образом, выбор между параметрическими и непараметрическими методами статистического анализа зависит от природы и характеристик данных, предшествующих гипотез и целей исследования. Рассмотрение обоих типов методов позволяет исследователям выбирать наиболее подходящий и эффективный подход для анализа данных с учетом их свойств и особенностей.

При выборе между параметрическими и непараметрическими методами следует также учитывать объем и структуру выборки, степень измерения данных, тип исследования. Например, при работе с небольшими выборками или данными, которые не соответствуют стандартным распределениям, целесообразно использовать непараметрические методы. В случае больших выборок и явно выраженных групповых различий параметрические методы могут быть более предпочтительны.

Для нормального распределения признаков параметрические и непараметрические методы дают близкие результаты.

3. По зависимости или независимости сопоставляемых выборок

Тесты для независимых выборок применяются, если при составлении выборок исследуемые объекты были отобраны в группы независимо друг от друга. Например, были случайно разделены на две группы или находились в разных местах лечения.
Тесты для зависимых выборок применяются в двух случаях:
а) При анализе данных, полученных в ходе динамического наблюдения в одной группе пациентов. Например, до и после лечения.

б) При анализе выборок, образованных путем парного подбора по полу, возрасту, стадии заболевания и прочим критериям.
# **Параметрические методы**
**Критерий Стьюдента**
Критерий t-Стьюдента — это статистический метод для определения статистической значимости различий между средними значениями двух выборок. Он широко применяется в различных областях, включая медицину, особенно популярен в кардиологии. Во многих исследованиях его используют для оценки влияния различных факторов на здоровье сердечно-сосудистой системы.

Особенностью t-критерия Стьюдента является его способность работать с малыми выборками, когда не известно стандартное отклонение генеральной совокупности. Критерий учитывает различия внутригрупповой изменчивости и способен обнаруживать даже небольшие эффекты, что делает его широко используемым инструментом в статистическом анализе данных.
**Статистическая значимость различий**
Статистическая значимость различий означает вероятность того, что обнаруженные различия между двумя или несколькими группами или условиями являются не случайными, а реальными и значимыми.
Обычно статистическая значимость оценивается через p-значение — вероятность получить такие или еще более выраженные различия при условии, что нулевая гипотеза верна.
**Проверка на нормальность и однородность**
Проверка данных на нормальность и однородность (гомогенность) является критически важным шагом перед выполнением t-теста.

Нормальность распределения данных подразумевает, что значения в выборке распределены симметрично относительно среднего, что облегчает применение статистических методов, основанных на нормальном распределении, таких как t-тест. Проверка нормальности данных позволяет исследователям оценить степень соответствия данных этому предположению и принять решение о методе анализа.

Однородность дисперсий между группами означает, что вариации данных в одной группе примерно равны вариациям в другой группе, что также является важным предположением для корректного использования t-теста. Нарушение этого предположения может привести к искаженным результатам и неправильным статистическим выводам.

Проверка данных на нормальность и однородность перед применением t-теста можно осуществить с помощью различных статистических тестов, таких как тест Шапиро-Уилка для нормальности и тест Левена или тест Бартлетта для однородности дисперсий. В случае нарушения предположений о нормальности и однородности возможно применение альтернативных методов анализа данных, чтобы обеспечить корректность статистических выводов.

Таким образом, важность проверки данных на нормальность и однородность перед выполнением t-теста заключается в обеспечении надежности и точности результатов статистического анализа, что способствует корректному и
# **Проверка распределения на нормальность**
Распространенные тесты, используемые для проверки данных на нормальность распределения:

1. Тест Шапиро-Уилка проверяет, является ли выборка нормально распределенной, основываясь на значениях коэффициентов и порядковых статистик элементов выборки.
Тест Шапиро-Уилка — это параметрический статистический тест, который позволяет исследователям оценить гипотезу о нормальности распределения данных. Основан на сравнении эмпирических данных с распределением, близким к нормальному, и позволяет с высокой точностью определить, насколько данные соответствуют нормальному распределению.
Методика выполнения теста Шапиро-Уилка состоит из нескольких этапов и начинается с формулирования нулевой и альтернативной гипотез.

Нулевая гипотеза предполагает, что данные распределены нормально, в то время как альтернативная гипотеза указывает на отклонения от нормального распределения.
2. Тест Колмогорова-Смирнова используется для сравнения эмпирической функции распределения с теоретической функцией распределения и определения того, насколько они отличаются друг от друга.
Тест Колмогорова-Смирнова является статистическим методом, предназначенным для проверки гипотезы о согласии эмпирической функции распределения данных с теоретической функцией распределения. Этот тест используется для оценки того, насколько хорошо наблюдаемые данные соответствуют определенному теоретическому распределению.
Принцип работы теста Колмогорова-Смирнова заключается в сравнении эмпирической функции распределения с теоретической функцией распределения путем вычисления максимального модуля разности между ними. Нулевая гипотеза этого теста формулируется как предположение о том, что эмпирическая функция распределения соответствует теоретической функции.
3. Тест Лиллиефорса — это модификация теста Колмогорова-Смирнова, который учитывает параметры оцененных распределений и может использоваться для проверки на выборочные тяжелые хвосты.

4. Тест Андерсона-Дарлинга проверяет, насколько данные соответствуют определенному распределению, включая нормальное распределение.

5. Тест Жарка-Бера используется для тестирования нормальности и симметрии данных, а также проверки гипотезы о том, что данные распределены нормально.
Тест Колмогорова-Смирнова

*Плюсы:*

* Универсальность
Тест Колмогорова-Смирнова может применяться для широкого спектра распределений, как параметрических, так и непараметрических.

* Независимость от параметров
Данный тест не требует заранее известных параметров распределения, что делает его удобным для быстрого анализа данных.

*Минусы:*

* Низкая мощность
Тест Колмогорова-Смирнова может быть менее мощным при малых выборках, что может привести к неверному отклонению от нормальности данных.

* Чувствительность к форме распределения
Данный тест может быть менее чувствителен к отклонениям данных от нормальности, чем, например, тест Шапиро-Уилка.

Тест Шапиро-Уилка

*Плюсы:*

* Большая мощность
Тест Шапиро-Уилка чаще выявляет отклонения от нормальности данных, особенно на малых выборках.

* Чувствительность к форме распределения
Данный тест более чувствителен к форме распределения данных, что делает его эффективным при более точной оценке нормальности.

*Минусы:*

* Требовательность к выборке
Тест Шапиро-Уилка более требователен к объему выборки и может давать недостоверные результаты на малых объемах данных.

* Ограничение для параметрических данных
Данный тест лучше применять для параметрических распределений, он может быть нестабилен на выборках с непараметрическими данными.
# **Проверка на однородность (гомогенность)**
Проверка на гомогенность дисперсии — важный этап анализа данных, направленный на оценку равенства дисперсий между различными группами или условиями, что является ключевым аспектом в статистическом моделировании и выводах научных исследований.
Наиболее распространенные тесты:

* Тест Левена используется для проверки гомогенности дисперсии по нескольким группам или условиям. Он предполагает проверку нулевой гипотезы о равенстве дисперсий по различным группам.
Тест Левена — статистический метод, используемый для оценки гомогенности дисперсий между группами данных. Он представляет собой важный инструмент в проведении анализа дисперсии (ANOVA) и других статистических процедур, требующих выполнения предположений о равенстве дисперсий.
Для проведения теста Левена необходимо выполнить следующие шаги:

1. Формулирование нулевой и альтернативной гипотез

Нулевая гипотеза предполагает равенство дисперсий между группами, в то время как альтернативная гипотеза указывает на их различие.

2. Сбор данных

3. Расчет среднего значения в каждой группе

Эти значения будут использованы для вычисления показателя дисперсии в каждой группе.

4. Вычисление статистики теста

Статистика теста Левена основана на абсолютных отклонениях наблюдаемых значений от средних значений в каждой группе.

5. Определение степени свободы и расчет критического значения

Степень свободы зависит от количества групп и общего числа наблюдений, а критическое значение определяется на основе выбранного уровня значимости.

6. Принятие решения

На основе полученных результатов теста Левена принимается решение о том, следует ли отклонить нулевую гипотезу в пользу альтернативной.
* Тест Барлетта также применяется для проверки гомогенности дисперсии между группами. Основан на анализе нормально распределенных данных.
Тест Бартлетта является одним из распространенных статистических тестов, применяемых для проверки гомогенности дисперсий между группами в рамках анализа дисперсии. Данный тест основан на предположении о нормальном распределении данных и используется для оценки равенства дисперсий в различных группах или условиях исследования.

Принцип работы теста Бартлетта заключается в сравнении дисперсий между группами путем вычисления статистики, которая оценивает различия между дисперсиями исследуемых групп. В ходе теста проверяется нулевая гипотеза о равенстве дисперсий между группами против альтернативной гипотезы о наличии значимых различий в дисперсиях.
Методика выполнения теста Бартлетта:

1. Формулирование нулевой и альтернативной гипотез

Перед началом проведения теста необходимо ясно сформулировать нулевую гипотезу, которая предполагает равенство дисперсий в группах. И альтернативную гипотезу, которая предполагает наличие различий в дисперсиях между группами.

2. Сбор данных

Для проведения теста Бартлетта необходимо иметь числовые данные, распределенные по группам, для которых требуется проверить гомогенность дисперсий.

3. Проверка условий применимости теста

Прежде чем приступить к проведению теста, необходимо убедиться в выполнении условий применимости, таких как нормальность распределения данных в каждой группе.

4. Вычисление статистики теста

Для проведения теста Бартлетта необходимо вычислить специальную статистику на основе имеющихся данных, которая будет служить основой для анализа гомогенности дисперсий.

5. Определение степени свободы и расчет критического значения

На основе полученных результатов необходимо определить степень свободы и сравнить полученное значение статистики с критическим значением из соответствующей таблицы распределения.

6. Принятие решения

На основе полученных результатов теста Бартлетта принимается решение о том, следует ли отклонить нулевую гипотезу и считать дисперсии групп различными или оставить нулевую гипотезу о равенстве дисперсий.
# **t-распределение**
Распределение, которое разработал английский химик Уильям Сили Госсет и впервые описал в своей статье под псевдонимом Стьюдент (Student), получило известность как t-распределение. Именно поэтому его называют распределением Стьюдента, а соответствующие критерии — критериями Стьюдента.

t-распределение непрерывное и симметричное. Форма t-распределения зависит от числа степеней свободы выборки (от числа параметров, которые могут изменяться).
Понятие степень свободы используется в статистике для оценки количества независимых варьирований в выборке. В контексте t-критерия Стьюдента степень свободы определяется как количество наблюдений в каждой из выборок (n) минус один, то есть df = n – 1.
t-распределение часто применяется при проверке различий в средних по следующим причинам:

1. Малые выборки

t-распределение оказывается более надежным при работе с небольшими выборками (обычно менее 30 наблюдений). В таких случаях оно обеспечивает более точные результаты, чем нормальное распределение.

2. Неизвестное стандартное отклонение

Когда стандартное отклонение исследуемой генеральной совокупности неизвестно, используется оценка стандартного отклонения на основе выборки, что соответствует использованию t-распределения.

3. Поправка на неоднородность дисперсий

В случае, если дисперсии двух выборок существенно различаются, t-критерий, основанный на t-распределении, позволяет учесть такую неоднородность.

4. Малые отклонения от нормальности

t-распределение более устойчиво к отклонениям от нормальности, чем нормальное распределение, что делает его предпочтительным при наличии таких отклонений.
# **Одновыборочный t-критерий**
Одновыборочный t-критерий — это статистический метод, который используется для проверки значимости различий между средним значением выборки и известным или гипотетическим средним значением.
Основные шаги решения задачи:

1. Формулирование нулевой и альтернативной гипотез

Нулевая гипотеза может звучать как «Средний уровень холестерина у пациентов равен 200», а альтернативная — «Средний уровень холестерина у пациентов превышает 200».

2. Вычисление значения t-статистики

С помощью формулы для одновыборочного t-критерия.
![image.png](attachment:image.png)

3. Определение уровня значимости и степеней свободы для полученного значения t-статистики

Пусть уровень значимости будет 0,05, степень свободы равна количеству пациентов минус 1, то есть 9.

4. Сравнение полученного значения t-статистики с табличным значением

Делаем вывод о статистической значимости различий.

Для степени свободы 9 и уровня значимости 0,05 найдем критическое значение t из таблиц статистических распределений. По таблице, для двухсторонней области критические значения t-критерия будут около -2,262 и 2,262.

Так как наша t-статистика 0,067 находится в пределах критических значений, мы не можем отвергнуть нулевую гипотезу о равенстве среднего уровня холестерина 200 в выборке первых 10 пациентов.
# **Доверительный интервал для одновыборочного t-критерия**
Один из ключевых инструментов для исследования параметров средних значений — доверительный интервал для одновыборочного t-критерия. Интервал, в который с определенной вероятностью попадает истинное значение параметра генеральной совокупности (например, среднее значение) вокруг выборочной оценки, рассчитанной на основе одной выборки.
Уровень доверия — это ключевой статистический параметр, который используется при построении доверительного интервала в одновыборочном t-критерии. Он представляет собой вероятность того, что доверительный интервал, построенный на основе выборочных данных, содержит истинное значение параметра генеральной совокупности.
# **t-критерий для независимых выборок**
t-критерий для независимых выборок, также называемый двухвыборочным t-критерием — это статистический метод, используемый для сравнения средних значений двух независимых выборок.
Например, он может быть использован:

* для сравнения результатов лечения пациентов, которым был назначен новый препарат, с контрольной группой, получавшей стандартное лечение;
* для сравнения различных клинических параметров у разных групп пациентов (например, сравнение уровня холестерина в крови у пациентов до и после лечения);
* для анализа выживаемости пациентов в разных группах (например, сравнение выживаемости пациентов с разными типами опухолей),
* может помочь определить, насколько новый метод диагностики отличается от уже существующих.
# **Доверительный интервал для t-критерия для независимых выборок**
![image-2.png](attachment:image-2.png)
# **t-критерий для парных измерений**
t-критерий для парных измерений позволяет сравнивать средние значения в двух связанных группах и делать выводы о статистической значимости их различий. Парные измерения возникают, когда наблюдения в двух группах связаны друг с другом. Например, когда одни и те же субъекты измеряются до и после воздействия.

В медицине парные измерения часто возникают, когда у одних и тех же пациентов измеряют показатели до и после медицинского вмешательства или лечения. Анализ таких данных с использованием t-критерия для парных измерений позволяет определить эффективность лечения, оценить динамику заболевания и проверить гипотезы о влиянии различных факторов на пациентов.

Измерения рассматриваются как парные, значит, выборки должны быть одного размера.
![image-3.png](attachment:image-3.png)
# **Доверительный интервал для t-критерия для парных измерений** 
![image-4.png](attachment:image-4.png)
# **t-критерий для выборок с неравной дисперсией**
Одно из предположений, лежащих в основе применения t-критерия для независимых выборок, заключается в том, что дисперсии генеральных совокупностей, из которых взяты выборки, примерно равны. Эту концепцию также называют предположением об однородности дисперсий. Если это условие не выполняется и дисперсии отличаются, то риск возникновения ошибок первого и второго рода значительно возрастает.

Проблема заключается в том, что при проведении t-теста для независимых выборок используется объединение дисперсий выборок. В случае, когда выборки взяты из совокупностей с различающимися дисперсиями, результаты этого теста сильно искажаются. Эта проблема известна как проблема Беренса-Фишера, и для ее решения было предложено несколько подходов.

Для проверки однородности дисперсий следующие тесты:

* Бартлетта
* Левене
Тест Левене основан на среднем значении. В то время как критерий Брауна-Форсайта представляет собой расширенную версию теста Левене, который использует усеченное среднее или медиану.

Тест Бартлетта является наиболее чувствительным к отклонениям от нормальности (это отличается от проверки равенства дисперсий), поэтому его разумно применять лишь в случае, если вы уверены в примерно нормальном распределении генеральных совокупностей, из которых были взяты выборки.

При несоблюдении предположения об однородности вы можете прибегнуть к использованию одного из непараметрических эквивалентов t-критерия для независимых выборок или применить t-тест с неравными дисперсиями, также известный как **t-тест Велча.** Выбор между этими вариантами особенно важен, когда имеются маленькие выборки или когда требуется особое внимание к выводам. t-тест Велча использует немного отличающуюся формулу для расчета t-статистики и более сложную формулу для определения числа степеней свободы.
![image-5.png](attachment:image-5.png)
# **Непараметрические методы**
**Метод сравнения двух независимых выборок.Критерий Манна-Уитни (U)**
Критерий Манна-Уитни применяется, когда данные не удовлетворяют предположениям t-теста для независимых выборок, таким как нормальное распределение или равные дисперсии. Этот непараметрический критерий позволяет сравнивать медианы двух групп, основываясь на рангах данных, а не на самих значениях переменных.
Сравнение двух независимых выборок А и В объемом n1 и n2 происходит следующим образом:

1. Объединяют оба вариационных ряда, значения распределяют в порядке возрастания.

2. Каждому значению дают ранг.

В тех случаях, когда в выборках, упорядоченных по величине значений, имеются одинаковые значения, им присваивается средний ранг. Если, например, вариационный ряд: 2 2 4 6 6 6 (n=6), то значениям ряда присваиваются соответствующие ранги: 1,5; 1,5; 3; 5; 5; 5.

Так, в ряду первые 2 значения двойки, они стоят на местах 1 и 2, средний ранг для них будет равен (1 + 2) / 2 = 1,5.

Три значения вариационного ряда имеют величину 6, они занимают в вариационном ряду места 4-6. Им присваиваются ранги (4 + 5 + 6) / 3 = 5

Определяют сумму рангов в первом (ΣR1) и втором (ΣR2) вариационных рядах.

3. Вычисляют U1 и U2 по формулам:![image-6.png](attachment:image-6.png)
# **Метод сравнения двух зависимых выборок. Критерий Вилкоксона**
Непараметрический тест ранговой суммы Вилкоксона, также известный как критерий Уилкоксона для связанных выборок, является одним из ключевых методов статистического анализа данных, когда не выполняются условия параметрических тестов из-за нарушенности предположений о нормальности распределения или равенстве дисперсий.
Присвоение рангов в тесте ранговой суммы Вилкоксона основано на упорядочивании значений переменной в порядке возрастания и присвоении им рангов в соответствии с их позицией в упорядоченной последовательности. Принцип присвоения рангов прост: меньшее значение получает меньший ранг.

Если у нас есть одинаковые значения, то мы присваиваем им средний ранг, как и в критерии Манна-Уитни.

Для подсчета рангов обе группы объединяют. После присвоения рангов каждому значению мы суммируем ранги соответствующих пар значений в каждой группе для вычисления ранговой суммы. Далее используем эти суммы рангов для статистической оценки различий между группами или условиями.

Таким образом, ранги в методе ранговой суммы Вилкоксона позволяют упорядочить значения и провести сравнения между группами на основе относительных позиций значений, а не их абсолютных числовых значений.
# **Критерий согласия Пирсона**
Критерий согласия Пирсона или критерий согласия хи-квадрат является статистическим методом, который используется для проверки того, насколько хорошо теоретические ожидания согласуются с фактическими наблюдениями в выборке.
Для корректного использования критерия Пирсона хи-квадрат необходимо соблюсти определенные условия, чтобы результаты анализа были достоверными и интерпретируемыми:

1. Независимость выборок

Выборки, по которым проводится анализ, должны быть независимыми. Это означает, что значения в одной выборке не должны влиять на значения в другой выборке.

2. Большие размеры выборок

Критерий хи-квадрат чувствителен к размеру выборок, поэтому необходимо, чтобы они были достаточно большими. Точные критерии для определения минимального количества наблюдений могут зависеть от конкретной ситуации.

3. Однородность предполагаемой частоты

Используемые частоты должны быть достаточно большими и однородными. Это поможет обеспечить стабильность и точность результатов критерия.

4. Справедливость предпосылок статистического теста

При использовании критерия Пирсона хи-квадрат необходимо убедиться, что данные соответствуют всем необходимым предпосылкам данного метода.

Соблюдение перечисленных условий поможет провести корректный статистический анализ с использованием критерия Пирсона и правильно интерпретировать полученные результаты для определенной задачи или исследования.

Принцип решения задач с использованием критерия согласия хи-квадрат следующий:

1. Сформулировать нулевую и альтернативную гипотезы

Нулевая гипотеза предполагает, что наблюдаемые частоты согласуются с ожидаемыми. А альтернативная гипотеза говорит о том, что имеется статистически значимое отклонение между ними.

2. Рассчитать значение хи-квадрат

Для этого необходимо сравнить наблюдаемые и ожидаемые частоты, применить формулы и получить значение критерия.

3. Определить степени свободы для критерия хи-квадрат

4. Сравнить

Полученное значение хи-квадрат сравнивают с табличным значением при выбранном уровне значимости. Если значение хи-квадрат больше табличного, нулевая гипотеза отвергается.

Статистическое сравнение двух выборок, изучаемый признак в которых представлен частотой этого признака в абсолютных величинах, проводится с помощью критерий согласия (Χ2) по следующей формуле:
![image-7.png](attachment:image-7.png)
