# **Распределения**
Для статистического анализа часто необходимо знать вид распределения изучаемого признака (переменной) в изучаемой совокупности. Распределение признаков помогает:

* определить нормальные диапазоны для различных показателей здоровья, что позволяет выявить отклонения, указывающие на заболевание или состояние;
* выявить факторы риска для различных заболеваний, сравнивая распределения у лиц с и без факторов риска;
* оценить эффективность лечения с помощью сравнения распределений результатов до и после;
* спрогнозировать результаты лечения или развития заболевания на основе текущих значений признаков;
* разработать стратегии профилактики, направленные на снижение риска развития заболеваний или состояний.
**Типы распределений**
Основными типами распределений признаков являются:

* дискретные (распределение Пуассона, биномиальное, распределение Бернулли),
* непрерывные (нормальное, логнормальное, постоянное, экспоненциальное, хи-квадрат).
**Виды распределений**
Под видом распределения случайной величины понимают соответствие между всеми ее возможными числовыми значениями и вероятностями (частотами) их появления в совокупности.
1. Унимодальное — распределение вероятностей, которое имеет один локальный максимум (моду) (рис. 1). Часто встречается в медицинских данных, когда существует одна основная группа пациентов или состояний.
Примеры:
![image.png](attachment:image.png)
* Рост взрослых — с одной модой, представляющей средний рост популяции.
* Уровни артериального давления у здоровых взрослых — с одной модой, представляющей нормальное артериальное давление.
* Результаты анализов крови, такие как уровни глюкозы или холестерина, — с одной модой, представляющей нормальные уровни.
* Выживаемость после рака для определенного типа болезни — с одной модой, представляющей среднюю продолжительность выживания.
2. Бимодальное — распределение случайной величины, при котором гистограмма или кривая плотности вероятности содержит два характерных «пика» или моды (рис. 2). Что говорит о наличии двух различных групп данных или условий, влияющих на их распределение.
Примеры:
![image-2.png](attachment:image-2.png)
* Возраст начала болезни Альцгеймера — с одной модой для раннего начала (до 65 лет) и другой модой для позднего начала (после 65 лет).
* Уровни холестерина ЛПНП — с одной модой для здоровых людей и другой модой для людей с высоким риском сердечно-сосудистых заболеваний.
* Результаты тестов на беременность — с одной модой для отрицательных результатов и другой модой для положительных результатов.
* Размеры опухолей — с одной модой для доброкачественных опухолей и другой модой для злокачественных опухолей.
* Результаты рентгенографии грудной клетки у детей — с одной модой для здоровых детей и другой модой для детей с респираторными заболеваниями.
3. Мультимодальное — распределение вероятностей с несколькими модами (рис. 3). Может свидетельствовать о том, что в исследовании не учтено или не до конца проработано некоторое важное обстоятельство.
Примеры:
![image-3.png](attachment:image-3.png)
* Данные о количестве госпитализаций пациентов могут иметь несколько мод, соответствующих различным уровням тяжести заболевания или причинам госпитализации.
* Уровни глюкозы в крови могут иметь несколько мод, соответствующих периодам голодания, после еды и при диабете.
* Результаты биопсии могут иметь несколько мод, соответствующих различным стадиям заболевания или типам клеток.
* Результаты рентгенографии грудной клетки могут иметь несколько мод, соответствующих различным легочным заболеваниям или анатомическим вариантам.
* ЭКГ могут иметь несколько мод, соответствующих различным сердечным ритмам или заболеваниям.
# Нормальное (гауссовское) распределение
Нормальное распределение, известное также как гауссовское распределение, играет ключевую роль в медицинской статистике и анализе данных. Этот математический закон вероятности имеет широкое применение в медицинских исследованиях, клинической практике и обработке медицинских данных. Понимание нормального распределения позволяет ученым и врачам оценивать различные аспекты здоровья и болезней, прогнозировать риск и эффективность лечения, а также проводить статистические анализы в медицинских исследованиях.
Нормальное распределение используется для:

* Моделирования распределения медицинских показателей. Например, уровня холестерина или артериального давления. Эти модели можно применить для прогнозирования рисков для здоровья и принятия решений о лечении.
* Установления норм медицинских показателей. Значения, выходящие за пределы нормы, могут указывать на наличие заболевания или необходимости медицинского вмешательства.
* Оценки эффективности лечения. Изменения в распределении медицинских показателей до и после лечения могут указывать на улучшение или ухудшение состояния.
* Контроля качества медицинских тестов и процедур. Отклонения от нормального распределения могут указывать на проблемы с точностью или надежностью теста.
Нормальное распределение позволяет использовать параметрические статистические тесты, более мощные, чем непараметрические тесты. Облегчает сравнение результатов между различными группами или популяциями. Помогает делать обоснованные выводы о популяции на основе выборки.
**Симметричное распределение** — статистическое распределение, в котором значения случайной величины равноудалены от некоторой центральной точки, обладая свойством симметричности относительно этой точки. Что означает равенство вероятностей значений величин, находящихся на одинаковом расстоянии от центральной точки.
**Симметричная выборка** — выборка, в которой распределение значений данных симметрично относительно их среднего значения или центральной точки. Что означает равенство по вероятности или частоте значений, находящихся на одинаковом удалении от среднего. Симметричные выборки обычно характеризуются отсутствием смещения в данных и одинаковым распределением значений в обоих направлениях от среднего.
Свойства нормального распределения
1. Симметричность

Распределение симметрично относительно своего среднего значения. То есть плотность вероятности одинакова с обеих сторон от среднего.

2. Однозначно определенные параметры

Распределение описывается средним (μ) и стандартным отклонением (σ), которые определяют форму и положение кривой распределения. При работе с нормальным распределением, где среднее значение может быть любым, часто принимается, что стандартное отклонение равно единице. Для облегчения работы с данными.

Однако многие аналитики и исследователи предпочитают использовать среднее значение равное нулю (μ = 0), и стандартное отклонение равное единице (σ2= 1), чтобы упростить процесс стандартизации данных. Это позволяет легче сравнивать различные наборы данных и оценивать, насколько далеко отклоняются конкретные значения от среднего.

3. Известные проценты

При анализе данных можно учитывать, что:

около 68% значений в распределении находятся в пределах одного стандартного отклонения от среднего ;
приблизительно 95% значений распределения находятся в интервале двух стандартных отклонений ;
около 99,7% значений укладываются в пределы трех стандартных отклонений от среднего значения .
Эти процентные диапазоны часто используются для определения вариабельности данных и оценки их соответствия стандартам. Понимание этих принципов помогает исследователям интерпретировать данные и выявлять аномалии.

4. Стабильность

Распределение устойчиво к выбросам.

5. Распределение обладает характерной колоколообразной формой

Это указывает на то, что вероятность наблюдения значений близких к среднему значению выше, чем для значений, находящихся дальше от среднего.

6. Равенство среднего, моды и медианы


Рис.4. График нормального распределения

Оценка степени близости данных к нормальному распределению является важным аспектом по многим причинам:

1. Толкование результатов статистических тестов

Многие статистические методы и тесты предполагают нормальность данных. Отклонение распределения от нормального может привести к искажению результатов и неверным выводам.

2. Применимость параметрических методов

Параметрические методы, такие как t-тесты, анализ дисперсии, линейная регрессия и прочие, опираются на предположения о нормальности данных. Понимание характера распределения помогает выбирать подходящие методы для анализа.

3. Доверительные интервалы и прогнозы

Анализ данных с использованием доверительных интервалов и прогнозов требует предположения о нормальном распределении данных. Ненормальные данные могут привести к некорректным оценкам и прогнозам.

4. Объективность анализа

Нормальное распределение обладает удобными свойствами, что упрощает интерпретацию данных и принятие решений на основе анализа.

5. Контроль качества данных

Оценка близости распределения к нормальному помогает выявить выбросы, искажения и обеспечить качество данных для достоверного анализа.

Таким образом, знание о характере распределения данных помогает обеспечить корректность статистического анализа.
# **Асимметричные распределения** 
Выборки могут быть также асимметричными или перекошенными. Это означает, что они имеют больше наблюдений на одной стороне среднего значения, чем на другой.

Примеры асимметричных выборок в медицинских данных:

* выборка уровня холестерина в крови у пациентов с сердечно-сосудистыми заболеваниями;
* выборка уровня сахара в крови у пациентов с диабетом;
* выборка продолжительности жизни у пациентов с раком.
# **Логнормальное распределение**
ограничено нулем и характеризуется более длинным «хвостом» по сравнению с нормальным распределением. Оно связано с нормальным распределением следующим образом: если случайная величина x имеет логнормальное распределение, то переменная y = ln(x) будет иметь нормальное распределение.
например:

* Продолжительность жизни часто распределяется по логнормальному закону, поскольку она имеет положительные значения и длинный хвост, представляющий людей, доживающих до очень преклонного возраста.
* Размеры опухолей также могут быть распределены по логнормальному закону, поскольку они имеют положительные значения и могут сильно варьироваться в размерах.
* Концентрации биомаркеров, таких как белки и нуклеиновые кислоты, в биологических жидкостях часто распределяются по логнормальному закону из-за широкого диапазона возможных значений.
* Дозы лекарств, необходимые для достижения желаемого терапевтического эффекта, могут быть распределены по логнормальному закону из-за вариабельности индивидуального метаболизма.
* Время выживания пациентов после лечения рака или других заболеваний часто распределяется по логнормальному закону, поскольку оно имеет положительные значения и длинный «хвост», представляющий пациентов, выживающих в течение длительного времени.
# **Биномиальное распределение**
Биномиальное распределение используется при расчете вероятностей, когда наблюдения независимы друг от друга. То есть результат одного наблюдения не зависит от другого, а исход измеряется биноминальной переменной (событие наступило или событие не наступило).
Биномиальное распределение в медицине используется для:

* расчета вероятности того, что человек заболеет определенным заболеванием, с учетом известной вероятности заболевания в популяции;
* оценки эффективности лечения, при сравнении количества успешных исходов (например, выздоровлений) с количеством неудачных исходов (например, рецидивов);
* оценки точности диагностических тестов, таких как тесты на беременность или тесты на инфекционные заболевания;
* анализа генетических данных и оценки вероятности наследования определенных генетических признаков;
* определения размера выборки и анализа результатов клинических испытаний, в которых оценивается эффективность новых методов лечения или вмешательств.
# **Распределение Пуассона**
Распределение Пуассона — математическая модель, которая используется для описания случайной величины, представляющей количество событий, произошедших за определенный период времени или в определенной области пространства. Это распределение применяется в случаях, когда события происходят независимо друг от друга и имеют постоянную среднюю интенсивность λ.
Распределение Пуассона в медицине можно использовать для:

* прогнозирования количества госпитализаций в больнице в течение определенного периода времени;
* моделирования вероятности вспышки инфекционного заболевания в сообществе, учитывая среднее количество случаев в прошлом;
* оценки вероятности возникновения рака у людей, подвергшихся воздействию радиации, учитывая среднюю дозу облучения;
* моделирования вероятности возникновения генетических мутаций в определенной популяции, учитывая среднюю частоту мутаций;
* анализа медицинских изображений, таких как рентгеновские снимки или МРТ, для обнаружения аномалий или патологий, которые могут быть редкими.
# **Выбросы**
Выброс — наблюдение в анализируемых данных, значение которого сильно отличается от других. Его часто описывают как значение в данных, которое как будто бы происходит из другой генеральной совокупности или выпадает из интервала типичных значений выборки.
**Методы обработки выбросов в медицинских данных**
1. Идентификация выбросов
Важно сначала определить, какие значения считать выбросами. Часто это делается с использованием статистических методов, таких как стандартное отклонение или интерквартильный размах.

Например, значения за пределами 3 стандартных отклонений от среднего могут быть идентифицированы как потенциальные выбросы. Такие аномалии могут искажать результаты исследования, поэтому важно выявить их и принять меры.

2. Проверка на ошибки в измерениях
Медицинские данные могут содержать ошибки, такие как опечатки или неточности в измерениях. Поэтому важно проводить проверку на наличие таких ошибок. Если выбросы можно объяснить ошибками в измерениях, их можно удалить или заменить на более разумные значения.

3. Использование клинической экспертизы
Важно привлечь клиническую экспертизу для оценки выбросов в медицинских данных. Они имеют значительный опыт и знания, чтобы определить, являются ли наблюдения реальными выбросами или представляют собой патологические значения.

4. Сравнение с нормативными данными
Иногда выбросы могут быть из-за редких или аномальных условий, которые не встречаются в общей популяции. В таких случаях целесообразно сравнить эти значения со справочными данными или нормами, возможно, провести дополнительные исследования или консультации у специалистов.

5. Применение робастных методов
В медицинской статистике активно применяются робастные методы обработки данных. Они обладают способностью учитывать выбросы и независимы от предположений о распределении исходных данных. Эти методы обеспечивают более устойчивые и надежные результаты анализа, так как они учитывают возможные аномалии и альтернативным способом обрабатывают данные, снижая влияние выбросов на итоговые выводы.
# **Box plot или «ящик с усами»**
Box plot, или «ящик с усами», представляет собой графическое изображение, которое широко используется для визуализации основных статистических характеристик данных. Эта диаграмма полезна в ситуациях, где нет необходимости или невозможно изобразить все детали распределения.
Если рассчитать разность между 3 и 1 квартилем, то будет межквартильный размах (IQR). Часто используется в качестве одной из мер изменчивости в статистике. Чем шире наш ящик (чем больше межквартильный размах), тем более высока вариативность нашего признака.
# **Методы избавления от выбросов**
Обнаружение выбросов в данных — процедура выявления значений, которые существенно отличаются от остальных и могут искажать статистическую обработку данных или их моделирование.
Существует несколько часто используемых подходов для выявления выбросов:

1. Метод межквартильного размаха (IQR)
Основан на интерквартильном размахе (IQR). Выбросы определяются как значения, выходящие за границы 1,5-кратного IQR. Значения ниже 25-го процентиля минус 1,5*IQR и значения выше 75-го процентиля плюс 1,5*IQR считаются выбросами. То есть если элемент не попадает в интервал ,![image-4.png](attachment:image-4.png) то он считается выбросом.

2. Критерий трех сигм
Использует стандартное отклонение данных для определения выбросов. Выбросы определяются как значения, находящиеся вне пределов 3 сигм от среднего значения.![image-5.png](attachment:image-5.png)

Для симметричной выборки значения, отклоняющиеся от среднего более чем на 3 стандартных отклонения, считаются выбросами. То есть если они не принадлежат интервалу .

Если выборка не симметричная, то  будет выбросом, если он не принадлежит интервалу .![image-6.png](attachment:image-6.png)

3. Box plot
Представляют данные в графическом виде, показывая медиану, квартили и возможные выбросы. Выбросы определяются как значения, попадающие за «усы» box plot, которые обычно задаются как 1,5-кратный IQR.

4. Метод Граббса
Используется для выявления наиболее экстремальных выбросов в нормально распределенных данных. Процесс заключается в итеративном исключении одного наблюдения и вычислении статистики Граббса. Наблюдение, которое имеет наибольшее значение статистики Граббса, считается выбросом и исключается из дальнейшей обработки. Процесс повторяется до тех пор, пока не будут найдены все выбросы.
# **Центральная предельная теорема. Стандартная ошибка среднего**
Центральная предельная теорема (ЦПТ) — фундаментальный принцип статистики. Теорема утверждает, что при достаточно большом количестве независимых и одинаково распределенных случайных величин сумма или среднее этих величин приближается к нормальному распределению, независимо от формы исходного распределения.
Стандартное отклонение этого распределения называется стандартной ошибкой среднего. Она измеряет разброс средних значений выборок относительно среднего в генеральной совокупности.
**Доверительный интервал** — это диапазон значений, который с определенной установленной исследователем вероятностью (чаще всего α=0,05 или 95%) содержит истинное популяционное значение.
![image-7.png](attachment:image-7.png)
