<a href="https://colab.research.google.com/github/pudgewithmom/python-basics/blob/main/statistics.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import statistics 

# **Lecture 5. Функции математической статистики в Python.**


---
Модуль **statistics** предоставляет функции для вычисления
математической статистики числовых (вещественных) данных.

Модуль не предназначен для того, чтобы конкурировать со сторонними
библиотеками, такими как NumPy, SciPy, или проприетарными
полнофункциональными статистическими пакетами, предназначенными для
профессиональных статистиков, таких как Minitab, SAS и Matlab.

Модуль **statistics** нацелен на уровень графических и научных
калькуляторов.

Функции модуля **statistics** поддерживают типы Python int, float, Decimal
и Fraction, если явно не указано иное. Поведение с другими типами (будь то в
числовой башне или нет) в настоящее время не поддерживается.
Последовательности с элементами разных типов также не
поддерживаются и зависят от реализации.

Если входные данные состоят из
смешанных типов, то можно использовать встроенную функцию map() для
обеспечения согласованного результата, например: map(float, input_data).

***Примечание***. Функции не требуют сортировки данных. Для удобства
чтения в большинстве примеров показаны отсортированные
последовательности.

Модуль **statistics** определяет одно исключение:
statistics.StatisticsError:
Исключение statistics.StatisticsError представляет собой подкласс
исключения ValueError для исключений, связанных с модулем статистики.


# **Функция mean() и fmean() модуля statistics в Python, среднее арифметическое.**

---

Функции mean() и fmean() модуля statistics рассчитывают и возвращают
примерное среднее арифметическое данных data. Функция statistics.fmean()
работает быстрее, чем функция statistics.mean() и всегда возвращает float.

Синтаксис:

import statistics

statistics.mean(data)

*`Новое в Python`*
3.8.





**statistics.fmean(data)**


Параметры:

 data - данные последовательность или итерация.
Возвращаемое значение:

 примерное среднее арифметическое элементов последовательности
data.

Описание:

Функция statistics.mean() модуля statistics рассчитывает и возвращает
примерное среднее арифметическое элементов последовательности data.

Функция statistics.fmean() сначала преобразует элементы
последовательности data в вещественные числа, рассчитывает и возвращает
примерное среднее арифметическое.

Функция statistics.fmean() работает быстрее, чем функция
statistics.mean() и всегда возвращает float.

Данные data могут быть последовательностью или итерацией. Если
аргумент data пустой, то будет вызвана ошибка StatisticsError.

Среднее арифметическое определяется как число, равное сумме всех
чисел последовательности, делённой на их количество. Его обычно называют
“средним”, хотя это всего лишь одно из многих разновидностей
математических средних значений. Является одной из наиболее
распространённых мер центральной тенденции.

Примечание. Среднее значение сильно зависит от резких отклонений
(всплесков) в элементах данных и не является надежной оценкой для
центрального распределения. Для более надежных измерений центрального
распределения смотрите функции модуля statistics.median() и statistics.mode().

Выборочное среднее дает несмещенную оценку истинного среднего
значения популяции, так что при взятии в среднем по всем возможным
выборкам mean(sample) сходится к истинному среднему значению всей
популяции. 
Если data представляют всю популяцию, а не выборку, то
mean(sample) эквивалентно вычислению истинного среднего значения
популяции μ.

In [6]:
#Примеры использования функций statistics.mean() и statistics.fmean():
# функция statistics.mean()
###########################
m=statistics.mean([1, 2, 3, 4, 4])
print(m) #2.8

m=statistics.mean([-1.0, 2.5, 3.25, 5.75])
print(m) #2.625

from fractions import Fraction as F
m=statistics.mean([F(3, 7), F(1, 21), F(5, 3), F(1, 3)])
print(m) # Fraction(13, 21)

from decimal import Decimal as D

m=statistics.mean([D("0.5"), D("0.75"), D("0.625"), D("0.375")])
print(m) # Decimal("0.5625")

############################
# функция statistics.fmean()
############################
m=statistics.mean([1, 12.5, 3])
print(m) # 5.5
m=statistics.mean([3.5, 4.0, 5.25])
print(m) # 4.25

# fractions
m=statistics.mean([F(3, 7), F(1, 21), F(5, 3), F(1, 3)])
print(m) # 0.6190476190476191

# decimal
m=statistics.mean([D("0.5"), D("0.75"), D("0.625"),
D("0.375")])
print(m) # 0.5625

2.8
2.625
13/21
0.5625
5.5
4.25
13/21
0.5625


#**Функция geometric_mean() модуля statistics в Python, среднее геометрическое.**


---

Функция **geometric_mean()** модуля statistics преобразует элементы
последовательности data в числа с плавающей запятой float и вычисляет и
возвращает среднее геометрическое этой последовательности.

Синтаксис:

```
import statistics
statistics.geometric_mean(data)
```

Параметры:

 data - данные, последовательность или итерация.
Возвращаемое значение:

 возвращает среднее геометрическое элементов последовательности.

Описание:

Функция geometric_mean() модуля statistics преобразует элементы
последовательности data в числа с плавающей запятой float и вычисляет и
возвращает среднее геометрическое этой последовательности.

Среднее геометрическое элементов последовательности указывает
центральную тенденцию или типичное значение данных с использованием
произведения элементов этой последовательности (в отличие от среднего
арифметического, которое использует их сумму).

Аргумент data может быть последовательностью или итерацией. Если
последовательность данных data пуста, содержит ноль или отрицательное
значение, то функция statistics.geometric_mean() вызывает ошибку
StatisticsError.

Никаких особых усилий для достижения точных результатов не
предпринимается, что может измениться в будущем.

# **Функция harmonic_mean() модуля statistics в Python, среднее гармоническое.**

---
Функция harmonic_mean() модуля statistics возвращает **среднее
гармоническое значение** числовой последовательности.

Синтаксис:



```
import statistics
#Новое в Python 3.6.
statistics.harmonic_mean(data,
weights=None)
```



Параметры:

 data - данные, последовательность или итерация.

 weights=None - веса данных, последовательность или итерация
(доступно с версии Python 3.10).

Возвращаемое значение:

среднее гармоническое значение последовательности data.

Описание:

Функция harmonic_mean() модуля statistics возвращает среднее
гармоническое значение числовой последовательности. Если веса weights
опущены или None, то предполагается равный вес.

Аргумент data может быть последовательностью или итерацией.
Если входные данные data пусты или любой элемент меньше нуля, то
возникает ошибка StatisticsError.

Среднее гармоническое, иногда называемое субконтрарным средним,
является обратной величиной среднего арифметического mean() взаимных
значений данных. Например, среднее гармоническое трех значений a, b и c
будет эквивалентно 3/(1/a + 1/b + 1/c). Если одно из значений равно нулю, то
результат то же будет равен нулю.

Среднее гармоническое - это тип среднего, мера центрального
расположения данных. Это значение часто уместно при усреднении
скоростей или коэффициентов.

*Рассмотрим на примере. Предположим, что автомобиль проезжает 10
км со скоростью 40 км/ч, а затем еще 10 км со скоростью 60 км/ч. Какова
средняя скорость?*


```
import statistics
h_mean=statistics.harmonic_mean([40,60])
print(h_mean) # 48.0

```



*Теперь предположим, что автомобиль движется со скоростью 40 км/ч
на протяжении 5 км, а когда движение становится свободным, развивает
скорость до 60 км/час на оставшиеся 30 км пути. Какая средняя скорость?*

```
import statistics
h_mean=statistics.harmonic_mean([40, 60], weights=[5,
30])
print(h_mean) # 56.0
```

*
Еще пример. Предположим, что инвестор приобретает равную
стоимость акций в каждой из трех компаний, при этом коэффициент P/E
(цена/доход) составляет 2.5, 3 и 10. Каково среднее соотношение P/E для
портфеля инвестора?*


```
import statistics
# Для равного инвестиционного портфеля.
h_mean=statistics.harmonic_mean([2.5, 3,
10])
# For an equal investment portfolio.
print(h_mean) # 3.6
```

Текущий алгоритм имеет ранний выход, когда он сталкивается с нулем
на входе. Это означает, что последующие входные данные не проверяются на
валидность. Такое поведение может измениться в будущем.

# **Функция median() модуля statistics в Python, медиана последовательности.**


---

Функция median() модуля statistics возвращает медиану (среднее
значение) числовой последовательности data, используя общий метод
“среднее из двух средних”.
Синтаксис:

import statistics
statistics.median(data
)
Параметры:

 data - данные, последовательность или итерация.
Возвращаемое значение:

 медиану (среднее значение) числовой последовательности data.

Описание:

Функция median() модуля statistics возвращает медиану (среднее
значение) числовой последовательности data, используя общий метод
“среднее из двух средних”.
Аргумент данных data может быть последовательностью или
итерацией. Если последовательность data пуста, то возникает ошибка
StatisticsError.
Медиана это число, характеризующее выборку (например, набор чисел)
и является надежным показателем центрального местоположения в
последовательности и меньше зависит от наличия "всплесков" в элементах. В
более общем случае медиану можно найти, упорядочив элементы выборки по
возрастанию или убыванию и взяв средний элемент.
Когда количество элементов последовательности нечетное, то возвращается
средний элемент данных:
ort statistics
 statistics.median([1, 3, 5])
3
Когда количество элементов последовательности четное, то медиана
интерполируется путем взятия среднего из двух средних значений:
 import statistics
 statistics.median([1, 3, 5, 7])
4.0
Такой расчет подходит, когда данные дискретны и нет претензий к
тому, что медиана может не соответствовать фактическому значению
элемента последовательности.

Если данные являются порядковыми (поддерживает операции с
порядком), но не числовыми (не поддерживает сложение), рассмотрите
возможность использования функции statistics.median_low() или
statistics.median_high().

In [13]:
print(statistics.median([1, 3, 5, 7]))
print(statistics.median([1, 3, 5]))

4.0
3


#**Функция median_low() модуля statistics в Python, наименьшее среднее значение.**

---
Функция median_low() модуля statistics возвращает наименьшее
среднее значение числовых данных data (наименьшую медиану).

Синтаксис:



```
import statistics

statistics.median_low(data)
```



Параметры:

 data - данные, последовательность или итерация.
Возвращаемое значение:

 наименьшее среднее значение числовой последовательности.

Описание:

Функция median_low() модуля statistics возвращает наименьшее
среднее значение числовых данных data (наименьшую медиану).
Аргумент data может быть последовательностью или итерацией. Если
входные данные data пусты, то возникает ошибка StatisticsError.
Наименьшая медиана всегда входит в последовательность исходных
данных.
Если количество элементов последовательности нечетное, то
возвращается среднее значение.
Когда количество элементов последовательности четное, то
возвращается меньшее из двух средних значений.
 import statistics
 statistics.median_low([1, 3, 5])
# 3
 statistics.median_low([1, 3, 5, 7])

Используйте функцию нахождения наименьшей медианы
statistics.median_low(), если данные дискретны и предпочтительнее, чтобы
медиана была фактическим элементом последовательности, а не
интерполированной величиной


In [14]:
print(statistics.median_low([1, 3, 5]))
print(statistics.median_low([1, 3, 5, 7]))

3
3


#**Функция median_high() модуля statistics в Python, наибольшее среднее значение.**

---
Функция median_high() модуля statistics возвращает наибольшее
среднее значение числовых данных data (наибольшую медиану).



---


Синтаксис:



```
import statistics
statistics.median_high(data)
```
Параметры:

 data - данные, последовательность или итерация.
Возвращаемое значение:

 наибольшее среднее значение числовой последовательности.


---

Функция median_high() модуля statistics возвращает наибольшее
среднее значение числовых данных data (наибольшую медиану).
Аргумент data может быть последовательностью или итерацией. Если
входные данные data пусты, то возникает ошибка StatisticsError.
Наибольшая медиана всегда входит в последовательность исходных
данных.

Если количество элементов последовательности нечетное, то
возвращается среднее значение.

Когда количество элементов последовательности четное, то
возвращается большее из двух средних значений.

In [16]:
print(statistics.median_high([1, 3, 5]))
print(statistics.median_high([1, 3, 5, 7]))

3
5


Используйте функцию нахождения наибольшей медианы
`statistics.median_high()`, если данные дискретны и предпочтительнее, чтобы
медиана была фактическим элементом последовательности, а не
интерполированной величиной.

#**Функция median_grouped() модуля statistics в Python, медиана непрерывных данных.**


---

Функция median_grouped() модуля statistics возвращает медиану
сгруппированных непрерывных данных, рассчитанную как 50-й процентиль,
при помощи интерполяции.


---

Синтаксис:

```
import statistics
statistics.median_grouped(data,interval=1)
```


---


Параметры:

 data - данные, последовательность или итерация,

 interval=1 - интервал класса,

Возвращаемое значение:

 медиану сгруппированных непрерывных данных data.


---
Описание:

Функция median_grouped() модуля statistics возвращает медиану
сгруппированных непрерывных данных, рассчитанную как 50-й процентиль,
при помощи интерполяции.

Аргумент data может быть последовательностью или итерацией.

Если входные данные data пусты, то возникает ошибка StatisticsError.



In [17]:
statistics.median_grouped([52, 52, 53, 54])

52.5

В следующем примере данные округлены, так что каждое значение
представляет собой средний точку классов данных, например 1 - это средняя
точка класса 0.5-1.5, 2 - средняя точка 1.5-2.5, 3 - средняя точка 2.5-3.5 и т. д.
При указанных данных среднее значение попадает где-то в класс 3.5-4.5. Для
этой оценки используется интерполяция:

In [18]:
statistics.median_grouped([1, 2, 2, 3, 4, 4, 4, 4, 4, 5])

3.7

Необязательный аргумент interval представляет интервал класса
данных и по умолчанию равен 1. Изменение интервала классов естественно
приведет к изменению интерполяции:

In [19]:
print(statistics.median_grouped([1, 3, 3, 5, 7], interval=1))
print(statistics.median_grouped([1, 3, 3, 5, 7], interval=2))

3.25
3.5


Деталь реализации CPython: при некоторых обстоятельствах функция
statistics.median_grouped() может принудительно перевести элементы
последовательности в числа типа float. Такое поведение, вероятно, изменится
в будущем.

#**Функция mode() модуля statistics в Python, распространенный элемент.**


---
Функция mode() модуля statistics возвращает единственный наиболее
распространенный элемент данных data из дискретных или номинальных
данных.

---
Синтаксис:

```
import statistics
statistics.mode(data)
```

Параметры:

 data - данные, последовательность или итерация.
Возвращаемое значение:

 единственный наиболее распространенный элемент данных data.

---

Функция mode() модуля statistics возвращает единственный наиболее
распространенный элемент данных data из дискретных или номинальных
данных.

Значение функции statistics.mode() (если оно существует) является
наиболее типичным значением и служит мерой центрального расположения
последовательности.

Если существует несколько значений mode в последовательности с
одинаковой частотой распространения, то возвращает первый из них. Если
предпочтительнее получить наибольшее или наименьшее из них, то для этого
необходимо использовать выражение min(multimode(data)) или
min(multimode(data)).

Аргумент data может быть последовательностью или итерацией. Если
входные данные data пусты, то возникает ошибка StatisticsError.

Функция statistics.mode() принимает дискретные данные и возвращает
одно значение. Это стандартная трактовка значения mode, как преподается в
школах:








In [21]:
statistics.mode([1, 1, 2, 3, 3, 3, 3, 4])

3

Функция statistics.mode() уникальна тем, что является единственной в
этом пакете, которая также применяется к номинальным (нечисловым)
данным:

In [22]:
statistics.mode(["red", "blue", "blue", "red", "green", "red", "red"])

'red'

Изменено в Python 3.8: теперь обрабатывает мультимодальные наборы
данных, возвращая первое обнаруженное значение mode. Раньше такое
поведение вызывало ошибку StatisticsError, когда обнаруживалось более
одного значения mode.

#**Функция multimode() модуля statistics в Python, часто встречающиеся элементы.**

---

Описание:

Функция multimode() модуля statistics возвращает список наиболее
часто встречающихся значений элементов в последовательности data в том
порядке, в котором они были обнаружены.

Аргумент data может быть последовательностью или итерацией.

Функция statistics.multimode() вернет более одного результата, если в
последовательности есть несколько элементов с одинаковым максимальным
числом повторений или пустой список, если данные data пусты:
Примеры использования функции statistics.multimode():


---



```
std=statistics.multimode("aabbbbccddddeeffffgg")
print(std) # ["b", "d", "f"]
std= statistics.multimode(["a", "cc", "dd", "a", "ee", "dd", "ee", "f", "a"])
print(std) # ["a"]
std=statistics.multimode(["a", "cc", "dd", "a", "ee", "dd", "ee", "f", "dd",
"a"])
print(std) # ["a", "dd"]
std=statistics.multimode([1.5, 2.5, 2.5, 2.75, 3.25, 4.75])
print(std) # [2.5]
```



#**Функция pstdev() модуля statistics в Python, стандартное отклонение.**


---
Функция pstdev() модуля statistics возвращает стандартное отклонение
числовой последовательности data (квадратный корень из дисперсии
генеральной совокупности).




---
**Описание:**

Функция pstdev() модуля statistics возвращает стандартное отклонение
числовой последовательности data (квадратный корень из дисперсии
числовой последовательности).

Аргумент data может быть последовательностью или итерацией.

Если входные данные data пусты, то возникает ошибка StatisticsError.

Если задан необязательный второй аргумент mu, то он обычно
обозначает среднее значение последовательности data. Он также может быть
использован для вычисления дисперсии вокруг элемента, который не
является средним значением. Если он отсутствует или None (по умолчанию),
то автоматически вычисляется

In [25]:
std=statistics.pstdev([1.5, 2.5, 2.5, 2.75, 3.25,
4.75])
print(std) # 0.986893273527251

0.986893273527251


#**Функция pvariance() модуля statistics в Python, дисперсия элементов.**


---
Функция pvariance() модуля statistics возвращает дисперсию элементов
непустой числовой последовательности или итерации.

---

**Описание:**

Функция pvariance() модуля statistics возвращает дисперсию элементов
непустой числовой последовательности или итерации.

Дисперсия, или по другому второй момент относительно среднего
значения, является мерой изменчивости (разброса или дисперсии) числовой
последовательности. Большая дисперсия указывает на то, что данные
распределены относительно среднего значения. Небольшая дисперсия
указывает на то, что они тесно сгруппированы вокруг среднего значения
числовой последовательности.

Если задан необязательный второй аргумент mu, то обычно это среднее
значение числовой последовательности. Аргумент mu также может быть
использован для вычисления дисперсии вокруг любого элемента
последовательности, который не является средним значением.

Если аргумент mu отсутствует или None (по умолчанию), то автоматически вычисляется
среднее арифметическое значение последовательности data.

Используйте функцию statistics.pvariance() для вычисления дисперсии
от всей последовательности data. Для оценки дисперсии по выборке/срезу
обычно лучше использовать функцию statistics.variance().

Примеры использования функции statistics.pvariance():


In [27]:
data = [0.0, 0.25, 0.25, 1.25, 1.5, 1.75, 2.75,
3.25]
std=statistics.pvariance(data)
print(std) # 1.25

1.25


Если уже есть рассчитанное среднее значение данных числовой
последовательности, то это значение можно передать в качестве
необязательного второго аргумента mu, чтобы избежать пересчета:

In [28]:
data = [0.0, 0.25, 0.25, 1.25, 1.5, 1.75, 2.75,
3.25]
mu = statistics.mean(data)
std=statistics.pvariance(data, mu)
print(std) # 1.25

1.25


In [31]:
from decimal import Decimal as D

std=statistics.pvariance([D("27.5"), D("30.25"), D("30.25"), D("34.5"),
D("41.75")])
print(std) # Decimal("24.815")
from fractions import Fraction as F
std=statistics.pvariance([F(1, 4), F(5, 4), F(1, 2)])
print(std) # Fraction(13, 72)

24.815
13/72


#**Функция stdev() модуля statistics в Python, выборочное отклонение.**


---
Функция stdev() модуля statistics возвращает стандартное отклонение
выборки из элементов числовой последовательности data (квадратный корень
из дисперсии выборки).


---
**Описание:**

Функция stdev() модуля statistics возвращает стандартное выборочное
отклонение данных data, которые представляют выборку элементов из всей
числовой последовательности (квадратный корень из выборочной дисперсии
данных).

Аргумент data может быть последовательностью или итерацией.
Если входные данные data пусты, то возникает ошибка StatisticsError.

Если указан необязательный второй аргумент xbar, то это должно быть
среднее значение данных data.

Если аргумент xbar отсутствует или None (по умолчанию), то среднее арифметическое значение рассчитывается
автоматически.

Для других деталей смотрите функцию statistics.variance().

Примеры использования statistics.stdev():


In [32]:
statistics.stdev([1.5, 2.5, 2.5, 2.75, 3.25, 4.75])
data = [1.5, 2.5, 2.5, 2.75, 3.25, 4.75]
average = statistics.mean(data)
statistics.stdev([1.5, 2.5, 2.5, 2.75, 3.25, 4.75], average)

1.0810874155219827

#**Функция variance() модуля statistics в Python, выборочная дисперсия.**


---

Функция variance() модуля statistics возвращает дисперсию выборки из
элементов числовой последовательности data. Возвращаемое значение
представляет собой итерацию по крайней мере двух действительных чисел.

---
**Описание:**

Функция variance() модуля statistics возвращает выборочную
дисперсию данных data, которые представляют готовую выборку элементов
из всей числовой последовательности.

Аргумент data может быть последовательностью или итерацией и
должна иметь по крайней мере два действительных числа..

Если входные данные data пусты, то возникает ошибка StatisticsError.
Дисперсия является мерой изменчивости (разброса) элементов
числовой последовательности. Большая дисперсия указывает на то, что
данные распределены относительно среднего значения.

Небольшая
дисперсия указывает на то, что они тесно сгруппированы вокруг среднего
значения числовой последовательности.
Если указан необязательный второй аргумент xbar, то это должно быть
среднее значение данных data. Если аргумент xbar отсутствует или None (по
умолчанию), то среднее арифметическое значение рассчитывается
автоматически.

Используйте функцию statistics.variance(), когда данные являются
выборкой из элементов числовой последовательности. Смотрите функцию
statistics.pvariance(), чтобы вычислить дисперсию всей совокупности
числовой последовательности.

Примеры использования функции statistics.variance():




In [33]:
data = [2.75, 1.75, 1.25, 0.25, 0.5, 1.25, 3.5]
statistics.variance(data)

1.3720238095238095

In [34]:
statistics.pvariance(data)

1.1760204081632653

In [35]:
data = [2.75, 1.75, 1.25, 0.25, 0.5, 1.25, 3.5]
m = statistics.mean(data)
statistics.variance(data, m)

1.3720238095238095

#**Функция quantiles() модуля statistics в Python, интервалы равной вероятности.**


---

Функция quantiles() модуля statistics делит числовую
последовательность с данными data на n непрерывных интервалов с равной
вероятностью. Возвращает список из n - 1 элементов отсечения,
разделяющих эти интервалы.

---

**Описание:**

Функция quantiles() модуля statistics делит числовую
последовательность с данными data на n интервалов отсечения с равной
вероятностью.

Возвращает список из n - 1 элементов отсечения,
разделяющих эти интервалы.
Аргумент n задает интервал отсечения:

 по умолчанию установлен, равным 4 для квартилей,

 для децилей, необходимо установить n равным 10,

 для процентилей, необходимо установить n равным 100 , что дает 99
точек отсечения, которые разделяют данные на 100 групп равного
размера.

 если n меньше 1, вызывается ошибка StatisticsError.


Образцы данных data могут быть любыми последовательностями,
поддерживающими итерацию. Для получения значимых результатов число
элементов в последовательности с данными должно быть больше n.

Вызывает ошибку StatisticsError, если число элементов последовательности с
данными меньше 2-х.

Точки отсечения линейно интерполируются из двух ближайших
элементов последовательности с образцами данных. Например, если точка
отсечения попадает на одну треть расстояния между двумя значениями
выборки, 100 и 112, то элемент отсечения будет оценен как 104.

Метод вычисления интервалов отсечения (задается аргументом method)
может варьироваться в зависимости от того, включают ли данные самые
низкие и самые высокие возможные значения из всей последовательности
данных или исключают их.

Аргумент method по умолчанию является &#39;exclusive&#39; и используется для
выборки данных из всех числовых данных, которые могут иметь более
экстремальные значения, чем найденные в выборках. 

Доля всей числовой
последовательности, падающей ниже i-ой из m отсортированных элементов
данных, вычисляется как i / (m + 1). Учитывая девять выборочных значений,
функция сортирует их и присвоит следующие процентили: 10%, 20%, 30%,
40%, 50%, 60%, 70%, 80%, 90%.

Установка аргумент method=&#39;inclusive&#39; используется для описания
данных о совокупности или для выборок, которые, как известно, включают
самые экстремальные значения от всех числовых данных. Минимальное
значение в данных рассматривается как 0-й процентиль, а максимальное
значение рассматривается как 100-й процентиль. 

Доля всех числовых
данных, попадающая ниже i-ой из m отсортированных элементов данных,
вычисляется как (i - 1) / (m - 1). Учитывая 11 значений выборки, функция
сортирует их и назначит следующие процентили: 0%, 10%, 20%, 30%, 40%,
50%, 60%, 70%, 80%, 90%, 100%.

Примеры использования функция statistics.quantiles():



```
 import statistics
# Децильные точки отсечения для эмпирически отобранных данных
 data = [105, 129, 87, 86, 111, 111, 89, 81, 108, 92, 110,
... 100, 75, 105, 103, 109, 76, 119, 99, 91, 103, 129,
... 106, 101, 84, 111, 74, 87, 86, 103, 103, 106, 86,
... 111, 75, 87, 102, 121, 111, 88, 89, 101, 106, 95,
... 103, 107, 101, 81, 109, 104]
 dec = statistics.quantiles(data, n=10)
 [round(q, 1) for q in dec]
# [81.0, 86.2, 89.0, 99.4, 102.5, 103.6, 106.0, 109.8, 111.0]
```




#**Класс NormalDist() модуля statistics в Python, распределение случайной величины.**


---

NormalDist - это инструмент для создания нормальных распределений
случайной величины и управления ими. Это класс, который рассматривает
среднее значение и стандартное отклонение измерений
данных][statistics.pstdev] как единое целое.

NormalDist - это инструмент для создания нормальных распределений
случайной величины и управления ими. Это класс, который рассматривает
среднее значение и стандартное отклонение измерений данных как единое
целое.

Нормальные распределения возникают из центральной предельной
теоремы и имеют широкий спектр применений в статистике. Смотрите
ПРИМЕРЫ использования.

---


**Описание:**

Функция NormalDist() модуля statistics возвращает новый объект
NormalDist где mu представляет собой среднее арифметическое данных, а
sigma представляет собой среднее квадратическое отклонение.

Если аргумент sigma отрицательна, то возникает ошибка StatisticsError.
Экземпляры statistics.NormalDist() поддерживают сложение, вычитание,
умножение и деление на константу. Эти операции используются для
перевода и масштабирования. 

Например:



```
 import statistics
 temperature_february = statistics.NormalDist(5, 2.5) # Цельсий
 temperature_february * (9/5) + 32 # Фаренгейт
# NormalDist(mu=41.0, sigma=4.5)
```




#**Функция covariance() модуля statistics в Python ковариация данных.**



---

Функция covariance() модуля statistics возвращает выборку ковариации
двух входных данных x и y. Ковариация - это мера совместной изменчивости
двух входных данных.

---
**Описание:**

Функция covariance() модуля statistics возвращает выборку ковариации
двух входных данных x и y. Ковариация - это мера совместной изменчивости
двух входных данных.

Оба входа должны быть одинаковой длины (не менее двух), в
противном случае возникает ошибка StatisticsError.


---



```
Новое в Python 3.10
Примеры использования statistics.covariance():
 x = [1, 2, 3, 4, 5, 6, 7, 8, 9]
 y = [1, 2, 3, 1, 2, 3, 1, 2, 3]
 covariance(x, y)
# 0.75
 z = [9, 8, 7, 6, 5, 4, 3, 2, 1]
 covariance(x, z)
# -7.5

 covariance(z, x)
# -7.5
```



#**Функция correlation() модуля statistics в Python, корреляция Пирсона**


---
Функция correlation() модуля statistics возвращает коэффициент
корреляции Пирсона для двух последовательностей входных данных.

---
**Описание:**

Функция correlation() модуля statistics возвращает коэффициент
корреляции Пирсона для двух последовательностей входных данных.

Коэффициент корреляции Пирсона r принимает значения от -1 до +1.
Он измеряет силу и направление линейной связи, где +1 означает очень
сильную положительную линейную связь, -1 - очень сильную отрицательную
линейную связь, а 0 - отсутствие линейной связи.

Обе последовательности входных данных должны быть одинаковой
длины (не менее двух) и не должны быть постоянными, в противном случае
возникает ошибка StatisticsError.



```
 x = [1, 2, 3, 4, 5, 6, 7, 8, 9]
 y = [9, 8, 7, 6, 5, 4, 3, 2, 1]
 correlation(x, x)
# 1.0
 correlation(x, y)
# -1.0
```





#**Функция linear_regression() модуля statistics в Python, линейная регрессия.**


---
Функция linear_regression() модуля statistics возвращает наклон и точку
пересечения аргументов простой линейной регрессии, оцененные с помощью
обычного метода наименьших квадратов.

---

**Описание:**

Функция linear_regression() модуля statistics возвращает наклон и точку
пересечения аргументов простой линейной регрессии, оцененные с помощью
обычного метода наименьших квадратов.

Простая линейная регрессия описывает отношения между независимой
переменной x и зависимой переменной y в терминах этой линейной функции:

y = slope * x + intercept + noise

где наклон slope и пересечение intercept - это оцениваемые параметры
регрессии, а шум noise представляет изменчивость данных, которая не была
объяснена линейной регрессией (она равна разнице между прогнозируемыми
и фактическими значениями зависимой переменной).

Оба входных сигнала должны быть одинаковой длины (не менее двух),
а независимая переменная x не может быть постоянной, в противном случае
возникает ошибка StatisticsError.


---

Например, можно использовать даты выхода фильмов, чтобы
предсказать совокупное количество фильмов, которые были бы выпущены к
2019 году, при условии, что они сохраняли темп.

```
 year = [1971, 1975, 1979, 1982, 1983]
 films_total = [1, 2, 3, 4, 5]
 slope, intercept = linear_regression(year, films_total)
 round(slope * 2019 + intercept)
# 16
```


