## Генеральная совокупность
Генеральная совокупность- это множество, которое содержит данные обо всех объектах, соответствующих определенным характеристикам.
## Выборка
Выборка - это случайным образом выбранная часть генеральной совокупности.
![image-5.png](attachment:image-5.png)

### Математическое ожидание и его точечная оценка
#### Генеральная совокупность

Математическое ожидание — среднее значение случайной величины при стремлении количества выборок или количества измерений к бесконечности.
  
![image-4.png](attachment:image-4.png)
#### Выборка

Оценка математического ожидания - это
среднее арифметическое одномерной случайной величины конечного числа испытаний обычно называют оценкой математического ожидания.
![image-6.png](attachment:image-6.png)

Основная задача математического ожидания - показать, вокруг какого значения группируется большая доля значений случайной величины.
![image-8.png](attachment:image-8.png)

#### Недостаток математического ожидания
Математическое ожидание очень чувствительно к выбросам
![image-3.png](attachment:image-3.png)

### Среднее квадратичное отклонение (стандартное отклонение)
Среднее квадратичное отклонение показывает, насколько далеко наблюдения могут быть "разбросаны" относительно среднего значения.
![image-4.png](attachment:image-4.png)

### Дисперсия
#### Генеральная совокупность
![image-2.png](attachment:image-2.png)
#### Выборка
![image-3.png](attachment:image-3.png)

### Смещенная и несмещенная дисперсия по выборке
#### Смещенная дисперсия
![image-3.png](attachment:image-3.png)
#### Несмещенная дисперсия
Если объем выборки меньше 100, обязательно применение данной формулы:
![image-5.png](attachment:image-5.png)

### Смещенное стандартное отклонение и дисперсия

In [1]:
import numpy as np
x = np.array([167, 181, 174, 178, 175, 164, 182, 178, 193, 166, 154, 170, 177]) 
x

array([167, 181, 174, 178, 175, 164, 182, 178, 193, 166, 154, 170, 177])

In [2]:
np.std(x)

9.382092977531892

In [3]:
np.var(x)

88.02366863905326

In [4]:
np.sqrt(np.var(x))

9.382092977531892

### Несмещенное стандартное отклонение и дисперсия

In [5]:
x = np.array([167, 181, 174, 178, 175, 164, 182, 178, 193, 166, 154, 170, 177]) 
x

array([167, 181, 174, 178, 175, 164, 182, 178, 193, 166, 154, 170, 177])

In [6]:
np.std(x, ddof=1)

9.765191977579056

In [7]:
np.var(x, ddof=1)

95.35897435897436

In [8]:
np.sqrt(np.var(x, ddof=1))

9.765191977579056

### Медиана
Медиана – значение, которое делит выборку на две равные части так, что значения, которые меньше медианы, составляют 50% выборки.
![image.png](attachment:image.png)
#### Нечетное число элементов
где n – объем выборки
![image-3.png](attachment:image-3.png)
#### Четное число элементов
![image-5.png](attachment:image-5.png)

In [10]:
z =  np.array([100, 80, 75, 77, 89, 33, 45, 25, 65, 17, 30, 24, 57, 55, 70, 75, 65, 84, 90, 150])
z

array([100,  80,  75,  77,  89,  33,  45,  25,  65,  17,  30,  24,  57,
        55,  70,  75,  65,  84,  90, 150])

In [28]:
len_z = np.size(z)
len_z

20

In [24]:
z.sort()
z

array([ 17,  24,  25,  30,  33,  45,  55,  57,  65,  65,  70,  75,  75,
        77,  80,  84,  89,  90, 100, 150])

In [30]:
med = (z[len_z//2 - 1] + z[len_z//2])/2
med

67.5

### Мода
Мода - наиболее часто встречающееся в выборке значение.
![image-2.png](attachment:image-2.png)

### Параметры, нечувствительные к выбросам
- Первый квартиль - такое значение, что  25% наблюдений в выборке не превышают эту величину.
- Второй квартиль - синоним медианы.
- Третий квартиль - такое значение, что 75% наблюдений в выборке не превышают эту величину.

Интерквартильное расстояние - отрезок,  равный разности 3-го и 1-го квартиля

In [31]:
z2= np.array([1, 2, 4, 2, 1, 5, 7, 2, 3, 5, 7, 8, 9])
z2

array([1, 2, 4, 2, 1, 5, 7, 2, 3, 5, 7, 8, 9])

In [34]:
z2.sort()
z2

array([1, 1, 2, 2, 2, 3, 4, 5, 5, 7, 7, 8, 9])

In [36]:
print("Если n*k/100 -  целое число, то k-я перцентиль - это среднее значение элементов под номерами [n*k/100] и [n*k/100 + 1].\nЕсли n*k/100 - не целое число, то k-я перцентиль совпадает с измерением j+1, где ј - максимальное целое число, которое меньше, чем n*k/100.")

Если n*k/100 -  целое число, то k-я перцентиль - это среднее значение элементов под номерами [n*k/100] и [n*k/100 + 1].
Если n*k/100 - не целое число, то k-я перцентиль совпадает с измерением j+1, где ј - максимальное целое число, которое меньше, чем n*k/100.


In [39]:
n = len(z)
n

13

#### Находим 25-ю перцентиль (1-ю квартиль)

In [49]:
k = 25

In [50]:
n*k/100

3.25

In [51]:
import math

In [52]:
math.floor(n*k/100)

3

In [53]:
math.floor(n*k/100) + 1

4

Нужен 4-й элемент, но в Python нумерация с 0. Поэтому:

In [56]:
print(f"25-я перцентиль выборки равна: {z[math.floor(n*k/100)]}")

25-я перцентиль выборки равна: 2


#### Находим 75-ю перцентиль (3-ю квартиль)

In [57]:
k2 = 75
n*k2/100

9.75

In [58]:
print(f"75-я перцентиль выборки равна: {z[math.floor(n*k2/100)]}")

75-я перцентиль выборки равна: 7


#### Межквартильное расстояние

In [59]:
print(f"Межквартильное расстояние - это разница между 3-ей и 1-ой квартилями: {z[math.floor(n*k2/100)] - z[math.floor(n*k/100)]}")

Межквартильное расстояние - это разница между 3-ей и 1-ой квартилями: 5


### Размах
Разность между максимальным и минимальным значениями выборки.
![image-2.png](attachment:image-2.png)

### Графическое представление данных
Пример: Рост спортсменов.
#### Гистограмма:
![image-2.png](attachment:image-2.png)

#### Боксплот (ящик с усами):
![image-5.png](attachment:image-5.png)

### Правила визуализации данных
1. Располагать значения в определенном порядке
2. Избегать круговых диаграмм
3. Не использовать псевдотрехмерную графику
4. Стараться максимально просто изображать данные
5. Использовать одинаковые единицы измерения
6. Не оставлять много знаков после запятой
7. Добавлять легенду на графики
8. При необходимости прибегать к масштабированию данных для графического анализа