# Урок 3
## Описательная статистика. Качественные и количественные характеристики популяции. Графическое представление данных

### Задача 1

#### Условие:
Даны значения зарплат из выборки выпускников:

`100, 80, 75, 77, 89, 33, 45, 25, 65, 17, 30, 230, 24, 57, 55, 70, 75, 65, 84, 90, 150`

Используя только встроенные питоновские функции и структуры данных (т.е. без библиотек `numpy`, `pandas` и др.) посчитать среднее арифметическое, смещённую и несмещённую оценки дисперсии, среднее квадратичное отклонение для данной выборки.

Можно затем посчитать те же значения с использованием библиотек, чтобы проверить себя.

#### Решение:

In [1]:
data = [100, 80, 75, 77, 89, 33, 45, 25, 65, 17, 30, 230, 24, 57, 55, 70, 75, 65, 84, 90, 150]

##### среднее арифметическое:
$$\overline{X} = \dfrac{1}{n} \displaystyle\sum_{i = 1}^n x_i$$

In [2]:
def mean(data: list) -> float:
    return sum(data) / len(data)

In [3]:
mean(data)

73.14285714285714

##### смещённую и несмещённую оценки дисперсии
$$\sigma_X^2 = \dfrac{1}{n} \displaystyle\sum_{i = 1}^n \left( x_i - \overline{X} \right)^2$$
$$\sigma_{X, \: unbiased}^2 = \dfrac{1}{n - 1} \displaystyle\sum_{i = 1}^n \left( x_i - \overline{X} \right)^2$$


In [4]:
def variance(data: list, is_unbiased: bool) -> float:
    data_mean = mean(data)
    return sum((elem - data_mean) ** 2 for elem in data) / (len(data) - int(is_unbiased))

In [5]:
variance(data, True)

2241.8285714285716

In [6]:
variance(data, False)

2135.074829931973

##### среднее квадратичное отклонение

In [7]:
import math

def std(data: list, is_unbiased: bool) -> float:
    return math.sqrt(variance(data, is_unbiased))

In [8]:
std(data, is_unbiased=True)

47.34795213553139

In [9]:
std(data, is_unbiased=False)

46.20686994302874

### Задача 2
#### Условие:
Для выборки из задачи 1 найти (также без использования библиотек):
1. медиану, первый и третий квартили, интерквартильное расстояние,
2. выборсы в выборке (используя для этого метод как при построении "усов" из boxplot).

Возможные неоднозначности в вычислении квантилей можно разрешать любым способом.

#### Решение:

##### 1. медиана, первый и третий квартили, интерквартильное расстояние

Квантиль порядка $\alpha$ — такое число $t_\alpha$, что «$\alpha$ процентов» всех
элементов выборки меньше $t_\alpha$ и, соответственно, «(1 − $\alpha$) процентов» элементов —
больше $t_\alpha$.

In [10]:
def quantile(data: list, order: float) -> float:
    data = sorted(data)
    left_slice_len = int(len(data)*order)
    right_slice_len = int(len(data)*(1 - order))
    return sum(data[left_slice_len - 1 : left_slice_len]) / 2 if left_slice_len + right_slice_len == len(data) else \
           data[left_slice_len]

In [11]:
def median(data: list) -> float:
    return quantile(data, 0.5)

In [12]:
median(data)

70

In [13]:
# Первый квантиль
quantile_1 = quantile(data, 0.25)
quantile_1

45

In [14]:
# Третий квантиль
quantile_3 = quantile(data, 0.75)
quantile_3

84

In [15]:
# Интерквантильное расстояние
interquantile_distance = quantile_3 - quantile_1
interquantile_distance

39

##### 2. выбросы в выборке (используя для этого метод как при построении "усов" из boxplot).

In [16]:
boxplot_range = (quantile_1 - 1.5 * interquantile_distance, quantile_3 + 1.5 * interquantile_distance)
boxplot_range

(-13.5, 142.5)

In [17]:
outliers = [elem for elem in data if not boxplot_range[0] <= elem <= boxplot_range[1]]
outliers

[230, 150]

### Задача 3
#### Условие:
В университет на факультеты `A` и `B` поступило равное количество студентов, а на факультет `C` студентов поступило столько же, сколько на `A` и `B` вместе. Вероятность того, что студент факультета `A` сдаст первую сессию, равна `0.8`. Для студента факультета `B` эта вероятность равна `0.7`, а для студента факультета `C` - `0.9`. 

Студент сдал первую сессию. Какова вероятность, что он учится: 
    
    a) на факультете A? 
    б) на факультете B?
    в) на факультете C?

___Замечание: да, эта задача не на тему описательных статистик, но тема важная, и её стоит иногда освежать в памяти.___

#### Решение:
Пусть:

$A$ - студент учится на факультете `A`

$B$ - студент учится на факультете `B`

$C$ - студент учится на факультете `C`


Пусть на факультеты `A` и `B` поступило по $x$ человек, тогда на факультет `C` - $2x$

Всего учится $x + x + 2x = 4x$ студентов.

$P(A)=\dfrac{x}{4x}=\dfrac{1}{4}$

$P(B)=\dfrac{x}{4x}=\dfrac{1}{4}$

$P(C)=\dfrac{2x}{4x}=\dfrac{2}{4}=\dfrac{1}{2}$

Пусть событие $E$ означает, что студент сдал сессию, тогда:

$P(E|A) = 0.8$

$P(E|B) = 0.7$

$P(E|C) = 0.9$


__Cобытия $H_1, H_2, \dots , H_n$ образуют полную группу событий, если они
несовместны, и в ходе любого испытания одно из этих событий обязательно произойдёт.__

__Формула полной вероятности для таких событий и произвольного события A:
$P(A) = P(A|H_1) * P(H_1) + P(A|H_2) * P(H_2) + \dots + P(A|H_n) * P(H_n)$__

Т.к. студент по условию сдал, то можно воспользоваться данной формулой.

Тогда:

$P(E) = P(E|A) * P(A) + P(E|B) * P(B) + P(E|C) * P(C) = 0.8 * \dfrac {1}{4} + 0.7 * \dfrac {1}{4} + 0.9 * \dfrac {1}{2}$



In [18]:
0.8/4 + 0.7/4 + 0.9/2

0.825

Формула Байеса (в общем виде):
$$P(A|B) = \dfrac {{P(B|A) * P(A)}}{P(B)}$$

В данных случаях:

Для факультета $A$:
$P(A|E) = \dfrac {{P(E|A) * P(A)}}{P(E)} = \dfrac {{0.8 * \dfrac {1}{4}}}{0.825}$ 

In [19]:
0.8 / 4 / 0.825

0.24242424242424246

Для факультета $B$:
$P(B|E) = \dfrac {{P(E|B) * P(B)}}{P(E)} = \dfrac {{0.7 * \dfrac {1}{4}}}{0.825}$ 

In [20]:
0.7 / 4 / 0.825

0.21212121212121213

Для факультета $C$:
$P(C|E) = \dfrac {{P(E|C) * P(C)}}{P(E)} = \dfrac {{0.9 * \dfrac {1}{2}}}{0.825}$ 

In [21]:
0.9 / 2 / 0.825

0.5454545454545455