# Урок 3. Разведочный анализ / EDA (exploratory data analysis)

In [1]:
from math import sqrt, factorial
import numpy as np

***
## Задание 1.

### Даны значения зарплат из выборки выпускников: 100, 80, 75, 77, 89, 33, 45, 25, 65, 17, 30, 24, 57, 55, 70, 75, 65, 84, 90, 150. Посчитать (без использования статистических методов наподобие std, var, mean) среднее арифметическое, среднее квадратичное отклонение, смещенную и несмещенную оценки дисперсий для данной выборки.

In [2]:
X = np.array([100, 80, 75, 77, 89, 33, 45, 25, 65, 17, 30, 24, 57, 55, 70, 75, 65, 84, 90, 150])

### 1) среднее арифметическое

Для выборки объемом $m$: $\displaystyle \bar X = \frac{1}{m}\sum^{m}_{i=1}{x_i}$

In [3]:
def mean(arr):
    return sum(arr)/len(arr)

In [4]:
print(f'Среднее арифметическое: {mean(X)}\n')

Среднее арифметическое: 65.3



### 2) смещеная и несмещенная оценки дисперсий для данной выборки

**Смещенная дисперсия**: $\displaystyle \sigma^2 = \frac{\sum^{n}_{i=1}{(x_i-\bar X)^2}}{n}$

**Несмещенная дисперсия**: $\displaystyle S^2 = \frac{\sum^{n}_{i=1}{(x_i-\bar X)^2}}{n-1}$

In [5]:
def variance(arr, unbiased=False):
    x_ = mean(arr)
    return sum((arr-x_)**2)/(len(arr) - 1*int(unbiased))

In [6]:
print(f'Смещенная дисперсия: {variance(X)}')
print(f'Несмещенная дисперсия: {variance(X, True):.4f}\n')

Смещенная дисперсия: 950.11
Несмещенная дисперсия: 1000.1158



### 3) среднее квадратичное отклонение

Несмещенное стандартное отклонение (т.к. объем выборки $<100$): $\displaystyle S = \sqrt{S^2}$

In [7]:
def sd(arr, unbiased=True):
    return sqrt(variance(arr, unbiased))

In [8]:
print(f'Несмещенное стандартное отклонение: {sd(X, True):.4f}')

Несмещенное стандартное отклонение: 31.6246


***
## Задание 2.

### В первом ящике находится 8 мячей, из которых 5 - белые. Во втором ящике - 12 мячей, из которых 5 белых. Из первого ящика вытаскивают случайным образом два мяча, из второго - 4. Какова вероятность того, что 3 мяча белые?

Из классического определения вероятности: $\displaystyle P(A)= \frac{m}{n}$ \
$n = C_8^2 \cdot C_{12}^4$ - количество способов достать 2 мяча из 1-го ящика и 4 мяча из 2-го ящика.

Событие $A$ - достали 3 белых мяча будет складываться из 3-х вариантов:
1) из 1-го ящика не вытащили ни одного белого мяча, из 2-го вытащили 3 белых мяча: $C_3^2 \cdot C_5^3 \cdot C_7^1$ \
2) из 1-го ящика вытащили 1 белый мяч, из 2-го - 2 белых мяча: $C_5^1 \cdot C_3^1 \cdot C_5^2 \cdot C_7^2$ \
3) из 1-го ящика вытащили 2 белых мяча, из 2-го - 1 белый мяч: $С_5^2 \cdot C_5^1 \cdot C_7^3$

In [10]:
# сочетание C - кол-во способов взять k элем-ов из множ-ва n без учета порядка расположения
def C(n, k):
    return factorial(n) // (factorial(k) * (factorial(n - k)))

A = C(3,2)*C(5,3)*C(7,1) + C(5,1)*C(3,1)*C(5,2)*C(7,2) + C(5,2)*C(5,1)*C(7,3)
O = C(8,2)*C(12,4)
print(f'P(A) = {A/O:.4f}')

P(A) = 0.3687


***
## Задание 3.

### На соревновании по биатлону один из трех спортсменов стреляет и попадает в мишень. Вероятность попадания для первого спортсмена равна 0.9, для второго — 0.8, для третьего — 0.6. Найти вероятность того, что выстрел произведен: a) первым спортсменом; б) вторым спортсменом; в) третьим спортсменом.

Формула Байеса: $\displaystyle P(A|B) = \frac{P(B|A)}{P(B)}\cdot P(A)$

$В$ - спортсмен попадает в мишень, \
$A_1$ - 1-й спорсмен, $A_2$ - 2-ой спорсмен, $A_3$ - 3-й спортсмен.

$P(B|A_1) = 0.9 \\
P(B|A_2) = 0.8 \\
P(B|A_3) = 0.6$

$\displaystyle P(A_1) = P(A_2) = P(A_3) = \frac{1}{3}$

По формула полной вероятности: $\displaystyle P(B) = \sum_{i=1}^n{P(B|A_i)\cdot P(A_i)} = 0.9\cdot\frac{1}{3}+0.8\cdot\frac{1}{3}+0.6\cdot\frac{1}{3} = 0.7667$

In [11]:
pb = 1/3 * (0.9 + 0.8 + 0.6)
print(f'P(B) = {pb:.4f}')

P(B) = 0.7667


### a) Найти вероятность того, что выстрел произведен первым спортсменом.

$\displaystyle P(A_1|B) = \frac{P(B|A_1)}{P(B)}\cdot P(A_1) = 0.3913$

In [12]:
print(f'P(A1|B) = {0.9 / pb * 1/3:.4f}')

P(A1|B) = 0.3913


### б) Найти вероятность того, что выстрел произведен вторым спортсменом.

$\displaystyle P(A_2|B) = \frac{P(B|A_2)}{P(B)}\cdot P(A_2) = 0.3478$

In [13]:
print(f'P(A2|B) = {0.8 / pb * 1/3:.4f}')

P(A2|B) = 0.3478


### в) Найти вероятность того, что выстрел произведен третьим спортсменом.

$\displaystyle P(A_3|B) = \frac{P(B|A_3)}{P(B)}\cdot P(A_3) = 0.2609$

In [14]:
print(f'P(A3|B) = {0.6 / pb * 1/3:.4f}')

P(A3|B) = 0.2609


***
## Задание 4.

### В университет на факультеты A и B поступило равное количество студентов, а на факультет C студентов поступило столько же, сколько на A и B вместе. Вероятность того, что студент факультета A сдаст первую сессию, равна 0.8. Для студента факультета B эта вероятность равна 0.7, а для студента факультета C - 0.9. Студент сдал первую сессию. Какова вероятность, что он учится: a) на факультете A; б) на факультете B; в) на факультете C?

Формула Байеса: $\displaystyle P(A|B) = \frac{P(B|A)}{P(B)}\cdot P(A)$

$В$ - студент сдал первую сессию, \
$A_a$ - студент с факультета А, $A_b$ - студент с факультета В, $A_c$ - студент с факультета С.

$P(B|A_a) = 0.8 \\
P(B|A_b) = 0.7 \\
P(B|A_c) = 0.9$

$\displaystyle P(A_a) = P(A_b) = \frac{1}{4} \\
P(A_c) = \frac{1}{2}$

По формула полной вероятности: $\displaystyle P(B) = \sum_{i=1}^n{P(B|A_i)\cdot P(A_i)} = 0.8\cdot\frac{1}{4}+0.7\cdot\frac{1}{4}+0.9\cdot\frac{1}{2} = 0.825$

In [15]:
pb = 1/4 * (0.8 + 0.7) + 0.9 * 1/2
print(f'P(B) = {pb:.4f}')

P(B) = 0.8250


### а) Какова вероятность, что cтудент сдавший первую сессию учится на факультете A?

$\displaystyle P(A_a|B) = \frac{P(B|A_a)}{P(B)}\cdot P(A_a) = 0.2424$

In [16]:
print(f'P(Aa|B) = {0.8 / pb * 1/4:.4f}')

P(Aa|B) = 0.2424


### б) Какова вероятность, что cтудент сдавший первую сессию учится на факультете B?

$\displaystyle P(A_b|B) = \frac{P(B|A_b)}{P(B)}\cdot P(A_b) = 0.2121$

In [17]:
print(f'P(Ab|B) = {0.7 / pb * 1/4:.4f}')

P(Ab|B) = 0.2121


### в) Какова вероятность, что cтудент сдавший первую сессию учится на факультете C?

$\displaystyle P(A_c|B) = \frac{P(B|A_c)}{P(B)}\cdot P(A_c) = 0.5455$

In [18]:
print(f'P(Ac|B) = {0.9 / pb * 1/2:.4f}')

P(Ac|B) = 0.5455


***
## Задание 5.

### Устройство состоит из трех деталей. Для первой детали вероятность выйти из строя в первый месяц равна 0.1, для второй - 0.2, для третьей - 0.25. Какова вероятность того, что в первый месяц выйдут из строя: а) все детали б) только две детали в) хотя бы одна деталь г) от одной до двух деталей?

$A_1$ - первая деталь вышла из строя, $A_2$ - вторая деталь вышла из строя, $A_3$ - третья деталь вышла из строя.

$P(A_1) = 0.1,\;\;\;\,P(\bar{A_1}) = 1 - 0.1 = 0.9 \\
P(A_2) = 0.2,\;\;\;\,P(\bar{A_2}) = 1 - 0.2 = 0.8 \\
P(A_3) = 0.25,\;\;P(\bar{A_3}) = 1 - 0.25 = 0.75$

### а) Какова вероятность того, что в первый месяц выйдут из строя все детали?

По формуле вероятность одновременного появления независимых событий:\
$P(3) = P(A_1\cdot A_2\cdot A_3) = P(A_1)\cdot P(A_2)\cdot P(A_3) = 0.1\cdot 0.2\cdot 0.25 = 0.005$

In [19]:
print(f'P(3) = {0.1*0.2*0.25:.4f}')

P(3) = 0.0050


### б) Какова вероятность того, что в первый месяц выйдут из строя только две детали?

Для того, чтобы произошло событие "вышли из строя 2 детали", необходимо что бы случилось одна из следующих комбинаций событий:\
1) $A_1$ и $A_2$ и $\bar{A_3}$ \
2) $A_1$ и $\bar{A_2}$ и $A_3$ \
3) $\bar{A_1}$ и $A_2$ и $A_3$

По формуле вероятность одновременного появления независимых событий: \
$P(A_1\cdot A_2\cdot\bar{A_3}) = P(A_1)\cdot (A_2)\cdot P(\bar{A_3}) \\
 P(A_1\cdot \bar{A_2}\cdot A_3) = P(A_1)\cdot (\bar{A_2})\cdot P(A_3) \\
 P(\bar{A_1}\cdot A_2\cdot A_3) = P(\bar{A_1})\cdot (A_2)\cdot P(A_3)$
 
Воероятностью события "вышли из строя 2 детали" будет сумма вероятностей этих комбинаций:
$P(2) = P(A_1)\cdot (A_2)\cdot P(\bar{A_3}) + P(A_1)\cdot (\bar{A_2})\cdot P(A_3) + P(\bar{A_1})\cdot (A_2)\cdot P(A_3) =
0.1\cdot 0.2\cdot 0.75 + 0.1\cdot 0.8\cdot 0.25 + 0.9\cdot 0.2\cdot 0.25 = 0.08$

In [20]:
print(0.1*0.2*0.75 + 0.1*0.8*0.25 + 0.9*0.2*0.25)

0.08000000000000002


### в) Какова вероятность того, что в первый месяц выйдут из строя хотя бы одна деталь?

Пусть событие $A$ - сломалась хотя бы одна деталь, тогда $\bar{A}$ - не сломалось ни одной детали.

По правилу суммы для противоположных событий: $P(A) = 1-P(\bar{A})$

По формуле вероятность одновременного появления независимых событий: \
$P(\bar{A}) = P(0) = P(\bar{A_1})\cdot P(\bar{A_2})\cdot P(\bar{A_3}) = 0.9\cdot 0.8\cdot 0.75 = 0.54$ \
$P(A) = 1-P(\bar{A}) = 1 - 0.54 = 0.46$

In [21]:
print(f'P(хобя бы 1 деталь) = {1-0.9*0.8*0.75:.4f}')

P(хобя бы 1 деталь) = 0.4600


### б) Какова вероятность того, что в первый месяц выйдут из строя от одной до двух деталей?

События "не выйдет из строя ни одной детали", "из строя выйдет одна деталь", "из строя выйдет 2 детали", "из строя выйдут все детали" - несовместны, и образуют полную группу событий, поэтому сумма вероятностей наступления этих событий равна $1$.

$P(0) + P(1) + P(2) + P(3) = 0.54 + P(1) + 0.08 + 0.005 = 1\;\;\Rightarrow\;\;P(1) = 1 - 0.625 = 0.375 \\
P(1\cup2) = P(1) + P(2) = 0.375 + 0.08 = 0.455$