<b>Как найти вероятность X через Z?</b>

Чтобы построить на Python эквивалент функций normdist() и norminv(), реализованных во многих инструментах анализа, например, таких как MS Excel, нам понадобится библиотека вероятностных распределений и статистических функций <b>scipy.stats</b>. 

Импортируем <b>norm</b> для работы с нормально распределенными величинами:

In [1]:
from scipy.stats import norm

В Python найти P(Z<=z), используя функцию <b>norm.cdf(z)</b>

Здесь большая буква <b>Z</b> обозначает <b>стандартную нормальную величину</b>, а <b>z</b> — <b>конкретное число</b>.

P(Z<=z) — это то же самое, что и P(Z<z), так как вероятность каждого конкретного значения z непрерывной случайной величины — это просто 0.

Например, найти P(Z<=1.5) вы можете, обратившись к функции norm.cdf(1.5). Получается, P(Z<=1.5)~0.93

<b>Вероятность, что Z выше какого-то числа z, можно найти от обратного</b>: P(Z>z)=1-P(Z<=z)

Также можно решить обратную задачу: найти число z, зная соответствующую вероятность P(Z<=z). Это можно сделать, используя функцию <b>norm.ppf(z)</b>. Например, если P(Z<=z)=0.9, то можно найти, что z~1.28, используя norm.ppf(0.9).

Также можно найти z, зная P(Z>z). Например, если P(Z>z)=0.99, то P(Z<=z)=1-P(Z>z)=1-0.99=0.01. Тогда мы найдем z~-2.33 используя norm.ppf(0.01).

Z - стандартная нормальная величина. Используя функцию norm.cdf(), найдите ниже указанные значения. Ответ округлите до 2 знаков после разделительной точки.

In [2]:
#P(Z<1)
norm.cdf(1)

0.8413447460685429

In [3]:
#P(Z<1.12)
norm.cdf(1.12)

0.8686431189572693

In [4]:
#P(Z<-1.87)
norm.cdf(-1.87)

0.030741908929465954

In [5]:
#P(Z>2)
1 - norm.cdf(2)

0.02275013194817921

<b>Как находить вероятности и значения для любой нормальной величины?</b>

Таким же образом при помощи Python можно находить вероятности и значения для любой нормальной величины, а не только Z, если известны ее параметры: среднее и стандартное отклонение. Для этого есть функции norm.cdf(x, loc = 0, scale = 1) и norm.ppf(q, loc = 0, scale = 1).

<b>----------------------------------------------------------------------------------------------------------------</b>

<b>norm.cdf(x, loc = 0, scale = 1)</b>

Возвращает нормальную функцию распределения для указанного среднего и стандартного отклонения.

Синтаксис

  - <b>x</b> — значение, для которого строится распределение
  - <b>loc</b> — среднее арифметическое распределения
  - <b>scale</b> — стандартное отклонение распределения
  
<b>----------------------------------------------------------------------------------------------------------------</b>

<b>norm.ppf(q, loc = 0, scale = 1)</b>

Возвращает обратное нормальное распределение для указанного среднего и стандартного отклонения.

Синтаксис

  - <b>q</b> — вероятность, соответствующая нормальному распределению
  - <b>loc</b> — среднее арифметическое распределения
  - <b>scale</b> — стандартное отклонение распределения

<b>----------------------------------------------------------------------------------------------------------------</b>

Например, если <b>X~N(4,2)</b>, можно найти P(X<=5) через функцию <b>norm.cdf(5, 4, 2)</b> в Python.

<b>Первый аргумент — число, меньше (либо равно) которого должен быть X, второй и третий аргумент — это среднее и стандартное отклонение X.</b> 

Вероятность значений в определенном интервале можно найти как разность вероятностей: \(P(a≤X≤b)=P(X≤b)-P(X≤a)\), каждую из которых можно вычислить, используя norm.cdf().

Также: P(X>=c)=1-P(X<=c)

Если же вы хотите найти значение C, зная вероятность P(X<=c), используйте функцию norm.ppf().

Так, если X~N(4,2) и P(X<=C)=0.75, то можно найти C через функцию norm.ppf(0.75, 4, 2). Первый аргумент — число C, остальные два — это среднее и стандартное отклонение X.

<i>Используя функцию norm.ppf(), найдите число C.</i>

In [6]:
# P(Z<C)=0.1
norm.ppf(0.1, 0, 1)

-1.2815515655446004

In [7]:
# P(Z>C)=0.05
norm.ppf(0.05, 0, 1)

# Ответ почему-то 1.64  . Видимо 1 из формулы не учитывается  P(X>=c)=-P(X<=c)

-1.6448536269514729

In [8]:
# P(Z<C)=0.025
norm.ppf(0.025, 0, 1)

-1.9599639845400545

In [9]:
# P(Z>C)=0.01
norm.ppf(0.01, 0, 1)

# Ответ почему-то 2.33  Видимо 1 из формулы не учитывается  P(X>=c)=-P(X<=c)

-2.3263478740408408

In [10]:
# P(Z<C)=0.005
norm.ppf(0.005, 0, 1)

-2.575829303548901

2.10.1 Известно, что вес жителя Гонконга распределен нормально со средним в 70 кг и стандартным отклонением 5 кг. Лифт в одном бизнес-центре может поднять не более 375 кг. Также на нем указана вместимость не более 5 человек. Другими словами, если  5 человек входят в лифт, их средний вес не должен превысить 75 кг (как 375/5).

Какова вероятность, что средний вес случайно подошедших к лифту 5 человек превысит 75 кг и не позволит лифту подняться? Укажите ответ в виде десяточной дроби с 3 знаками после точки-разделителя.

In [11]:
# P(W>75)
# sigma среднее = sigma / sqrt(n) = 5/sqrt(5) = 2.236
1-norm.cdf(75, 70, 2.236)

0.012671433369059626

2.10.2 Известно, что 20% взрослого населения в городе Пало Альто, Калифорния, обладают машиной Tesla (другими словами, p, истинная пропорция обладателей Tesla в городе равна 0.2). Допустим, вы берете выборку из 225 взрослых людей из Пало Альто. Какова вероятность, что выборочная пропорция не превысит 16 % (то есть вероятность что p<=0.16)?

Укажите ответ в виде десяточной дроби с 3 знаками после точки-разделителя.

In [12]:
norm.cdf(0.16, 0.2, 0.026666)

0.06680234437420077

Задание 2.11.4

Оценки студентов на международной онлайн олимпиаде распределены нормально со средним 700 баллов и стандартным отклонением 120 баллов. Диплом первой категории выдается участникам, набравшим более 820 баллов. Диплом второй категории — участникам, набравшим от 730 до 820 баллов. Для решения задачи используйте функции norm.cdf() и norm.ppf() из пакета scipy.stats.

1. Какая доля участников получает диплом 1 категории? Ответ укажите с округлением до 2 знаков после точки-разделителя.

In [13]:
# X~N(700,120)
# P(X>820)
1 - norm.cdf(820, 700, 120)

0.15865525393145707

2. Какая доля участников получает диплом 2 категории? Ответ укажите с округлением до 2 знаков после точки-разделителя.

In [14]:
# X~N(700,120)
# P(730<=X<=820)
# P(a≤X≤b)=P(X≤b)-P(X≤a)
norm.cdf(820, 700, 120) - norm.cdf(730, 700, 120)

0.24263842038561922

3. Некоторые участники порой выставляли ответы, даже не пытаясь решить задачу, случайным образом, стремясь набрать минимальное количество баллов лишь для того, чтобы получить сертификат об участии. Оргкомитет олимпиады принял решение не выдавать сертификатов тем, кто попал в 5 % участников с наименьшими баллами. Какое минимальное количество баллов нужно было набрать, чтобы получить сертификат об участии? Количество баллов – это целое число.

In [15]:
# X~N(700,120)
# P(X<=x)=0.05
norm.ppf(0.05, 700, 120)

502.61756476582326

3.7 Задача 1

Управляющий супермаркета хочет оценить, сколько денег покупатели тратят за один поход в супермаркет в среднем. На основании ранее собранных данных известно, что расходы одного покупателя распределены приблизительно нормально. Управляющий взял случайную выборку из 15 покупателей и выяснил, что их средние расходы равны рублей, а выборочное стандартное отклонение равно рублей.
Давайте поможем управляющему, решив несколько задачек с помощью Python.

Для случая с <b>известным значением σ</b> предел погрешности и его интервалы Z(a/2)*σ/sqrt(n)

можно найти, используя функцию <b>confidence_interval_norm()</b>:

In [16]:
from scipy.stats import norm
import math

def confidence_interval_norm(alpha, sigma, n, mean):
    value = -norm.ppf(alpha / 2) * sigma / math.sqrt(n)
    return mean - value, mean + value

Для случая с <b>неизвестным значением σ</b> предел погрешности 

t(a/2)(k) * s/sqrt(n)

находится через <b>confidence_interval_t()</b>

In [17]:
from scipy.stats import t
import math

def confidence_interval_t(alpha, s, n, mean):
    value = t.ppf(alpha / 2, n - 1) * s / math.sqrt(n)
    return mean - value, mean + value

В обоих случаях:

        первый аргумент функции — уровень значимости alpha;
        второй — выборочное отклонение s или σ;
        третий — размер выборки n;
        четвертый — среднее значение выборки.


3.7.4 Задание 4

Теперь, используя эту функцию, найдите доверительные интервалы для среднего значения расходов μ. Ответ округлите до целого числа (количества рублей):

In [18]:
# 90%
confidence_interval_t(0.1, 400, 15, 2000)

(2181.907328622996, 1818.092671377004)

In [19]:
# 95%
confidence_interval_t(0.05, 400, 15, 2000)

(2221.5126166258565, 1778.4873833741433)

In [20]:
# 99%
confidence_interval_t(0.01, 400, 15, 2000)

(2307.446995559917, 1692.553004440083)

Условия задачи №2

Чиновника интересует сумма подоходного налога, выплачиваемого домохозяйствами за год. На случайной выборке из 250 домохозяйств был посчитан средний размер выплаченного налога, и он составил 3540 долларов. Также на основании ранее предоставленных данных из налоговой инспекции известно истинное стандартное отклонение величины подоходного налога, равное 1150 долларов.
Необходимо найти 99% доверительный интервал для истинного среднего значения налоговых выплат за год.

In [21]:
confidence_interval_norm(0.01, 1150, 250, 3540)

(3352.6537883505453, 3727.3462116494547)

3.7.7 Задание 7

Теперь, используя эту функцию, найдите 99%-ный доверительный интервал для среднего значения годовых отчислений на подоходный налог . Ответы необходимо округлить до целых значений.

In [22]:
# hz, примерно похоже

mu = 3540 + 2.58*1150/250**0.5
print(mu)
hru = 3540 - 2.58*1150/250**0.5
print(hru)

3727.6495563543917
3352.3504436456083


Условия задачи №3

Ниже представлена случайная выборка значений величины , распределенной нормально. 
1.2 	0.2 	1.6 	1.9 	-0.4 	0.5 	1.4 	1.7 	2.5 	1.3

Необходимо построить доверительный интервал для истинного среднего значения Mu.

3.7.8 Задание 8

Вычислите необходимые выборочные статистики и найдите 95%-ный доверительный интервал для Mu. Укажите нижнюю и верхнюю границу интервала с округлением до двух знаков после разделительной точки.

In [23]:
# Считаем среднее арифметическое
x = (1.2 + 0.2 + 1.6 + 1.9 + (-0.4) + 0.5 + 1.4 + 1.7 + 2.5 + 1.3)/10
print(x)

1.19


In [32]:
import pandas as pd
df = pd.DataFrame([1.2, 0.2, 1.6, 1.9, -0.4, 0.5, 1.4, 1.7, 2.5, 1.3])
df

Unnamed: 0,0
0,1.2
1,0.2
2,1.6
3,1.9
4,-0.4
5,0.5
6,1.4
7,1.7
8,2.5
9,1.3


In [33]:
df.std()

0    0.862103
dtype: float64

In [34]:
confidence_interval_t(0.05, 0.862103, 10, x)

(1.8067113346924304, 0.5732886653075695)

In [47]:
def confidence_interval_t_prop(alpha, p, n):
    value = t.ppf(alpha / 2, n - 1) * math.sqrt((p*(1-p)) / n)
    return round((p - value),3), round((p + value),3)

In [43]:
0.698 + 1.65*((0.698*(1-0.698))/189)**0.5

0.753104139503999

In [44]:
0.698 - 1.65*((0.698*(1-0.698))/189)**0.5

0.6428958604960009

In [48]:
#тогда на основе этой функции будет так

confidence_interval_t_prop(0.1, 0.698, 189)

(0.753, 0.643)

3.9. Находим z-критическое и t-критическое

Найти значение любого z-критического можно самостоятельно в Python, используя функцию norm.ppf(). Импортируем необходимую для этого библиотеку: 

<b>from scipy.stats import norm</b> 

Самый простой способ — найти и получить ответ как = -norm.ppf(α/2).

Например, если уровень доверия 1-alpha равен 97 %, значит alpha/2 = 0.015. 
Тогда мы найдем z(alpha/2) как = -norm.ppf(0.015), то есть 2.17.


In [49]:
alpha = 0.03
value = -norm.ppf(alpha/2)
print(value) # 2.17

2.1700903775845606


3.9.1 Задание 1

Найдите z-критическое для интервала с уровнем доверия 93 %. Укажите с точностью до 2 знаков после разделительной точки.

In [50]:
alpha = 0.07
value = -norm.ppf(alpha/2)
print(value)

1.8119106729525978


3.9.2 Задание 2

Найдите критические значения для следующих доверительных интервалов (ответ укажите с точностью до двух знаков после разделительной точки):

In [51]:
#1. Доверительный интервал для среднего нормально распределённой величины mu,
#на выборке размером n=10, если σ известна, на 99 % уровне доверия

alpha = 0.01
value = -norm.ppf(alpha/2)
print(value)

2.575829303548901


In [53]:
#2. Доверительный интервал для среднего нормально распределённой величины mu,
#на выборке размером n=10, если σ неизвестна, на 99 % уровне доверия

value2 = t.ppf((1+0.99)/2, 10-1)
print(value2)

3.2498355440153697


In [57]:
#3. Доверительный интервал для среднего mu, на выборке размером n=100, σ неизвестна, на 95% уровне доверия

value3 = t.ppf((1+0.95)/2, 100-1)
print(value3)

1.9842169515086827


In [58]:
#4. Доверительный интервал для пропорции p, на выборке размером n=100,на 95% уровне доверия

alpha = 0.05
value = -norm.ppf(alpha/2)
print(value)

1.9599639845400545
