In [None]:
# библиотека для генерации случаных чисел
import random
# тут лежат некоторые математические функции
import math

# для работы с таблицами: DataFrame, Series
import pandas as pd
# для работы с массивами и матрицами чисел, некоторые статистические функции
import numpy as np
# тут лежат функции распределения случайных величин
from scipy import stats

# БЛОК ДЛИ РИСОВАНИЯ ГРАФИКОВ
# основная библиотека для рисования
import matplotlib.pyplot as plt
# дизайн картинок
plt.style.use('seaborn')
# позволяем отрисовавать картинки сразу в ноутбуке
%matplotlib inline

# Введение в теорию вероятностей и математическую статистику.
## Случайная величина
Центральным понятием является случайная величина:   
**Случайная величина** это переменная, значения которой представляет собой исходы какого-нибудь случайного феномена или эксперимента.

Например:
 - эксперимент: подбрасывание монетки (орел = 1, решка = 0)
 - результат эксперимента: исход
 - все возможные варианты исхода: значения случайной величины (1 или 0)
 
То есть, случайная величина $\eta$, которая может принимать значения из множества {0 , 1}

На самом деле, нам интересна не сколько сама случайная величина, а частота появления тех или иных значений - вероятность. Давайте с помощью питона подбросим монетку 100000 раз. И посчитаем частоту (вероятность) каждого исхода.

In [None]:
random.seed(0) # используем этот метод для воспроизводимости результатов

# 100000 раз подкинем монетку и посмотрим, какие были исходы
# для этого используем randint, который возвращает целое число, из отрезка [0, 1]
lst = []
for i in range(100000):
    lst.append(random.randint(0, 1))
pd.DataFrame({'sv': lst}).sv.value_counts()

Говорят, что 100000 исходов случайной величины, составляют **выборку** случайной величины объемом 100000.

Сумма вероятностей всех исходов равна **1**

#### Задание:
Давайте посмотрим на пространство исходов для игральной кости, у которой 6 ребер. Воспользуемся для этого библиотекой random.
Как вы думаете, как оценить вероятность всех исходов для игральной кости?

In [None]:
### ВАШ КОД ЗДЕСЬ

#### Задание:
А какова вероятность того, что при броске выпадет число больше 2?

In [None]:
### ВАШ КОД ЗДЕСЬ

#### Задание:
Пусть теперь костей две, а случайной величиной будет сумма выпавших чисел, как же будет выглядеть такая случайная величина?

In [None]:
### ВАШ КОД ЗДЕСЬ

#### Эти распределения называются дискретными, такие распределения имеют конечное или счетное количество исходов.

У каждого дискретного распределения есть параметры:
 - функция вероятности $p(x)$
 - функция распределения вероятности $F(x)$

In [None]:
# функция вероятности
plt.figure(figsize=(10, 6))
x = np.arange(1, 7)
y = np.tile(1/6, 6)
plt.vlines(x, #координтаты
           0, y, # столбики идут от 0 до stats.poisson.pmf(x, mu)
           colors='b', lw=5, alpha=0.5)
plt.show()

In [None]:
# функция распределения вероятности
plt.figure(figsize=(10, 6))
x = np.arange(1, 7)
y = np.array([1/6, 2/6, 3/6, 4/6, 5/6, 6/6])
plt.vlines(x, #координтаты
           0, y, # столбики идут от 0 до stats.poisson.pmf(x, mu)
           colors='b', lw=5, alpha=0.5)
plt.show()

#### Задание:
Найти $F(7)$, где $\eta$ случайная величина для одной игральной кости

#### Задание:
Построить функция вероятности и функция распределения вероятности, когда случайная величина - сумма выпавших чисел на двух костях 

In [None]:
### ВАШ КОД ЗДЕСЬ

#### Рассмотрим наиболее часто встречающиеся семейства дискретных распределений:    
#### Распределение Бернулли.
 - Случайная величина имеет распределение Бернулли с параметром p, если она принимает значение 1 с вероятностью p и принимает значение 0 с вероятностью 1-p. В нашем случае, подбрасывание монетки имеет распределение Бернули с p = 0.5.
 
#### Биномиальное распределение.
 - Биномиальное распределение обычно интерпретируют как число успехов в серии из **n** одинаковых независимых испытаний Бернулли с вероятностью успеха **p** в каждом испытании.
 - Случайная величина имеет биномиальное распределение с параметрами **n** и **p**, если оно принимает **n** значений и вероятность того, что случайная величина принимает значение **k** равно $C^k_n p^i (1 - p)^{n-k}$, где $C^k_n $ - это число сочетаний из **n** по **k**, т.н. биноминальный коэффициент $\frac{n!}{k!(n-k)!}$, где $n!$ - факториал, произведение всех целых чисел от 1 до **n**.

#### Задание:
Написать функцию для вычисления вероятности для биномиального распределения. Потом воспользоваться встроенной функцией 
- stats.binom.pmf(k, n, p)

In [None]:
math.factorial(3)

In [None]:
### ВАШ КОД ЗДЕСЬ

In [None]:
### ВАШ КОД ЗДЕСЬ

#### Распределение Пуассона.
- Получается из биномиального распределения, когда **n** делаем очень большим, а **p** очень маленьким.
- Распределение Пуассона моделирует случайную величину, представляющую собой число событий, произошедших за фиксированное время, при условии, что данные события происходят с некоторой фиксированной средней интенсивностью и независимо друг от друга., например количество звонков, поступивших на телефонную станцию за один астрономический час.
- Случайная величина имеет распределение Пуассона с параметрами $\lambda > 0$, она принимает счетное множество значений, и вероятность того что случайна величина примет значение $k$ будет равно $\frac{\lambda^k}{k!}e^{-\lambda}$.  

#### Задание:
Написать функцию для вычисления вероятности для Распределения Пуассона, но на вход подается массив.

In [None]:
### Функция, на вход массив, на выход тоже массив
### ВАШ КОД ЗДЕСЬ
def my_poisson(x, mu):
    pass

In [None]:
# Так выглядит функция вероятности распределения Пуассона с параметром 2
mu = 2
plt.figure(figsize=(10, 6))
x = np.arange(10)
plt.vlines(x, #координтаты
           0, my_poisson(x, mu), # столбики идут от 0 до my_poisson(x, mu)
           colors='b', lw=5, alpha=0.5)

In [None]:
# Так выглядит функция вероятности распределения Пуассона с параметром 2
mu = 2
plt.figure(figsize=(10, 6))
x = np.arange(10)
plt.vlines(x, #координтаты
           0, stats.poisson.pmf(x, mu), # столбики идут от 0 до stats.poisson.pmf(x, mu)
           colors='b', lw=5, alpha=0.5)

#### Геометрическое распределение.
- Геометри́ческое распределе́ние — распределение дискретной случайной величины равной количеству испытаний случайного эксперимента до наблюдения первого «успеха». Тоже получается из распределения бернулли

- Случайная величина имеет геометрическое распределение с параметрами $p \in (0, 1)$, она принимает счетное множество значений, и вероятность того что случайна величина примет значение $k$ будет равно $p(1-p)^{k-1}$. Пусть проводится серия испытаний, в каждом из которых случайное событие  может появиться с вероятностью ; причём, испытания заканчиваются при первом же появлении данного события. Тогда случайная величина , характеризующая количество совершённых попыток, как раз и имеет геометрическое распределение. Например мы подкидываем монетку не более 10 раз до первого орла.

In [None]:
# Так выглядит геометрическое распределение (два варианта, с вероятностью 0.1 и 0.4)
plt.figure(figsize=(10, 6))
x = np.arange(10)
plt.vlines(x, 0, stats.geom.pmf(x, 0.1), colors='b', lw=5, alpha=0.5)
plt.vlines(x, 0, stats.geom.pmf(x, 0.4), colors='r', lw=5, alpha=0.5)
plt.show()

Все распределения уже есть в библиотеке stats, описание всех распределений есть тут:   
https://docs.scipy.org/doc/scipy/reference/stats.html    

#### Рассмотрим наиболее часто встречающиеся семейства непрерывных распределений

Непрерывными они называются потому что могут принимать значения из пространства действительных чисел. Такие случайные величины определяются с помощью:
- функций плотности распределения вероятности $p(x)$
- функция распределения вероятности $F(x)$

#### Равномерное распределение.
Непрерывная величина распределена равномерно на интервале (a, b), если все ее возможные значения находятся на этом интервале и плотность распределения вероятностей постоянна. Пример: мы пришли на остановку автобуса, который ходит с 10-минутными интервалами, тогда какова вероятность того, что автобус придет в течении первой минуты, второй минуты и т.д. Очевидно что 1/10.

#### Показательное распределение. 
Непрерывная случайная величина  Х  имеет показательное распределение, если плотность распределения ее вероятностей выражается формулой: $p(x) = \lambda e^{-\lambda x}$ для $x > 0$. Показательное распределение может описывать вероятность отказа какого-то прибора с течением времени.

#### Нормальное (гауссово) распределение.
- Непрерывная случайная величина  Х  имеет нормальное распределение с параметрами $\mu$ и $\sigma$, если плотность распределения ее вероятностей выражается формулой: $p(x) = \frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$. 
- в сигма 68%, в 2 сигма 95%, в 3 сигма 99%
- ПШПВ = 2,35 сигма
- Примеров этого распределения просто тьма: рост, вес людей, время жизни описывается нормальным распределением. 
- нормальному распределению подчиняются большое количество случайный величин, среди них: вес полуфабриката, длина изделия, время производственного цикла, время обработки, количество дефектов по дням и т.д. Случаи когда перечисленные величины не распределены по нормальному закону могут возникать, но довольно редко.

In [None]:
# это функция плотности распределения вероятности для равномерного распределения
x = np.linspace(0, 10, 10)
y = np.tile(1/10, 10)

plt.figure(figsize = (10, 6))
plt.plot(x, y)
plt.show()

In [None]:
# это функция плотности распределения вероятности для экспоненциального распределения с параметрами lambda = 0.2
x = np.linspace(-10, 10, 5000)
lam = 0.2


y = stats.expon.pdf(x, lam)

plt.figure(figsize = (10, 6))
plt.plot(x, y)
plt.show()

In [None]:
# это функция плотности распределения вероятности для нормального распределения с параметрами mu = 0 и sigma = 1
x = np.linspace(-5, 5, 5000)
mu = 0
sigma = 1

y = stats.norm.pdf(x, mu, sigma)

plt.figure(figsize = (10, 6))
plt.plot(x, y)
plt.show()

Отобразим плотность распределения вероятности и функция распределения вероятности на одном графике

In [None]:
x = np.linspace(-5, 5, 5000)
mu = 0
sigma = 1
y_pdf = stats.norm.pdf(x, mu, sigma) # the normal pdf
y_cdf = stats.norm.cdf(x, mu, sigma) # the normal cdf

plt.figure(figsize = (10, 6))
plt.plot(x, y_pdf, label='плотность распределения вероятности')
plt.plot(x, y_cdf, label='функция распределения вероятности')
plt.legend()
plt.show()

In [None]:
x = np.linspace(0, 5, 5000)
mu = 0.2

y_pdf = stats.expon.pdf(x, mu)
y_cdf = stats.expon.cdf(x, mu)

plt.figure(figsize = (10, 6))
plt.plot(x, y_pdf, label='плотность распределения вероятности')
plt.plot(x, y_cdf, label='функция распределения вероятности')
plt.legend()
plt.show()

Функция распределения вероятности является монотонной и принимает значения из отрезка $(0, 1)$. Можем условно считать что значения функции распределения имеют следующие значения на бесконечности: $F(-\infty) = 0$, $F(+\infty) = 1$.    
Напрашивается вопрос: как же искать вероятность для таких распределений ответ достаточно простой: вероятность того что случайная величина примет значение внутри интервала равно разности значений функции распределения на концах выбранного интервала. Поясним на примере.

In [None]:
mu = 170
sigma = 10
print('пусть рост мужчины имеет нормальное распределение с параметрами mu = 170 и sigma = 10')
print('тогда найдем вероятность того, что случайно выбранный мужчина окажется ниже 150: {0:.3f}'.format( 
      stats.norm.cdf(150, mu, sigma)))
print('тогда найдем вероятность того, что рост случайно выбранного мужчины окажется выше 150 и ниже 180: {0:.3f}'.format(
    stats.norm.cdf(180, mu, sigma) - stats.norm.cdf(150, mu, sigma)))

In [None]:
### найдите вероятность того, мужчина выше 180
### ВАШ КОД ЗДЕСЬ

In [None]:
### еще задачка: срок работы лампочки имеет экспоненциальное распределение с параметром лямбда 0.001
### какова вероятность того что проработает не меньше 2 лет?
### ВАШ КОД ЗДЕСЬ

## Основных характеристиках, которые описывают распределения

#### Теперь поговорим об основных характеристиках, которые описывают распределения: мат.ожидание, медиана, дисперсия, перцентиль.

- Мат. ожидание - это число, характеризующее случайную величину, интерпретировать его можно по-разному, самый простой подход -  среднее арифметическое элементов выборки. 
- Медиа́на  — это число, характеризующее случайную величину. Если все элементы выборки различны, то медиана — это такое число выборки, что ровно половина из элементов выборки больше него, а другая половина меньше него. В более общем случае медиану можно найти, упорядочив элементы выборки по возрастанию или убыванию и взяв средний элемент. Например, выборка {11, 9, 3, 5, 5} после упорядочивания превращается в {3, 5, 5, 9, 11} и её медианой является число 5. Если в выборке чётное число элементов, медиана может быть не определена однозначно: для числовых данных чаще всего используют полусумму двух соседних значений (то есть медиану набора {1, 3, 5, 7} принимают равной 4). Если имеем распределение, то медиана - это такая точка, которая разделяет распределение на две равные части. Грубо говоря, медианой случайной величины является такое число, что вероятность получить значение случайной величины справа от него равна вероятности получить значение слева от него (и они обе равны 1/2).

В чем разница между медианой и средним значением?
 
Предположим, что в одной комнате оказалось 19 бедняков и один миллионер. У каждого бедняка есть 5, а у миллионера — 1 млн. В сумме получается 1 000 095. Если мы разделим деньги равными долями на 20 человек, то получим 50 004,75. Это будет среднее арифметическое значение суммы денег, которая была у всех 20 человек в этой комнате.
Медиана в этом случае будет равна 5 (полусумма десятого и одиннадцатого, срединных значений ранжированного ряда). Можно интерпретировать это следующим образом. 
Разделив нашу компанию на две равные группы по 10 человек (предварительно отсортировав), мы можем утверждать, что в первой группе у каждого не больше 5, во второй же не меньше 5. В общем случае можно сказать, что медиана это то, сколько принёс с собой «средний» человек. Видно, среднее арифметическое — неподходящая характеристика, так как оно значительно превышает сумму наличных, имеющуюся у среднего человека.    
Вопрос: о чем нам скажет разность мат.ожидания и медианы?   
- Дисперсия - это мера разброса случайно величины относительно мат.ожидания, иными словами насколько чем дисперсия меньше чем случайная величина менее случайна, и наоборот.    

#### Задание:
У какой случайной величины дисперсия будет равна нулю?  

- х-Перцентиль - это значение, при котором функция распределения вероятности равна х, например медиана это 50%-перцентиль.

#### Задание:
Построить выборку для нормального распределения. Посчитать для нее среднее, медиану и дисперсию.
Использовать norm.rvs($\mu$, $\sigma$, size=1000), 
np.mean(...), np.median(...), np.std(...).

In [None]:
# Ваш код тут

#### Задание.
Задана функция распределения вероятности

In [None]:
def cdf_example(x):
    ans = 0
    if (x > 0) and (x < 3):
        ans = x * x / 9
    elif x >= 3:
        ans = 1
    return ans

In [None]:
x = np.linspace(-2, 5, 5000)
y = []
for i in x:
    y.append(cdf_example(i))
y_cdf = np.array(y)
plt.figure(figsize = (10, 6))
plt.plot(x, y_cdf, label = 'функция распределения вероятности')
plt.legend()
plt.show()

Вопрос: как найти медиану, зная функцию распределения?

In [None]:
### ВАШ КОД ЗДЕСЬ

#### Давайте попробуем восстановить плотность распределения вероятности.
Раз функция распределения вычисляется через плотности, то плотность можно выразить через функцию распределения.
Давайте тогда численно оценим производную точки как разность ординат соседних точек, поделив на длин интервала.

In [None]:
np.array([1,2,3,4])

In [None]:
np.roll(np.array([1,2,3,4]), -1)

In [None]:
x[1]-x[0]

In [None]:
y_pdf = (np.roll(y_cdf, -1) - y_cdf) / 0.0014002800560111162
y_pdf

Видно что крайняя точка у нас вычислилась некорректно, заполним ее нулем.

In [None]:
y_pdf[-1] = 0
y_pdf

In [None]:
x = np.linspace(-2, 5, 5000)
plt.figure(figsize = (10, 6))
plt.plot(x, y_pdf, label='плотность распределения вероятности')
plt.legend()
plt.show()

Проверим, что это действительно плотность распределения, т.е. сумма плотности будет равна 1.

Вопрос: как найти мат.ожидание, зная плотность распределения?

In [None]:
### ВАШ КОД ЗДЕСЬ

Вопрос: как найти медиану, зная плотность распределения?

In [None]:
### ВАШ КОД ЗДЕСЬ

Вопрос: как найти дисперсию, зная плотность распределения?

In [None]:
### ВАШ КОД ЗДЕСЬ

#### Самостоятельное задание:
Перепишите функцию распределения так, чтобы парабола была вогнута в противоположную сторону. Восстановите функцию плотности распределения, оцените параметры распределения.

In [None]:
def cdf_example(x):
    ans = 0
    if (x > 0) and (x < 3):
        ans = 1### ВАШ КОД ЗДЕСЬ
    elif x >= 3:
        ans = 1
    return ans

In [None]:
### ВАШ КОД ЗДЕСЬ

## Гистограммы
- Оказывается, что мы не всегда знаем, закон распределения какой-то случайно величины, чаще всего в жизни мы имеем дело с выборками (то есть случайными подмножествами элементов) из распределения. 
- И если выборка достаточно большая то она будет достаточно описывать закон распределения, а значит параметры распределения можно довольно точно оценить по выборке.
- Один из способов исследования распределений по выборкам это гистограммы. Строить гистограммы довольно просто, вся область значений случайной величины разделяется на отрезки и для каждого отрезка рассчитывается количество точек, попавших в этот отрезок.

In [None]:
np.random.seed(1)       # если мы хотим воспроизводимости результатов, то фиксируем этот параметр
rv = stats.norm(2, 0.5) # создаем объект - распределение
viborka = rv.rvs(100)   # генерируем 100 элементов из этого распределения
 
x = np.linspace(0, 5, 1000)
pdf = rv.pdf(x)         # плотность распределения

plt.figure(figsize = (10, 6))
# рисуем теоретическую плотность распределения
plt.plot(x, pdf, label='теоретическая плотность распределения')
plt.ylabel('$F(x)$')
plt.xlabel('$x$')
 
# рисуем гистограмму
plt.hist(viborka, bins=20, normed=True, label='гистограмма, построенная на случайной выборке')
plt.ylabel('$F(x)$')
plt.xlabel('$x$')

plt.legend()
plt.show()
print('Теоретическое мат.ожидание ',rv.mean())
print('Оценка мат.ожидания по выборке ',viborka.mean())
print('Теоретическая медиана ',rv.median())
print('Оценка медианы по выборке ',np.median(viborka))
print('Теоретическая дисперсия ',rv.std() ** 2)
print('Оценка мат.ожидания по выборке ',viborka.std() ** 2)

In [None]:
a = sorted(viborka)
step = (a[-1] - a[0])/19

In [None]:
data = pd.DataFrame(a, columns=['value'])
data['bin'] = np.nan
for idx in range(len(a)):
    data['bin'] = np.where((a[0] + idx*step <= data.value)&(data.value < a[0]+(idx+1)*step), idx, data['bin'])

In [None]:
plt.figure(figsize = (10, 6))
plt.vlines(data.groupby('bin')['value'].median().values, #координтаты
           0, data['bin'].value_counts().sort_index().values, # столбики идут от 0 до stats.poisson.pmf(x, mu)
           colors='b', lw=10, alpha=0.5)
plt.xlim([0,5])

#### Самостоятельное задание:
1. Подберите такой объем выборки, чтобы теоретические параметры распределения максимально совпали с оценками параметров по выборке.    
2. Тоже самое проделайте над экспоненциальным распределением.    

*Дополнительный вопрос: как по подвыборке построить функцию распределения?

In [None]:
### ВАШ КОД ЗДЕСЬ

In [None]:
### ВАШ КОД ЗДЕСЬ

In [None]:
### ВАШ КОД ЗДЕСЬ

## Корреляция случайных величин

Корреля́ция (от лат. correlatio «соотношение, взаимосвязь») или корреляционная зависимость — статистическая взаимосвязь двух или более случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). При этом изменения значений одной или нескольких из этих величин сопутствуют систематическому изменению значений другой или других величин

### Коэффициент корреляции

In [None]:
val1 = np.linspace(1, 100, 100)

In [None]:
val2 = 70*val1 - 22.5

In [None]:
data = pd.DataFrame({'val2': val2, 'val1':val1})
data.val1.corr(data.val2)

In [None]:
plt.figure(figsize = (10, 6))
plt.scatter(data.val1, data.val2)
plt.show()

In [None]:
sigma = 0
eps = stats.norm.rvs(0, sigma, size=100)
val3 = 70*val1 - 22.5 + eps
data = pd.DataFrame({'val3': val3, 'val1':val1})
print(data.val1.corr(data.val3))
plt.figure(figsize = (10, 6))
plt.scatter(data.val1, data.val3)
plt.show()

__________