In [None]:
import numpy as np
import pandas as pd
from scipy import stats

import seaborn as sns
import matplotlib.pyplot as plt
import plotly.figure_factory as ff
%matplotlib inline

In [None]:
from IPython.core.display import display, HTML
display(HTML("<style>.container { width:100% !important; }</style>"))

# Ссылки:
- https://habr.com/ru/company/stepic/blog/250527/ - статья на хабре

# Основная идея - вероятностный подход

**В случае с вероятностным подходом ученый, получивший в своих наблюдениях численные данные, задается вопросом о вероятности получить точно такие же данные в случае, когда результат на самом деле случаен (то есть искомой закономерности в данных нет).** 

Достоверными в области биологии, психологии и ряда иных дисциплин считаются результаты, характеризуемые вероятностью p < 0,05: эта запись означает, что **вероятность случайного результата составляет не более пяти процентов.**

**Статистическая гипотеза** - это предположение о каких-либо характеристиках случайной величины

**Значение p-уровня значимости (p-value)** — это вероятность получить в своей выборке данные, которые говорят о какой-либо закономерности при условии, что в генеральной совокупности никакой закономернотси на самом деле нет. **вероятность получить обозреваемые данные при верной нулевой гипотезе**

# Умозрительный пример 1

X = [1,2,3,4] и Y = [2,4,6,8]

В общем случае гипотеза H0 гласит, что две переменные(X и Y) независимы, т. е. Изменение значений в X не повлияет на значения в Y.

Если вы вычислите "p-value", используя любой метод для этого случая, то оно должно оказаться очень малым значением, подразумевая, что существует очень низкая вероятность того, что этот случай будет следовать гипотезе H0, т. е. очень низкая вероятность того, что X и Y независимы друг от друга.

Это означает, что он никогда не будет следовать гипотезе H0 здесь, и эти две переменные зависят друг от друга в форме Y = 2X.

# Умозрительный пример 2

Предположим, мы решили выяснить, существует ли взаимосвязь между пристрастием к кофе и агрессивностью у школьников. Для этого были случайным образом сформированы две группы школьников по 100 человек в каждой (1 группа — дети выпивающие 0.3 литра кофе, вторая группа — совсем ну употребляющие кофе). В качестве показателя агрессивности выступает, например, число драк со сверстниками. И допустим, **нам видно**, что кофеманы дерутся чаще. Как проверить что обозреваеммый результат статистически значим?

В нашем случае...

H0: Между выборками пьющих и не пьющих кофе школьников нет статистически значимых различий.

H1: Между выборками есть статистически значимые различия.

**p-value** - это вероятность того, что гипотеза h0 подтверждается на имеющихся данных. Вероятность наблюдения рассматриваемых данных при верной гипотезе H0.


Мы сравнили две группы школьников между собой по уровню агрессивности при помощи стандартного t-теста (или непараметрического критерия Хи — квадрат более уместного в данной ситуации) и получили, что заветный p-уровень значимости меньше 0.05 (например 0.04). 

**p-value = 0.04 < alpha = 0.05 => отвергаем H0**

Но о чем в действительности говорит нам полученное значение p-уровня значимости?

1. **Кофеин — причина агрессивного поведения с вероятностью 96%.**

Это пример ошибки корреляции: факт значимой взаимосвязи двух переменных ничего не говорит нам о причинах и следствиях. Может быть, это более агрессивные дети имеют склонность к кофеину, а вовсе не кофеин делает детей агресивными.


2. **Вероятность того, что агрессивность и употребелние кофе не связаны, равна 0.04.**

Тоже нет. Все дело в том, что мы изначально принимаем за данное, что никаких различий на самом деле нет. И, держа это в уме как факт, рассчитываем значение p-value. Поэтому правильная интерпретация: **«Если предположить, что агрессивность и употребление кофе никак не связаны, то вероятность получить такие или еще более выраженные различия составила 0.04».**


3. **Если бы мы получили p-уровень значимости больше, чем 0.05, это означало бы, что агрессивность и употребление кофе никак не связаны между собой.**

Нет, это означает лишь то, что различия, может быть, и есть, но наши результаты не позволили их обнаружить.




Итак еще раз - вывод: **Если предположить, что агрессивность и употребление кофе никак не связаны, то вероятность получить такие или еще более выраженные различия составила 0.04. Значит, кофе и уровень агрессии связаны между собой.**

# Критерий Хи-квадрат

http://www.machinelearning.ru/wiki/index.php?title=%D0%9A%D1%80%D0%B8%D1%82%D0%B5%D1%80%D0%B8%D0%B9_%D1%85%D0%B8-%D0%BA%D0%B2%D0%B0%D0%B4%D1%80%D0%B0%D1%82

## Этого критерия есть два возможных применения:
- **Определение распределения случайной величины.** (Проверка гипотезы, что рассматриваемая выборка извлечена из генеральной совокупности заданого закона распределения)
- **Определение значимой корреляции между двумя категориальными переменными.** Проверка гипотезы об отсутствии связи между двумя переменными.



### Чем отличаются критерии Хи-квадрат и Хи-квадрат-Пирсона? Ничем

# Пример с кубиком

### Мы провели 4 серии экспериментов с подбрасыванием кубика и получили следующие результаты

In [None]:
dice = pd.DataFrame({
    '': ['one', 'two', 'three', 'four', 'five', 'six'],
    'a': [6, 8, 5, 4, 5, 7],
    'b': [4, 5, 4, 11, 8, 3],
    'c': [5, 3, 8, 7, 7, 5],
    'd': [10, 3, 4, 13, 6, 9]
})

dice = dice.set_index('')
dice.loc["total_rolls"] = dice.sum() # добавляем суммирующую строку
dice['total_dist'] = dice.sum(axis=1) # добавляем суммирующую колонку

dice

### Как видно 4 выпадала гораздо чаще остальных, а 2 и 3 наоборот реже. 
### Свзано ли это с тем, что кубик неправильный? Или же наша выборка недостаточно большая и такие результаты случайны?
### Используем критерий Хи-квадрат

#### Вначале нужно перевести результаты в формат np.array

In [None]:
index = ['one', 'two', 'three', 'four', 'five', 'six']
columns = ['a', 'b', 'c', 'd']

dice = np.array(dice.loc[index, columns])
dice

#### Или же просто

In [None]:
a1 = [6, 4, 5, 10]
a2 = [8, 5, 3, 3]
a3 = [5, 4, 8, 4]
a4 = [4, 11, 7, 13]
a5 = [5, 8, 7, 6]
a6 = [7, 3, 5, 9]

dice = np.array([a1, a2, a3, a4, a5, a6])
dice

### В случае, когда у нас нет предположений о распределении случайной величины, можно использовать метод stat.chi2_contigency. Он вернет частотную таблицу, которая поможет составить некоторое представление о распределении выборки

In [None]:
chi_square_statistic, p_value, degrees_of_freedom, expected_frequencies = stats.chi2_contingency(dice)

print(
f'''

chi_square_statistic: {chi_square_statistic}

p_value: {p_value}

degrees_of_freedom: {degrees_of_freedom}


 === Contingency Table - expected_frequencies ===

{expected_frequencies}

'''
)

### Вероятность получить такие результаты при верной нулевой гипотезе - 0.35, что больше чем пороги ошибки 0.05 и 0.01. Следовательно, мы подверждаем нуливую гипотезу. Кубик нормальный. По крайней мере, такой вывод можно исходит из наших данных

### Теперь сделаем тоже самое, но с большей выборкой

In [None]:
r1 = np.random.randint(1,7,1000)
r2 = np.random.randint(1,7,1000)
r3 = np.random.randint(1,7,1000)
r4 = np.random.randint(1,7,1000)
r5 = np.random.randint(1,7,1000)

unique, counts1 = np.unique(r1, return_counts=True)
unique, counts2 = np.unique(r2, return_counts=True)
unique, counts3 = np.unique(r3, return_counts=True)
unique, counts4 = np.unique(r4, return_counts=True)
unique, counts5 = np.unique(r5, return_counts=True)

dice = np.array([counts1, counts2, counts3, counts4, counts5])

chi_square_statistic, p_value, degrees_of_freedom, expected_frequencies = stats.chi2_contingency(dice)

print(
f'''

chi_square_statistic: {chi_square_statistic}

p_value: {p_value}

degrees_of_freedom: {degrees_of_freedom}


 === Contingency Table - expected_frequencies ===

{expected_frequencies}

'''
)

### Чем больше наша выборка тем больше частоты в таблице соответствуют равномерному распределению

In [None]:
r1 = np.random.randint(1,7, 10000)
r2 = np.random.randint(1,7, 10000)
r3 = np.random.randint(1,7, 10000)
r4 = np.random.randint(1,7, 10000)
r5 = np.random.randint(1,7, 10000)

unique, counts1 = np.unique(r1, return_counts=True)
unique, counts2 = np.unique(r2, return_counts=True)
unique, counts3 = np.unique(r3, return_counts=True)
unique, counts4 = np.unique(r4, return_counts=True)
unique, counts5 = np.unique(r5, return_counts=True)

dice = np.array([counts1, counts2, counts3, counts4, counts5])

chi_square_statistic, p_value, degrees_of_freedom, expected_frequencies = stats.chi2_contingency(dice)

print(
f'''

chi_square_statistic: {chi_square_statistic}

p_value: {p_value}

degrees_of_freedom: {degrees_of_freedom}


 === Contingency Table - expected_frequencies ===

{expected_frequencies}

1/6 * 10 000 = {1/6*10000}
'''
)

### Теперь допустим, что у нас есть предположение о распределении случайной величины. Мы рассматриваем кубик - следовательно результаты должны быть распределены равномерно. Посчитав характеристики нашей выборки можно сгенерить теоретическое распределение. После чего сравнить эмпирическую и теоретическую выборки
### H0: результаты распределены равномерно - кубик нормальный
### H1: результаты распределены неравномерно - кубик бракованный

In [None]:
sum([59, 63, 37, 38, 32, 50])

In [None]:
sum([59, 63, 37, 38, 32, 50])/6

In [None]:
my_rolls_expected = [46.5, 46.5, 46.5, 46.5, 46.5, 46.5] # теоретическое ожидаемое распределение
my_rolls_actual =  [46.5, 46.5, 46.5, 46.5, 46.5, 46.5] # эмпирическое наблюдаемое распределение

stats.chisquare(my_rolls_actual, my_rolls_expected)

In [None]:
my_rolls_expected = [46.5, 46.5, 46.5, 46.5, 46.5, 46.5] # теоретическое ожидаемое распределение
my_rolls_actual =  [59, 63, 37, 38, 32, 50] # эмпирическое наблюдаемое распределение

stats.chisquare(my_rolls_actual, my_rolls_expected)

In [None]:
my_rolls_expected_normalized = [1/6]*6 # теоретическое ожидаемое распределение
my_rolls_actual_normalized =  [val/sum(my_rolls_actual) for val in my_rolls_actual] # эмпирическое наблюдаемое распределение

stats.chisquare(my_rolls_expected_normalized, my_rolls_actual_normalized)

In [None]:
?stats.chisquare

### p-value = 0.003. Вероятность получения эмпирической выборки меньше порога ошибки, равного 0.01. Мы отвергаем нулевую гипотезу

# Игрушечный пример 1
## - определить распределение случайной величины

In [None]:
data = [['CDU', 0.415, 57], 
        ['SPD', 0.257, 26], 
        ['Others', 0.328, 40]]

df = pd.DataFrame(data, columns = ['Varname', 'prob_dist', 'observed_freq']) 
df['expected_freq'] = df['observed_freq'].sum() * df['prob_dist']
df

In [None]:
# significance level
alpha = 0.05

# Calcualtion of Chisquare test statistics
chi_square = 0
for i in range(len(df)):
    O = df.loc[i, 'observed_freq']
    E = df.loc[i, 'expected_freq']
    chi_square += (O-E)**2/E

In [None]:
# The p-value approach
print("Approach 1: The p-value approach to hypothesis testing in the decision rule")
p_value = 1 - stats.norm.cdf(chi_square, df['Varname'].nunique() - 1)
conclusion = "Failed to reject the null hypothesis."
if p_value <= alpha:
    conclusion = "Null Hypothesis is rejected."
        
print("chisquare-score is:", chi_square, " and p value is:", p_value)
print(conclusion)

In [None]:
# The critical value approach

print("Approach 2: The critical value approach to hypothesis testing in the decision rule")
critical_value = stats.chi2.ppf(1-alpha, df['Varname'].nunique() - 1)
conclusion = "Failed to reject the null hypothesis."
if chi_square > critical_value:
    conclusion = "Null Hypothesis is rejected."
        
print("chisquare-score is:", chi_square, " and p value is:", critical_value)
print(conclusion)

##### Здесь я пока не понимаю

# Игрушечный пример 2
## - проверить наличие связи между двумя категориальными переменными

### Допустим мы хотим проследить связь пола человека с его пристрастием к курению

In [None]:
df = pd.DataFrame({'Gender' : ['M', 'M', 'M', 'F', 'F'] * 10,
                   'isSmoker' : ['Smoker', 'Smoker', 'Non-Smpoker', 'Non-Smpoker', 'Smoker'] * 10
                  })
df.head()

### Для проведения теста Хи-квадрат, нужно создать частотную перекресную таблицу 

In [None]:
contigency= pd.crosstab(df['Gender'], df['isSmoker']) 
contigency

In [None]:
contigency_pct = pd.crosstab(df['Gender'], df['isSmoker'], normalize='index') # normalize='column', normalize='all' 
contigency_pct

### Для удобства можно построить heatmap. Пользуясь функционалом styler или seaborn 

In [None]:
contigency.style.background_gradient(axis=1)

In [None]:
plt.figure(figsize=(12,8)) 
sns.heatmap(contigency, annot=True, cmap="YlGnBu");

### Применяем критерий Хи-квадрат

- с - статистика теста
- p - p-value
- dof -степень свободы
- expected - ожидаемые частоты, основанные на предельных суммах таблицы

In [None]:
c, p, dof, expected = stats.chi2_contingency(contigency)

print(f'c: {c}\n \np: {p} \n \ndof: {dof} \n \nexpected: {expected}')

### p-value = 37.6%, это значит, что мы принимаем нулевую гипотезу о не связанности пола с пристрастием к курению с 95% уровнем уверенности

#### Можно ли в данном случае применить z-test?

# Визуализация распределений

In [None]:
reactions = [328,454,312,625,609,546,502,736,485,766,429,313,328,344,360,
             453,563,343,375, 28,312,361,297,437,328,328,328,297,359,328,
             361,703,500,344,329,312,328,547,314,328,439,359,126,408,360,
             346,328,392,453,359]

samples=np.array(reactions)
mean=np.mean(reactions)
var=np.var(reactions)
std=np.sqrt(var) # квадратный корень из дисперсии

In [None]:
x = np.linspace(min(samples), max(samples), 12)
print("Excess kurtosis of normal distribution ( should be 0): {}".format(stats.kurtosis(x)))
print("Skewness of normal distribution ( should be 0): {}".format(stats.skew(x)))

In [None]:
y_pdf = stats.norm.pdf(x, mean, std)
y_skew_pdf = stats.skewnorm.pdf(x, *stats.skewnorm.fit(samples))

In [None]:
l1, = plt.plot(x, y_pdf, label='PDF')
l2, = plt.plot(x, y_skew_pdf, label='SKEW PDF')

# Compute histogram of Samples
n, bins, patches =plt.hist(samples,
                           bins = 12,
                           density=True,
                           
                           facecolor='g',
                           edgecolor='red', 
                           alpha=0.75)

plt.axvline(label='Mean=404.2 ms',x=404.2,linestyle='dashed')
plt.axvline(label='Mean-2sigma=158.06 ms',x=158.06,linestyle='dashed')
plt.axvline(label='Mean+2sigma=650.34 ms',x=650.34, linestyle='dashed')

plt.xlabel('My Reaction Time (ms)')
plt.ylabel('Probability')
plt.title('Histogram of reaction to visual stimuli')

# The first plt.text arguments are coordinates x,y of the plot
plt.text(400, 0.015,r'mean=404.2,sigma=123.07')
plt.legend((l1,l2),(l1.get_label(), l2.get_label()), loc='upper right')
plt.axis([126, 766, 0, 0.01])
plt.show()

### Как сделать тоже самое с plotly?
https://plotly.com/python/distplot/ - ссылка на документацию по построению гистограмм в plotly

In [None]:
np.random.seed(123)
x = np.random.normal(loc=2.5, scale=0.85, size=300) 
group_labels = 'My sample'

# Create distplot with custom bin_size, and without rug plot
fig = ff.create_distplot([x], [group_labels], bin_size=.2, show_rug=False)
fig.update_layout(width=600, 
                  height=400,
                  bargap=0.01)
fig.show()

In [None]:
import plotly.express as px
df = px.data.tips()
df.head()

In [None]:
fig = px.histogram(df, x="total_bill", y="tip", color="sex", marginal="rug",
                   hover_data=df.columns)
fig.show()

In [None]:
df = pd.DataFrame({'2012': np.random.randn(200),
                   '2013': np.random.randn(200)+1})
fig = ff.create_distplot([df[c] for c in df.columns], df.columns, bin_size=.25)
fig.show()

# Теперь посмотрим на реальные данные

## Зачем нам знать распределение случайной величины?

#### Пример с койкой.
Если мы знаем, что рост людей подчиняется нормальному распределению, мы можем, например оценить возможную величину спроса на кравати определенной длинны.

In [None]:
titanic = pd.read_csv('data/input/titanic.csv')

In [None]:
titanic = titanic.fillna(0)
titanic = titanic.rename(columns={'2urvived': 'Survived'})
titanic = titanic.drop([col for col in titanic.columns if 'zero' in col], axis=1)

print(f'Shape: {titanic.shape[0]}')
titanic.head()

In [None]:
report = titanic.describe()
report

## Проверка распределения случайной величины "Survived" (выжил или нет)

In [None]:
titanic['Survived'].plot.hist();

In [None]:
report['Survived']

### Распределение Бернулли

#### Сгенерим теоретическую выборку с распределением Бернулли

In [None]:
from scipy.stats import bernoulli

p = titanic[titanic['Survived'] == 1].shape[0]/titanic['Survived'].count()
print(f'p: {p}\n')
survived = bernoulli(p)

print(f'Вероятность значения 1: {np.round(survived.pmf(1),2)}')
print(f'Вероятность значения 0: {np.round(survived.pmf(0), 2)}', end='\n \n')

survived_samples = survived.rvs(titanic.shape[0])
survived_samples

In [None]:
x_theoretical = pd.Series(survived_samples)
vc_theoretical = pd.concat([
    x_theoretical.value_counts(), 
    x_theoretical.value_counts(normalize=True)
], axis=1).rename(columns={0: 'counts', 1: 'normalized'})

y_theiretical = x_theoretical.apply(lambda x: vc_theoretical.loc[x])
print('theoretical dist:')
vc_theoretical

In [None]:
x_empirical = titanic['Survived']
vc_empirical = pd.concat([
    x_empirical.value_counts().rename('counts'), 
    x_empirical.value_counts(normalize=True).rename('normalized')
], axis=1)

y_empirical = x_empirical.apply(lambda x: vc_empirical.loc[x])
print('empirical dist:')
vc_empirical

#### Как мы видим, теоретическое и эмпирическое распределение отличаются. Но, достаточны ли эти различия, чтобы считать, что эмпирическая выборка имеет другое распределение?

#### H0: Выборки распределены одинаковым образом. Эмпирическая выборка имеет распределение Бернули
#### H1: Распределения выборок не совпадают. Эмпирическая выборка имеет распределение отличное от Бернули

In [None]:
stats.chisquare(vc_empirical.values[0], vc_theoretical.values[0])

#### p-value = 1 > 0.05. Вероятность получить эмпирические данные при верной нулевой гипотезе больше чем порог ошибки. Мы подтверждаем нулевую гипотезу. На основе имеющихся данных можно сделать вывод, что значения колонки survived распределены по Бернули. 

#### 100%-ое распределение Бернулли, как и ожидалось

## Проверка распределения случайной величины "Age" (возраст)

In [None]:
report['Age']

#### Итак, у нас на руках непрерывная величина. А Хи-квадрат работает только с дискретными. И при том каждый из исходов должен насчитывать пять или больше вхождений. Поэтому имеет смысл от конкретных возрастов перейти к возрастным диапазонам. И в дальнейшем смореть распределение уже по этим диапазонам

In [None]:
obs = titanic['Age']
mean = report['Age']['mean']
std = report['Age']['std']
bins_num = 6 # выбираем количество диапазонов равное 6, чтобы каждый насчитывал хотя бы 5 случаев

obs_ns, obs_bins, obs_patches = plt.hist(obs, 
                                         bins = bins_num, 
                                         density=False, 
);

In [None]:
# n*np.diff(bins) # Быстрый способ посчитать площадь под бинами

In [None]:
print(sum(obs_ns))
obs_ns

### 1) Нормальное распределение 
- Среднее значение = 29.5
- Стандартное отклонение = 12.9

### Использование функции теоретической вероятности

F_Xi(x) = P(Xi<x)

Интеграл _ -Inf .. x p_Xi(x) dx

P(a<x<b) = F_Xi(b) - F_Xi(a)

#### Теперь нужно посчитать распределение частот по нашим диапазонам для нормально распределенной случайной величины

In [None]:
def get_frequencies(obs_bins, obs_size, theoretical):

    values = []
    probabilities = []

    for start, end in zip(obs_bins[:-1], obs_bins[1:]):
        # разность значений кумулятивной функции плотности от начала и конца диапазона
        # - это вероятность попадания с.в. в этот диапазон
        probabilities.append(theoretical.cdf(end) - theoretical.cdf(start)) 

        # считаем среднее значение меду началами и концами диапазонов, чтобы потом построить график
        values.append((end+start)/2)
        
    # Умножаем полученные вероятности попадания на размер нашей обозреваемой выборки, чтобы получить частоты
    frequencies = np.array(probabilities)*obs_size
    return frequencies, values
    
norm = stats.norm(mean, std)
exp_ns, values = get_frequencies(obs_bins, len(obs), norm)

In [None]:
obs_line, = plt.plot(values, obs_ns, label='observed', c = 'blue')
exp_line, = plt.plot(values, exp_ns, label='norm', c = 'red')
plt.legend();

In [None]:
print(f'observed sum: {sum(obs_ns)}')
print(f'expected sum: {sum(exp_ns)}')

#### По непонятным причинам, в отличае от обозреваемых частот, сумма теоретических не равна размеру выборки. Критерий требует, чтобы суммы обозреваемых и теоретических частот практически не отличались. Поэтому я решил нормализовать частоты

In [None]:
def normalize(array, val):
    # высчитываю недостающее количество
    # и расделяю его равномерно между всеми элементами масива
    # на всякий случай округляю все значения
    array = np.round(array + ((val-sum(array))/len(array)))
    return array

obs_ns_normalized = normalize(obs_ns, val=len(obs)) # для сохранения однородности
exp_ns_normalized = normalize(exp_ns, val=len(obs))

In [None]:
print(sum(obs_ns_normalized))
print(sum(exp_ns_normalized))

#### Чаcтоты совпадают и их можно тестировать

In [None]:
obs_ns_normalized

In [None]:
exp_ns_normalized

In [None]:
stats.chisquare(obs_ns_normalized, exp_ns_normalized)

In [None]:
np.round(stats.chi2.ppf(0.95, 5))

#### И значение p-value приближени к нулю. Статистика намного выше значения из таблицы при уровне значимости 0.05 и степени свободы 5, что также позволяет нам уверенно отвергнуть нулевую гипотезу. Слишком уверено 

### 2) Логиситическое распределение

In [None]:
lognorm = stats.lognorm(mean, std)
exp_ns, values = get_frequencies(obs_bins, len(obs), lognorm)

obs_line, = plt.plot(values, obs_ns, label='observed', c = 'blue')
exp_line, = plt.plot(values, exp_ns, label='lognorm', c = 'red')
plt.legend();

In [None]:
obs_ns_normalized = normalize(obs_ns, val=len(obs)) # для сохранения однородности
exp_ns_normalized = normalize(exp_ns, val=len(obs))

In [None]:
len(obs)

In [None]:
sum(obs_ns_normalized)

In [None]:
sum(exp_ns)

In [None]:
sum(exp_ns_normalized)

In [None]:
stats.chisquare(obs_ns_normalized, exp_ns_normalized)

### 3) Распределение Пуасона