# Библиотеки

In [1]:
from zlib import crc32

import numpy as np
import pandas as pd
import scipy.stats as st
from scipy.stats import jarque_bera
from scipy.stats import shapiro

# Код генерации выборки

In [2]:
import re
EMAIL_REGEX = re.compile(r"[^@]+@phystech.edu")

def generate_dataset(code):
    rs = np.random.RandomState(code)
    data = rs.randn(100)
    noise_case = rs.randint(low = 0, high = 3)
    max_attemp_num = 10000
    if noise_case == 0:
        bad = True
        attemps = 0
        while bad and attemps < max_attemp_num:
            data2 = data + rs.laplace(size = (100)) * 0.25
            p1 = jarque_bera(data2)[1]
            p2 = shapiro(data2)[1]
            
            if p1 < 0.05 and p2 > 0.05:
                bad = False
        data = data2
        if bad:
            print ('could not')
    elif noise_case == 1:
        data = data + rs.gamma(1, size=(100))*0.5
    elif noise_case == 2:
        data = data +  rs.uniform()*1.5
        
    return data

# Генерация выборки для вашей почты

<span style="color:red">
    ВАЖНО!
    Почта, которую укажете ниже и почта с которой Вы отправляете домашнее задание должна совпадать!
    В момент проверки задания алгоритм генерирует выборку на основе почты из анкеты!
</span>

Внимательно проверьте почту для которой выполняется задание!

In [3]:
task = dict()
task['mail'] = input(prompt='Enter your mail: ')
assert EMAIL_REGEX.match(task['mail']), 'Not a mail in the phystech.edu domain'
task['id'] = crc32(task['mail'].encode('utf-8'))
task['data'] = generate_dataset(task['id'])

task

{'mail': 'fayzullin.mr@phystech.edu',
 'id': 94208360,
 'data': array([ 0.9357531 , -1.29718545,  0.84007213,  2.06160941,  1.00423222,
         2.11315261,  1.7404708 , -0.30321868,  0.30205666,  0.69554071,
        -1.04199344,  0.97031043,  0.5849982 ,  0.63949725,  0.4199071 ,
         1.49327378,  0.02044668,  0.3064201 , -0.80677444,  1.43970762,
         1.51288039, -0.781643  ,  0.54455245, -1.21398368,  2.59381456,
        -0.19029202,  1.88477863,  0.52245918, -0.41375763,  0.0154614 ,
        -0.17664692, -1.45891435,  2.00271377, -0.009474  ,  0.86398985,
         0.43308344,  1.95752034, -0.05928584,  0.90199582, -0.45377161,
         0.34073956,  1.51023177, -0.31570508,  0.39853892,  1.21700549,
         0.17237327, -1.20381788, -1.6546931 , -0.22753591,  1.5836425 ,
         0.75207121, -0.24083569,  3.70886002,  0.45282628,  1.23930397,
        -1.70406301, -0.42586006,  1.94802413, -0.02760126,  2.40385195,
         3.17586424,  0.66220417,  1.4628444 ,  1.16070427, -

# Работа с выборкой

In [4]:
data = task['data']

## Вспомогательные функции

In [16]:
def log_criteria_result(pvalue: float, alpha: float):
    print("pvalue={}".format(pvalue))
    print("alpha={}".format(alpha))
    if pvalue <= alpha:
        print("Hypothesis should be rejected")
    else:
        print("Data doesn't contradict hypotesis")

## Выборочное среднее по выборке

In [5]:
##################
# your code here #
##################
np.average(data)

0.5559464423690742

## Оценка стандартного отклонения (несмещенная)

In [10]:
##################
# your code here #
##################
np.std(data, ddof=1)

1.2174975663980292

## Можно ли отклонить гипотезу о нормальности выборки, используя критерий Харке-Бера (p<=0.05)?

In [17]:
##################
# your code here #
##################
alpha = 0.05
pvalue = st.jarque_bera(data).pvalue
log_criteria_result(pvalue, alpha)

pvalue=0.5474942976136832
alpha=0.05
Data doesn't contradict hypotesis


## Можно ли отклонить гипотезу о нормальности выборки, используя критерий Шапиро-Уилка (p<=0.05)?

In [18]:
##################
# your code here #
##################
alpha = 0.05
pvalue = st.shapiro(data).pvalue
log_criteria_result(pvalue, alpha)

pvalue=0.7406927943229675
alpha=0.05
Data doesn't contradict hypotesis


## Сумма единиц в бинаризованной выборке

In [51]:
##################
# your code here #
##################
binary_data = np.array(data != 0, dtype=int)
success_number = np.sum(binary_data)
fail_number = np.size(binary_data) - success_number
print(success_number)

100


## Значение p-value для биномиального теста с двусторонней альтернативой (p0 = 0.5)

In [53]:
##################
# your code here #
##################
st.binom_test([success_number, fail_number], p=0.5, alternative='two-sided')

1.5777218104420236e-30