# Библиотеки

In [1]:
from zlib import crc32

import numpy as np
import pandas as pd
import scipy.stats as st
from collections import Counter

# Код генерации выборки

In [2]:
import re
EMAIL_REGEX = re.compile(r"[^@]+@phystech.edu")

def generate_dataset(code):
    rs = np.random.RandomState(code)
    full_data = np.concatenate(
        [
            rs.randint(low=0, high=251, size=5000),
            rs.randint(low=-250, high=0, size=5000)
        ]
    )

    mode_cnt = st.mode(full_data)[1]
    counts = Counter(full_data.tolist())

    to_add = []
    for i in range(rs.randint(low = 1, high = 5)):
        obj_to_add = int(rs.randint(low=-250, high=251, size=1))
        to_add += [obj_to_add for _ in range(0, int(mode_cnt - counts.get(obj_to_add, 0)))]

    full_data = np.concatenate([full_data, to_add])
    rs.shuffle(full_data)
    return np.array(full_data)

# Генерация выборки для вашей почты

<span style="color:red">
    ВАЖНО!
    Почта, которую укажете ниже и почта с которой Вы отправляете домашнее задание должна совпадать!
    В момент проверки задания алгоритм генерирует выборку на основе почты из анкеты!
</span>

Внимательно проверьте почту для которой выполняется задание!

In [3]:
task = dict()
task['mail'] = input(prompt='Enter your mail: ')
assert EMAIL_REGEX.match(task['mail']), 'Not a mail in the phystech.edu domain'
task['id'] = crc32(task['mail'].encode('utf-8'))
task['data'] = generate_dataset(task['id'])

task

Enter your mail: egorov.sa@phystech.edu


{'mail': 'egorov.sa@phystech.edu',
 'id': 1581189463,
 'data': array([ -54,  226,  231, ...,   49,   41, -246])}

# Работа с выборкой

In [19]:
data = pd.DataFrame(task['data'])
data.describe()

Unnamed: 0,0
count,10029.0
mean,-1.047462
std,144.790867
min,-250.0
25%,-126.0
50%,0.0
75%,126.0
max,250.0


## Среднее

In [21]:
print(f'mean = {data[0].mean():.3f}')

mean = -1.047


## Медиана

In [22]:
print(f"median = {data[0].median():.3f}")

median = 0.000


## Дисперсия (несмещенная оценка)

In [30]:
print(f"unbiased std = {data[0].std(ddof=1):.3f}")

unbiased std = 144.791


## Мода (максимальная)

In [47]:
print(f"Max mode = {data[0].mode().max():.3f}")

Max mode = 162.000


## Число мод

In [52]:
print(f'Number of modes = {data.mode().values.shape[0]}')

Number of modes = 3


## Порядковая статистика с номером 42

In [54]:
print(f"42nd order statistics = {np.partition(data[0].to_numpy(), 42)[:42].max():.3f}")

42nd order statistics = -248.000


## Медиана для неотрицательных

In [53]:
print(f"Median for non-negative integers = {data[data[0] >= 0][0].median():.3f}")

Median for non-negative integers = 125.000
