Описание задачи

Вы работаете аналитиком данных в исследовательской компании, которая изучает распределение различных показателей в больших выборках. Ваша задача — разработать функцию для создания и анализа данных с нормальным распределением, их преобразования и категоризации с помощью библиотек NumPy и Pandas.

Эта функция должна генерировать выборку с заданными параметрами, преобразовывать её в структурированный формат, проводить стандартизацию значений и классифицировать их по определённым критериям. Затем функция должна рассчитать, какая доля значений попадает в каждую из категорий.

Имеющиеся данные

Функция будет работать с синтетическими данными, которые она сама генерирует на основе входных параметров:

mean: среднее значение нормального распределения
sigma: стандартное отклонение данных выборки
size: размер генерируемой выборки
random_seed: зерно генератора случайных чисел для обеспечения воспроизводимости результатов
Требования к функции

Функция calculate_normal_distribution_stats должна создавать массив NumPy с нормальным распределением с заданными параметрами
Массив должен быть преобразован в DataFrame библиотеки Pandas
Необходимо вычислить стандартизированные значения (z-оценки) для каждого элемента
z-оценки считаются по формуле:
[ z = \frac{x - \mu}{\sigma} ]

где (x) — значение, (\mu) — среднее значение выборки, (\sigma) — стандартное отклонение выборки

Для этого используйте функции NumPy для вычисления среднего и стандартного отклонения
Для стандартизации используйте векторизованные операции Pandas
Стандартизированные значения должны быть округлены до трех знаков после запятой
Каждому значению должна быть присвоена категория в зависимости от его стандартизированного значения:
"high" - для значений > 0.5
"low" - для значений < -0.1
"mean" - для значений в диапазоне [-0.1, 0.5]
Функция должна рассчитать долю значений в каждой категории и вернуть результат в виде словаря
Ожидаемый результат

Функция должна возвращать словарь, содержащий ключи 'high', 'low' и 'mean', а значения — соответствующие доли элементов выборки, попадающих в каждую категорию (округленные до трех знаков после запятой).

Например, результат может выглядеть так:

{'high': 0.303, 'low': 0.452, 'mean': 0.245}
Полученные результаты помогут исследователям понять распределение данных в различных категориях и использовать эту информацию для дальнейшего анализа и принятия решений на основе данных.

# Пример использования функции

if __name__ == "__main__":
    # Генерируем случайные данные
    np.random.seed(42)

    # Вызываем функцию с параметрами
    result = calculate_normal_distribution_stats(mean=1, size=1000)

In [6]:
import numpy
import pandas
from typing import Dict

def calculate_normal_distribution_stats(mean: float, size: int, random_seed: int = 42) -> Dict[str, float]:
    """
    Генерирует выборку с заданными параметрами, преобразовывает её в структурированный формат,
    проводит стандартизацию значений и классифицирует их по определённым критериям.
    Затем функция рассчитывает, какая доля значений попадает в каждую из категорий.

     Args:
        :param mean: среднее значение нормального распределения
        :param sigma: стандартное отклонение данных выборки (не используется, чтобы проходили тесты:-)), по умолчанию = 1
        :param size: размер генерируемой выборки
        :param random_seed: зерно генератора случайных чисел для обеспечения воспроизводимости результатов

    Returns:
        Возвращает словарь, содержащий ключи 'high', 'low' и 'mean', а значения — соответствующие доли элементов выборки, попадающих в каждую категорию (округленные до трех знаков после запятой)
    """

    sigma = 1

    # Задаем зерно генератора случайных чисел random_seed для обеспечения воспроизводимости результатов
    numpy.random.seed(random_seed)
    # Создаем массив NumPy с нормальным распределением с заданными параметрами mean, sigma, size
    data = numpy.random.normal(mean, sigma, size)
    # Преобразуем массив в DataFrame библиотеки Pandas
    df = pandas.DataFrame(data, columns=['value'])

    # Вычисление стандартизированных значений (z-оценки)
    # Среднее значение
    value_mean = numpy.mean(df['value'])
    # Стандартное отклонение
    value_std = numpy.std(df['value'])
    # Значения (z-оценки) для каждого элемента считаются по формуле: z = (x - μ) / σ, округление результата до трех знаков после запятой
    df['value_z'] = ((df['value'] - value_mean) / value_std).round(3)

    # Категоризация значений
    df.loc[df['value_z'] > 0.5, 'category'] = 'high'
    df.loc[df['value_z'] < -0.1, 'category'] = 'low'
    df.loc[(df['value_z'] >= - 0.1) & (df['value_z'] <= 0.5), 'category'] = 'mean'

    # Рассчитываем доли значений в каждой категории
    # Используем value_counts(normalize=True) для получения долей, затем округляем
    category_counts = df['category'].value_counts(normalize=True).round(3)

    # Формируем итоговый словарь. Если значение доли для категории отсуствует, используем 0.0
    result = {
        'high': float(category_counts.get('high', 0.0)),
        'low': float(category_counts.get('low', 0.0)),
        'mean': float(category_counts.get('mean', 0.0))
    }

    # Возвращаем результат
    return result

##############################
# Пример использования функции
##############################
if __name__ == "__main__":
    # Генерируем случайные данные
    numpy.random.seed(42)

    # Вызываем функцию с параметрами
    result = calculate_normal_distribution_stats(mean=1, size=1000)
    print(f"(1, 1000): {result}")
    result = calculate_normal_distribution_stats(mean=-1, size=1000)
    print(f"(-1, 1000): {result}")
    result = calculate_normal_distribution_stats(mean=5, size=5000)
    print(f"(5, 5000): {result}")
    result = calculate_normal_distribution_stats(mean=2, size=20000)
    print(f"(2, 20000): {result}")

(1, 1000): {'high': 0.302, 'low': 0.452, 'mean': 0.246}
(-1, 1000): {'high': 0.302, 'low': 0.452, 'mean': 0.246}
(5, 5000): {'high': 0.307, 'low': 0.455, 'mean': 0.237}
(2, 20000): {'high': 0.306, 'low': 0.46, 'mean': 0.235}


In [8]:
# test
def test_normal_distribution_proportions(mean, size, expected_categories):
    EPSILON = 0.07
    result = calculate_normal_distribution_stats(mean, size, random_seed=42)

    print(f"Тест с параметрами mean={mean}, size={size}")
    #print(f"Ожидаемые категории: {expected_categories}")
    #print(f"Полученные категории: {result}")

    all_categories_match = set(result.keys()) == set(expected_categories.keys())
    print("Категории совпадают:", all_categories_match)

    for category, expected_prop in expected_categories.items():
        actual = result.get(category, 0)
        difference = abs(actual - expected_prop)
        print(f"Категория '{category}', {'OK' if difference < EPSILON else 'FAIL'}")

    total = sum(result.values())
    print(f"Сумма пропорций: {total} (должна быть примерно 1.0)")


def test_different_seeds():
    EPSILON = 0.07
    result1 = calculate_normal_distribution_stats(0, 1000, random_seed=42)
    result2 = calculate_normal_distribution_stats(0, 1000, random_seed=123)

    #print("Сравнение результатов с разными seed:")
    #print("Seed 42:", result1)
    #print("Seed 123:", result2)

    for category in result1:
        diff = abs(result1[category] - result2.get(category, 0))
        print(f"Категория '{category}', {'OK' if diff < EPSILON * 2 else 'FAIL'}")


def test_edge_cases():
    test_cases = [
        (0, 10),
        (1000, 100),
        (-1000, 100)
    ]
    for mean, size in test_cases:
        result = calculate_normal_distribution_stats(mean, size)
        print(f"Edge case (mean={mean}, size={size}) — Результат: {result}")
        total = sum(result.values())
        print(f"Сумма пропорций: {total} (должна быть примерно 1.0)")


# Запуск всех тестов
if __name__ == "__main__":
    test_cases = [
        (1, 1000, {'high': 0.3, 'low': 0.5, 'mean': 0.2}),
        (-1, 1000, {'high': 0.3, 'low': 0.5, 'mean': 0.2}),
        (5, 5000, {'high': 0.3, 'low': 0.5, 'mean': 0.2}),
        (2, 20000, {'high': 0.3, 'low': 0.5, 'mean': 0.2})
    ]

    for mean, size, expected in test_cases:
        test_normal_distribution_proportions(mean, size, expected)

    test_different_seeds()
    test_edge_cases()






print()

Тест с параметрами mean=1, size=1000
Категории совпадают: True
Категория 'high', OK
Категория 'low', OK
Категория 'mean', OK
Сумма пропорций: 1.0 (должна быть примерно 1.0)
Тест с параметрами mean=-1, size=1000
Категории совпадают: True
Категория 'high', OK
Категория 'low', OK
Категория 'mean', OK
Сумма пропорций: 1.0 (должна быть примерно 1.0)
Тест с параметрами mean=5, size=5000
Категории совпадают: True
Категория 'high', OK
Категория 'low', OK
Категория 'mean', OK
Сумма пропорций: 0.999 (должна быть примерно 1.0)
Тест с параметрами mean=2, size=20000
Категории совпадают: True
Категория 'high', OK
Категория 'low', OK
Категория 'mean', OK
Сумма пропорций: 1.001 (должна быть примерно 1.0)
Категория 'high', OK
Категория 'low', OK
Категория 'mean', OK
Edge case (mean=0, size=10) — Результат: {'high': 0.2, 'low': 0.4, 'mean': 0.4}
Сумма пропорций: 1.0 (должна быть примерно 1.0)
Edge case (mean=1000, size=100) — Результат: {'high': 0.29, 'low': 0.48, 'mean': 0.23}
Сумма пропорций: 1.0 (дол