Подключим сторонние библиотеки:

- `numpy` для удобной работы с данными
- `matplotlib` для рисование графиков

In [1]:
import numpy as np
# import matplotlib

Также подключим некоторые стандартные библиотеки

In [10]:
import sys
from pprint import pprint
from collections import Counter

Загрузим **файлы данных** и проверим корректно ли они загрузились

In [3]:
data = []
for i in range(3):
    filename = f'set_{i + 1}.csv'
    try:
        cur_data = np.loadtxt(filename, delimiter=',')
        data.append(cur_data)
    except FileNotFoundError:
        print(f"Ошибка: Файл {filename} не найден")
    except ValueError:
        print(f"Ошибка: Некорректный формат данных в файле {filename}")

pprint(data)

[array([3., 1., 1., ..., 1., 1., 3.], shape=(100000,)),
 array([ 90.547448,  80.548716,  92.992958, ...,   9.088514, 328.988096,
        84.872411], shape=(10000,)),
 array([0.002163, 0.023507, 0.067606, ..., 0.109763, 0.041012, 0.040421],
      shape=(100000,))]


Для начала нам нужно найти вероятность для каждого элемента из предоставленных данных. Поэтому напишем функцию `calculate_distribution` и найдем вероятности для каждого набора.

In [44]:
def calculate_distribution (numbers: np.ndarray) -> dict[float, float]:    
    frequency = Counter(numbers)
    total_count = len(numbers)
    distribution = {num: count / total_count for num, count in frequency.items()}
    return distribution


distributions = [calculate_distribution(numbers) for numbers in data]

Теперь давайте напишем функцию нахождения **математического ожидания** и **дисперсии**. Назовем эти функции `calculate_mean` и `calculate_variance`

In [45]:
def calculate_mean(distribution: dict) -> float:    
    return sum(num * prob for num, prob in distribution.items())


def calculate_variance(distribution: dict, mean: float | None = None) -> float:
    if mean is None:
        mean = calculate_mean(distribution)
    return sum(prob * (num - mean) ** 2 for num, prob in distribution.items())


means = [calculate_mean(distribution) for distribution in distributions]
variances = [calculate_variance(distribution, mean) for distribution, mean in 
             zip(distributions, means)]
print(f"Матиматическое ожидание:", means)
print(f"Дисперсия:", variances)

Матиматическое ожидание: [np.float64(3.44078), np.float64(16.24328321380006), np.float64(0.12448845074999963)]
Дисперсия: [np.float64(10.048192991600002), np.float64(10927.404627653377), np.float64(0.025645435018138645)]
