In [2]:
import pandas as pd
import scipy.stats as stats
import numpy as np

In [5]:
# Загрузка данных, замена запятых на точки и преобразование к числовому типу
file_path = 'sample11_1.csv'
data = pd.read_csv(file_path, sep=';', header=None, names=['A', 'B', 'C'])
data = data.apply(lambda x: x.str.replace(',', '.').astype(float))

# Разделение данных по группам
group_A = data['A'].dropna()
group_B = data['B'].dropna()
group_C = data['C'].dropna()

# Количество наблюдений в каждой группе
n_A = len(group_A)
n_B = len(group_B)
n_C = len(group_C)
n_total = n_A + n_B + n_C

# Средние значения в каждой группе
mean_A = np.mean(group_A)
mean_B = np.mean(group_B)
mean_C = np.mean(group_C)

# Общее среднее
mean_total = np.mean(data[['A', 'B', 'C']].values.ravel())

# Межгрупповая дисперсия
SS_between = n_A * (mean_A - mean_total)**2 + n_B * (mean_B - mean_total)**2 + n_C * (mean_C - mean_total)**2
df_between = 3 - 1
MS_between = SS_between / df_between

# Внутригрупповая дисперсия
SS_within = np.sum((group_A - mean_A)**2) + np.sum((group_B - mean_B)**2) + np.sum((group_C - mean_C)**2)
df_within = n_total - 3
MS_within = SS_within / df_within

# Расчет F-статистики
F_statistic = MS_between / MS_within

# Расчет p-значения
p_value = stats.f.sf(F_statistic, df_between, df_within)

# Критическое значение F при α = 0.03
alpha = 0.03
F_critical = stats.f.ppf(1 - alpha, df_between, df_within)

# Доверительные интервалы
confidence_level = 0.90
t_critical = stats.t.ppf(1 - (1 - confidence_level) / 2, df_within)
margin_of_error_A = t_critical * np.sqrt(MS_within / n_A)
margin_of_error_B = t_critical * np.sqrt(MS_within / n_B)
margin_of_error_C = t_critical * np.sqrt(MS_within / n_C)
confidence_interval_A = (mean_A - margin_of_error_A, mean_A + margin_of_error_A)
confidence_interval_B = (mean_B - margin_of_error_B, mean_B + margin_of_error_B)
confidence_interval_C = (mean_C - margin_of_error_C, mean_C + margin_of_error_C)

# Результаты
results = {
    "Межгрупповая дисперсия": MS_between,
    "Средняя групповая дисперсия": MS_within,
    "F-статистика": F_statistic,
    "P-значение": p_value,
    "F-критическое (α = 0.03)": F_critical,
    "90% доверительный интервал для µ1 (группа А)": confidence_interval_A,
    "90% доверительный интервал для µ2 (группа B)": confidence_interval_B,
    "90% доверительный интервал для µ3 (группа C)": confidence_interval_C
}

print(results)


{'Межгрупповая дисперсия': nan, 'Средняя групповая дисперсия': 2.6237076155099315, 'F-статистика': nan, 'P-значение': nan, 'F-критическое (α = 0.03)': 3.6218235345714844, '90% доверительный интервал для µ1 (группа А)': (0.7608935298267328, 1.7765407870304106), '90% доверительный интервал для µ2 (группа B)': (0.0011040917673015849, 0.9366496598690621), '90% доверительный интервал для µ3 (группа C)': (1.6731571340028617, 2.4257096770167466)}


In [6]:
# Данные по объемам продаж в трех округах
sales_north = [37, 47, 40, 60]
sales_south = [60, 86, 67, 92, 95, 98]
sales_east = [69, 100, 98]

# Преобразование данных в массивы numpy для дальнейшего анализа
sales_north = np.array(sales_north)
sales_south = np.array(sales_south)
sales_east = np.array(sales_east)

# Средние значения и стандартные отклонения по округам
mean_north = np.mean(sales_north)
mean_south = np.mean(sales_south)
mean_east = np.mean(sales_east)
std_north = np.std(sales_north, ddof=1)
std_south = np.std(sales_south, ddof=1)
std_east = np.std(sales_east, ddof=1)

# Общее количество наблюдений
n_total = len(sales_north) + len(sales_south) + len(sales_east)

# Общее среднее
mean_total = np.mean(np.concatenate([sales_north, sales_south, sales_east]))

# Межгрупповая дисперсия
SS_between = len(sales_north) * (mean_north - mean_total)**2 + \
             len(sales_south) * (mean_south - mean_total)**2 + \
             len(sales_east) * (mean_east - mean_total)**2
df_between = 3 - 1
MS_between = SS_between / df_between

# Внутригрупповая дисперсия
SS_within = np.sum((sales_north - mean_north)**2) + \
            np.sum((sales_south - mean_south)**2) + \
            np.sum((sales_east - mean_east)**2)
df_within = n_total - 3
MS_within = SS_within / df_within

# Расчет F-статистики
F_statistic = MS_between / MS_within

# Расчет p-значения
p_value = stats.f.sf(F_statistic, df_between, df_within)

# Доверительные интервалы
confidence_level = 0.95
t_critical_north = stats.t.ppf(1 - (1 - confidence_level) / 2, len(sales_north) - 1)
t_critical_south = stats.t.ppf(1 - (1 - confidence_level) / 2, len(sales_south) - 1)
t_critical_east = stats.t.ppf(1 - (1 - confidence_level) / 2, len(sales_east) - 1)
margin_of_error_north = t_critical_north * std_north / np.sqrt(len(sales_north))
margin_of_error_south = t_critical_south * std_south / np.sqrt(len(sales_south))
margin_of_error_east = t_critical_east * std_east / np.sqrt(len(sales_east))
confidence_interval_north = (mean_north - margin_of_error_north, mean_north + margin_of_error_north)
confidence_interval_south = (mean_south - margin_of_error_south, mean_south + margin_of_error_south)
confidence_interval_east = (mean_east - margin_of_error_east, mean_east + margin_of_error_east)

{
    "F-статистика": F_statistic,
    "P-значение": p_value,
    "95% доверительный интервал для Северного округа": confidence_interval_north,
    "95% доверительный интервал для Южного округа": confidence_interval_south,
    "95% доверительный интервал для Восточного округа": confidence_interval_east
}


{'F-статистика': 9.916666666666666,
 'P-значение': 0.004231468351717857,
 '95% доверительный интервал для Северного округа': (29.720716517074322,
  62.27928348292568),
 '95% доверительный интервал для Южного округа': (66.44683678009486,
  99.55316321990514),
 '95% доверительный интервал для Восточного округа': (45.90182148172966,
  132.09817851827034)}

In [7]:
# Исходные данные
n1, n2, n3 = 9, 13, 15  # объемы выборок
s1, s2, s3 = 3.2, 3.8, 6.3  # исправленные выборочные дисперсии

# Общее количество степеней свободы
df_total = n1 + n2 + n3 - 3

# Взвешенная сумма исправленных выборочных дисперсий
weighted_sum_variance = ((n1 - 1) * s1 + (n2 - 1) * s2 + (n3 - 1) * s3) / df_total

# Расчет статистики критерия Бартлетта
bartlett_statistic = ((n1 - 1) * np.log(s1) + (n2 - 1) * np.log(s2) + (n3 - 1) * np.log(s3)) \
                     - df_total * np.log(weighted_sum_variance)
C = 1 + (1 / (3 * (3 - 1))) * (1 / (n1 - 1) + 1 / (n2 - 1) + 1 / (n3 - 1) - 1 / df_total)
bartlett_statistic = bartlett_statistic / C

# Расчет p-значения для критерия Бартлетта
p_value_bartlett = 1 - stats.chi2.cdf(bartlett_statistic, 3 - 1)

# Оценка генеральной дисперсии
general_variance_estimate = weighted_sum_variance

{
    "Статистика критерия Бартлетта": bartlett_statistic,
    "P-значение": p_value_bartlett,
    "Оценка генеральной дисперсии": general_variance_estimate
}


{'Статистика критерия Бартлетта': -1.3813607623081026,
 'P-значение': 1.0,
 'Оценка генеральной дисперсии': 4.688235294117646}