## Двухфакторный дисперсионный анализ
 - Статистический метод анализа результатов наблюдений, которые зависят от различных и одновременно действующих факторов
 - Цель анализа: выбор наиболее значимых факторов и оценка их влияния на исследуемый процесс

Провести двухфакторный дисперсионный анализ данных представленных таблицей, при доверительной вероятности 1-p=0,95

In [1]:
import pandas as pd
import numpy as np
import statsmodels.api as sm
from statsmodels.formula.api import ols

# Создаем данные
data = {
    'A1': [3.83, 4.10, 3.63, 3.27],
    'A2': [3.00, 3.13, 3.60, 3.50],
    'A3': [2.70, 3.50, 3.20, 3.70]
}

# Создаем DataFrame
df = pd.DataFrame(data, index=['B1', 'B2', 'B3', 'B4'])
df.index.name = 'Блок'

# Добавляем строку "Сумма В (итоги)"
df.loc['Сумма В (итоги)'] = df.sum()

# Выводим итоговую таблицу
print("Итоговая таблица:")
print(df)



Итоговая таблица:
                    A1     A2    A3
Блок                               
B1                3.83   3.00   2.7
B2                4.10   3.13   3.5
B3                3.63   3.60   3.2
B4                3.27   3.50   3.7
Сумма В (итоги)  14.83  13.23  13.1


№1 Используя формулу S₀² = 1 / (k - 1) ⋅ (m - 1) ([ ∑ᵢ₌₁ᵏ ∑ⱼ₌₁ᵐ (xᵢⱼ - ‾xᵢ)² - k ⋅ ∑ⱼ₌₁ᵐ (‾xⱼ - ‾x)²]) найдем выборочную дисперсию от фактора случайности S0^2

In [2]:
# Исходные данные
data = {
    'A1': [3.83, 4.10, 3.63, 3.27],
    'A2': [3.00, 3.13, 3.60, 3.50],
    'A3': [2.70, 3.50, 3.20, 3.70]
}

# Создаем DataFrame
df = pd.DataFrame(data, index=['B1', 'B2', 'B3', 'B4'])
df.index.name = 'Блок'

# Определяем количество групп (k) и количество наблюдений в каждой группе (m)
k = df.shape[1]  # количество групп (число колонок)
m = df.shape[0]  # количество наблюдений в каждой группе (число строк)

# Вычисляем средние значения для каждой группы
group_means = df.mean(axis=0).values

# Вычисляем общее среднее значение
overall_mean = df.values.flatten().mean()

# Вычисляем сумму квадратов отклонений внутри групп
sum_of_squares_between = np.sum((df.values - group_means) ** 2)

# Вычисляем сумму квадратов отклонений между группами
sum_of_squares_within = k * np.sum((group_means - overall_mean) ** 2)

# Вычисляем выборочную дисперсию от фактора случайности S0^2
S0_squared = (1 / ((k - 1) * (m - 1))) * (sum_of_squares_between - sum_of_squares_within)

print(f"Выборочная дисперсия от фактора случайности S0^2: {S0_squared:.5f}")


Выборочная дисперсия от фактора случайности S0^2: 0.13909


№2 Вычислить выборочную дисперсию, включающую влияние фактора А и дисперсию от фактора случайности, используя формулу 4. Определить значимость влияния фактора А, сопоставляя дисперсию  Sna^2 с дисперсией S0^2. Выборочная дисперсия включает влияние фактора А и дисперсию от фактора случайности

In [3]:
# Исходные данные
data = {
    'A1': [3.83, 4.10, 3.63, 3.27],
    'A2': [3.00, 3.13, 3.60, 3.50],
    'A3': [2.70, 3.50, 3.20, 3.70]
}

# Создаем DataFrame
df = pd.DataFrame(data, index=['B1', 'B2', 'B3', 'B4'])
df.index.name = 'Блок'

# Определяем количество групп (k) и количество наблюдений в каждой группе (m)
k = df.shape[1]  # количество групп (число колонок)
m = df.shape[0]  # количество наблюдений в каждой группе (число строк)

# Вычисляем средние значения для каждой группы
group_means = df.mean(axis=0).values

# Вычисляем общее среднее значение
overall_mean = df.values.flatten().mean()

# Вычисляем сумму квадратов отклонений от общего среднего для фактора A
SS_A = m * np.sum((group_means - overall_mean) ** 2)

# Вычисляем сумму квадратов отклонений внутри групп (для S0^2)
SS_within = np.sum((df.values - group_means) ** 2)

# Вычисляем выборочную дисперсию от фактора случайности S0^2
S0_squared = SS_within / ((k - 1) * (m - 1))

# Вычисляем выборочную дисперсию Sнв^2
S_nA_squared = SS_A / (k - 1)

# Выводим результаты
print(f"Выборочная дисперсия от фактора случайности S0^2: {S0_squared:.5f}")
print(f"Выборочная дисперсия Sna^2: {S_nA_squared:.5f}")

# Сравнение дисперсий для определения значимости
if S_nA_squared > S0_squared:
    print("Фактор A имеет значимое влияние")
else:
    print("Фактор A не имеет значимого влияния")

Выборочная дисперсия от фактора случайности S0^2: 0.19711
Выборочная дисперсия Sna^2: 0.23207
Фактор A имеет значимое влияние


№3 Вычислить выборочную дисперсию, включающую влияние фактора В и дисперсию от фактора случайности, используя формулу 4. Определить значимость влияния фактора В, сопоставляя дисперсию  Snb^2 с дисперсией S0^2 Выборочная дисперсия включает влияние фактора В и дисперсию от фактора случайности

In [4]:
data = {
    'A1': [3.83, 4.10, 3.63, 3.27],
    'A2': [3.00, 3.13, 3.60, 3.50],
    'A3': [2.70, 3.50, 3.20, 3.70]
}

# Создаем DataFrame
df = pd.DataFrame(data, index=['B1', 'B2', 'B3', 'B4'])
df.index.name = 'Блок'

# Определяем количество групп (k) и количество наблюдений в каждой группе (m)
k = df.shape[1]  # количество групп (число колонок)
m = df.shape[0]  # количество наблюдений в каждой группе (число строк)

# Вычисляем средние значения для каждой группы
group_means = df.mean(axis=0).values

# Вычисляем общее среднее значение
overall_mean = df.values.flatten().mean()

# Вычисляем сумму квадратов отклонений от общего среднего для фактора B
SS_B = m * np.sum((group_means - overall_mean) ** 2)

# Вычисляем сумму квадратов отклонений внутри групп (для S0^2)
SS_within = np.sum((df.values - group_means) ** 2)

# Вычисляем выборочную дисперсию от фактора случайности S0^2
S0_squared = SS_within / ((k - 1) * (m - 1))

# Вычисляем выборочную дисперсию Snb^2
S_nB_squared = SS_B / (k - 1)

# Выводим результаты
print(f"Выборочная дисперсия от фактора случайности S0^2: {S0_squared:.5f}")
print(f"Выборочная дисперсия Snb^2: {S_nB_squared:.5f}")

# Сравнение дисперсий для определения значимости
if S_nB_squared > S0_squared:
    print("Фактор B имеет значимое влияние.")
else:
    print("Фактор B не имеет значимого влияния.")


Выборочная дисперсия от фактора случайности S0^2: 0.19711
Выборочная дисперсия Snb^2: 0.23207
Фактор B имеет значимое влияние.


№4 В случае значимости фактора А вычислить его оценку используя формулу 6. В случае если фактор А признается незначимым, то используя формулу 8 вычислить оценку генеральной дисперсии. 

Для оценки влияния фактора А используем свойство для суммы двух независимых величин равна сумме их дисперсий.

In [5]:
from scipy.stats import f

# Исходные данные
data = {
    'A1': [3.83, 4.10, 3.63, 3.27],
    'A2': [3.00, 3.13, 3.60, 3.50],
    'A3': [2.70, 3.50, 3.20, 3.70]
}

# Создаем DataFrame
df = pd.DataFrame(data, index=['B1', 'B2', 'B3', 'B4'])
df.index.name = 'Блок'

# Определяем количество групп (k) и количество наблюдений в каждой группе (m)
k = df.shape[1]  # количество групп (число колонок)
m = df.shape[0]  # количество наблюдений в каждой группе (число строк)

# Вычисляем средние значения для каждой группы
group_means = df.mean(axis=0).values

# Вычисляем общее среднее значение
overall_mean = df.values.flatten().mean()

# Вычисляем сумму квадратов отклонений от общего среднего для фактора A
SS_A = m * np.sum((group_means - overall_mean) ** 2)

# Вычисляем сумму квадратов отклонений внутри групп (для S0^2)
SS_within = np.sum((df.values - group_means) ** 2)

# Вычисляем выборочную дисперсию от фактора случайности S0^2
S0_squared = SS_within / ((k - 1) * (m - 1))

# Вычисляем выборочную дисперсию SнA^2
S_nA_squared = SS_A / (k - 1)

# Проверяем значимость фактора A
F_value = S_nA_squared / S0_squared

# Уровень значимости p (например, 0.05)
p = 0.05

# Критическое значение F для проверки значимости
F_critical = f.ppf(1 - p, k - 1, (k - 1) * (m - 1))

print(f"Выборочная дисперсия от фактора A SнA^2: {S_nA_squared:.5f}")
print(f"Выборочная дисперсия S0^2: {S0_squared:.5f}")
print(f"F-значение: {F_value:.5f}")
print(f"Критическое значение F: {F_critical:.5f}")

# Проверка значимости
if F_value > F_critical:
    print("Фактор A имеет значимое влияние.")
    
    # Вычисляем оценку генеральной дисперсии
    S_A_squared = (S_nA_squared - S0_squared) / m
    print(f"Оценка генеральной дисперсии при значимом факторе A: {S_A_squared:.5f}")
else:
    print("Фактор A не имеет значимого влияния.")
    
    # Вычисляем оценку генеральной дисперсии при незначимом факторе A
    S_squared = ((k - 1) * S_nA_squared + (k - 1) * (m - 1) * S0_squared) / ((k - 1) + (k - 1) * (m - 1))
    print(f"Оценка генеральной дисперсии при незначимом факторе A: {S_squared:.5f}")


Выборочная дисперсия от фактора A SнA^2: 0.23207
Выборочная дисперсия S0^2: 0.19711
F-значение: 1.17740
Критическое значение F: 5.14325
Фактор A не имеет значимого влияния.
Оценка генеральной дисперсии при незначимом факторе A: 0.20585


№5 В случае значимости фактора В вычислить его оценку используя формулу 7. В случае если фактор В признается незначимым, то используя формулу 9 вычислить оценку генеральной дисперсии.

In [6]:
data = {
    'A1': [3.83, 4.10, 3.63, 3.27],
    'A2': [3.00, 3.13, 3.60, 3.50],
    'A3': [2.70, 3.50, 3.20, 3.70]
}

# Создаем DataFrame
df = pd.DataFrame(data, index=['B1', 'B2', 'B3', 'B4'])
df.index.name = 'Блок'

# Определяем количество групп (k) и количество наблюдений в каждой группе (m)
k = df.shape[1]  # количество групп (число колонок)
m = df.shape[0]  # количество наблюдений в каждой группе (число строк)

# Вычисляем средние значения для каждой группы
group_means = df.mean(axis=0).values

# Вычисляем общее среднее значение
overall_mean = df.values.flatten().mean()

# Вычисляем сумму квадратов отклонений от общего среднего для фактора A
SS_A = m * np.sum((group_means - overall_mean) ** 2)

# Вычисляем сумму квадратов отклонений внутри групп (для S0^2)
SS_within = np.sum((df.values - group_means) ** 2)

# Вычисляем выборочную дисперсию от фактора случайности S0^2
S0_squared = SS_within / ((k - 1) * (m - 1))

# Вычисляем выборочную дисперсию SнB^2 (для фактора B)
# В данном случае мы используем тот же подход, что и для A
SS_B = m * np.sum((group_means - overall_mean) ** 2)  # Здесь необходимо учесть фактор B

# Вычисляем выборочную дисперсию SнB^2
S_nB_squared = SS_B / (k - 1)

# Проверяем значимость фактора B
F_value_B = S_nB_squared / S0_squared

# Уровень значимости p (например, 0.05)
p = 0.05

# Критическое значение F для проверки значимости
F_critical_B = f.ppf(1 - p, k - 1, (k - 1) * (m - 1))

print(f"Выборочная дисперсия от фактора B SнB^2: {S_nB_squared:.5f}")
print(f"Выборочная дисперсия S0^2: {S0_squared:.5f}")
print(f"F-значение для фактора B: {F_value_B:.5f}")
print(f"Критическое значение F для фактора B: {F_critical_B:.5f}")

# Проверка значимости
if F_value_B > F_critical_B:
    print("Фактор B имеет значимое влияние.")
    
    # Вычисляем оценку генеральной дисперсии при значимом факторе B
    S_B_squared = (S_nB_squared - S0_squared) / k
    print(f"Оценка генеральной дисперсии при значимом факторе B: {S_B_squared:.5f}")
else:
    print("Фактор B не имеет значимого влияния.")
    
    # Вычисляем оценку генеральной дисперсии при незначимом факторе B
    S_squared = ((m - 1) * S_nB_squared + (k - 1) * (m - 1) * S0_squared) / ((m - 1) + (k - 1) * (m - 1))
    print(f"Оценка генеральной дисперсии при незначимом факторе B: {S_squared:.5f}")

Выборочная дисперсия от фактора B SнB^2: 0.23207
Выборочная дисперсия S0^2: 0.19711
F-значение для фактора B: 1.17740
Критическое значение F для фактора B: 5.14325
Фактор B не имеет значимого влияния.
Оценка генеральной дисперсии при незначимом факторе B: 0.20876


№6 Если же незначимыми оказываются оба фактора, то вычислить оценку для генеральной дисперсии, используя формулу

S²=(k-1)⋅(SnA)²+(m-1)⋅(SnB)²+(k-1)(m-1)⋅S₀²/(k-1)+(m-1)+(k-1)(m-1)


In [7]:
# Данные
S_nA_squared = 0.23207
S_nB_squared = 0.23207
S_0_squared = 0.19711

# Параметры
k = 3  # количество групп
m = 4  # количество наблюдений в каждой группе

# Вычисление оценки генеральной дисперсии
numerator = (k - 1) * S_nA_squared + (m - 1) * S_nB_squared + (k - 1) * (m - 1) * S_0_squared
denominator = (k - 1) + (m - 1) + (k - 1) * (m - 1)

S_squared = numerator / denominator

print(f"Оценка генеральной дисперсии: {S_squared:.5f}")


Оценка генеральной дисперсии: 0.21300


№7 Разработать программу для ЭВМ, автоматизируя все этапы вычислений

In [8]:
def get_factor_statistics(df):
    # Вычисляем средние значения для каждой группы (колонки) в DataFrame
    group_means = df.mean(axis=0).values
    # Вычисляем общее среднее значение для всех данных в DataFrame
    overall_mean = df.values.flatten().mean()

    # Вычисляем сумму квадратов отклонений для фактора A
    SS_A = m * np.sum((group_means - overall_mean) ** 2)
    # Вычисляем сумму квадратов отклонений внутри групп
    SS_within = np.sum((df.values - group_means) ** 2)
    # Вычисляем выборочную дисперсию от фактора случайности S0^2
    S0_squared = SS_within / ((k - 1) * (m - 1))
    # Возвращаем суммы квадратов и выборочную дисперсию от фактора случайности
    return SS_A, SS_within, S0_squared

# Создаем словарь с данными
data = {
    'A1': [3.83, 4.10, 3.63, 3.27],
    'A2': [3.00, 3.13, 3.60, 3.50],
    'A3': [2.70, 3.50, 3.20, 3.70]
}

# Создаем DataFrame из словаря данных и задаем индексы строк
df = pd.DataFrame(data, index=['B1', 'B2', 'B3', 'B4'])
df.index.name = 'Блок'  # Устанавливаем имя индекса

# Определяем количество групп (k) и количество наблюдений в каждой группе (m)
k = df.shape[1]  # Количество колонок в DataFrame
m = df.shape[0]  # Количество строк в DataFrame

# Вызываем функцию для получения статистики по фактору A
SS_A, SS_within, S0_squared = get_factor_statistics(df)

# Вычисляем выборочную дисперсию SнA^2 для фактора A
S_nA_squared = SS_A / (k - 1)

# Вычисляем F-значение для теста значимости фактора A
F_value = S_nA_squared / S0_squared
p = 0.05  # Уровень значимости
# Находим критическое значение F для заданного уровня значимости
F_critical = f.ppf(1 - p, k - 1, (k - 1) * (m - 1))

# Выводим результаты для фактора A
print(f"Выборочная дисперсия от фактора A SнA^2: {S_nA_squared:.5f}\n")
print(f"Выборочная дисперсия S0^2: {S0_squared:.5f}\n")
print(f"F-значение: {F_value:.5f}\n")
print(f"Критическое значение F: {F_critical:.5f}\n")

# Проверяем, является ли фактор A значимым
if F_value > F_critical:
    print("Фактор A имеет значимое влияние.")
    # Оценка генеральной дисперсии при значимом факторе A
    S_A_squared = (S_nA_squared - S0_squared) / m
    print(f"Оценка генеральной дисперсии при значимом факторе A: {S_A_squared:.5f}\n")
else:
    print("Фактор A не имеет значимого влияния\n")
    # Оценка генеральной дисперсии при незначимом факторе A
    S_squared = ((k - 1) * S_nA_squared + (k - 1) * (m - 1) * S0_squared) / ((k - 1) + (k - 1) * (m - 1))
    print(f"Оценка генеральной дисперсии при незначимом факторе A: {S_squared:.5f}\n")

def get_factor_B_statistics(df):
    # Вычисляем средние значения для каждой группы (колонки) в DataFrame
    group_means = df.mean(axis=0).values
    # Вычисляем общее среднее значение для всех данных в DataFrame
    overall_mean = df.values.flatten().mean()

    # Вычисляем сумму квадратов отклонений для фактора B
    SS_B = m * np.sum((group_means - overall_mean) ** 2)
    # Вычисляем выборочную дисперсию SнB^2 для фактора B
    S_nB_squared = SS_B / (k - 1)
    # Возвращаем сумму квадратов и выборочную дисперсию для фактора B
    return SS_B, S_nB_squared

# Вызываем функцию для получения статистики по фактору B
SS_B, S_nB_squared = get_factor_B_statistics(df)

# Вычисляем F-значение для теста значимости фактора B
F_value_B = S_nB_squared / S0_squared
# Находим критическое значение F для заданного уровня значимости для фактора B
F_critical_B = f.ppf(1 - p, k - 1, (k - 1) * (m - 1))

# Выводим результаты для фактора B
print(f"Выборочная дисперсия от фактора B SнB^2: {S_nB_squared:.5f}\n")
print(f"Выборочная дисперсия S0^2: {S0_squared:.5f}\n")
print(f"F-значение для фактора B: {F_value_B:.5f}\n")
print(f"Критическое значение F для фактора B: {F_critical_B:.5f}\n")

# Проверяем, является ли фактор B значимым
if F_value_B > F_critical_B:
    print("Фактор B имеет значимое влияние")
    # Оценка генеральной дисперсии при значимом факторе B
    S_B_squared = (S_nB_squared - S0_squared) / k
    print(f"Оценка генеральной дисперсии при значимом факторе B: {S_B_squared:.5f}")
else:
    print("Фактор B не имеет значимого влияния \n")
    # Оценка генеральной дисперсии при незначимом факторе B
    S_squared = ((m - 1) * S_nB_squared + (k - 1) * (m - 1) * S0_squared) / ((m - 1) + (k - 1) * (m - 1))
    print(f"Оценка генеральной дисперсии: {S_squared:.5f}")


Выборочная дисперсия от фактора A SнA^2: 0.23207

Выборочная дисперсия S0^2: 0.19711

F-значение: 1.17740

Критическое значение F: 5.14325

Фактор A не имеет значимого влияния

Оценка генеральной дисперсии при незначимом факторе A: 0.20585

Выборочная дисперсия от фактора B SнB^2: 0.23207

Выборочная дисперсия S0^2: 0.19711

F-значение для фактора B: 1.17740

Критическое значение F для фактора B: 5.14325

Фактор B не имеет значимого влияния 

Оценка генеральной дисперсии: 0.20876


## Приложение 1 к работе №7

Рассмотрим диаметр шариков в микронах от общего "ложного нуля", полученных на подшипниковом заводе десятью наладчиками, каждый из которых обслуживал по пять доводочных станков. Требуется сравнить сравнить влияние на рассеивание диаметров шариков точности станков и квалификации наладчиков. Провести двухфакторный дисперсионный анализ данных представленных следующей таблицей, при доверительной вероятности 1-p=0,95

In [11]:
import numpy as np
import pandas as pd
import statsmodels.api as sm
from statsmodels.formula.api import ols

# Данные из таблицы
data = {
    'A1': [3, 6, 8, 4, 6],
    'A2': [7, 5, 6, 7, 2],
    'A3': [3, 7, 3, 7, 6],
    'A4': [6, 4, 2, 8, 6],
    'A5': [6, 9, 7, 6, 8],
    'A6': [7, 4, 8, 4, 9],
    'A7': [6, 3, 6, 5, 7],
    'A8': [3, 2, 9, 8, 6],
    'A9': [8, 7, 3, 4, 8],
    'A10': [3, 8, 8, 7, 1]
}

# Создаем DataFrame и преобразуем данные в длинный формат
df = pd.DataFrame(data)
df = df.melt(var_name='Stank', value_name='Deviation')  # Преобразование в длинный формат
df['Naladchik'] = np.repeat(['B1', 'B2', 'B3', 'B4', 'B5'], len(data))  # Добавляем информацию о наладчиках

# Вывод первых строк данных для проверки
print("Данные в длинном формате:")
print(df.head())

# Построение модели с взаимодействием факторов
model = ols('Deviation ~ C(Stank) + C(Naladchik) + C(Stank):C(Naladchik)', data=df).fit()
anova_table = sm.stats.anova_lm(model, typ=2)  # Двухфакторный дисперсионный анализ

# Вывод результатов анализа
print("\nРезультаты двухфакторного дисперсионного анализа:")
print(anova_table)

# Интерпретация результата
alpha = 0.05
print("\nИнтерпретация результатов:")
for factor in anova_table.index:
    p_value = anova_table.loc[factor, 'PR(>F)']
    if p_value < alpha:
        print(f"Фактор '{factor}' имеет статистически значимое влияние (p = {p_value:.4f}).")
    else:
        print(f"Фактор '{factor}' не имеет статистически значимого влияния (p = {p_value:.4f}).")

Данные в длинном формате:
  Stank  Deviation Naladchik
0    A1          3        B1
1    A1          6        B1
2    A1          8        B1
3    A1          4        B1
4    A1          6        B1

Результаты двухфакторного дисперсионного анализа:
                           sum_sq    df         F    PR(>F)
C(Stank)                 3.986874   9.0  0.085354  0.918354
C(Naladchik)                  NaN   4.0       NaN       NaN
C(Stank):C(Naladchik)   80.600000  36.0  0.431385  0.895118
Residual               207.600000  40.0       NaN       NaN

Интерпретация результатов:
Фактор 'C(Stank)' не имеет статистически значимого влияния (p = 0.9184).
Фактор 'C(Naladchik)' не имеет статистически значимого влияния (p = nan).
Фактор 'C(Stank):C(Naladchik)' не имеет статистически значимого влияния (p = 0.8951).
Фактор 'Residual' не имеет статистически значимого влияния (p = nan).


  F /= J
