### **Лабораторная Работа №2**

In [None]:
# --- Импорт библиотек ---
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats

# --- Задача 1. Анализ выборки твердости материала ---
print("--- Задача 1. Анализ выборки твердости материала ---")

# 1.1. Исходные данные
data_task1 = np.array([
    71, 79, 89, 66, 76, 69, 66, 96, 50, 58, 89, 66, 68, 75, 64,
    70, 66, 54, 69, 71, 71, 72, 70, 52, 55, 51, 82, 68, 87, 69,
    80, 70, 42, 72, 81, 93, 62, 46, 76, 85, 73, 64, 63, 63, 75,
    61, 62, 62, 57, 61
])

print(f"Исходный объем выборки n = {len(data_task1)}")

--- Задача 1. Анализ выборки твердости материала ---
Исходный объем выборки n = 50


In [None]:
# 1.2. Исключение грубых ошибок

# Копируем исходные данные, чтобы не портить оригинал
data_clean = data_task1.copy()
p_outlier = 0.95
alpha_outlier = 1 - p_outlier

print(f"--- 1.2. Исключение грубых ошибок (p={p_outlier}) ---")

iteration = 1
while True:
    n = len(data_clean)
    if n < 3: # Нельзя применять критерий для слишком маленьких выборок
        print("Объем выборки слишком мал для продолжения.")
        break

    mean_val = np.mean(data_clean)
    std_val = np.std(data_clean, ddof=1)

    # Находим наиболее удаленное значение
    x_min_val = data_clean.min()
    x_max_val = data_clean.max()

    dev_min = abs(mean_val - x_min_val)
    dev_max = abs(mean_val - x_max_val)

    if dev_max > dev_min:
        suspicious_val = x_max_val
        t_observed = dev_max / std_val
    else:
        suspicious_val = x_min_val
        t_observed = dev_min / std_val

    # Критическое значение Стьюдента
    df = n - 2
    t_critical = stats.t.ppf(p_outlier, df)

    print(f"\n--- Итерация {iteration} ---")
    print(f"n = {n}, M(x) = {mean_val:.2f}, S(x) = {std_val:.2f}")
    print(f"Подозрительное значение: {suspicious_val}")
    print(f"t_набл = {t_observed:.2f}")
    print(f"t_кр({p_outlier:.2f}; ν={df}) = {t_critical:.2f}")

    if t_observed > t_critical:
        print(f"Вывод: {t_observed:.2f} > {t_critical:.2f}, значение {suspicious_val} является выбросом и удаляется.")
        # Удаляем первое вхождение подозрительного значения
        data_clean = np.delete(data_clean, np.where(data_clean == suspicious_val)[0][0])
        iteration += 1
    else:
        print(f"Вывод: {t_observed:.2f} <= {t_critical:.2f}, гипотеза об отсутствии выбросов принимается.")
        print("Процедура очистки завершена.")
        break

print(f"\nИтоговый объем очищенной выборки: n = {len(data_clean)}")
print("Очищенная выборка:")
print(np.sort(data_clean))

--- 1.2. Исключение грубых ошибок (p=0.95) ---

--- Итерация 1 ---
n = 50, M(x) = 68.74, S(x) = 11.77
Подозрительное значение: 96
t_набл = 2.32
t_кр(0.95; ν=48) = 1.68
Вывод: 2.32 > 1.68, значение 96 является выбросом и удаляется.

--- Итерация 2 ---
n = 49, M(x) = 68.18, S(x) = 11.21
Подозрительное значение: 42
t_набл = 2.34
t_кр(0.95; ν=47) = 1.68
Вывод: 2.34 > 1.68, значение 42 является выбросом и удаляется.

--- Итерация 3 ---
n = 48, M(x) = 68.73, S(x) = 10.65
Подозрительное значение: 93
t_набл = 2.28
t_кр(0.95; ν=46) = 1.68
Вывод: 2.28 > 1.68, значение 93 является выбросом и удаляется.

--- Итерация 4 ---
n = 47, M(x) = 68.21, S(x) = 10.14
Подозрительное значение: 46
t_набл = 2.19
t_кр(0.95; ν=45) = 1.68
Вывод: 2.19 > 1.68, значение 46 является выбросом и удаляется.

--- Итерация 5 ---
n = 46, M(x) = 68.70, S(x) = 9.69
Подозрительное значение: 89
t_набл = 2.10
t_кр(0.95; ν=44) = 1.68
Вывод: 2.10 > 1.68, значение 89 является выбросом и удаляется.

--- Итерация 6 ---
n = 45, M(x) =

In [None]:
# --- 1.3. Определение доверительных интервалов ---
print("\n--- 1.3. Определение доверительных интервалов ---")

n_clean = len(data_clean)
mean_clean = np.mean(data_clean)
std_clean = np.std(data_clean, ddof=1)
p_conf = 0.95
alpha_conf = 1 - p_conf

print(f"Расчеты для очищенной выборки: n = {n_clean}, M(x) = {mean_clean:.2f}, S(x) = {std_clean:.2f}")

# 1. Доверительный интервал для математического ожидания
df_mean = n_clean - 1
# ppf для нахождения критической точки t для двустороннего интервала (alpha/2)
t_crit_mean = stats.t.ppf(1 - alpha_conf / 2, df_mean)
# Предельная погрешность (половина ширины интервала)
epsilon = t_crit_mean * (std_clean / np.sqrt(n_clean))

lower_bound_mean = mean_clean - epsilon
upper_bound_mean = mean_clean + epsilon

print("\n1. Доверительный интервал для математического ожидания:")
print(f"t_кр(α={alpha_conf:.2f}; ν={df_mean}) = {t_crit_mean:.3f}")
print(f"Предельная погрешность ε = {epsilon:.2f} НВ")
print(f"Интервал: ({lower_bound_mean:.2f} HB; {upper_bound_mean:.2f} HB) с вероятностью {p_conf:.2f}")

# 2. Доверительный интервал для СКО
df_std = n_clean - 1
chi2_right = stats.chi2.ppf(1 - alpha_conf / 2, df_std)
chi2_left = stats.chi2.ppf(alpha_conf / 2, df_std)

lower_bound_std = std_clean * np.sqrt(df_std / chi2_right)
upper_bound_std = std_clean * np.sqrt(df_std / chi2_left)

print("\n2. Доверительный интервал для СКО:")
print(f"χ²_пр(α/2={alpha_conf/2:.3f}; ν={df_std}) = {chi2_right:.2f}")
print(f"χ²_лев(1-α/2={1-alpha_conf/2:.3f}; ν={df_std}) = {chi2_left:.2f}")
print(f"Интервал: ({lower_bound_std:.2f} HB; {upper_bound_std:.2f} HB) с вероятностью {p_conf:.2f}")


--- 1.3. Определение доверительных интервалов ---
Расчеты для очищенной выборки: n = 27, M(x) = 67.00, S(x) = 3.80

1. Доверительный интервал для математического ожидания:
t_кр(α=0.05; ν=26) = 2.056
Предельная погрешность ε = 1.50 НВ
Интервал: (65.50 HB; 68.50 HB) с вероятностью 0.95

2. Доверительный интервал для СКО:
χ²_пр(α/2=0.025; ν=26) = 41.92
χ²_лев(1-α/2=0.975; ν=26) = 13.84
Интервал: (2.99 HB; 5.21 HB) с вероятностью 0.95


In [None]:
# --- 1.4. Расчет необходимого объема выборки ---
print("\n--- 1.4. Расчет необходимого объема выборки ---")

# Заданные параметры
epsilon_target = 10 # целевая погрешность
p_target = 0.99
alpha_target = 1 - p_target
# Используем S(x) из очищенной выборки как наилучшую оценку
s_for_calc = std_clean

print(f"Целевая погрешность ε = {epsilon_target} НВ")
print(f"Доверительная вероятность p = {p_target}")
print(f"Оценка S(x) = {s_for_calc:.2f} НВ")

# Итерационный поиск
n_min = 2
while True:
    df = n_min - 1
    # ppf для двустороннего интервала
    t_crit_target = stats.t.ppf(1 - alpha_target / 2, df)

    # Правая часть неравенства
    required_n_float = (s_for_calc * t_crit_target / epsilon_target)**2

    print(f"Проверка для n = {n_min}: t_кр = {t_crit_target:.3f}, требуемое n > {required_n_float:.2f}")

    if n_min > required_n_float:
        print(f"\nУсловие n > требуемого n выполнено. Минимальный объем выборки n_min = {n_min}")
        break

    n_min += 1
    if n_min > 1000: # Защита от бесконечного цикла
        print("Не удалось найти решение за 1000 итераций.")
        break


--- 1.4. Расчет необходимого объема выборки ---
Целевая погрешность ε = 10 НВ
Доверительная вероятность p = 0.99
Оценка S(x) = 3.80 НВ
Проверка для n = 2: t_кр = 63.657, требуемое n > 586.01
Проверка для n = 3: t_кр = 9.925, требуемое n > 14.24
Проверка для n = 4: t_кр = 5.841, требуемое n > 4.93
Проверка для n = 5: t_кр = 4.604, требуемое n > 3.07

Условие n > требуемого n выполнено. Минимальный объем выборки n_min = 5


In [None]:
# --- Задача 2. Проверка настройки установки ---
print("\n--- Задача 2. Проверка настройки установки ---")

# 2.1. Исходные данные для Варианта 5
h_nominal = 50.0 # Номинальное значение M₀
tolerance = 1.0    # Допуск
data_task2 = np.array([
    50.7, 50.8, 50.6, 51.1, 49.4, 49.8, 50.7, 49.9, 50.1, 50.6,
    50.8, 52.0, 50.5, 49.7, 49.7, 51.6, 49.7, 50.5, 50.4, 50.1
])
n_task2 = len(data_task2)

print(f"Номинальная толщина M₀ = {h_nominal} мм")
print(f"Объем выборки n = {n_task2}")


--- Задача 2. Проверка настройки установки ---
Номинальная толщина M₀ = 50.0 мм
Объем выборки n = 20


In [None]:
# --- 2.2. Проверка гипотезы о равенстве среднего ---
print("\n--- 2.2. Проверка гипотезы о равенстве среднего ---")

alpha_task2 = 0.05

# Рассчитываем выборочные характеристики
mean_task2 = np.mean(data_task2)
std_task2 = np.std(data_task2, ddof=1) # ddof=1 для несмещенной оценки

print(f"Выборочное среднее M(h) = {mean_task2:.2f} мм")
print(f"Выборочное СКО S(h) = {std_task2:.2f} мм")

# Проводим одновыборочный t-тест
# Функция ttest_1samp из scipy.stats делает все вычисления автоматически
t_observed, p_value = stats.ttest_1samp(data_task2, h_nominal)

# Критическое значение для двустороннего теста
df_task2 = n_task2 - 1
t_critical = stats.t.ppf(1 - alpha_task2 / 2, df_task2)

print(f"\nРезультаты t-теста (уровень значимости α = {alpha_task2}):")
print(f"t_набл = {abs(t_observed):.2f}")
print(f"t_кр(α={alpha_task2}; ν={df_task2}) = {t_critical:.3f}")
print(f"P-value = {p_value:.4f}")

# Вывод
if abs(t_observed) > t_critical:
    print(f"\nВывод: Так как t_набл > t_кр, нулевая гипотеза H₀ отвергается.")
    print("Расхождение является статистически значимым. Установка требует регулировки.")
else:
    print(f"\nВывод: Так как t_набл <= t_кр, нулевая гипотеза H₀ не отвергается.")
    print("Нет оснований считать, что установка настроена неверно.")



--- 2.2. Проверка гипотезы о равенстве среднего ---
Выборочное среднее M(h) = 50.44 мм
Выборочное СКО S(h) = 0.66 мм

Результаты t-теста (уровень значимости α = 0.05):
t_набл = 2.94
t_кр(α=0.05; ν=19) = 2.093
P-value = 0.0084

Вывод: Так как t_набл > t_кр, нулевая гипотеза H₀ отвергается.
Расхождение является статистически значимым. Установка требует регулировки.


In [None]:
# --- Задача 3. Сравнительная оценка эффективности ПО ---
print("\n\n--- Задача 3. Сравнительная оценка эффективности ПО ---")

# 3.1. Исходные данные для Варианта 5 (Б, Исп. 2, Исп. 4)
# Объединяем данные из трех лабораторий для каждого типа ПО

data_b = np.array([
    8, 11, 10, 9, 8, 8, 10, 13, 9, 7, 9, 9,  # Лаб 1
    11, 11, 12, 11, 7, 8, 8, 11, 9, 9, 11, 9,  # Лаб 2
    10, 8, 12, 10, 10, 12, 9, 11, 12, 8, 13, 9 # Лаб 3
])

data_isp2 = np.array([
    11, 15, 11, 10, 10, 12, 11, 11, 11, 12, 14, 12, # Лаб 1
    13, 9, 9, 12, 10, 9, 11, 10, 12, 11, 12, 11,   # Лаб 2
    10, 11, 10, 12, 13, 9, 9, 13, 11, 11, 10, 10  # Лаб 3
])

data_isp4 = np.array([
    12, 11, 13, 9, 14, 12, 9, 12, 13, 15, 15, 14, # Лаб 1
    14, 13, 13, 10, 13, 13, 12, 9, 15, 13, 11, 15, # Лаб 2
    13, 15, 9, 11, 10, 12, 11, 14, 8, 11, 12, 11  # Лаб 3
])

print(f"Объем выборок: n_Б = {len(data_b)}, n_Исп2 = {len(data_isp2)}, n_Исп4 = {len(data_isp4)}")



--- Задача 3. Сравнительная оценка эффективности ПО ---
Объем выборок: n_Б = 36, n_Исп2 = 36, n_Исп4 = 36


In [None]:
# --- 3.2.1. Сравнение: Базовое ПО vs Исполнение 2 ---
print("\n--- 3.2.1. Сравнение: Базовое (Б) vs Исполнение 2 ---")
alpha_task3 = 0.05

# 1. Предварительные статистики
mean_b = np.mean(data_b)
std_b = np.std(data_b, ddof=1)
mean_isp2 = np.mean(data_isp2)
std_isp2 = np.std(data_isp2, ddof=1)
print(f"Статистики Б: M(x) = {mean_b:.2f}, S(x) = {std_b:.2f}")
print(f"Статистики Исп. 2: M(x) = {mean_isp2:.2f}, S(x) = {std_isp2:.2f}")

# 2. F-тест на равенство дисперсий
# Убедимся, что в числителе большая дисперсия
if std_b**2 > std_isp2**2:
    f_observed = std_b**2 / std_isp2**2
    dfn, dfd = len(data_b) - 1, len(data_isp2) - 1
else:
    f_observed = std_isp2**2 / std_b**2
    dfn, dfd = len(data_isp2) - 1, len(data_b) - 1

f_critical = stats.f.ppf(1 - alpha_task3, dfn, dfd)
print(f"\nF-тест: F_набл = {f_observed:.2f}, F_кр = {f_critical:.2f}")
if f_observed > f_critical:
    print("Вывод: Дисперсии НЕ равны.")
    equal_var_flag = False
else:
    print("Вывод: Дисперсии можно считать равными.")
    equal_var_flag = True

# 3. T-тест для независимых выборок
# alternative='less' проверяет гипотезу M(a) < M(b)
t_observed, p_value = stats.ttest_ind(data_b, data_isp2, equal_var=equal_var_flag, alternative='less')
df_t = len(data_b) + len(data_isp2) - 2
t_critical = stats.t.ppf(alpha_task3, df_t) # Критическая точка для левостороннего теста

print(f"\nT-тест: t_набл = {t_observed:.2f}, t_кр(одностор.) = {t_critical:.2f}, p-value = {p_value:.4f}")
if t_observed < t_critical:
    print("Вывод: H₀ отвергается. Эффективность Исп. 2 выше базовой.")
else:
    print("Вывод: H₀ не отвергается. Нет значимой разницы в эффективности.")


--- 3.2.1. Сравнение: Базовое (Б) vs Исполнение 2 ---
Статистики Б: M(x) = 9.78, S(x) = 1.64
Статистики Исп. 2: M(x) = 11.06, S(x) = 1.43

F-тест: F_набл = 1.31, F_кр = 1.76
Вывод: Дисперсии можно считать равными.

T-тест: t_набл = -3.52, t_кр(одностор.) = -1.67, p-value = 0.0004
Вывод: H₀ отвергается. Эффективность Исп. 2 выше базовой.


In [None]:
# --- 3.2.2. Сравнение: Базовое ПО vs Исполнение 4 ---
print("\n--- 3.2.2. Сравнение: Базовое (Б) vs Исполнение 4 ---")
mean_isp4 = np.mean(data_isp4)
std_isp4 = np.std(data_isp4, ddof=1)
print(f"Статистики Б: M(x) = {mean_b:.2f}, S(x) = {std_b:.2f}")
print(f"Статистики Исп. 4: M(x) = {mean_isp4:.2f}, S(x) = {std_isp4:.2f}")

# F-тест
f_observed = std_isp4**2 / std_b**2
dfn, dfd = len(data_isp4) - 1, len(data_b) - 1
f_critical = stats.f.ppf(1 - alpha_task3, dfn, dfd)
print(f"\nF-тест: F_набл = {f_observed:.2f}, F_кр = {f_critical:.2f}")
if f_observed > f_critical:
    print("Вывод: Дисперсии НЕ равны.")
    equal_var_flag = False
else:
    print("Вывод: Дисперсии можно считать равными.")
    equal_var_flag = True

# T-тест
t_observed, p_value = stats.ttest_ind(data_b, data_isp4, equal_var=equal_var_flag, alternative='less')
df_t = len(data_b) + len(data_isp4) - 2
t_critical = stats.t.ppf(alpha_task3, df_t)
print(f"\nT-тест: t_набл = {t_observed:.2f}, t_кр(одностор.) = {t_critical:.2f}, p-value = {p_value:.8f}")
if t_observed < t_critical:
    print("Вывод: H₀ отвергается. Эффективность Исп. 4 выше базовой.")
else:
    print("Вывод: H₀ не отвергается.")

# --- 3.2.3. Сравнение: Исполнение 2 vs Исполнение 4 ---
print("\n--- 3.2.3. Сравнение: Исполнение 2 vs Исполнение 4 ---")
print(f"Статистики Исп. 2: M(x) = {mean_isp2:.2f}, S(x) = {std_isp2:.2f}")
print(f"Статистики Исп. 4: M(x) = {mean_isp4:.2f}, S(x) = {std_isp4:.2f}")

# F-тест
f_observed = std_isp4**2 / std_isp2**2
dfn, dfd = len(data_isp4) - 1, len(data_isp2) - 1
f_critical = stats.f.ppf(1 - alpha_task3, dfn, dfd)
print(f"\nF-тест: F_набл = {f_observed:.2f}, F_кр = {f_critical:.2f}")
if f_observed > f_critical:
    print("Вывод: Дисперсии НЕ равны.")
    equal_var_flag = False
else:
    print("Вывод: Дисперсии можно считать равными.")
    equal_var_flag = True

# T-тест (двусторонний, т.к. заранее не знаем, что лучше)
# equal_var=False автоматически включает поправку Уэлча
t_observed, p_value = stats.ttest_ind(data_isp2, data_isp4, equal_var=equal_var_flag, alternative='two-sided')
# При неравных дисперсиях df считается по сложной формуле, но scipy делает это за нас
# Для отчета можно привести примерное значение, либо взять из p-value
df_welch_approx = 65 # Примерное значение для отчета
t_critical = stats.t.ppf(1 - alpha_task3 / 2, df_welch_approx)
print(f"\nT-тест (Уэлча): t_набл = {t_observed:.2f}, t_кр(двустор.) ≈ ±{t_critical:.2f}, p-value = {p_value:.4f}")
if p_value < alpha_task3:
    print("Вывод: H₀ отвергается. Есть разница в эффективности.")
else:
    print("Вывод: H₀ не отвергается.")


--- 3.2.2. Сравнение: Базовое (Б) vs Исполнение 4 ---
Статистики Б: M(x) = 9.78, S(x) = 1.64
Статистики Исп. 4: M(x) = 12.14, S(x) = 1.96

F-тест: F_набл = 1.43, F_кр = 1.76
Вывод: Дисперсии можно считать равными.

T-тест: t_набл = -5.54, t_кр(одностор.) = -1.67, p-value = 0.00000024
Вывод: H₀ отвергается. Эффективность Исп. 4 выше базовой.

--- 3.2.3. Сравнение: Исполнение 2 vs Исполнение 4 ---
Статистики Исп. 2: M(x) = 11.06, S(x) = 1.43
Статистики Исп. 4: M(x) = 12.14, S(x) = 1.96

F-тест: F_набл = 1.87, F_кр = 1.76
Вывод: Дисперсии НЕ равны.

T-тест (Уэлча): t_набл = -2.68, t_кр(двустор.) ≈ ±2.00, p-value = 0.0094
Вывод: H₀ отвергается. Есть разница в эффективности.
