# Задание 1

Имеется 2 выборки: первая выборка — *это участки, обработанные агротехническим методом А*; вторая выборка — *участки, обработанные агротехническим методом Б*. Значения в выборках — это урожайность. Требуется выяснить, является ли одиним из методов эффективнее другого, или различия урожайности обусловлены случайными факторами.

Для проверки гипотезы применить t-критерий или перестановочный критерий.

[3352, 3080, 3195, 3448, 3373, 2804, 3190, 2969, 2979, 3082, 3028, 3290, 3152,3024, 3088, 3066, 3298, 2959, 3062, 2829, 2489, 3130, 3172]

[3214, 3967, 3036, 3411, 3353, 3783, 3767, 3438, 3494, 3178, 2904, 3313, 3439, 3707, 3700, 3303, 3324, 3137, 3045, 2973, 3887, 3272, 3290, 3086, 3594, 2996, 3346, 3176, 3496, 3272]

***Решение:***

---



Рассмотрим t-критерий (он же Тест-Стьюдента), а так же перестановочный критерий (он же критерий Манна-Уитни):

*   *Тест Стьюдента* – это статистический метод, используемый для проверки гипотезы о равенстве средних значений двух выборок. Он основан на распределении Стьюдента и применяется, когда нужно выяснить, есть ли статистически значимая разница между средними значениями двух групп данных.

*   *Критерий Манна-Уитни* - это способ сравнить две группы данных, чтобы понять, есть ли между ними значимые различия.

Можно сделать вывод, что оба способа подходят нам для решения данной задачи. Однако, есть небольшой нюанс - нормальность/не нормальность распределния данных, в рамках указанных выборок. Проверить это можно с помощью *теста Шапира Уилка*.


**Тест Шапиро-Уилка** используется для проверки нормальности распределения данных. Это важно, поскольку многие статистические методы предполагают нормальное распределение данных. Если данные не распределены нормально, результаты могут быть искажены.<br>

**t-тест Стьюдента** применяется для сравнения средних значений двух групп данных, когда дисперсии этих групп известны или предполагаются равными. Этот тест предполагает, что данные распределены нормально.<br>

**U-тест Манна-Уитни** используется для сравнения двух независимых групп данных, когда распределение данных неизвестно или не предполагается нормальным. Этот тест не требует предположения о равенстве дисперсий.<br>

Таким образом, тест Шапиро-Уилка проверяет нормальность распределения данных, в то время как t-тест Стьюдента и U-тест Манна-Уитни используются для сравнения групп данных, но t-тест предполагает нормальность и равенство дисперсий, а U-тест не требует этих предположений.

Чтобы учесть данные нюансы и не допустить ошибки, построим алгоритм следующим образом:<br>

---

1.   *Проверим данные нам в задаче выборки на нормальность распределения данных.*<br>

2.   *Проанализируем полученыне результаты: если p-value[1] больше уровня значимости[2], то данные можно считать нормально распределенными, в противном случае - наоборот.*<br>

3.   *Из полученных результатов выберем подходящий нам способ (критерий) определения более эффективного агротехнического метода.*<br>

4.   *Применим выбранный нами критерий и получим результаты.*

**[1]** В контексте функции *Python* для теста *Шапиро-Уилка*, *p-value* представляет собой вероятность того, что данные происходят из нормального распределения. Это значение используется для определения статистической значимости результатов теста. Если *p-value* меньше выбранного уровня значимости *(обычно 0.05*), то данные считаются не соответствующими нормальному распределению, и гипотеза о нормальности отвергается. В противном случае, если *p-value* больше или равно уровню значимости, данные считаются соответствующими нормальному распределению, и гипотеза о нормальности не отвергается.<br>
<br>

**[2]** Уровень значимости в статистике - это вероятность ошибиться, когда мы говорим, что нашли разницу или связь между вещами, хотя на самом деле её нет. Это как если бы мы сказали, что видим что-то, хотя на самом деле это просто случайность. Чем меньше уровень значимости, тем меньше вероятность такой ошибки. Обычно в исследованиях используют уровни значимости *0,05* или *0,01*, что означает, что мы готовы допустить ошибку в *5%* или *1%* случаев соответственно.

---

In [1]:
from scipy.stats import ttest_ind
from scipy.stats import shapiro
from scipy.stats import mannwhitneyu


# Проверка гипотезы о том, что данные взяты из нормально распределённой совокупности
def checkingDistributionData(dataA, dataB, significanceLevel):
    statShapiroA, pValueShapiroA = shapiro(dataA)
    isNormalAMethod = pValueShapiroA > significanceLevel
    if isNormalAMethod:
        print("Данные выборки 'A' могут соответствовать нормальному распределению")
    else:
        print("Данные выборки 'A' не соответствуют нормальному распределению")

    statShapiroB, pValueShapiroB = shapiro(dataB)
    isNormalBMethod = pValueShapiroB > significanceLevel
    if isNormalBMethod:
        print("Данные выборки 'B' могут соответствовать нормальному распределению")
    else:
        print("Данные выборки 'B' не соответствуют нормальному распределению")

    return [isNormalAMethod, isNormalBMethod]


# t-критерий Стьюдента
def testOfStudent(dataA, dataB, significanceLevel):
    t_stat, p_value = ttest_ind(dataA, dataB)
    print("t-статистика:", t_stat)
    print("p-значение:", p_value)

    if p_value < significanceLevel:
        print(f"Различия между выборками статистически значимы (на уровне {significanceLevel}).")
    else:
        print(f"Различия между выборками статистически не значимы (на уровне {significanceLevel}).")

    if t_stat < 0:
        print("Агротехнический метод обработки B - более эффективный (в рамках получения урожая).")
    else:
        print("Агротехнический метод обработки A - более эффективный (в рамках получения урожая).")


# u-критерий Манна-Уитни
def testMannwhitneyu(dataA, dataB, significanceLevel):
    stat, p = mannwhitneyu(dataA, dataB)

    print("Статистика:", stat)
    print("p-значение:", p)

    if p < significanceLevel:
        print(f"Различия между выборками статистически значимы (на уровне {significanceLevel}).")
    else:
        print(f"Различия между выборками статистически не значимы (на уровне {significanceLevel}).")

    if stat < 0:
        print("Агротехнический метод обработки B - более эффективный (в рамках получения урожая).")
    else:
        print("Агротехнический метод обработки A - более эффективный (в рамках получения урожая).")


# Урожайность участков обработанных агротехническим методом - А
agroMethodA = [3352, 3080, 3195, 3448, 3373, 2804, 3190, 2969, 2979, 3082, 3028, 3290, 3152, 3024, 3088, 3066, 3298,
               2959, 3062, 2829, 2489, 3130, 3172]
# Урожайность участков обработанных агротехническим методом - B
agroMethodB = [3214, 3967, 3036, 3411, 3353, 3783, 3767, 3438, 3494, 3178, 2904, 3313, 3439, 3707, 3700, 3303, 3324,
               3137, 3045, 2973, 3887, 3272, 3290, 3086, 3594, 2996, 3346, 3176, 3496, 3272]
# Уровень значимости для определения, являются ли различия между средними значениями статистически значимыми.
significanceLevel = 0.05

distributionData = checkingDistributionData(agroMethodA, agroMethodB, significanceLevel)
distributionA = distributionData[0]
distributionB = distributionData[1]

if (distributionA == True) and (distributionB == True):
    print("\nОбе выборки нормально распределенны. Использование t-критерия Стьюдента...")
    testOfStudent(agroMethodA, agroMethodB, significanceLevel)
else:
    print("\nОбе выборки нормально не распределены. Использование u-критерий Манна-Уитни... ")
    testMannwhitneyu(agroMethodA, agroMethodB, significanceLevel)

Данные выборки 'A' могут соответствовать нормальному распределению
Данные выборки 'B' могут соответствовать нормальному распределению

Обе выборки нормально распределенны. Использование t-критерия Стьюдента...
t-статистика: -3.9288000071548654
p-значение: 0.00025759166490076134
Различия между выборками статистически значимы (на уровне 0.05).
Агротехнический метод обработки B - более эффективный (в рамках получения урожая).
