In [1]:
import pandas as pd
from scipy.stats import mannwhitneyu, kstest, shapiro
import matplotlib.pyplot as plt

#### Задание 1
Вам подготовили датасет в файле compare_df.csv<br>
В нем есть всего две колонки sample1 и sample2<br>
Проведите Mann U Whitney тест чтобы проверить, идентично ли распределение двух этих сэмплов с уровнем значимости в 95%

In [3]:
# Загрузка датасета
file_path = 'compare_df.csv'
data = pd.read_csv(file_path)

# Извлечение данных
sample1 = data['sample1']
sample2 = data['sample2']

# Проведение Mann-Whitney U теста
stat, p_value = mannwhitneyu(sample1, sample2)

# Вывод результатов
print(f'U-статистика: {stat:.4f}')
print(f'p-значение: {p_value:.4f}')

# Проверка уровня значимости
alpha = 0.05
if p_value < alpha:
    print("Распределения двух сэмплов значимо различаются.")
else:
    print("Нет статистически значимых различий между распределениями двух сэмплов.")


U-статистика: 4409.0000
p-значение: 0.1491
Нет статистически значимых различий между распределениями двух сэмплов.


#### Задание 2
Используя те же самые два сэмпла из compare_df, проведите Kolmogorov Smirnov тест для проверки идентичности распределений

In [5]:
# Проведение теста Колмогорова-Смирнова
stat, p_value = kstest(sample1, sample2)

# Вывод результатов
print(f'Statistic: {stat:.4f}')
print(f'p-value: {p_value:.4f}')

# Проверка уровня значимости
alpha = 0.05
if p_value < alpha:
    print("Распределения двух сэмплов значимо различаются.")
else:
    print("Нет статистически значимых различий между распределениями двух сэмплов.")


Statistic: 0.2000
p-value: 0.0364
Распределения двух сэмплов значимо различаются.


#### Задание 3
Вам подготовили датасет в файле normality_test.csv<br>
В нем всего одна колонка sample<br>
Проведите Kolmogorov Smirnov тест, чтобы проверить нормальность данных с уровнем значимости в 95%

In [6]:
# Загрузка датасета
file_path = 'normality_test.csv'
data = pd.read_csv(file_path)

# Извлечение сэмпла
sample = data['sample']

# Проведение теста Колмогорова-Смирнова для проверки нормальности
result = kstest(sample, 'norm', args=(sample.mean(), sample.std(ddof=1)))
stat = result[0]
p_value = result[1]

# Вывод результатов
print(f'Statistic: {stat:.4f}')
print(f'p-value: {p_value:.4f}')

# Проверка уровня значимости
alpha = 0.05
if p_value < alpha:
    print("Данные не соответствуют нормальному распределению.")
else:
    print("Данные соответствуют нормальному распределению.")


Statistic: 0.0750
p-value: 0.6005
Данные соответствуют нормальному распределению.


#### Задание 4
Используя те же самые данные, проведите тест на нормальность используя Shapiro Wilk тест<br>
Какому тесту (ШапироУилк или КолмогоровСмирнов) вы доверяете больше и чей результат выберите?

In [9]:
# Загрузка датасета
file_path = 'normality_test.csv'
data = pd.read_csv(file_path)

# Извлечение сэмпла
sample = data['sample']

# Проведение теста Колмогорова-Смирнова для проверки нормальности
ks_stat, ks_p_value = kstest(sample, 'norm', args=(sample.mean(), sample.std(ddof=1)))

# Проведение теста Шапиро-Уилка для проверки нормальности
sw_stat, sw_p_value = shapiro(sample)

# Вывод результатов теста Колмогорова-Смирнова
print(f'Kolmogorov-Smirnov Test:')
print(f'\tStatistic: {ks_stat:.4f}')
print(f'\tp-value: {ks_p_value:.4f}')

# Вывод результатов теста Шапиро-Уилка
print(f'Shapiro-Wilk Test:')
print(f'\tStatistic: {sw_stat:.4f}')
print(f'\tp-value: {sw_p_value:.4f}')

# Проверка уровня значимости для теста Колмогорова-Смирнова
alpha = 0.05
if ks_p_value < alpha:
    print("Kolmogorov-Smirnov Test: Данные не соответствуют нормальному распределению.")
else:
    print("Kolmogorov-Smirnov Test: Данные соответствуют нормальному распределению.")

# Проверка уровня значимости для теста Шапиро-Уилка
if sw_p_value < alpha:
    print("Shapiro-Wilk Test: Данные не соответствуют нормальному распределению.")
else:
    print("Shapiro-Wilk Test: Данные соответствуют нормальному распределению.")

Kolmogorov-Smirnov Test:
	Statistic: 0.0750
	p-value: 0.6005
Shapiro-Wilk Test:
	Statistic: 0.9873
	p-value: 0.4593
Kolmogorov-Smirnov Test: Данные соответствуют нормальному распределению.
Shapiro-Wilk Test: Данные соответствуют нормальному распределению.
