In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go

In [2]:
df = pd.read_csv('new-site.csv', sep='\t')

In [3]:
df

Unnamed: 0,site,dwell-time
0,0,2
1,1,48
2,0,15
3,1,16
4,0,38
...,...,...
295,0,22
296,0,7
297,1,144
298,0,89


In [4]:
# Предположим, что df — это ваш DataFrame с данными

# Вычисляем среднее время на сайте для группы A
total_A = np.round(df[df['site'] == 0]['dwell-time'].mean())

# Вычисляем среднее время на сайте для группы B
total_B = np.round(df[df['site'] == 1]['dwell-time'].mean())

# Выводим результаты
print("Среднее время на сайте для группы A:", total_A)
print("Среднее время на сайте для группы B:", total_B)

Среднее время на сайте для группы A: 91.0
Среднее время на сайте для группы B: 88.0


In [5]:
import pandas as pd
from scipy.stats import shapiro

def check_normality(df, group_col, time_col, alpha=0.05):
    """
    Проверяет нормальность распределения времени пребывания на сайте для двух групп.

    Параметры:
    - df: DataFrame с данными.
    - group_col: Название колонки с группами (например, 'site').
    - time_col: Название колонки с временем пребывания на сайте (например, 'dwell-time').
    - alpha: Уровень значимости (по умолчанию 0.05).

    Возвращает:
    - Словарь с результатами проверки для каждой группы.
    """
    # Уникальные группы
    groups = df[group_col].unique()
    
    # Результаты проверки
    results = {}
    
    for group in groups:
        # Выборка данных для группы
        data = df[df[group_col] == group][time_col]
        
        # Тест Шапиро-Уилка на нормальность
        stat, p_value = shapiro(data)
        
        # Проверка гипотезы
        if p_value > alpha:
            results[group] = "Нормальное распределение"
        else:
            results[group] = "Распределение не нормальное"
    
    return results

# Проверка нормальности
results = check_normality(df, group_col='site', time_col='dwell-time')
print(results)

{np.int64(0): 'Распределение не нормальное', np.int64(1): 'Распределение не нормальное'}


In [6]:
from scipy.stats import mannwhitneyu

# Загрузка данных
df = pd.read_csv('new-site.csv', sep='\t')

# Разделение данных на группы
group_A = df[df['site'] == 0]['dwell-time']  # Группа A (site = 0)
group_B = df[df['site'] == 1]['dwell-time']  # Группа B (site = 1)

# Выполнение U-теста Манна — Уитни
stat, p_value = mannwhitneyu(group_A, group_B, alternative='two-sided')  # Двусторонний тест
print(f"P-value: {p_value}")

# Интерпретация результата
if p_value <= 0.05:
    print("Время пребывания пользователей на сайте для групп А и B различно. Есть основания полагать, что рекомендательная система увеличивает длительность сессии пользователей.")
else:
    print("Время пребывания пользователей на сайте для групп А и B одинаково. Нет оснований полагать, что рекомендательная система увеличивает длительность сессии пользователей.")

P-value: 0.895811197131841
Время пребывания пользователей на сайте для групп А и B одинаково. Нет оснований полагать, что рекомендательная система увеличивает длительность сессии пользователей.
