In [14]:
import pandas as pd
from scipy import stats

In [8]:
dating_data = pd.read_csv("/mnt/HC_Volume_18315164/home-jupyter/jupyter-a-zakorko/dating_data.csv")

In [9]:
dating_data

Unnamed: 0,user_id_1,user_id_2,group,is_match
0,79,91,1,1
1,716,353,1,1
2,423,677,0,0
3,658,165,1,1
4,969,155,0,1
...,...,...,...,...
14509,476,631,0,0
14510,455,770,1,0
14511,260,6,1,1
14512,885,812,1,1


Для оценки эффективности нового алгоритма, сосредоточимся на следующих метриках:

Процент мэтчей (Целевая метрика): Сравнение доли мэтчей в каждой группе. Это покажет, увеличивает ли новый алгоритм вероятность возникновения мэтча.
Активность пользователей (Прокси-метрика): Оценка количества взаимодействий (лайков/дизлайков) на пользователя в каждой группе. Это может показать, стал ли новый алгоритм более привлекательным для пользователей.

In [12]:
# Расчет метрик для каждой группы

# Расчет доли мэтчей в каждой группе
match_rate = dating_data.groupby('group')['is_match'].mean()

# Расчет количества взаимодействий (строк) на пользователя в каждой группе
# Сначала объединяем идентификаторы пользователей в один столбец
user_interactions = pd.concat([dating_data['user_id_1'], dating_data['user_id_2']])
# Затем группируем по группе и подсчитываем среднее
interaction_rate = dating_data.groupby('group').apply(lambda x: user_interactions[user_interactions.isin(x['user_id_1'].append(x['user_id_2']))].count() / x['user_id_1'].append(x['user_id_2']).nunique())

# Вывод результатов
print("Процента метчей для 0 и 1 группы:",match_rate)
print("Процент взаимодействий у 0 и 1 группы:",interaction_rate)


Процента метчей для 0 и 1 группы: group
0    0.194908
1    0.402078
Name: is_match, dtype: float64
Процент взаимодействий у 0 и 1 группы: group
0    19.129741
1    38.965932
dtype: float64


Исходя из этих данных, можно сделать предварительный вывод, что новый алгоритм значительно улучшает качество сервиса: он не только увеличивает вероятность мэтчей, но и стимулирует более высокую активность пользователей

Для более полной оценки следует провести статистический анализ, чтобы убедиться в значимости различий между группами. 
Для этого я применим t-тест (для сравнения средних значений). 

In [15]:
# Подготовка данных для статистического теста
group_0 = dating_data[dating_data['group'] == 0]['is_match']
group_1 = dating_data[dating_data['group'] == 1]['is_match']

# Проверка на нормальность распределения с использованием теста Шапиро-Уилка
normality_test_group_0 = stats.shapiro(group_0)
normality_test_group_1 = stats.shapiro(group_1)

# Проведение t-теста для независимых выборок, если данные распределены нормально
# Или использование теста Манна-Уитни, если данные распределены не нормально
if normality_test_group_0.pvalue > 0.05 and normality_test_group_1.pvalue > 0.05:
    # Данные распределены нормально, используем t-тест
    test_result = stats.ttest_ind(group_0, group_1, equal_var=False)
else:
    # Данные распределены не нормально, используем тест Манна-Уитни
    test_result = stats.mannwhitneyu(group_0, group_1)

normality_test_group_0.pvalue, normality_test_group_1.pvalue, test_result




(0.0,
 0.0,
 MannwhitneyuResult(statistic=18468122.0, pvalue=9.239398092772123e-137))

Результаты статистических тестов следующие:

Тест Шапиро-Уилка на нормальность распределения:

Для группы 0 (старый алгоритм) и группы 1 (новый алгоритм) p-значение составляет 0.0. Это говорит о том, что распределение данных в обеих группах не соответствует нормальному распределению.
Тест Манна-Уитни на сравнение двух независимых выборок:

P-значение теста Манна-Уитни составляет приблизительно 
9.239398092772123e-137, что значительно ниже стандартного порога значимости 0.05.

Эти результаты говорят о том, что различие в проценте мэтчей между двумя группами статистически значимо. Таким образом, можно сделать вывод о том, что новый алгоритм действительно улучшает качество сервиса в приложении для знакомств, увеличивая вероятность возникновения мэтчей между пользователями.
На основании этих данных рекомендуется внедрить новый алгоритм для всех пользователей приложения!