# Q. Линеаризация второго типа

На тех же данных теперь проверим гипотезу равенства среднего чека с использованием линеаризации второго типа и классический t-test:

Перейдем к линеаризованной метрике 
$
L(u)=\frac{\bar X}{\bar Y}+\frac{1}{\bar Y}X(u)-\frac{\bar X}{\bar Y^2}Y(u)
$
, где

$X(u)$ - значение числителя для пользователя $u$

$Y(u)$ - значение знаменателя для пользователя $u$

$\bar X$ - среднее в группе по числителю

$\bar Y$ - среднее в группе по знаменателю



Посчитайте T-статистику, найдите P-value для линеаризованной метрики.



Используйте данные из файла [synthetic_gmv_data_1.2.csv](https://github.com/dakhakimova/YSDA_ABweek/blob/476cbc4a49e1f4dfcdb376d69239b6103fbad932/synthetic_gmv_data_1.2.csv)

## Формат вывода


В ответе выведите два числа через пробел.
Целую и дробную часть разделяйте точкой.

## Примечание

Округлите до 3-го знака после точки.

# Решение

In [1]:
import pandas as pd
import scipy.stats as stats
import numpy as np

In [2]:
url =                "https://github.com/dakhakimova/YSDA_ABweek/blob/476cbc4a49e1f4dfcdb376d69239b6103fbad932/synthetic_gmv_data_1.2.csv"
url = "https://raw.githubusercontent.com/dakhakimova/YSDA_ABweek/" + "476cbc4a49e1f4dfcdb376d69239b6103fbad932/synthetic_gmv_data_1.2.csv"
df = pd.read_csv(url)

In [3]:
df.head()

Unnamed: 0,user_id,gmv,group_name
0,myo4ixol31,1428,test
1,myo4ixol31,1428,test
2,myo4ixol31,1071,test
3,myo4ixol31,1071,test
4,pkzf2889ww,351,test



$L(u) = \dfrac{\bar X}{\bar Y} + \dfrac{1}{\bar Y} X(u) - \dfrac{\bar X}{\bar Y^2} Y(u)$

In [111]:
def safe_divide(x, y):
    try:
        return x / y
    except ZeroDivisionError:
        return np.nan

def linearization_type_2(X, Y):
    n = len(X)
    X_bar = np.mean(np.array(X))
    Y_bar = np.mean(Y)
    estimator = X_bar / Y_bar
    linear = estimator  + (X - estimator*Y) / Y_bar
    return linear

def linearization_type_2_ttest(x_test, y_test, x_control, y_control):
    linear_test = linearization_type_2(x_test, y_test)
    linear_control = linearization_type_2(x_control, y_control)
    t_stat, p_value = stats.ttest_ind(linear_test, linear_control, equal_var=False)
    return t_stat, p_value

In [112]:
test = df[df['group_name'] == 'test']
control = df[df['group_name'] == 'control']

In [113]:
X_test = test.groupby('user_id')['gmv'].sum()
X_control = control.groupby('user_id')['gmv'].sum()

In [114]:
X_test

user_id
00074uxybk    3187
000plmykri    1695
0026yqk83k    1293
002ioy63br    3862
0032wrbd7c     765
              ... 
zzv633k6jk    3809
zzvup22tly    3938
zzx7apehbt    3422
zzxoenzox7    1141
zzyggo4hgm    1923
Name: gmv, Length: 49100, dtype: int64

In [115]:
Y_test = test['user_id'].value_counts()
Y_control = control['user_id'].value_counts()

In [116]:
X_test/Y_test, Y_test

(user_id
 00074uxybk    1062.333333
 000plmykri     339.000000
 0026yqk83k     431.000000
 002ioy63br     643.666667
 0032wrbd7c     255.000000
                  ...     
 zzv633k6jk     544.142857
 zzvup22tly    1312.666667
 zzx7apehbt     855.500000
 zzxoenzox7     570.500000
 zzyggo4hgm     480.750000
 Length: 49100, dtype: float64,
 user_id
 jfe78xzcq2    15
 xqoheyv3i6    14
 lv6kok1ro4    14
 cvhmnm1kv1    14
 uhvljh9dfu    14
               ..
 bzanvkv0ln     1
 tm96jxoe4y     1
 lgjn3t95cs     1
 wrf3q02xqx     1
 fr43epiief     1
 Name: count, Length: 49100, dtype: int64)

In [117]:
value, pvalue = linearization_type_2_ttest(X_test, Y_test, X_control, Y_control)
value, pvalue

(2.343871855041241, 0.019087054199213773)

In [118]:
round(value,3), round(pvalue,3)

(2.344, 0.019)

Ответ: `2.344 0.019`