In [1]:
import numpy as np
from scipy import stats
import matplotlib.pyplot as plt
import pandas as pd
%matplotlib inline

In [2]:
taxi_bog = pd.read_csv('taxi-routes/bog_clean.csv')
taxi_mex = pd.read_csv('taxi-routes/mex_clean.csv')

Рассмотрим две выборки $X$ и $Y$, и мы хотим сравнить их средние значения $\mu_x$ и $\mu_y$

Тогда рассматривается нулевая гипотеза:
$$
H_0: \mu_x = \mu_y
$$
и альтернативная:

$$
H_1: \mu_x \ne \mu_y.
$$

t-критерий Стьюдента — общее название для класса методов статистической проверки гипотез (статистических критериев), основанных на распределении Стьюдента. Наиболее частые случаи применения t-критерия связаны с проверкой равенства средних значений в двух выборках.

t-статистика строится обычно по следующему общему принципу: в числителе случайная величина с нулевым математическим ожиданием (при выполнении нулевой гипотезы), а в знаменателе — выборочное стандартное отклонение этой случайной величины, получаемое как квадратный корень из несмещённой оценки дисперсии.

После этого t-статистики находится уровень значимости и сравниваетя с заранее заданным p-value.
P-value - это вероятность того что данные выборки получились случайным способом. 

Если статистика меньше уровня значимости, то нулевая гипотеза отвергается. В противном случае она не отвергается. 

#### Одновыборочный t-критерий

$$t = \frac{\overline X - m}{s_X / \sqrt{n}}$$

In [3]:
sample = taxi_mex['wait_sec'].sample(n=3000)/60

In [4]:
stats.ttest_1samp(sample, 10)

Ttest_1sampResult(statistic=2.0060943507472695, pvalue=0.044935826378930975)

#### 2-выборочный критерий для независимых выборок

$$t = \frac{\overline X_1 - \overline X_2}{\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}}$$

In [5]:
taxi_mex['pickup_datetime'] = pd.to_datetime(taxi_mex.pickup_datetime)
taxi_mex['month'] = taxi_mex['pickup_datetime'].dt.month

In [6]:
taxi_bog.shape

(3063, 12)

In [7]:
taxi_mex.shape

(12694, 13)

Длительность поездок - отличается ли средняя длительность поездки по Мехико от средней поездки по Боготе?

In [8]:
stats.ttest_ind(taxi_mex['trip_duration'].sample(n=3000), taxi_bog['trip_duration'].sample(n=3000))

Ttest_indResult(statistic=-5.0978200326113186, pvalue=3.541212839506936e-07)

p-value меньше уровня значимости, а это означает, что мы отвергаем нулевую гипотезу, и выборки имеют разные средние

А вот в случае ожидания времени такси мы уже не можем отвергнуть нулевую гипотезу

In [9]:
stats.ttest_ind(taxi_mex['wait_sec'].sample(n=3000), taxi_bog['wait_sec'].sample(n=3000))

Ttest_indResult(statistic=0.5053564398593796, pvalue=0.6133270767555821)

#### 2-выборочный критерий для зависимых выборок

Для вычисления эмпирического значения  t-критерия в ситуации проверки гипотезы о различиях между двумя зависимыми выборками (например, двумя пробами одного и того же теста с временным интервалом) применяется следующая формула:

In [10]:
control = taxi_mex[taxi_mex.month == 11]['trip_duration'].sample(n=1000)
treatment = taxi_mex[taxi_mex.month == 12]['trip_duration'].sample(n=1000)

stats.ttest_rel(control, treatment)

Ttest_relResult(statistic=-1.0788620580052215, pvalue=0.2809096399109225)

#### Полезные ссылки

https://en.wikipedia.org/wiki/A/B_testing - примеры других критериев