В этом задании вам предлагается проанализировать данные одной из американских телекоммуникационных компаний о пользователях, которые потенциально могут уйти.

Измерены следующие признаки:

- state — штат США
- account_length — длительность использования аккаунта
- area_code — деление пользователей на псевдорегионы, использующееся в телекоме
- intl_plan — подключена ли у пользователя услуга международного общения
- vmail_plan — подключена ли у пользователя услуга голосовых сообщений
- vmail_message — количество голосых сообщений, который пользователь отправил / принял
- day_calls — сколько пользователь совершил дневных звонков
- day_mins — сколько пользователь проговорил минут в течение дня
- day_charge — сколько пользователь заплатил за свою дневную активность
- eve_calls, eve_mins, eve_charge — аналогичные метрики относительно вечерней активности
- night_calls, night_mins, night_charge — аналогичные метрики относительно ночной активности
- intl_calls, intl_mins, intl_charge — аналогичные метрики относительно международного общения
- custserv_calls — сколько раз пользователь позвонил в службу поддержки
- treatment — номер стратегии, которая применялись для удержания абонентов (0, 2 = два разных типа воздействия, 1 = контрольная группа)
- mes_estim — оценка интенсивности пользования интернет мессенджерами
- churn — результат оттока: перестал ли абонент пользоваться услугами оператора

In [119]:
import pandas as pd
from scipy.stats import chi2_contingency, fisher_exact, pearsonr, spearmanr
from itertools import combinations
import numpy as np
import scipy

In [10]:
data = pd.read_csv('churn_analysis.csv', index_col=0)
data

Unnamed: 0,state,account_length,area_code,intl_plan,vmail_plan,vmail_message,day_mins,day_calls,day_charge,eve_mins,...,night_mins,night_calls,night_charge,intl_mins,intl_calls,intl_charge,custserv_calls,treatment,mes_estim,churn
0,KS,128,415,no,yes,25,265.1,110,45.07,197.4,...,244.7,91,11.01,10.0,3,2.70,1,1,0.65,False.
1,OH,107,415,no,yes,26,161.6,123,27.47,195.5,...,254.4,103,11.45,13.7,3,3.70,1,0,0.55,False.
2,NJ,137,415,no,no,0,243.4,114,41.38,121.2,...,162.6,104,7.32,12.2,5,3.29,0,0,0.72,False.
3,OH,84,408,yes,no,0,299.4,71,50.90,61.9,...,196.9,89,8.86,6.6,7,1.78,2,1,0.28,False.
4,OK,75,415,yes,no,0,166.7,113,28.34,148.3,...,186.9,121,8.41,10.1,3,2.73,3,2,0.45,False.
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3328,AZ,192,415,no,yes,36,156.2,77,26.55,215.5,...,279.1,83,12.56,9.9,6,2.67,2,2,0.59,False.
3329,WV,68,415,no,no,0,231.1,57,39.29,153.4,...,191.3,123,8.61,9.6,4,2.59,3,2,0.32,False.
3330,RI,28,510,no,no,0,180.8,109,30.74,288.8,...,191.9,91,8.64,14.1,6,3.81,2,1,0.47,False.
3331,CT,184,510,yes,no,0,213.8,105,36.35,159.6,...,139.2,137,6.26,5.0,10,1.35,2,2,0.32,False.


Давайте рассмотрим всех пользователей из контрольной группы (treatment = 1). Для таких пользователей мы хотим проверить гипотезу о том, что штат абонента не влияет на то, перестанет ли абонент пользоваться услугами оператора.

Для этого мы воспользуемся критерием хи-квадрат. Постройте таблицы сопряженности между каждой из всех 1275 возможных неупорядоченных пар штатов и значением признака churn. Для каждой такой таблицы 2x2 применить критерий хи-квадрат можно с помощью функции
<img src="https://ucarecdn.com/83cfc067-7866-4872-b58a-353c54b02d8b/"
     alt="Markdown Monster icon"
     style="float: left; margin-right: 10px;" />

Заметьте, что, например, (AZ, HI) и (HI, AZ) — это одна и та же пара. Обязательно выставьте correction=False (о том, что это значит, вы узнаете из следующих вопросов).

Сколько достигаемых уровней значимости оказались меньше, чем α=0.05?

In [11]:
control = data[data.treatment == 1]
control

Unnamed: 0,state,account_length,area_code,intl_plan,vmail_plan,vmail_message,day_mins,day_calls,day_charge,eve_mins,...,night_mins,night_calls,night_charge,intl_mins,intl_calls,intl_charge,custserv_calls,treatment,mes_estim,churn
0,KS,128,415,no,yes,25,265.1,110,45.07,197.4,...,244.7,91,11.01,10.0,3,2.70,1,1,0.65,False.
3,OH,84,408,yes,no,0,299.4,71,50.90,61.9,...,196.9,89,8.86,6.6,7,1.78,2,1,0.28,False.
8,LA,117,408,no,no,0,184.5,97,31.37,351.6,...,215.8,90,9.71,8.7,4,2.35,1,1,0.50,False.
12,IA,168,408,no,no,0,128.8,96,21.90,104.9,...,141.1,128,6.35,11.2,2,3.02,1,1,0.37,False.
17,VT,93,510,no,no,0,190.7,114,32.42,218.2,...,129.6,121,5.83,8.1,3,2.19,3,1,0.84,False.
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3319,WY,89,415,no,no,0,115.4,99,19.62,209.9,...,280.9,112,12.64,15.9,6,4.29,3,1,0.37,False.
3322,MD,62,408,no,no,0,321.1,105,54.59,265.5,...,180.5,72,8.12,11.5,2,3.11,4,1,0.63,True.
3323,IN,117,415,no,no,0,118.4,126,20.13,249.3,...,227.0,56,10.22,13.6,3,3.67,5,1,0.55,True.
3325,OH,78,408,no,no,0,193.4,99,32.88,116.9,...,243.3,109,10.95,9.3,4,2.51,2,1,0.65,False.


In [14]:
len(control.state.unique())

51

In [28]:
cross_all = pd.crosstab(control.state, control.churn)
cross_all

churn,False.,True.
state,Unnamed: 1_level_1,Unnamed: 2_level_1
AK,19,1
AL,25,5
AR,11,5
AZ,17,2
CA,10,5
CO,17,5
CT,25,5
DC,18,1
DE,16,1
FL,18,2


In [29]:
chi2_contingency(cross_all)

(44.05271236692548,
 0.7097590042778473,
 50,
 array([[16.7183227 ,  3.2816773 ],
        [25.07748405,  4.92251595],
        [13.37465816,  2.62534184],
        [15.88240656,  3.11759344],
        [12.53874202,  2.46125798],
        [18.39015497,  3.60984503],
        [25.07748405,  4.92251595],
        [15.88240656,  3.11759344],
        [14.21057429,  2.78942571],
        [16.7183227 ,  3.2816773 ],
        [17.55423883,  3.44576117],
        [10.86690975,  2.13309025],
        [12.53874202,  2.46125798],
        [15.04649043,  2.95350957],
        [10.03099362,  1.96900638],
        [19.2260711 ,  3.7739289 ],
        [20.89790337,  4.10209663],
        [20.89790337,  4.10209663],
        [12.53874202,  2.46125798],
        [20.06198724,  3.93801276],
        [20.06198724,  3.93801276],
        [23.40565178,  4.59434822],
        [18.39015497,  3.60984503],
        [17.55423883,  3.44576117],
        [17.55423883,  3.44576117],
        [20.06198724,  3.93801276],
        [21.733819

In [45]:
%%time
chi_data = []
p_values = []
for pair in combinations(control.state.unique(), 2):
    states = control[control.state.isin(pair)]
    cross = pd.crosstab(states.state, states.churn)
    chi = chi2_contingency(cross, correction=False)
    chi_data.append(chi)
    p_values.append([pair[0], pair[1], chi[1]])

Wall time: 16.1 s


In [47]:
p_values = pd.DataFrame(p_values, columns=['state_1', 'state_2', 'p_value'])
p_values

Unnamed: 0,state_1,state_2,p_value
0,KS,OH,0.075524
1,KS,LA,0.024052
2,KS,IA,0.282190
3,KS,VT,0.616769
4,KS,CO,0.679125
...,...,...,...
1270,IL,HI,0.952933
1271,IL,SC,0.267505
1272,ND,HI,0.652998
1273,ND,SC,0.322191


In [48]:
p_values[p_values.p_value < 0.05]

Unnamed: 0,state_1,state_2,p_value
1,KS,LA,0.024052
8,KS,AK,0.044934
31,KS,NM,0.037998
90,OH,CA,0.047788
101,LA,CO,0.047101
106,LA,MA,0.020937
108,LA,AR,0.018074
109,LA,MI,0.047101
113,LA,TX,0.019782
120,LA,ME,0.021755


In [49]:
p_values[p_values.p_value < 0.05].shape

(34, 3)

In [51]:
chi_data = pd.DataFrame(chi_data, columns=['chi2', 'p', 'dof', 'expected'])
chi_data

Unnamed: 0,chi2,p,dof,expected
0,3.158685,0.075524,1,"[[20.408163265306122, 4.591836734693878], [19...."
1,5.090909,0.024052,1,"[[20.625, 4.375], [12.375, 2.625]]"
2,1.156511,0.282190,1,"[[11.625, 3.375], [19.375, 5.625]]"
3,0.250435,0.616769,1,"[[18.75, 6.25], [17.25, 5.75]]"
4,0.171113,0.679125,1,"[[16.382978723404257, 5.617021276595745], [18...."
...,...,...,...,...
1270,0.003484,0.952933,1,"[[11.96, 1.04], [11.04, 0.96]]"
1271,1.229497,0.267505,1,"[[9.818181818181818, 2.1818181818181817], [17...."
1272,0.202142,0.652998,1,"[[11.594594594594595, 1.4054054054054055], [21..."
1273,0.980031,0.322191,1,"[[19.733333333333334, 4.266666666666667], [17...."


In [52]:
chi_data.expected[0]

array([[20.40816327,  4.59183673],
       [19.59183673,  4.40816327]])

Какие проблемы Вы видите в построении анализа из первого вопроса?

- Интерпретация числа достигаемых уровней значимости, меньших α=0.05, некорректна, поскольку не сделана поправка на множественную проверку гипотез.
- Применение критерия xи-квадрат для этих данных не обосновано, потому что не выполняются условия, при которых этот критерий дает правильные результаты.

В основе критерия xи-квадрат лежит предположение о том, что если верна нулевая гипотеза, то дискретное биномиальное распределение данных по клеткам в таблице сопряженности может быть аппроксимировано с помощью непрерывного распределения xи-квадрат. Однако точность такой аппроксимации существенно зависит от суммарного количества наблюдений и их распределения в этой таблице (отсюда и ограничения при использовании критерия xи-квадрат).

Одним из способов коррекции точности аппроксимации является поправка Йетса на непрерывность. Эта поправка заключается в вычитании константы 0.5 из каждого модуля разности наблюденного  $ O_i $  и ожидаемого иожидаемого $ E_i $ значений, то есть, статистика с такой поправкой выглядит так:
Одним из способов коррекции точности аппроксимации является поправка Йетса на непрерывность. Эта поправка заключается в вычитании константы 0.5 из каждого модуля разности наблюденного  $ O_i   и ожидаемого иожидаемого E_i $ значений, то есть, статистика с такой поправкой выглядит так:

$\chi _{\text{Yates}}^{2}=\sum _{i=1}^{N}{(|O_{i}-E_{i}|-0.5)^{2} \over E_{i}}$.

![image.png](attachment:image.png)

Такая поправка, как несложно догадаться по формуле, как правило, уменьшает значение статистики χ2, то есть увеличивает достигаемый уровень значимости.

Эта поправка обычно используется для таблиц сопряженности размером 2x2 и для небольшого количества наблюдений. Такая поправка, однако, не является серебрянной пулей, и часто критикуется за то, что статистический критерий при ее использовании становится слишком консервативным, то есть часто не отвергает нулевую гипотезу там, где она неверна (совершает ошибку II рода).

Полезно знать, что эта поправка часто включена по умолчанию (например, в функции scipy.stats.chi2_contingency) и понимать ее влияние на оценку достигаемого уровня значимости.

Проведите те же самые сравнения, что и в вопросе №1, только с включенной коррекцией и сравните полученные результаты, отметив все верные варианты.

In [53]:
%%time
chi_data_corr = []
p_values_corr = []
for pair in combinations(control.state.unique(), 2):
    states = control[control.state.isin(pair)]
    cross = pd.crosstab(states.state, states.churn)
    chi = chi2_contingency(cross, correction=True)
    chi_data_corr.append(chi)
    p_values_corr.append([pair[0], pair[1], chi[1]])

Wall time: 16.1 s


In [54]:
p_values_corr = pd.DataFrame(p_values_corr, columns=['state_1', 'state_2', 'p_value'])
p_values_corr

Unnamed: 0,state_1,state_2,p_value
0,KS,OH,0.159054
1,KS,LA,0.067770
2,KS,IA,0.493752
3,KS,VT,0.867518
4,KS,CO,0.937468
...,...,...,...
1270,IL,HI,0.497280
1271,IL,SC,0.522363
1272,ND,HI,0.916450
1273,ND,SC,0.549046


In [55]:
p_values_corr[p_values_corr.p_value < 0.05]

Unnamed: 0,state_1,state_2,p_value


Что если у нас мало данных, мы не хотим использовать аппроксимацию дискретного распределения непрерывным и использовать сомнительную поправку, предположения критерия xи-квадрат не выполняются, а проверить гипотезу о том, что данные принадлежат одному распределению, нужно ?

В таком случае прибегают к так называемому точному критерию Фишера. Этот критерий не использует приближений и в точности вычисляет значение достигаемого уровня значимости используя комбинаторный подход.

Пусть у нас есть таблица сопряженности 2x2:

![image.png](attachment:image.png)

Тогда вероятность получить именно такие a, b, c, d при фиксированных значениях сумм по строкам и по столбцам) задается выражением

![image.png](attachment:image.png)

В числителе этой дроби стоит суммарное количество способов выбрать a и c из a +b и c + d соответственно. А в знаменателе — количество способов выбрать число объектов, равное сумме элементов первого столбца a + c из общего количества рассматриваемых объектов n.

Чтобы посчитать достигаемый уровень значимости критерия Фишера, нужно перебрать все возможные значения a, b, c, d , в клетках этой таблицы так, чтобы построковые и постолбцовые суммы не изменились. Для каждого такого набора a, b, c, d  нужно вычислить значение p_i по формуле выше и просуммировать все такие значения  p_i , которые меньше или равны  p, которое мы вычислили по наблюдаемым значениям a, b, c, d.

Понятно, что такой критерий вычислительно неудобен в силу большого количества факториалов в формуле выше. То есть даже при небольших выборках для вычисления значения этого критерия приходится оперировать очень большими числами. Поэтому данным критерием пользуются обычно только для таблиц 2x2, но сам критерий никак не ограничен количеством строк и столбцов, и его можно построить для любой таблицы n\times mn×m.

Посчитайте для каждой пары штатов, как и в первом задании, достигаемый уровень значимости с помощью точного критерия Фишера и сравните получившиеся значения с двумя другими подходами, описанными выше.

Точный критерий Фишера удобно вычислять с помощью функции

![image.png](attachment:image.png)

которая принимает на вход таблицу сопряженности 2x2.

In [58]:
%%time
chi_data_fisher = []
p_values_fisher = []
for pair in combinations(control.state.unique(), 2):
    states = control[control.state.isin(pair)]
    cross = pd.crosstab(states.state, states.churn)
    chi = fisher_exact(cross)
    chi_data_fisher.append(chi)
    p_values_fisher.append([pair[0], pair[1], chi[1]])

Wall time: 19.3 s


In [59]:
p_values_fisher = pd.DataFrame(p_values_fisher, columns=['state_1', 'state_2', 'p_value'])
p_values_fisher

Unnamed: 0,state_1,state_2,p_value
0,KS,OH,0.138333
1,KS,LA,0.032840
2,KS,IA,0.440083
3,KS,VT,0.743389
4,KS,CO,0.747108
...,...,...,...
1270,IL,HI,1.000000
1271,IL,SC,0.379171
1272,ND,HI,1.000000
1273,ND,SC,0.442704


In [60]:
p_values_fisher[p_values_fisher.p_value < 0.05]

Unnamed: 0,state_1,state_2,p_value
1,KS,LA,0.03284
106,LA,MA,0.03073
108,LA,AR,0.043382
113,LA,TX,0.026963
120,LA,ME,0.035768
124,LA,WA,0.029057
138,LA,CA,0.042146
728,TX,NM,0.049676
931,ME,NM,0.041122
1113,NM,CA,0.035772


Давайте попробуем применить полученные знания о разных видах корреляции и ее применимости на практике.

Рассмотрим пару признаков day_calls и mes_estim. Посчитайте корреляцию Пирсона между этими признаками на всех данных, ее значимость.

In [64]:
pearsonr(data.day_calls, data.mes_estim)

(-0.051794350587572514, 0.0027798836869732313)

Еще раз рассмотрим пару признаков day_calls и mes_estim. Посчитайте корреляцию Спирмена между этими признаками на всех данных, ее значимость.

In [66]:
spearmanr(data.day_calls, data.mes_estim)

SpearmanrResult(correlation=0.043349880533927444, pvalue=0.012317367189170543)

Как можно интерпретировать полученные значения коэффициентов корреляции и достигаемые уровни значимости при проверки гипотез о равенстве нулю этих коэффициентов?

- Посчитанные корреляции и их значимости говорят лишь о том, что необходимо взглянуть на данные глазами и попытаться понять, что приводит к таким (противоречивым?) результатам.

Посчитайте значение коэффицента корреляции Крамера между двумя признаками: штатом (state) и оттоком пользователей (churn) для всех пользователей, которые находились в контрольной группе (treatment=1). Что можно сказать о достигаемом уровне значимости при проверке гипотезы о равенство нулю этого коэффициента?

- Для вычисления коэффициента Крамера используется значение статистики xи-квадрат, на которую мы не можем положиться применительно к нашим данным.

In [68]:
pd.crosstab(control.state, control.churn)

churn,False.,True.
state,Unnamed: 1_level_1,Unnamed: 2_level_1
AK,19,1
AL,25,5
AR,11,5
AZ,17,2
CA,10,5
CO,17,5
CT,25,5
DC,18,1
DE,16,1
FL,18,2


In [70]:
np.sqrt(chi2_contingency(cross_all)[0] / (cross_all.sum().sum() * (min(4, 2) - 1)))

0.2003932150203332

Вы прослушали большой курс и к текущему моменту обладете достаточными знаниями, чтобы попытаться самостоятельно выбрать нужный метод / инструмент / статистический критерий и сделать правильное заключение.

В этой части задания вам нужно будет самостоятельно решить, с помощью каких методов можно провести анализ эффективности удержания (churn) с помощью раличных методов (treatment = 0, treatment = 2) относительно контрольной группы пользователей (treatment = 1).

Что можно сказать об этих двух методах (treatment = 0, treatment = 2)? Одинаковы ли они с точки зрения эффективности? Каким бы методом вы бы посоветовали воспользоваться компании?

Не забудьте про поправку на множественную проверку! И не пользуйтесь односторонними альтернативами, поскольку вы не знаете, к каким действительно последствиям приводят тестируемые методы (treatment = 0, treatment = 2) !

In [71]:
control

Unnamed: 0,state,account_length,area_code,intl_plan,vmail_plan,vmail_message,day_mins,day_calls,day_charge,eve_mins,...,night_mins,night_calls,night_charge,intl_mins,intl_calls,intl_charge,custserv_calls,treatment,mes_estim,churn
0,KS,128,415,no,yes,25,265.1,110,45.07,197.4,...,244.7,91,11.01,10.0,3,2.70,1,1,0.65,False.
3,OH,84,408,yes,no,0,299.4,71,50.90,61.9,...,196.9,89,8.86,6.6,7,1.78,2,1,0.28,False.
8,LA,117,408,no,no,0,184.5,97,31.37,351.6,...,215.8,90,9.71,8.7,4,2.35,1,1,0.50,False.
12,IA,168,408,no,no,0,128.8,96,21.90,104.9,...,141.1,128,6.35,11.2,2,3.02,1,1,0.37,False.
17,VT,93,510,no,no,0,190.7,114,32.42,218.2,...,129.6,121,5.83,8.1,3,2.19,3,1,0.84,False.
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3319,WY,89,415,no,no,0,115.4,99,19.62,209.9,...,280.9,112,12.64,15.9,6,4.29,3,1,0.37,False.
3322,MD,62,408,no,no,0,321.1,105,54.59,265.5,...,180.5,72,8.12,11.5,2,3.11,4,1,0.63,True.
3323,IN,117,415,no,no,0,118.4,126,20.13,249.3,...,227.0,56,10.22,13.6,3,3.67,5,1,0.55,True.
3325,OH,78,408,no,no,0,193.4,99,32.88,116.9,...,243.3,109,10.95,9.3,4,2.51,2,1,0.65,False.


In [72]:
treatment_0 = data[data.treatment == 0]
treatment_2 = data[data.treatment == 2]

In [78]:
data.churn.value_counts()

False.    2850
True.      483
Name: churn, dtype: int64

In [79]:
data.treatment.value_counts()

0    1133
2    1103
1    1097
Name: treatment, dtype: int64

Проверяем гипотезу о равенстве долей оттока в тестовых (0 и 2) и контрольной (1) выборках

хи-квадрат для всех групп

In [89]:
cross_churn = pd.crosstab(data.treatment, data.churn)
cross_churn

churn,False.,True.
treatment,Unnamed: 1_level_1,Unnamed: 2_level_1
0,968,165
1,917,180
2,965,138


In [90]:
chi2_contingency(cross_churn)

(6.747904391985955,
 0.03425399098362844,
 2,
 array([[968.81188119, 164.18811881],
        [938.02880288, 158.97119712],
        [943.15931593, 159.84068407]]))

Хи-квадрат применим. Критерий показал значимое отличие (p < 0.05) корреляции V Крамера от нуля. Значит существуеь зависимость оттока от типа стратегии

Посмотрим на хи-квадрат отдельно для каждой стратегии

In [92]:
cross_churn_0 = pd.crosstab(data[data.treatment.isin([0, 1])].treatment, data.churn)
cross_churn_0

churn,False.,True.
treatment,Unnamed: 1_level_1,Unnamed: 2_level_1
0,968,165
1,917,180


In [96]:
cross_churn_2 = pd.crosstab(data[data.treatment.isin([2, 1])].treatment, data.churn)
cross_churn_2

churn,False.,True.
treatment,Unnamed: 1_level_1,Unnamed: 2_level_1
1,917,180
2,965,138


In [97]:
chi2_contingency(cross_churn_0)

(1.3135522978703889,
 0.2517524983193889,
 1,
 array([[957.71524664, 175.28475336],
        [927.28475336, 169.71524664]]))

In [98]:
chi2_contingency(cross_churn_2)

(6.443599141619931,
 0.011135281386020091,
 1,
 array([[938.43363636, 158.56636364],
        [943.56636364, 159.43363636]]))

Стратегия 0 не показывает значимого отличия от контрольной группы (p > 0.025 (с учётом поправки Бонферрони))

Стратегия 2 показывает значимое отличие от контрольной группы (p < 0.025 (с учётом поправки Бонферрони))

Посчитаем корреляцию V Крамера для стратегии 2

In [99]:
np.sqrt(chi2_contingency(cross_churn_2)[0] / (cross_churn_2.sum().sum() * (min(4, 2) - 1)))

0.05411939301892005

Корреляция слабая (V Крамера меняется [0, 1])

Посчитаем корреляцию Мэтьюса для стратегии 2

In [100]:
a = 917
b = 180
c = 965
d = 138

In [101]:
(a*d - b*c) / np.sqrt((a+b)*(a+c)*(b+d)*(c+d))

-0.05541203496795406

Корреляция слабая, отрицательная => количество True оттока падает при переходе от стратегии 1 (контроль) к стратегии 2. Стратегия 2 уменьшая отток клиентов

Проверим гипотезу об равенстве (2стороннюю) долей в контрольной и тестовых выборках

In [80]:
def proportions_diff_confint_ind(sample1, sample2, alpha = 0.05):    
    z = scipy.stats.norm.ppf(1 - alpha / 2.)
    
    p1 = float(sum(sample1)) / len(sample1)
    p2 = float(sum(sample2)) / len(sample2)
    
    left_boundary = (p1 - p2) - z * np.sqrt(p1 * (1 - p1)/ len(sample1) + p2 * (1 - p2)/ len(sample2))
    right_boundary = (p1 - p2) + z * np.sqrt(p1 * (1 - p1)/ len(sample1) + p2 * (1 - p2)/ len(sample2))
    
    return (left_boundary, right_boundary)

In [81]:
def proportions_diff_z_stat_ind(sample1, sample2):
    n1 = len(sample1)
    n2 = len(sample2)
    
    p1 = float(sum(sample1)) / n1
    p2 = float(sum(sample2)) / n2 
    P = float(p1*n1 + p2*n2) / (n1 + n2)
    
    return (p1 - p2) / np.sqrt(P * (1 - P) * (1. / n1 + 1. / n2))

In [82]:
def proportions_diff_z_test(z_stat, alternative = 'two-sided'):
    if alternative not in ('two-sided', 'less', 'greater'):
        raise ValueError("alternative not recognized\n"
                         "should be 'two-sided', 'less' or 'greater'")
    
    if alternative == 'two-sided':
        return 2 * (1 - scipy.stats.norm.cdf(np.abs(z_stat)))
    
    if alternative == 'less':
        return scipy.stats.norm.cdf(z_stat)

    if alternative == 'greater':
        return 1 - scipy.stats.norm.cdf(z_stat)

In [113]:
control['churn_bin'] = 0
control.loc[control.churn == 'True.', 'churn_bin'] = 1
control

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self.obj[item] = s


Unnamed: 0,state,account_length,area_code,intl_plan,vmail_plan,vmail_message,day_mins,day_calls,day_charge,eve_mins,...,night_calls,night_charge,intl_mins,intl_calls,intl_charge,custserv_calls,treatment,mes_estim,churn,churn_bin
0,KS,128,415,no,yes,25,265.1,110,45.07,197.4,...,91,11.01,10.0,3,2.70,1,1,0.65,False.,0
3,OH,84,408,yes,no,0,299.4,71,50.90,61.9,...,89,8.86,6.6,7,1.78,2,1,0.28,False.,0
8,LA,117,408,no,no,0,184.5,97,31.37,351.6,...,90,9.71,8.7,4,2.35,1,1,0.50,False.,0
12,IA,168,408,no,no,0,128.8,96,21.90,104.9,...,128,6.35,11.2,2,3.02,1,1,0.37,False.,0
17,VT,93,510,no,no,0,190.7,114,32.42,218.2,...,121,5.83,8.1,3,2.19,3,1,0.84,False.,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3319,WY,89,415,no,no,0,115.4,99,19.62,209.9,...,112,12.64,15.9,6,4.29,3,1,0.37,False.,0
3322,MD,62,408,no,no,0,321.1,105,54.59,265.5,...,72,8.12,11.5,2,3.11,4,1,0.63,True.,1
3323,IN,117,415,no,no,0,118.4,126,20.13,249.3,...,56,10.22,13.6,3,3.67,5,1,0.55,True.,1
3325,OH,78,408,no,no,0,193.4,99,32.88,116.9,...,109,10.95,9.3,4,2.51,2,1,0.65,False.,0


In [116]:
treatment_0['churn_bin'] = 0
treatment_0.loc[treatment_0.churn == 'True.', 'churn_bin'] = 1
treatment_0

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self.obj[item] = s


Unnamed: 0,state,account_length,area_code,intl_plan,vmail_plan,vmail_message,day_mins,day_calls,day_charge,eve_mins,...,night_calls,night_charge,intl_mins,intl_calls,intl_charge,custserv_calls,treatment,mes_estim,churn,churn_bin
1,OH,107,415,no,yes,26,161.6,123,27.47,195.5,...,103,11.45,13.7,3,3.70,1,0,0.55,False.,0
2,NJ,137,415,no,no,0,243.4,114,41.38,121.2,...,104,7.32,12.2,5,3.29,0,0,0.72,False.,0
6,MA,121,510,no,yes,24,218.2,88,37.09,348.5,...,118,9.57,7.5,7,2.03,3,0,0.28,False.,0
7,MO,147,415,yes,no,0,157.0,79,26.69,103.1,...,96,9.53,7.1,6,1.92,0,0,0.59,False.,0
11,RI,74,415,no,no,0,187.7,127,31.91,163.4,...,94,8.82,9.1,5,2.46,0,0,0.43,False.,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3321,VT,60,415,no,no,0,193.9,118,32.96,85.0,...,134,9.45,13.2,8,3.56,3,0,0.37,False.,0
3324,WV,159,415,no,no,0,169.8,114,28.87,197.7,...,82,8.72,11.6,4,3.13,1,0,0.59,False.,0
3326,OH,96,415,no,no,0,106.6,128,18.12,284.8,...,92,8.05,14.9,7,4.02,1,0,0.31,False.,0
3327,SC,79,415,no,no,0,134.7,98,22.90,189.7,...,128,9.96,11.8,5,3.19,2,0,0.49,False.,0


In [117]:
treatment_2['churn_bin'] = 0
treatment_2.loc[treatment_2.churn == 'True.', 'churn_bin'] = 1
treatment_2

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self.obj[item] = s


Unnamed: 0,state,account_length,area_code,intl_plan,vmail_plan,vmail_message,day_mins,day_calls,day_charge,eve_mins,...,night_calls,night_charge,intl_mins,intl_calls,intl_charge,custserv_calls,treatment,mes_estim,churn,churn_bin
4,OK,75,415,yes,no,0,166.7,113,28.34,148.3,...,121,8.41,10.1,3,2.73,3,2,0.45,False.,0
5,AL,118,510,yes,no,0,223.4,98,37.98,220.6,...,118,9.18,6.3,6,1.70,0,2,0.60,False.,0
9,WV,141,415,yes,yes,37,258.6,84,43.96,222.0,...,97,14.69,11.2,5,3.02,0,2,0.45,False.,0
10,IN,65,415,no,no,0,129.1,137,21.95,228.5,...,111,9.40,12.7,6,3.43,4,2,0.21,True.,1
14,IA,62,415,no,no,0,120.7,70,20.52,307.2,...,99,9.14,13.1,6,3.54,4,2,0.32,False.,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3302,LA,75,510,yes,no,0,153.2,78,26.04,210.8,...,100,6.91,7.8,3,2.11,1,2,0.29,False.,0
3314,MO,89,415,no,no,0,178.7,81,30.38,233.7,...,120,5.94,9.1,4,2.46,1,2,0.56,False.,0
3328,AZ,192,415,no,yes,36,156.2,77,26.55,215.5,...,83,12.56,9.9,6,2.67,2,2,0.59,False.,0
3329,WV,68,415,no,no,0,231.1,57,39.29,153.4,...,123,8.61,9.6,4,2.59,3,2,0.32,False.,0


Доверительный интервал для стратегии 0

In [120]:
print("95%% confidence interval for a difference between proportions: [%f, %f]" %\
      proportions_diff_confint_ind(control.churn_bin, treatment_0.churn_bin))

95% confidence interval for a difference between proportions: [-0.011583, 0.048489]


0 входит в интервал. Нулевую гипотезу отклонить не можем

Доверительный интервал для стратегии 2

In [121]:
print("95%% confidence interval for a difference between proportions: [%f, %f]" %\
      proportions_diff_confint_ind(control.churn_bin, treatment_2.churn_bin))

95% confidence interval for a difference between proportions: [0.009619, 0.068322]


0 не входит в интервал. Нулевую гипотезу отклоняем

z-тест для разности долей: стратегия 0

In [123]:
print("p-value: %f" % proportions_diff_z_test(proportions_diff_z_stat_ind(control.churn_bin, treatment_0.churn_bin)))

p-value: 0.228331


Нулевую гипотезу отклонить не можем (p > 0.025)

In [124]:
print("p-value: %f" % proportions_diff_z_test(proportions_diff_z_stat_ind(control.churn_bin, treatment_2.churn_bin)))

p-value: 0.009348


Нулевую гипотезу отклоняем (p < 0.025)

По итогам статистических проверок (хи-квадрат, доверительный интервал разности долей, z-критерий для разности долей) получаем:
- стратегия 0 не оказывает значимого влияния на отток клиентов
- стратегия 2 оказывает статистически значимое положительное влияния на отток клиентов

In [126]:
print("p-value: %f" % proportions_diff_z_test(proportions_diff_z_stat_ind(treatment_0.churn_bin, treatment_2.churn_bin)))

p-value: 0.156425


- treatment = 2 статистически значимо отличается от контрольной группы treatment = 1
- Отличие между treatment = 0 и treatment = 2 относительно влияния на уровень churn статистически незначимо