В этом задании вам предлагается проанализировать данные одной из американских телекоммуникационных компаний о пользователях, которые потенциально могут уйти.

Измерены следующие признаки:

* state — штат США
* account_length — длительность использования аккаунта
* area_code — деление пользователей на псевдорегионы, использующееся в телекоме
* intl_plan — подключена ли у пользователя услуга международного общения
* vmail_plan — подключена ли у пользователя услуга голосовых сообщений
* vmail_message — количество голосых сообщений, который пользователь отправил / принял
* day_calls — сколько пользователь совершил дневных звонков
* day_mins — сколько пользователь проговорил минут в течение дня
* day_charge — сколько пользователь заплатил за свою дневную активность
* eve_calls, eve_mins, eve_charge — аналогичные метрики относительно вечерней активности
* night_calls, night_mins, night_charge — аналогичные метрики относительно ночной активности
* intl_calls, intl_mins, intl_charge — аналогичные метрики относительно международного общения
* custserv_calls — сколько раз пользователь позвонил в службу поддержки
* treatment — номер стратегии, которая применялись для удержания абонентов (0, 2 = два разных типа воздействия, 1 = контрольная группа)
* mes_estim — оценка интенсивности пользования интернет мессенджерами
* churn — результат оттока: перестал ли абонент пользоваться услугами оператора

Давайте рассмотрим всех пользователей из контрольной группы (treatment = 1). Для таких пользователей мы хотим проверить гипотезу о том, что штат абонента не влияет на то, перестанет ли абонент пользоваться услугами оператора.

Для этого мы воспользуемся критерием хи-квадрат. Постройте таблицы сопряженности между каждой из всех 1275 возможных неупорядоченных пар штатов и значением признака churn. Для каждой такой таблицы 2x2 применить критерий хи-квадрат можно с помощью функции scipy.stats.chi2_contingency(subtable, correction=False).

Заметьте, что, например, (AZ, HI) и (HI, AZ) — это одна и та же пара. Обязательно выставьте correction=False (о том, что это значит, вы узнаете из следующих вопросов).

Сколько достигаемых уровней значимости оказались меньше, чем \alpha=0.05α=0.05?

In [1]:
import pandas as pd
import numpy as np

In [11]:
data = pd.read_csv('churn_analysis.csv', index_col = 0)
print(data.shape)
data.head()

(3333, 22)


Unnamed: 0,state,account_length,area_code,intl_plan,vmail_plan,vmail_message,day_mins,day_calls,day_charge,eve_mins,...,night_mins,night_calls,night_charge,intl_mins,intl_calls,intl_charge,custserv_calls,treatment,mes_estim,churn
0,KS,128,415,no,yes,25,265.1,110,45.07,197.4,...,244.7,91,11.01,10.0,3,2.7,1,1,0.65,False.
1,OH,107,415,no,yes,26,161.6,123,27.47,195.5,...,254.4,103,11.45,13.7,3,3.7,1,0,0.55,False.
2,NJ,137,415,no,no,0,243.4,114,41.38,121.2,...,162.6,104,7.32,12.2,5,3.29,0,0,0.72,False.
3,OH,84,408,yes,no,0,299.4,71,50.9,61.9,...,196.9,89,8.86,6.6,7,1.78,2,1,0.28,False.
4,OK,75,415,yes,no,0,166.7,113,28.34,148.3,...,186.9,121,8.41,10.1,3,2.73,3,2,0.45,False.


In [26]:
control_group = data[data.treatment == 1]
print(control_group.shape[0])
control_group.head()

1097


Unnamed: 0,state,account_length,area_code,intl_plan,vmail_plan,vmail_message,day_mins,day_calls,day_charge,eve_mins,...,night_mins,night_calls,night_charge,intl_mins,intl_calls,intl_charge,custserv_calls,treatment,mes_estim,churn
0,KS,128,415,no,yes,25,265.1,110,45.07,197.4,...,244.7,91,11.01,10.0,3,2.7,1,1,0.65,False.
3,OH,84,408,yes,no,0,299.4,71,50.9,61.9,...,196.9,89,8.86,6.6,7,1.78,2,1,0.28,False.
8,LA,117,408,no,no,0,184.5,97,31.37,351.6,...,215.8,90,9.71,8.7,4,2.35,1,1,0.5,False.
12,IA,168,408,no,no,0,128.8,96,21.9,104.9,...,141.1,128,6.35,11.2,2,3.02,1,1,0.37,False.
17,VT,93,510,no,no,0,190.7,114,32.42,218.2,...,129.6,121,5.83,8.1,3,2.19,3,1,0.84,False.


In [27]:
states = data.state.value_counts().index
states

Index(['WV', 'MN', 'NY', 'AL', 'OR', 'OH', 'WI', 'VA', 'WY', 'CT', 'ID', 'MI',
       'VT', 'TX', 'UT', 'IN', 'MD', 'KS', 'NJ', 'MT', 'NC', 'CO', 'NV', 'WA',
       'MA', 'RI', 'MS', 'AZ', 'FL', 'MO', 'ME', 'ND', 'NM', 'OK', 'DE', 'NE',
       'SD', 'SC', 'KY', 'IL', 'NH', 'AR', 'GA', 'DC', 'TN', 'HI', 'AK', 'LA',
       'PA', 'IA', 'CA'],
      dtype='object')

In [101]:
# contigency_table = pd.pivot_table(control_group, values = ['account_length'],
#                                   index = ['state'], columns = ['churn'],
#                                   fill_value = 0, aggfunc = 'count')
# contigency_table.head()
pt = []
contigency_table = pd.pivot_table(control_group, values = ['account_length'],
                                  index = ['state'], columns = ['churn'],
                                  fill_value = 0, aggfunc = 'count')
for i in range(0, len(states)):
    for j in range(0, len(states)):
        if j>i:
            pt.append(contigency_table[contigency_table.index == states[i]].append(contigency_table[contigency_table.index == states[j]]))

In [102]:
len(pt)

1275

In [103]:
from scipy import stats
p_values = []
for item in pt:
    p_values.append(stats.chi2_contingency(item, correction=False)[1])
p_values[:5]

[0.5210898861474764,
 0.7834317159514675,
 0.9112638909418003,
 0.894025427618912,
 0.4142161782425251]

In [104]:
p_values = pd.DataFrame(p_values)
p_values[p_values < 0.05].notnull().sum().sum()

34

In [105]:
stats.chi2_contingency(contigency_table, correction=False)[1]

0.7097590042778473



Применение критерия xи-квадрат для этих данных не обосновано, потому что не выполняются условия, при которых этот критерий дает правильные результаты.


Интерпретация числа достигаемых уровней значимости, меньших \alpha=0.05α=0.05, некорректна, поскольку не сделана поправка на множественную проверку гипотез.


<img src=image.png>

In [106]:
p_values_yets = []
for item in pt:
    p_values_yets.append(stats.chi2_contingency(item, correction=True)[1])
p_values_yets[:5]# увеличились

[0.8204775841205645,
 0.9553514456225954,
 0.8149590453144022,
 0.7956166811341342,
 0.6830913983096086]

In [107]:
p_values_yets = pd.DataFrame(p_values_yets)
p_values_yets[p_values_yets < 0.05].notnull().sum().sum()

0

In [109]:
p_values_yets[p_values_yets < p_values].notnull().sum().sum()

192

In [112]:
np.mean(p_values)

0    0.501827
dtype: float64

In [113]:
np.mean(p_values_yets)

0    0.664057
dtype: float64


Количество достигаемых уровней значимости, меньших, чем 0.05, в точности равно нулю. То есть поправка увеличила достигаемые уровни значимости настолько, что больше ни одно из значений достигаемого уровня значимости не попадает в диапазон от 0 до 0.05.

Достигаемые уровни значимости на наших данных, полученные с помощью критерия xи-квадрат с поправкой Йетса, в среднем получаются больше, чем соответствующие значения без поправки.



<img src='image2.png'>
     

scipy.stats.fisher_exact

In [117]:
p_values_fisher = []
for item in pt:
    p_values_fisher.append(stats.fisher_exact(item)[1])
p_values_fisher[:5]

[0.6897246376548335, 1.0, 1.0, 1.0, 0.6861682650805823]

In [118]:
np.mean(p_values)

0    0.501827
dtype: float64

In [121]:
np.mean(p_values_yets)

0    0.664057
dtype: float64

In [120]:
np.mean(p_values_fisher)

0.6483383060020681

Точный критерий Фишера на наших данных дает значения достигаемого уровня значимости в среднем значительно большие, чем xи-квадрат без поправки

Точный критерий Фишера всегда лучше, чем критерий xи-квадрат, потому что не использует аппроксимацию дискретного распределения непрерывным. Однако при увеличении размера выборки его преимущества по сравнению с критерем xи-квадрат уменьшаются, в пределе достигая нуля.

Точный критерий Фишера на наших данных дает значения достигаемого уровня значимости в среднем меньшие, чем xи-квадрат с поправкой Йетса


Давайте попробуем применить полученные знания о разных видах корреляции и ее применимости на практике.

Рассмотрим пару признаков day_calls и mes_estim. Посчитайте корреляцию Пирсона между этими признаками на всех данных, ее значимость.

Отметьте все верные утверждения.

In [125]:
stats.pearsonr(data['day_calls'], data['mes_estim']) # coef, p-value

(-0.05179435058757264, 0.0027798836869738384)

Еще раз рассмотрим пару признаков day_calls и mes_estim. Посчитайте корреляцию Спирмена между этими признаками на всех данных, ее значимость.

In [126]:
stats.spearmanr(data['day_calls'], data['mes_estim']) # coef, p-value

SpearmanrResult(correlation=0.043349880533927444, pvalue=0.012317367189170541)

Посчитанные корреляции и их значимости говорят лишь о том, что необходимо взглянуть на данные глазами и попытаться понять, что приводит к таким (противоречивым?) результатам.



Посчитайте значение коэффицента корреляции Крамера между двумя признаками: штатом (state) и оттоком пользователей (churn) для всех пользователей, которые находились в контрольной группе (treatment=1). Что можно сказать о достигаемом уровне значимости при проверке гипотезы о равенство нулю этого коэффициента?

In [127]:
def v_Cramer_correlation(table):
    chi_stat = stats.chi2_contingency(table)[0]
    k_min = np.min(table.shape)
    n = np.sum(np.sum(table))
    return np.sqrt(chi_stat/(n*(k_min-1)))

In [128]:
v_Cramer_correlation(contigency_table)

0.2003932150203332

In [131]:
stats.chi2_contingency(contigency_table)[1]

0.7097590042778473

Для вычисления коэффициента Крамера используется значение статистики xи-квадрат, на которую мы не можем положиться применительно к нашим данным.



Вы прослушали большой курс и к текущему моменту обладете достаточными знаниями, чтобы попытаться самостоятельно выбрать нужный метод / инструмент / статистический критерий и сделать правильное заключение.

В этой части задания вам нужно будет самостоятельно решить, с помощью каких методов можно провести анализ эффективности удержания (churn) с помощью раличных методов (treatment = 0, treatment = 2) относительно контрольной группы пользователей (treatment = 1).

Что можно сказать об этих двух методах (treatment = 0, treatment = 2)? Одинаковы ли они с точки зрения эффективности? Каким бы методом вы бы посоветовали воспользоваться компании?

Не забудьте про поправку на множественную проверку! И не пользуйтесь односторонними альтернативами, поскольку вы не знаете, к каким действительно последствиям приводят тестируемые методы (treatment = 0, treatment = 2) !

In [171]:
treatment_0 = data[data.treatment == 0].churn
treatment_0 = treatment_0.apply(lambda a: 0 if a == 'False.' else 1).values
treatment_1 = data[data.treatment == 1].churn
treatment_1 = treatment_1.apply(lambda a: 0 if a == 'False.' else 1).values
treatment_2 = data[data.treatment == 2].churn
treatment_2 = treatment_2.apply(lambda a: 0 if a == 'False.' else 1).values

In [177]:
print(np.mean(treatment_0), np.mean(treatment_1), np.mean(treatment_2))

0.14563106796116504 0.1640838650865998 0.12511332728921123


In [174]:
def permutation_t_stat_ind(sample1, sample2):
    return np.mean(sample1) - np.mean(sample2)
def get_random_combinations(n1, n2, max_combinations):
    index = list(range(n1 + n2))
    indices = set([tuple(index)])
    for i in range(max_combinations - 1):
        np.random.shuffle(index)
        indices.add(tuple(index))
    return [(index[:n1], index[n1:]) for index in indices]
def permutation_zero_dist_ind(sample1, sample2, max_combinations = None):
    joined_sample = np.hstack((sample1, sample2))
    n1 = len(sample1)
    n = len(joined_sample)
    
    if max_combinations:
        indices = get_random_combinations(n1, len(sample2), max_combinations)
    else:
        indices = [(list(index), filter(lambda i: i not in index, range(n)))
                    for index in itertools.combinations(range(n), n1)]
    
    distr = [joined_sample[list(i[0])].mean() - joined_sample[list(i[1])].mean()
             for i in indices]
    return distr
def permutation_test(sample, mean, max_permutations = None, alternative = 'two-sided'):
    if alternative not in ('two-sided', 'less', 'greater'):
        raise ValueError("alternative not recognized\n"
                         "should be 'two-sided', 'less' or 'greater'")
    
    t_stat = permutation_t_stat_ind(sample, mean)
    
    zero_distr = permutation_zero_dist_ind(sample, mean, max_permutations)
    
    if alternative == 'two-sided':
        return sum([1. if abs(x) >= abs(t_stat) else 0. for x in zero_distr]) / len(zero_distr)
    
    if alternative == 'less':
        return sum([1. if x <= t_stat else 0. for x in zero_distr]) / len(zero_distr)

    if alternative == 'greater':
        return sum([1. if x >= t_stat else 0. for x in zero_distr]) / len(zero_distr)

In [178]:
print("p-value for treatment 0, 1: %f" % permutation_test(treatment_0, treatment_1, max_permutations = 1000))
print("p-value for treatment 2, 1: %f" % permutation_test(treatment_2, treatment_1, max_permutations = 1000))
print("p-value for treatment 0, 2: %f" % permutation_test(treatment_0, treatment_2, max_permutations = 1000))

p-value for treatment 0, 1: 0.223000
p-value for treatment 2, 1: 0.012000
p-value for treatment 0, 2: 0.164000


In [188]:
# поправка на множественную гипотезу
from statsmodels.sandbox.stats.multicomp import multipletests 
p = [permutation_test(treatment_0, treatment_1, max_permutations = 1000), 
     permutation_test(treatment_2, treatment_1, max_permutations = 1000), 
     permutation_test(treatment_0, treatment_2, max_permutations = 1000)]
reject, p_corrected, a1, a2 = multipletests(p, 
                                            alpha = 0.05, 
                                            method = 'holm')
pd.DataFrame([p, p_corrected, reject])

Unnamed: 0,0,1,2
0,0.237,0.008,0.182
1,0.364,0.024,0.364
2,False,True,False



treatment = 2 статистически значимо отличается от контрольной группы treatment = 1

Отличие между treatment = 0 и treatment = 2 относительно влияния на уровень churn статистически незначимо.

In [189]:
def proportions_diff_z_stat_ind(sample1, sample2):
    n1 = len(sample1)
    n2 = len(sample2)
    
    p1 = float(sum(sample1)) / n1
    p2 = float(sum(sample2)) / n2 
    P = float(p1*n1 + p2*n2) / (n1 + n2)
    
    return (p1 - p2) / np.sqrt(P * (1 - P) * (1. / n1 + 1. / n2))

def proportions_diff_z_test(sample1, sample2, alternative = "two-sided"):
    if alternative not in ("two-sided", "less", "greater"):
        raise ValueError("alternative not recognized\n"
                         "should be \"two-sided\", \"less\" or \"greater\"")
    z_stat = proportions_diff_z_stat_ind(sample1, sample2)
    p_value = 0
    if alternative == 'two-sided':
        p_value = 2 * (1 - stats.norm.cdf(np.abs(z_stat)))
    elif alternative == 'less':
        p_value = stats.norm.cdf(z_stat)
    elif alternative == 'greater':
        p_value = 1 - stats.norm.cdf(z_stat)

    return (z_stat,p_value)

In [192]:
p = []
p.append(proportions_diff_z_test(treatment_0, treatment_1)[1])
p.append(proportions_diff_z_test(treatment_2, treatment_1)[1])
p.append(proportions_diff_z_test(treatment_2, treatment_0)[1])
reject, p_corrected, a1, a2 = multipletests(p, 
                                            alpha = 0.05, 
                                            method = 'holm')
pd.DataFrame([p, p_corrected, reject])

Unnamed: 0,0,1,2
0,0.228331,0.00934808,0.156425
1,0.312849,0.0280443,0.312849
2,False,True,False
