### Анализ статистической значимости кампании

Исходные данные для анализа значимости:


|                     | Целевая группа  | Контрольная группа |
| -------------       |:-------------:  | :----------------: |
| Размер сегмента     | 100 000         | 10 000             |
| Кол-во покупателей  | 5 000           |    450             |

Для того, чтобы определить является ли кампания значима, возможно применить критерий [хи-квадрат](http://machinelearning.ru/wiki/index.php?title=%D0%9A%D1%80%D0%B8%D1%82%D0%B5%D1%80%D0%B8%D0%B9_%D1%85%D0%B8-%D0%BA%D0%B2%D0%B0%D0%B4%D1%80%D0%B0%D1%82). [Таблица сопряженности](https://ru.wikipedia.org/wiki/%D0%A2%D0%B0%D0%B1%D0%BB%D0%B8%D1%86%D0%B0_%D1%81%D0%BE%D0%BF%D1%80%D1%8F%D0%B6%D1%91%D0%BD%D0%BD%D0%BE%D1%81%D1%82%D0%B8) в общем виде:


|                              | Исход есть (1)      | Исхода нет (0)                 | Всего                          |
| -------------                |:------------------: | :----------------------------: | :----------------------------: |
| Фактор риска есть (1)        |    A                | B                              | A + B                          |
| Фактор риска отсутствует (0) |    C                | D                              | C + D                          |
| Всего                        | A + C               | B + D                          | A+B+C+D                                |

Таблица сопряженности для нашего случая:


|                     | Кол-во покупателей  | Размер выборки не покупателей  | Всего                          |
| -------------       |:------------------: | :----------------------------: | :----------------------------: |
| Целевая группа      | 5000                | 95 000                         | 100 000                        |
| Контрольная группа  | 450                 | 9550                           | 10 000                         |
| Всего               | 5450                | 104550                         | 110 000                               |

Для того, чтобы применить критерий хи-квадрат необходимо знание ожидаемого количества наблюдений для каждой из ячеек таблицы сопряженности (при условии справедливости нулевой гипотезы об отсутствии взаимосвязи) путем перемножения сумм рядов и столбцов с последующим делением полученного произведения на общее число наблюдений. Общий вид таблицы ожидаемых значений представлен ниже:


|                               | Исход есть (1)          | Исхода нет (0)         | Всего   |
    |  -------------                | :---------------------: | :--------------------: | :-----: |                                                                     |
| Фактор риска есть (1)         | (A+B)*(A+C) / (A+B+C+D) | (A+B)*(B+D)/ (A+B+C+D) | A + B   |
| Фактор риска отсутствует (0)  | (C+D)*(A+C)/ (A+B+C+D)  | (C+D)*(B+D)/ (A+B+C+D) | C + D   |
| Всего                         | A + C                   | B + D                  | A+B+C+D |

Рассчитаем таблицу ожидаемых значений для нашего случая:

In [1]:
A = 5000
B = 95000
C = 450
D = 9550
x = [A, B, C, D]

d = 1/(A+B+C+D)

y = [0]*4
y[0] = (A+B)*(A+C)*d
y[1] = (A+B)*(B+D)*d
y[2] = (C+D)*(A+C)*d
y[3] = (C+D)*(B+D)*d
print([round(i, 2) for i in y])

[4954.55, 95045.45, 495.45, 9504.55]


|                               | Исход есть (1)          | Исхода нет (0)         | Всего                          |
|  -------------                | :---------------------: | :--------------------: | :----------------------------: |
| Фактор риска есть (1)         | 4954.55                 | 95045.45               | 100 000                        |
| Фактор риска отсутствует (0)  | 495.45                  | 9504.55                | 10 000                         |
| Всего                         | 5450                    | 104550                 | 110 000                               |


Используя формулу для вычисления хи-квадрат ([link](http://www.machinelearning.ru/wiki/index.php?title=%D0%9A%D1%80%D0%B8%D1%82%D0%B5%D1%80%D0%B8%D0%B9_%D1%85%D0%B8-%D0%BA%D0%B2%D0%B0%D0%B4%D1%80%D0%B0%D1%82)) получаем:

In [2]:
total_list = [0]*4
for i in range(4):
    total_list[i] = (x[i]-y[i])**2/y[i]
chi_square = sum(total_list)
print(chi_square)

4.8262760015619515


Рассчитаем количество степеней свободы для нашей задачи:

In [3]:
print((2-1) * (2-1))

1


Для нашей задачи имеем одну степень свободы. В соответствии с [квантилями распределения_хи-квадрат](https://ru.wikipedia.org/wiki/%D0%9A%D0%B2%D0%B0%D0%BD%D1%82%D0%B8%D0%BB%D0%B8_%D1%80%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D1%8F_%D1%85%D0%B8-%D0%BA%D0%B2%D0%B0%D0%B4%D1%80%D0%B0%D1%82) получаем, что наше значение превышает квантиль 0.95, т.е. 3,8415. Таким образом получаем, что результат кампании значим, и его имеет смысл запускать.