### Аналитика категориальных переменных

In [32]:
import pandas as pd
import scipy.stats as stats
import numpy as np

import seaborn as sns
from sklearn.preprocessing import OneHotEncoder as SklearnOneHotEncoder
from statsmodels.regression.linear_model import OLS

#### Критерий Хи -квадрат для одной случайной величины

Критерий Хи-квадрат(или критерий согласия Пирсона) используется для проверки того, соответствует ли категориальная случайная величина выбранному распределению. Есть всего 2 важных условия:
1. Все наблюдения независимы;
2. Количество наблюдений в каждой ячейке больше 5;

Рассмотрим пример с определением того, честная ли у нас игральная кость. Пусть мы сделали 600 бросков игральной кости и записали в массив под номером каждой грани количество раз, которое она выпала.

In [3]:
cube = [70, 110, 20, 300, 40, 60]

Для использования критерия сначала нам необходимо сформулировать предположение(Н0 гипотезу) о честности игральной кости и выразить его в виде вероятностного распределения. И зафиксировать уровень значимости 5%.

Данное предположение может быть описано равномерным распределением.

Теперь необходимо посчитать, сколько выпадений каждой грани мы ожидаем при справедливости нашего предположения.Если вероятность получить каждую грань одинакова, то и ожидаем мы в итоге получить одинаковое количество выпадений каждой грани. То есть:

In [2]:
trusted_cube = [100, 100, 100, 100, 100, 100]

После того как ожидаемое количество выпадений посчитано, мы можем вручную посчитать статистику критерия Хи-квадрат:
(данная величина принадлежит к распределению Хи-квадрат с n-1 степенью свободы)
![image.png](attachment:image.png)
![image-2.png](attachment:image-2.png)

Пот таблице значений ищем значение под количесвто степеней свободы и уровень значимости, которое мы хотим проверить. В нашем случае уровень значимости 5% и соответствующее значение квантили - 12.59. Мы видим, что значение статистики очень сильно превосходит критическое значение, а значит с вероятностью минимум в 95% с костью что то не так.

In [18]:
#Проверим результат с помощью statmodels
stats.chisquare(cube, trusted_cube)

Power_divergenceResult(statistic=526.0, pvalue=1.9468087243178006e-111)

Критерий Хи-квадрат для двух случайных величин
Критерий Хи квадрат для двух случайных величин расчитывается так же как для одной случайной величины, только теперь он вместо абстракции-идеальной модели сравнивать другую группу stats.chisquare(группа1, группа2)

Очень полезный инструмент, варианты применения Хи-квадрата:
1. сравнение распределения тестового и теоритического;
2. сравнение распределения двух тестовых(например распределления пользователей по городам в андроид и ios);
3. для проведения А-В теста (например на конверсиях);


### Линейная регрессия для оценки влияния категориального фактора на метрику 

Мы рассмотрим подход dummy переменных, которое преобразовывает каждое значение категориальной фичи в отдельную колонку содержащую 0, если в этой строке этой категории нет, и 1 если эта категория присутствует.

Почему же линейная регрессия способна хорошо себя показать?

Для начала распишем что такое линейная регрессия:

![image-2.png](attachment:image-2.png)

Если подойти чуть строже, то линейная регрессия оценивает математическое ожидание Y, при условии Х, т.е:

![image-3.png](attachment:image-3.png)

В нашем случае переменная преобразовывается из бинарной в категориальную, т.е. мы получаем оценку матожидания при условии присутствия или отсутствия категории. Т.е.  коэффициент перед dummy-переменной мы можем трактовать как прирост к метрике, если у нас 'включена' данная категория. 

![image-4.png](attachment:image-4.png)

Простой пример, который мы можем здесь провести - это аналитика влияния промо акций на метрики, например на средний чек. Промо акция - это категориальная переменная, которую мы преобразуем в dummy-переменную. Этот пример позволит понять, что именно означает коэффициент a в модели линейной регрессии - а он означает прирост к среднему чеку, если на заказе было применено промо. А b- это просто средний чек по всем заказам без промо.

In [34]:
class OneHotEncoder(SklearnOneHotEncoder):
    def __init__(self, **kwargs):
        super(OneHotEncoder, self).__init__(**kwargs)
        self.fit_flag = False
        
    def fit(self, X, **kwargs):
        out = super().fit(X)
        self.fit_flag = True
        return out
    
    def transform(self, X, **kwargs):
        sparse_matrix = super().transform(X)
        new_columns = self.get_new_columns(X)
        d_out = pd.DataFrame(sparse_matrix.toarray(), columns=new_columns, index=X.index)
        return d_out
    
    def fit_transform(self, X, **kwargs):
        self.fit(X)
        return self.transform(X)
    
    def get_new_columns(self, X):
        new_columns = []
        for i, column in enumerate(X.columns):
            j = 0
            while j < len(self.categories_[i]):
                new_columns.append(f'{column}_<{self.categories_[i][j]}>')
                j += 1
        return new_columns
