# Взаимоотношение двух категорийных переменных

Для изучения данного вопроса был создан набор данных ./files/npi_sample.csv

In [1]:
import pandas as pd

npi = pd.read_csv('./files/npi_sample.csv')

print(npi.head())

  influence blend_in special leader authority
0        no      yes     yes    yes       yes
1        no      yes      no     no        no
2       yes       no     yes    yes       yes
3       yes       no      no    yes       yes
4       yes      yes      no    yes        no


Данный набор содерижт колонки
- influence
    - yes - у меня есть врожденный талан влиять на людей
    - no - я не очень хорош во влиянии на людей
- blend_in
    - yes - я предпочитая сливаться с толпой
    - no - я люблю быть центрои внимания
- special
    - yes - я думаю что я особенный
    - no - я не считая себя лучше или хуже остальных
- leader
    - yes - я вижу себя как хорошего лидера
    - no - я не уверен что я был бы хорошим лидером
- authority
    - yes - я люблю иметь авторитет над людьми
    - no - я не против исполнять приказы

Для изучения взаимосвязи между двумя категорийными переменными используется **Таблица непредвиденных обстоятельств** (Conringency Tables)

Данную таблица тажке еще называют кросс таблицей, и она очень полезная для выведения сводной информации о двух переменных в одом месте. Далее покажем на практическом примере.

Для получения данной таблицы используется метод pandas **crosstab()** которая принимает две переменных типа *series* и возвращает таблицу

In [2]:
# предположим мы хотим понять есть ли взаимосвязь между данными колонок special и authority
# выведем кросс таблицу и сохраним в переменную special_authority_freq

special_authority_freq = pd.crosstab(npi.special, npi.authority)

print(special_authority_freq)

authority    no   yes
special              
no         4069  1905
yes        2229  2894


Из полученного результата можно сделать вывод что люди которые не считают что "Имеют авторитет над другими" также не считают себя "Особенными"

И наоборот большинство кто ответил что "Считает себя авторитетом" также считает себя "Особенным"

Числовые показатели это хорошо но не всегда понятно что они обозначают

Лучшее представление будет в случае использования пропорций

Для того чтобы получить данный показатель достаточно поделить каждый из полученных результатов на общее кол-во данных в наборе

In [3]:
# Давайте рассчитаем пропорции и сохраим данные в переменную special_authority_prop

special_authority_prop = special_authority_freq / len(npi)

print(special_authority_prop)

authority        no       yes
special                      
no         0.366676  0.171668
yes        0.200865  0.260791


## Маржинальная пропорция

Следующим этапом исследования взаимоотношений категорийных переменных является Маржинальная пропорция

Маржинальная пропорция состояит в том чтобы посчитать сумму каждого значения для каждой переменной. Подробнее на примере

In [4]:
# рассчитаем маржиналюную пропорцию для нашего случая и запишем значение в переменную authority_marginals

authority_marginals = special_authority_prop.sum(axis=0)

print(authority_marginals)

authority
no     0.567541
yes    0.432459
dtype: float64


In [5]:
# рассчитаем тот же показатель для special и запишем в переменную special_marginals

special_marginals = special_authority_prop.sum(axis=1)

print(special_marginals)

special
no     0.538344
yes    0.461656
dtype: float64


По результатам можно сказать что большинство людей не считают что "Имеют авторитет" и также большинство считает что не являются "Особенными"

## Ожидаемая кроссовая таблица в пропорциях

Ожидаемая кроссовая таблица это результат перемножения значений маржинальный показателей на значения кроссовой таблицы значений.

Но не требуется производить данное действие вручную достаточно воспользоваться методом библиотеки **scipy.stats -> chi2_conringency**

Данный метод принимает одну переменную (кроссовую таблицу) и возвращает 4 значения
- chi2
- pval
- dof
- expeceted

В данном случае нам интересно только значение **expeceted**

In [10]:
# Получим таблицу ожидаемых значений
from scipy.stats import chi2_contingency

chi2, pval, dof, expected = chi2_contingency(special_authority_freq)

print(special_authority_freq)
print(expected)

authority    no   yes
special              
no         4069  1905
yes        2229  2894
[[3390.48860052 2583.51139948]
 [2907.51139948 2215.48860052]]


Чем нам может помочь таблица ожидаемых значений?

Чем больше разница между значениями ожидаемых и фактических значений кроссовых таблиц, тем с большей уверенностью можно сказать что переменные взаимосвязаны.

## Статистика chi2 (Chi Square Statistic)

Данный показатель используется для расчета разности между двумя таблицами. Для расчета данного показателя мы просто можем просуммировать квадрат разности значений между исследуемыми и ожидаемыми значениями поделенное на ожидаемое значение.

Также данное значение мы получаем из метода chi2_contingency библиотеки scipy.stats

In [12]:
print(chi2)

679.1219526170606
