# Задача
У нас есть набор данных **npi_sample.csv**

Данный набор даных представляет собой опрос с 5-ю вопросами

Колонки набора данных (тип данных всех значений набора данных являются логическими, слева ответ положительный справа отрицательный):
- influence - У меня есть талант влиять на людей / Я не очень хорошь во влиянии на людей
- blend_in - Я предпочитаю сливаться с толпой / Я люблю быть в центре внимания
- special - Я считаю себя особенным / Я не лучше и не хуже большинства людей
- leader - Я считаю себя хорошим лидером / Я не уверен смог бы я стать хорошим лидером
- authority - Мне нравится иметь авторитет над людьми / Я не против выполнять приказы

## Задание
- Составить кросстаблицу с кол-вом
- Составить кросстаблицу с пропорцией
- Расчитать маржиналью пропорцию
- Составить таблицу ождаемых значений
- Указать chi2 параметр

In [2]:
# Импортируем библиотеки
import pandas as pd
from scipy.stats import chi2_contingency
import numpy as np

# Загружаем набор данных в переменную
npi = pd.read_csv('npi_sample.csv')

# Распечатываем пару строк набора данных
print(npi.head())

  influence blend_in special leader authority
0        no      yes     yes    yes       yes
1        no      yes      no     no        no
2       yes       no     yes    yes       yes
3       yes       no      no    yes       yes
4       yes      yes      no    yes        no


In [4]:
# Для анализа возьмем две переменные blend_in и special
# Составляем кросстаблицу
cross_blend_special_freq = pd.crosstab(npi.blend_in, npi.special)
print(cross_blend_special_freq)
cross_blend_special_prop = cross_blend_special_freq / len(npi)
print(cross_blend_special_prop)

special     no   yes
blend_in            
no        1221  2178
yes       4753  2945
special         no       yes
blend_in                    
no        0.110030  0.196269
yes       0.428314  0.265387


Судя по полученным результатам мы можем сказать
- что люди которые считают себя особенными приблизительно в равной степень любят и не любят смешиваться с толпой
- и напротив люди которые не считают себя особенными очень часто любят смешиваться с толпой

In [5]:
# Рассчитаем маржинальную пропорцию
blend_in_marginal = cross_blend_special_prop.sum(axis=0)
print(blend_in_marginal)
special_marginal = cross_blend_special_prop.sum(axis=1)
print(special_marginal)

special
no     0.538344
yes    0.461656
dtype: float64
blend_in
no     0.306299
yes    0.693701
dtype: float64


По полученным значениям можем сказать что:
- приблизительно в равной степени все опрошенные люди считают себя особенными и обычными
- но при этом большинство любит смешиваться с толпой

In [6]:
# Составим таблицу ожидаемых вероятностей и показатель chi2
chi2, pval, dof, expected = chi2_contingency(cross_blend_special_freq)
print('Исследуемые данные')
print(cross_blend_special_freq)
print("Ожидаемые значения")
print(expected)

Исследуемые данные
special     no   yes
blend_in            
no        1221  2178
yes       4753  2945
Ожидаемые значения
[[1829.83022438 1569.16977562]
 [4144.16977562 3553.83022438]]


По полученным данным можно сказать что благодаря наглядной разнице между ожидаемыми и исследуемыми значениями между данными параметрами есть зависимость

In [7]:
# Посмотрим на значение chi2
print('Размер исследуемой таблицы 2 х 2 = 4')
print('Значение CHI2', chi2)

Размер исследуемой таблицы 2 х 2 = 4
Значение CHI2 631.5051574353496


Судя по показателю CHI2 и его огромной разницей между размером таблицы и самим показателем

Можно с уверенностью сказать между данными параметрами есть взаимосвязь
- Люди не считающие себя особенными в большей степени любят смешиваться с толпой
- Люди считающие себя особенными приблизительно в равной сетпени любят и не любят смешиваться с толпой