In [1]:
import numpy as np
import pandas as pd


from scipy.stats import norm, chi2_contingency
import statsmodels.api as sm


In [2]:
#  Данные о смертности после аварии 
#  среди тех, кто пристегнул ремень
#  и среди тех, кто не пристегнул ремень

#                survived died
#  no seat belt     1781  135
#  seat belt        1443   47

In [3]:
#   Версия 1. Прямые вычисления

s1 = 135            #  число успехов     выборка А
n1 = 1781 + s1      #  число испытаний   выборка А
s2 = 47             #  число успехов     выборка Б
n2 = 1443  + s2     #  число испытаний   выборка Б
p1 = s1/n1               #  оценка вероятности успеха выборка А
p2 = s2/n2               #  оценка вероятности успеха выборка Б
p = (s1 + s2)/(n1+n2)    #  оценка вероятности успеха выборка А+Б
z = (p2-p1)/ ((p*(1-p)*((1/n1)+(1/n2)))**0.5)     #  z-метка

p_value = norm.cdf(-abs(z))

#  z-метка и p-значение
print(['{:.12f}'.format(a) for a in (abs(z), p_value * 2)])



['5.009616324309', '0.000000545387']


In [4]:
#   Версия 2. Используем  proportions_ztest

z1, p_value1 = sm.stats.proportions_ztest([s1, s2], [n1, n2])

#  z-метка и p-значение
print(['{:.12f}'.format(b) for b in (z1, p_value1)])



['5.009616324309', '0.000000545387']


In [5]:
#   Версия 3. Используем  chi2_contingency

#  Избегайте, пока Вы не разобрались с критерием хи-квадрат,
#  почему ответ такой же, как ранее!!!

arr = np.array([[s1, n1-s1], [s2, n2-s2]])
chi2, p_value3, dof, exp = chi2_contingency(arr, correction=False)

print(['{:.12f}'.format(d) for d in (chi2**0.5, p_value3)])

['5.009616324309', '0.000000545387']


Все решения дают один и тот же ответ!

In [6]:
#  односторонние альтернативные гипотезы
#  alternative (string in ['two-sided', 'smaller', 'larger'])
z1, p_value1 = sm.stats.proportions_ztest([s1, s2], [n1, n2], alternative='larger')

print(['{:.12f}'.format(b) for b in (z1, p_value1)])


['5.009616324309', '0.000000272693']


In [7]:
#  chi2_contingency для анализа таблиц Pandas
#  повторение предыдцщего анализа

contingency_table = pd.DataFrame([[135, 1781], [47, 1443]],
                                 index=['no seat belt', 'seat belt'],
                                 columns=['died', 'survived'])
contingency_table

Unnamed: 0,died,survived
no seat belt,135,1781
seat belt,47,1443


In [8]:
res = chi2_contingency(contingency_table, correction=False)
print ('p-value: {0}'.format(res[1]))

p-value: 5.453865409256355e-07


In [None]:
#  Данные о смертности после аварии 
#  среди тех, кто пристегнул ремень
#  и среди тех, кто не пристегнул ремень

#                survived died
#  no seat belt     1781  135
#  seat belt        1443   47



RESULT
                   WIN LOSS TOTAL
Clay              1090 171 1261
Surface Nonclay   2747 446 3193
Total             3837 617 4454



In [2]:
s1 = 1090           #  число успехов     выборка А
n1 = 1261      #  число испытаний   выборка А
s2 = 2747             #  число успехов     выборка Б
n2 = 3193     #  число испытаний   выборка Б



#   Версия 2. Используем  proportions_ztest

z1, p_value1 = sm.stats.proportions_ztest([s1, s2], [n1, n2])

#  z-метка и p-значение
print(['{:.12f}'.format(b) for b in (z1, p_value1)])



['0.354570750872', '0.722911191632']


In [None]:
RESULT
            WIN LOSS TOTAL
Clay            1660 863 2523
Surface Nonclay 3658 2715 6373
Total           5318 3578 8896

In [3]:
s1 = 1660           #  число успехов     выборка А
n1 = 2523      #  число испытаний   выборка А
s2 = 3658             #  число успехов     выборка Б
n2 = 6373     #  число испытаний   выборка Б



#   Версия 2. Используем  proportions_ztest

z1, p_value1 = sm.stats.proportions_ztest([s1, s2], [n1, n2])

#  z-метка и p-значение
print(['{:.12f}'.format(b) for b in (z1, p_value1)])



['7.279826592693', '0.000000000000']


In [None]:
WIN LOSS TOTAL
Clay            570 692 1262
Surface Nonclay 911 2269 3180
Total           1481 2961 4442

In [4]:
s1 = 570           #  число успехов     выборка А
n1 = 1262      #  число испытаний   выборка А
s2 = 911             #  число успехов     выборка Б
n2 = 3180     #  число испытаний   выборка Б


#   Версия 2. Используем  proportions_ztest

z1, p_value1 = sm.stats.proportions_ztest([s1, s2], [n1, n2])

#  z-метка и p-значение
print(['{:.12f}'.format(b) for b in (z1, p_value1)])


['10.531957990552', '0.000000000000']
