In [1]:
import pandas as pd
import numpy as np
%matplotlib inline
import matplotlib.pyplot as plt
import pylab 
import scipy.stats as stats
np.set_printoptions(suppress=True)

In [2]:
# Прочитаем данные.
df = pd.read_csv('stat.csv', encoding='cp1251', names=['sick_leaves', 'age', 'gender'], skiprows=[0])

Посмотрим на данные

In [3]:
df.head()

Unnamed: 0,sick_leaves,age,gender
0,5,39,Ж
1,4,54,М
2,4,26,М
3,5,42,М
4,4,29,М


In [4]:
df.shape

(237, 3)

Всего 237 измерений.

In [5]:
df['sick_leaves'].value_counts()

3    54
4    48
2    47
1    30
5    20
6    14
7    10
0     9
8     5
Name: sick_leaves, dtype: int64

Сотрудники болели от 0 до 8 дней.

Посчитаем сколько всего женщин

In [6]:
n_w = df[df['gender'] == 'Ж']['gender'].count()
n_w

98

Посмотрим сколько женщин болело более 2х дней

In [7]:
n_w_sick = df[(df['gender'] == 'Ж') & (df['sick_leaves'] > 2)]['sick_leaves'].count()
n_w_sick

67

Посчитаем пропорцию женщин, болевших более 2х дней среди всех женщин

In [8]:
women_prop = n_w_sick / n_w
women_prop

0.68367346938775508

Посчитаем сколько всего мужчин

In [9]:
n_m = df[(df['gender'] == 'М')]['gender'].count()
n_m

139

Посмотрим сколько мужчин болело более 2х дней

In [10]:
n_m_sick = df[(df['gender'] == 'М') & (df['sick_leaves'] > 2)]['sick_leaves'].count()
n_m_sick

84

Посчитаем пропорцию мужчин, болевших более 2х дней среди всех мужчин

In [11]:
men_prop = n_m_sick / n_m
men_prop

0.60431654676258995

Похоже, что наше изначальные предположение, что мужчины берут более 2х дней больничного чаще женщин неверно. 

Предположим, что данные которые нам предоставлены отобраны случайно и независимо друг от друга.

Докажем, что женщины берут более 2х дней больничного татичтически значимо чаще мужчин.

$H_0$: Пропорции мужчин, которые берут больничный более 2х дней, среди всех мужчин и женщин, которые берут больничный более 2х дней, среди всех женщин равны ($p_m = p_w$).

$H_A$: Пропорция женщин, которые берут больничный более 2х дней, среди всех женщин больше пропорции мужчин, которые берут больничный более 2х дней, среди всех мужчин ($p_w > p_m$)

Выберем в качестве уровня значимости p-value = 0.05

Посчитаем Z-score $z=\frac{\hat{p_w}-\hat{p_m}}{\sqrt{\hat{p}(1-\hat{p})(\frac{1}{n_w} + \frac{1}{n_m})}}$, где $\hat{p}=\frac{n_w \hat{p_w} + n_m \hat{p_m}}{n_w + n_m}$

In [12]:
p_w_m = (n_w * women_prop + n_m * men_prop)/(n_w + n_m)
p_w_m

0.6371308016877637

In [13]:
z = (women_prop - men_prop) / np.sqrt(p_w_m * (1 - p_w_m) * (1/n_w + 1/n_m))
z

1.2512431983794325

In [14]:
stats.t.sf(z, n_w + n_m - 2)

0.10604496891876007

Для полученного Z-score p-value < 0.107, что не позволяет отвергнуть $H_0$ в пользу $H_A$.

Чтобы доказать, что более молодые сотрудники болеют реже старших коллег возпользуемся методом, который мы уже использовали выше.

Посчитаем сколько было тех, кому 35 или менее лет.

In [15]:
n_young = df[df['age'] <= 35]['age'].count()
n_young

57

Посчитаем сколько было тех, кто болел более 2х дней среди тех, кому 35 или менее лет

In [16]:
young_sick = df[(df['age'] <= 35) & (df['sick_leaves'] > 2)]['sick_leaves'].count()
young_sick

36

Посчитаем пропорцию тех, кто болел более 2х дней среди тех, кому 35 или менее лет.

In [18]:
young_prop = young_sick / n_young
young_prop

0.63157894736842102

Посчитаем сколько было тех, кто старше 35

In [19]:
n_old = df[df['age'] > 35]['age'].count()
n_old

180

Посчитаем сколько было тех, кто болел более 2х дней среди тех, кто старше 35

In [20]:
old_sick = df[(df['age'] > 35) & (df['sick_leaves'] > 2)]['sick_leaves'].count()
old_sick

115

Посчитаем пропорцию тех, кто болел более 2х дней среди тех, кто старше 35.

In [22]:
old_prop = old_sick / n_old
old_prop

0.63888888888888884

Докажем, что те, кто старше 35 лет болеют статичтически значимо чаще тех, кому 35 и меньше.

Предположим, что данные которые нам предоставлены отобраны случайно и независимо друг от друга.

$H_0$: Пропорции тех, кто старше 35 и тех, кому 35 и менее лет, одинаковы среди тех кто болел более 2х дней ($p_o = p_y$).

$H_A$: Пропорция тех, кто старше 35 больше пропорци тех, кому 35 и менее лет, среди тех кто болел более 2х дней ($p_o > p_y$)

Выберем в качестве уровня значимости p-value = 0.05

Посчитаем Z-score Посчитаем Z-score $z=\frac{\hat{p_o}-\hat{p_y}}{\sqrt{\hat{p}(1-\hat{p})(\frac{1}{n_o} + \frac{1}{n_y})}}$, где $\hat{p}=\frac{n_o \hat{p_o} + n_y \hat{p_y}}{n_o + n_y}$

In [23]:
p_o_y = (n_old * old_prop + n_young * young_prop)/(n_old + n_young)
p_o_y

0.6371308016877637

In [24]:
z_o_y = (old_prop - young_prop) / np.sqrt(p_o_y * (1 - p_o_y) * (1/n_old + 1/n_young))
z_o_y

0.10002856920035127

In [25]:
stats.t.sf(z, n_old + n_young - 2)

0.10604496891876007

Для полученного Z-score p-value < 0.107, что не позволяет отвергнуть $H_0$ в пользу $H_A$.