In [12]:
import pandas as pd
import numpy as np
import scipy as sp

from scipy import stats

def get_earnings(f_size):
    r = min(2, f_size)
    rest = f_size - r
    return r * 800 + np.random.normal(0, 100, 1)[0] + rest * 250

<h2>Отношение R</h2>
<h4>Сгенерируем данные выборки для примера</h4>
Пусть N = 1000, n = 100

In [13]:
fams = sp.random.poisson(1.5, 100) + 1
fams

array([2, 2, 2, 2, 2, 2, 2, 5, 2, 2, 2, 1, 2, 3, 2, 1, 3, 2, 2, 5, 1, 3,
       1, 3, 3, 4, 3, 3, 1, 3, 1, 1, 3, 2, 2, 3, 3, 5, 1, 1, 1, 2, 3, 1,
       1, 3, 2, 4, 2, 1, 2, 1, 3, 3, 3, 3, 2, 1, 3, 6, 1, 3, 3, 2, 3, 2,
       2, 2, 1, 2, 2, 3, 2, 2, 2, 5, 2, 3, 3, 3, 2, 4, 1, 2, 4, 3, 3, 4,
       2, 3, 1, 2, 1, 2, 2, 2, 1, 3, 4, 5])

In [14]:
df = pd.DataFrame([(f, get_earnings(f)) for f in fams], columns=['family_size', 'total_income'])
df

Unnamed: 0,family_size,total_income
0,2,1593.721472
1,2,1587.913303
2,2,1614.598465
3,2,1492.516791
4,2,1412.284666
...,...,...
95,2,1486.687685
96,1,877.135089
97,3,1855.336797
98,4,1951.873859


<h4>Найдем отношение R: общий заработок / количество человек в семье</h4>

In [16]:
R = df['total_income'].sum()/df['family_size'].sum()
R

659.0285108899203

Определим основные переменные

In [18]:
N=1000
n=len(df)
f=n/N
N, n, f

(1000, 100, 0.1)

In [19]:
x = df['family_size'].values
y = df['total_income'].values

In [20]:
x

array([2, 2, 2, 2, 2, 2, 2, 5, 2, 2, 2, 1, 2, 3, 2, 1, 3, 2, 2, 5, 1, 3,
       1, 3, 3, 4, 3, 3, 1, 3, 1, 1, 3, 2, 2, 3, 3, 5, 1, 1, 1, 2, 3, 1,
       1, 3, 2, 4, 2, 1, 2, 1, 3, 3, 3, 3, 2, 1, 3, 6, 1, 3, 3, 2, 3, 2,
       2, 2, 1, 2, 2, 3, 2, 2, 2, 5, 2, 3, 3, 3, 2, 4, 1, 2, 4, 3, 3, 4,
       2, 3, 1, 2, 1, 2, 2, 2, 1, 3, 4, 5])

In [21]:
y

array([1593.72147243, 1587.91330272, 1614.59846518, 1492.51679144,
       1412.28466649, 1497.1936943 , 1575.78202746, 2442.56984341,
       1533.74317386, 1621.71580175, 1535.17960524,  692.78826211,
       1412.2433069 , 1906.04074276, 1578.18954397,  753.69965402,
       1868.15087037, 1700.92160505, 1574.22169045, 2391.31394253,
        973.91595465, 1837.33055049,  729.47690865, 1929.83284763,
       1797.06299656, 2277.85847905, 1942.09647217, 1872.97717192,
        875.35870809, 1713.27693227,  709.29416062,  965.82416778,
       1796.51875497, 1726.29111306, 1602.72747336, 1864.64987146,
       1902.15122836, 2349.11833777,  774.92525809,  910.94603226,
        739.71126462, 1572.04254101, 1870.76827565,  694.91940931,
        880.79564335, 1881.68049485, 1303.06247123, 2047.30035157,
       1588.18578873,  816.62551091, 1674.32050621,  425.04060081,
       1714.36928011, 1836.44623845, 1685.44263247, 1880.331112  ,
       1550.58423238,  670.45567514, 1818.15711855, 2676.63895

Выборочная оценка R (в данном случае равна R)

In [30]:
R_o = y.mean()/x.mean()
R_o, R

(659.0285108899203, 659.0285108899203)

<h4>Посчитаем стандартную ошибку отношения R</h4>
Сперва дисперсия s2

In [22]:
s2 = ((y*y).sum() - 2*R*(x*y).sum() + (R**2)*(x*x).sum()) / (n-1)
s2

120366.27992444509

In [26]:
std = np.sqrt(s2)
std

346.93843823428546

Теперь стандартную ошибку s (с учетом поправки на конечность совокупности)

In [29]:
s = std * (np.sqrt(1-f))/(np.sqrt(n)*x.mean())
s

13.771326435338759

<b>Доверительный интервал</b> для отношения <br>
для больших n можно использовать нормальную аппроксимацию следующим образом:

In [49]:
perc = 0.95
alpha = 1 - perc
t = sp.stats.norm.ppf(1-alpha/2)

Rl = R_o - t*s
Rr = R_o + t*s
Rl,Rr

(632.037207057312, 686.0198147225286)

<h2>Доли p</h2><br>
Для предыдущего примера посчитаем <b>долю</b> семей, которые состоят из <b>более двух чловек</b>

In [35]:
df1 = df[df['family_size']>2]
df1

Unnamed: 0,family_size,total_income
7,5,2442.569843
13,3,1906.040743
16,3,1868.15087
19,5,2391.313943
21,3,1837.33055
23,3,1929.832848
24,3,1797.062997
25,4,2277.858479
26,3,1942.096472
27,3,1872.977172


Вычислим долю p, а также q = 1 - p

In [40]:
a = len(df1)
p = a/n
q = 1 - p
p,q

(0.41, 0.5900000000000001)

Посчитаем 95% <b>доверительный интервал</b> для доли p <br>

In [42]:
perc = 0.95
alpha = 1 - perc
t = sp.stats.norm.ppf(1-alpha/2)
t

1.959963984540054

In [45]:
ci_R = p + (t*np.sqrt(1-f)*np.sqrt((p*q)/(n-1)) + 1/(2*n))
ci_L = p - (t*np.sqrt(1-f)*np.sqrt((p*q)/(n-1)) + 1/(2*n))
ci_L, ci_R

(0.31308853624147015, 0.5069114637585298)

Если хотим получить оценку количества элементов в генеральной совокупности, домножаем на N

In [47]:
N*ci_L, N*ci_R

(313.08853624147014, 506.9114637585298)

Эти значения показывают, что в генеральной совокупности размера N=1000 количество семей из <b>болле двух человек</b> с 95% вероятностью будет равно значению из данного интервала