<div style="font-size:18pt; padding-top:20px; text-align:center">СЕМИНАР 6. <b>Статистика и </b> <span style="font-weight:bold; color:green">NumPy/SciPy</span></div><hr>
<div style="text-align:right;">Папулин С.Ю. <span style="font-style: italic;font-weight: bold;">(papulin_hse@mail.ru)</span></div>

<a name="0"></a>
<div><span style="font-size:14pt; font-weight:bold">Содержание</span>
    <ol>
        <li><a href="#1">Основные термины и обозначения</a></li>
        <li><a href="#2">Центральная предельная теорема</a>
        <li><a href="#3">Оценка параметров генеральной совокупности</a>
        <li><a href="#4">Доверительный интервал</a>
        <li><a href="#5">Проверка гипотез</a>
        <li><a href="#6">Источники</a>
        </li>
    </ol>
</div>

<p><b>Подлючение библиотек</b></p>

In [None]:
import numpy as np
from scipy import stats
import matplotlib.pyplot as plt
%matplotlib inline

<a name="1"></a>
<div style="display:table; width:100%; padding-top:10px; padding-bottom:10px; border-bottom:1px solid lightgrey">
    <div style="display:table-row">
        <div style="display:table-cell; width:80%; font-size:14pt; font-weight:bold">1. Основные термины и обозначения</div>
    	<div style="display:table-cell; width:20%; text-align:center; background-color:whitesmoke; border:1px solid lightgrey"><a href="#0">К содержанию</a></div>
    </div>
</div>

<p><b>Генеральная совокупность (population)</b></p>

<div>
<p>Основные характеристики генеральной совокупности (parameters):</p>
<ol>
<li>среднее значение (population mean) - $\mu$</li>
<li>дисперсия (population variance) - $\sigma^2$</li>
</ol>
</div>

<p>Среднее генеральной совокупности (population mean)</p>
<p> <center>$\mu = M(X) = \dfrac{1}{N}\displaystyle\sum_{i=1}^{N} x_i$, </center>
где $N$ - количество элементов в генеральной выборке.</p>

<p>Дисперсия генеральной совокупности (population variance)</p>
<p>$$\sigma^2 = D(X) = \frac{1}{N}\displaystyle\sum_{i=1}^{N} (x_i - \bar{x})^2$$</p>

<p><b>Выборка (sample)</b></p>

<div>
<p>Основные статистики выборки (statistics):</p>
<ol>
<li>среднее значение (sample mean) - $\bar{x}$</li>
<li>дисперсия (sample variance) - $s^2$</li>
</ol>
</div>

<p>Выборочное среднее значение (sample mean)</p>
<p><center>$\bar{x}=\dfrac{1}{n}\displaystyle\sum_{i=1}^{n} x_i$,</center>
где $n$ - количество элементов в выборке (размер выборки - sample size).</p>

<div>
<p>Выборочная дисперсия (sample variance)</p>
<p style="text-align:center">$s^2 = \dfrac{1}{n}\displaystyle\sum_{i=1}^{n} (x_i - \bar{x})^2$ для смещенной оценки (biased estimate),</p>
<p style="text-align:center">$\hat{s}^2 = \dfrac{1}{n-1}\displaystyle\sum_{i=1}^{n} (x_i - \bar{x})^2$ для несмещенной оценки (unbiased estimate)</p>
<p style="text-align:center">или</p>
<p style="text-align:center">$s_*^2 = \dfrac{1}{n}\displaystyle\sum_{i=1}^{n} (x_i - \mu)^2$ для <i>эффективной</i> оценки</p>
<p>Как правило, принимаем $s^2 \approx \hat{s}^2$ при $n > 30\text{-}40$ <p>
</div>

<p><b>Выборочное распределение (sampling distribution)</b></p>

<div>
<p>Основные характеристики выборочного распределения:</p>
<ol>
<li>среднее значение - $\mu_\bar{x}$ и $\mu_{s^2}$</li>
<li>дисперсия - $\sigma_\bar{x}^2$ и $\sigma_{s^2}^2$</li>
</ol>
</div>

<a name="2"></a>
<div style="display:table; width:100%; padding-top:10px; padding-bottom:10px; border-bottom:1px solid lightgrey">
    <div style="display:table-row">
        <div style="display:table-cell; width:80%; font-size:14pt; font-weight:bold">2. Центральная предельная теорема</div>
    	<div style="display:table-cell; width:20%; text-align:center; background-color:whitesmoke; border:1px solid lightgrey"><a href="#0">К содержанию</a></div>
    </div>
</div>

<p>Центральная предельная теоремa - группа теорем, определяющих условия возникновения нормального закона распределения <b>/ <a href="https://ru.wikipedia.org/wiki/%D0%A6%D0%B5%D0%BD%D1%82%D1%80%D0%B0%D0%BB%D1%8C%D0%BD%D0%B0%D1%8F_%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D1%8C%D0%BD%D0%B0%D1%8F_%D1%82%D0%B5%D0%BE%D1%80%D0%B5%D0%BC%D0%B0">wiki</a></b></p>

<p><b>Пример для среднего значения</b></p>

<p>Исходный закон распределение случайной величины</p>

In [None]:
x = np.arange(10)

fr = np.array([10, 20, 30, 20, 10, 15, 10, 20, 40, 10])
pk = fr / fr.sum()

myDistr = stats.rv_discrete(name='myDistribution', values=(x, pk))

In [None]:
y_pmf = myDistr.pmf(x) #закон распределения случайной величины
y_cdf = myDistr.cdf(x) #функция распределения случайной величины

In [None]:
plt.figure(1, figsize=[12,4])

plt.subplot(1,2,1)
plt.title("pmf")
plt.plot(x, y_pmf, "o-")
plt.grid(True)

plt.subplot(1,2,2)
plt.title("cdf")
plt.plot(x, y_cdf, "o-")
plt.grid(True)

<p>Характеристики (параметры) исходного распределения: $M(X)$, $D(X)$ и $\sigma$</p>

In [None]:
m = myDistr.mean()
m

In [None]:
v = myDistr.var()
v

In [None]:
sigma = myDistr.std()
sigma

<p>Разовая выборка размером $n$</p>

In [None]:
n = 10

myRD = myDistr.rvs(size = n)

In [None]:
xy = stats.itemfreq(myRD)
xy

In [None]:
xx = xy[:,0]
yy_pmf = xy[:,1] / len(myRD)
yy_pmf

In [None]:
plt.figure(1, figsize=[15,4])

plt.subplot(1,3,1)
plt.title("Histogram")
plt.hist(myRD, 30, normed=False, color="green", width=0.5)

plt.vlines(myRD, -0.2, 0.2, lw=2, color="yellow")
plt.plot(myRD, np.zeros(len(myRD)), "o", color="orange")
plt.grid(True)

plt.subplot(1,3,2)
plt.title("Normalized bars")
plt.bar(xx-0.25, yy_pmf, width=0.5, color="orange")
plt.xlim([-1, 10])
plt.grid(True)

plt.vlines(myRD, -0.02, 0.02, lw=2, color="yellow")
plt.plot(myRD, np.zeros(len(myRD)), "o", color="orange")
plt.grid(True)

plt.subplot(1,3,3)
plt.title("Normalized bars vs pmf")
plt.bar(xx-0.25, yy_pmf, width=0.5, color="orange")
plt.plot(x, y_pmf,"go-")
plt.xlim([-1, 10])

plt.vlines(myRD, -0.02, 0.02, lw=2, color="yellow")
plt.plot(myRD, np.zeros(len(myRD)), "o", color="orange")

plt.grid(True)

plt.show()

<p>Среднее значение выборки</p>

In [None]:
def plotGr_MyD(myd, num, x):
    xy = stats.itemfreq(myd)
    xx = xy[:,0] - 0.25
    yy_pmf = xy[:,1] / len(myd)
    
    plt.subplot(2,2,num)
    plt.annotate(r'Sample Mean: $\bar{x}$ = ' +  str(myd.mean()), (0.1,0.9), fontsize=15, xycoords='axes fraction')
    plt.title("Sample Size = "+str(10**(num)))
    
    plt.bar(xx, yy_pmf, width=0.5, color="orange")
    plt.plot(x, myDistr.pmf(x),"go-")
    plt.grid(True)

myds = [myDistr.rvs(size=10**i) for i in range(1,5)]

plt.figure(1, figsize=[12,10])
[plotGr_MyD(myds[i-1], i, x) for i in range(1, 5)]
plt.show()

#plt.figure(1, figsize=[15,4])

#plt.subplot(1,3,1)
#plt.title("Histogram")
#plt.hist(myRD-0.25, 30, normed=False, color="green", width=0.5)
#plt.hist(xm, 30)
#plt.show()

In [None]:
myRD.mean()

$m$ выборок размером n

In [None]:
n = 10 #размер выборки (sample size)
m = 10 #количество выборок (number of samples)

xm = np.array([myDistr.rvs(size=n).mean() for _ in range(m)])
xm

In [None]:
def plotGr_MyDMean(myd, num, n):
    plt.subplot(2,2,num)
    
    plt.title("Number of Samples = "+str(10**(num))+", Sample Size = "+str(n))
    plt.annotate(r'Mean of Samples Mean: $\hat{\mu}_{\bar{x}}$ = ' +  str(np.mean(myd)), 
                 (0.05,0.95), fontsize=12, xycoords='axes fraction')
    plt.annotate(r'Var of Samples Mean: $\hat{\sigma}_{\bar{x}}$ = ' +  str(np.var(myd)), 
                 (0.05,0.90), fontsize=12, xycoords='axes fraction')
    plt.hist(myd, 30, color="orange", normed=True)
    #plt.plot(x, myDistr.pmf(x),"go-")
    plt.grid(True)

myMeands = [[myDistr.rvs(size=n).mean() for _ in range(10**i)] for i in range(1,5)]
plt.figure(1, figsize=[12,10])
[plotGr_MyDMean(myMeands[i-1], i, n) for i in range(1, 5)]
plt.show()

In [None]:
n = 100

myMeands = [[myDistr.rvs(size=n).mean() for _ in range(10**i)] for i in range(1,5)]
plt.figure(1, figsize=[12,10])
[plotGr_MyDMean(myMeands[i-1], i, n) for i in range(1, 5)]
plt.show()

In [None]:
m = 1000

def plotGr_MyDMeanSampleSize(myd, num, n):
    plt.subplot(2,2,n)
    
    plt.title("Number of Samples = "+str(num)+", Sample Size = "+str(10**(n)))
    plt.annotate(r'Mean of Samples Mean: $\hat{\mu}_{\bar{x}}$ = ' +  str(np.mean(myd)), 
                 (0.05,0.95), fontsize=12, xycoords='axes fraction')
    plt.annotate(r'Var of Samples Mean: $\hat{\sigma}_{\bar{x}}$ = ' +  str(np.var(myd)), 
                 (0.05,0.90), fontsize=12, xycoords='axes fraction')
    plt.hist(myd, 30, color="orange", normed=True)
    #plt.plot(x, myDistr.pmf(x),"go-")
    plt.grid(True)

myMeands = [[myDistr.rvs(size=10**i).mean() for _ in range(m)] for i in range(1,5)]
plt.figure(1, figsize=[12,10])
[plotGr_MyDMeanSampleSize(myMeands[i-1], m, i) for i in range(1, 5)]
plt.show()

<a name="3"></a>
<div style="display:table; width:100%; padding-top:10px; padding-bottom:10px; border-bottom:1px solid lightgrey">
    <div style="display:table-row">
        <div style="display:table-cell; width:80%; font-size:14pt; font-weight:bold">3. Оценка параметров генеральной совокупности</div>
    	<div style="display:table-cell; width:20%; text-align:center; background-color:whitesmoke; border:1px solid lightgrey"><a href="#0">К содержанию</a></div>
    </div>
</div>

<a name = "3a"></a>
<div style = "display:table; width:100%">
    <div style = "display:table-row">
        <div style = "display:table-cell; width:80%; font-style:italic; font-weight:bold; font-size:12pt">
            a. Оценка среднего значения генеральной совокупности $\mu$ по данным выборки
        </div>
        <div style="display:table-cell; border:1px solid lightgrey; width:20%">
            <div style = "display:table-cell; width:10%; text-align:center; background-color:whitesmoke;">
                <a href="#3">Назад</a>
            </div>
            <div style = "display:table-cell; width:10%; text-align:center;">
                <a href="#3b">Далее</a>
            </div>
        </div>
    </div>
</div>

<p><i>Для повторной выборки (with replacement)</i></p>

<p>Выборочное среднее значение (sample mean) $\bar{x}$ есть несмещенная и состоятельная оценка средней генеральной совокупности $\mu$, т.е.</p>
<p> <center>$\mu_{\bar{x}} = M(\bar{x}) = \mu$, </center><br>
где $\mu_{\bar{x}}$ - cреднее значение выборочного распределения средних (mean of sampling distribution of the sample mean).</p>

<p>Дисперсия выборочного распределения средних (variance of sampling distribution of the sample mean)</p>
<p>$$\sigma_{\bar{x}}^2 = D(\bar{x})= \frac{\sigma^2}{n}$$</p>

<p>Стандартная ошибка выборки (standard error of the mean - $SE_\bar{x}$)</p>
$$SE_\bar{x} = \sqrt{\dfrac{\sigma^2}{n}} \approx \sqrt{\dfrac{s^2}{n}}$$

<a name = "3b"></a>
<div style = "display:table; width:100%">
    <div style = "display:table-row">
        <div style = "display:table-cell; width:80%; font-style:italic; font-weight:bold; font-size:12pt">
            b. Оценка дисперсии генеральной совокупности $\sigma$  по данным выборки 
        </div>
        <div style="display:table-cell; border:1px solid lightgrey; width:20%">
            <div style = "display:table-cell; width:10%; text-align:center; background-color:whitesmoke;">
                <a href="#3a">Назад</a>
            </div>
            <div style = "display:table-cell; width:10%; text-align:center;">
                <a href="#4">Далее</a>
            </div>
        </div>
    </div>
</div>

<p><i>Для повторной выборки (with replacement)</i></p>

<p>Выборочная дисперсия (variance mean) $s^2$ есть смещенная и состоятельная оценка дисперсии генеральной совокупности выборки $\sigma$, т.е.</p>
<p>$$\mu_{s^2} = M(s^2)= \dfrac{n-1}{n}\sigma^2$$ </p>

<p>Выборочная дисперсия $\hat{s}^2$ есть несмещенная и состоятельная оценка дисперсии генеральной совокупности выборки $\sigma$, т.е.</p>
<p>$$\mu_{\hat{s}^2}  = M(\hat{s}^2) = \sigma^2$$</p>

<p>При больших $n$ $\text{  } $$\mu_{s^2}\approx \mu_{\hat{s}^2}$</p>

<a name="4"></a>
<div style="display:table; width:100%; padding-top:10px; padding-bottom:10px; border-bottom:1px solid lightgrey">
    <div style="display:table-row">
        <div style="display:table-cell; width:80%; font-size:14pt; font-weight:bold">4. Доверительный интервал</div>
    	<div style="display:table-cell; width:20%; text-align:center; background-color:whitesmoke; border:1px solid lightgrey"><a href="#0">К содержанию</a></div>
    </div>
</div>

<p>Оценка параметра (доли, среднего значения, дисперсии) генеральной совокупности (population) по данным выборки (sample)</p>

<p><i><b>Доверительный интервал для генеральной средней</b></i></p>
<p><center>$\bar{x} - \Delta \leq \mu_\bar{x} \leq \bar{x} - \Delta$, </center><br>
где $\Delta$ - предельная ошибка (margin of error).</p>

<p><i>Уровень доверия</i> (confidence level) $\gamma$</p>
<p>Вероятность того, что отклонение выборочной средней $\bar{x}$ не превзойдет число $\Delta$</p>
<p>$$P(\left|\bar{x} - \mu_{\bar{x}}\right|\leq \Delta)=\gamma$$</p>

<p><b><i>Интерпретация доверительного интервала</i></b></p>
<p style="text-align:center">X%-ая уверенность, что параметр генеральной совокупности (например, среднее значение) лежит в определенном интервале. </p>

<p>Уровень доверия определяет насколько вероятно, что параметр <i>накрывается</i> доверительным интервалом</p>
<p><span style="color:red; font-weight:bold">ВАЖНО!</span> Это не означает, что интервал <i>содержит</i> параметр генеральной совокупности с определенной вероятностью</p>

<div>
<p><i><b>Доверительный интервал для нормального выборочного распределения:</b></i></p>
<ul>
<li>наблюдения в выборке независимы (размер выборки меньше 10% от генеральной совокупности)</li>
<li>большой размер выборки ($n$ больше 30)</li>
<li>pаспределение генеральной совокупности не имеет ярко выраженной скошенности (not strongly skewed)</li>
</ul>
</div>

<p>Доверительный интервал для среднего</p>
<p>$$\bar{x} - z \cdot SE_\bar{x}  \leq \mu_\bar{x} \leq \bar{x} + z \cdot SE_\bar{x}$$</p>

Если известны размер выборки $n$, выборочное среднее значение $\bar{x}$, выборочная дисперсия $s^2$ и среднее значение  $\mu$, то вероятность того, что среденее значение случайной выборки $\bar{X}$ будет меньше или равно $\bar{x}$, вычисляется следующим образом

<center><div style="display:table; width:35%">
    <div style="display:table-row;">
        <div style="display:table-cell; width:10%; padding:10px;">1)</div>
        <div style="display:table-cell; width:90%; padding:10px;">$SE_\bar{x} = \sqrt{\dfrac{\sigma^2}{n}} \approx \sqrt{\dfrac{s^2}{n}}$</div>
    </div>
        <div style="display:table-row;">
        <div style="display:table-cell; width:10%; padding:10px;">2)</div>
        <div style="display:table-cell; width:90%; padding:10px;">$z = \dfrac{\bar{x} - \mu_{\bar{x}}}{\sigma_\bar{x}} = \dfrac{\bar{x} - \mu}{SE_\bar{x}}$</div>
    </div>
        <div style="display:table-row;">
        <div style="display:table-cell; width:10%; padding:10px;">3)</div>
        <div style="display:table-cell; width:90%; padding:10px;">$P(\bar{X} \leq \bar{x})=P(Z \leq z)=\Phi_N(z)$</div>
    </div>
</div></center>

Если задана передельная ошибка $\Delta$ и известны размер выборки $n$, выборочное среднее значение $\bar{x}$ и выборочная дисперсия $s^2$, то доверительная вероятность $\gamma$ вычисляется следующим образом:

<center><div style="display:table; width:35%">
    <div style="display:table-row;">
        <div style="display:table-cell; width:10%; padding:10px;">1)</div>
        <div style="display:table-cell; width:90%; padding:10px;">$SE_\bar{x} = \sqrt{\dfrac{\sigma^2}{n}} \approx \sqrt{\dfrac{s^2}{n}}$</div>
    </div>
        <div style="display:table-row;">
        <div style="display:table-cell; width:10%; padding:10px;">2)</div>
        <div style="display:table-cell; width:90%; padding:10px;">$z = \dfrac{\bar{x} - \mu_{\bar{x}}}{\sigma_\bar{x}} = \dfrac{\bar{x} - \mu_{\bar{x}}}{SE_\bar{x}}=\dfrac{\Delta}{SE_\bar{x}}$</div>
    </div>
        <div style="display:table-row;">
        <div style="display:table-cell; width:10%; padding:10px;">3)</div>
        <div style="display:table-cell; width:90%; padding:10px;">$P(\left|\bar{x} - \mu_{\bar{x}}\right|\leq \Delta)=\Phi_N(z)-\Phi_N(-z)=\gamma$</div>
    </div>
</div></center>

<p>Если задан уровень доверия $\gamma$ и известны размер выборки $n$, выборочное среднее значение $\bar{x}$ и выборочная дисперсия $s^2$, то доверительный интервал рассчитывается следующим образом:</p>

<center><div style="display:table; width:30%">
    <div style="display:table-row;">
        <div style="display:table-cell; width:10%; padding:10px;">1)</div>
        <div style="display:table-cell; width:90%; padding:10px;">$SE_\bar{x} = \sqrt{\dfrac{\sigma^2}{n}} \approx \sqrt{\dfrac{s^2}{n}}$</div>
    </div>
        <div style="display:table-row;">
        <div style="display:table-cell; width:10%; padding:10px;">2)</div>
        <div style="display:table-cell; width:90%; padding:10px;">$\Phi_N(z) =0.5 + \dfrac{\gamma}{2} \to z$</div>
    </div>
        <div style="display:table-row;">
        <div style="display:table-cell; width:10%; padding:10px;">3)</div>
        <div style="display:table-cell; width:90%; padding:10px;">$\bar{x} - z \cdot SE_\bar{x}  \leq \mu_\bar{x} \leq \bar{x} + z \cdot SE_\bar{x}$</div>
    </div>
</div></center>

<p>Графики</p>

In [None]:
def getGraphOne(xran, x_cr, typefunc=0, df=5, lm=0):
    x = np.linspace(xran[0], xran[1], 1000)
    y = []
    
    if typefunc == 1:
        y = stats.t.pdf(x, df=df)
        pr = np.around(stats.t.cdf(x_cr, df=df), decimals=3)
        
        if lm == 1:
            plt.axvspan(x_cr, xran[1], color="g", alpha=0.1)
            plt.plot(x, y, lw=2, color="green")
            plt.title("t-distribution")
            plt.fill_between(x, 0, y, where=x>x_cr, facecolor='green', alpha=0.5)
            plt.axvline(x_cr, color="black", linestyle="--")

            ##xx = (xran[0] - x_cr) / 2 + x_cr
            ##yy = stats.t.pdf(xx, df=df) / 2
            plt.annotate("$1-F_{one}("+str(np.around(x_cr, decimals=3))+")="+str(1-pr)+"$", fontsize=14, xycoords='data',
                        xytext=(-1.5, 0.1), xy=(-2.6, 0.01)) #, arrowprops=dict(arrowstyle="->", connectionstyle="arc3"))            
        else:
            plt.axvspan(xran[0], x_cr, color="g", alpha=0.1)
            plt.plot(x, y, lw=2, color="green")
            plt.title("t-distribution")
            plt.fill_between(x, 0, y, where=x<= x_cr, facecolor='green', alpha=0.5)
            plt.axvline(x_cr, color="black", linestyle="--")

            ##xx = (xran[0] - x_cr) / 2 + x_cr
            ##yy = stats.t.pdf(xx, df=df) / 2
            plt.annotate("$F_{one}("+str(np.around(x_cr, decimals=3))+")="+str(pr)+"$", fontsize=14, xycoords='data',
                        xytext=(-1.5, 0.1), xy=(-2.6, 0.01)) #, arrowprops=dict(arrowstyle="->", connectionstyle="arc3"))
        

    else:
        y = stats.norm.pdf(x, loc=0, scale=1)
        pr = np.around(stats.norm.cdf(x_cr, loc=0, scale=1), decimals=3)
    
        if lm == 1:
            plt.axvspan(x_cr, xran[1], color="g", alpha=0.1)
            plt.plot(x, y, lw=2, color="green")
            plt.title("Standard Normal Distribution")

            plt.fill_between(x, 0, y, where=x>x_cr, facecolor='green', alpha=0.5)
            plt.axvline(x_cr, color="black", linestyle="--")

            plt.annotate("$1-\Phi_N("+str(np.around(x_cr, decimals=3))+")="+str(1-pr)+"$", (0.35,0.4), 
                         fontsize=14, xycoords='axes fraction')

        else:
            plt.axvspan(xran[0], x_cr, color="g", alpha=0.1)
            plt.plot(x, y, lw=2, color="green")
            plt.title("Standard Normal Distribution")

            plt.fill_between(x, 0, y, where=x<=x_cr, facecolor='green', alpha=0.5)
            plt.axvline(x_cr, color="black", linestyle="--")

            plt.annotate("$\Phi_N("+str(np.around(x_cr, decimals=3))+")="+str(pr)+"$", (0.35,0.4), 
                         fontsize=14, xycoords='axes fraction')
    
    plt.grid(True)
    
def getGraphTwo(xran, x_cr, typefunc=0, df=5, lm=0):
    x = np.linspace(xran[0], xran[1], 1000)
    y = []
    
    sdFunc = {0: stats.norm(loc=0, scale=1), 1: stats.t(df=df)}
    x_cr = abs(x_cr) 
    y = sdFunc[typefunc].pdf(x)   
    
    if lm == 0:
        pr = np.around(sdFunc[typefunc].cdf(x_cr) - sdFunc[typefunc].cdf(-x_cr), decimals=3)
        plt.axvspan(-x_cr, x_cr, color="g", alpha=0.1)
        plt.plot(x, y, lw=2, color="green")
        plt.title("Standard Normal Distribution") if typefunc==0 else plt.title("t-distribution")
        
        plt.fill_between(x, 0, y, where=y>sdFunc[typefunc].pdf(x_cr), facecolor='green', alpha=0.5)
        plt.axvline(-x_cr, color="black", linestyle="--")
        plt.axvline(x_cr, color="black", linestyle="--")
        
        plt.annotate("$\gamma("+str(np.around(x_cr, decimals=3))+")="+str(pr)+"$", (0.35,0.4), 
                     fontsize=14, xycoords='axes fraction')     
    
    elif lm == 1:
        pr = np.around(2*sdFunc[typefunc].cdf(-abs(x_cr)), decimals=3)
        plt.plot(x, y, lw=2, color="green")
        plt.axvspan(xran[0], -x_cr, color="g", alpha=0.1)
        plt.axvspan(x_cr, xran[1], color="g", alpha=0.1)
        plt.title("Standard Normal Distribution") if typefunc==0 else plt.title("t-distribution")
        
        plt.fill_between(x, 0, y, where=y<sdFunc[typefunc].pdf(x_cr), facecolor='green', alpha=0.5)
        plt.axvline(-x_cr, color="black", linestyle="--")
        plt.axvline(x_cr, color="black", linestyle="--")
        
        if typefunc == 1: 
            plt.annotate("$F_{two}("+str(np.around(x_cr, decimals=3))+")="+str(pr)+"$", fontsize=14, 
                     xy=(-2.6, 0.01), xycoords='data', xytext=(-1.5, 0.1))#, 
                             #arrowprops=dict(arrowstyle="->", connectionstyle="arc3"))
                #plt.annotate("", fontsize=14, xy=(2.6, 0.01), xycoords='data',
                #            xytext=(0.5, 0.09))#, arrowprops=dict(arrowstyle="->", connectionstyle="arc3"))
        else:
            plt.annotate("$2\cdot(1 - \Phi("+str(np.around(x_cr, decimals=3))+"))="+str(pr)+"$", 
                         (0.35,0.4), fontsize=14, xycoords='axes fraction')

        #plt.annotate("$\gamma=0.95$", (0.35,0.2), fontsize=14, xycoords='axes fraction')
        
    plt.grid(True)

In [None]:
plt.figure(1, figsize=[12, 4])

plt.subplot(1,2,1)
getGraphOne([-4,4], 1.96, typefunc=0, lm=0)
plt.subplot(1,2,2)
getGraphTwo([-4,4], 1.96, typefunc=0, lm=0)
plt.show()

<div>
<p><i><b>Доверительный интревал для выборки небольших размеров ($n$ меньше 30)</b></i></p>
<ul>
<li>наблюдения (элементы выборки) в выборке независимы (размер выборки меньше 10% от генеральной совокупности)</li>
<li>наблюдения должны подчиняться нормальному закону</li>
</ul>
</div>

<p>$$\bar{x} - t_{df} \cdot SE_\bar{x}  \leq \mu_\bar{x} \leq \bar{x} + t_{df} \cdot SE_\bar{x}$$</p>

Если известны размер выборки $n$, выборочное среднее значение $\bar{x}$, выборочная дисперсия $s^2$ и среднее значение  $\mu$, то вероятность того, что среденее значение случайной выборки $\bar{X}$ будет меньше или равно $\bar{x}$, вычисляется следующим образом

<center><div style="display:table; width:35%">
    <div style="display:table-row;">
        <div style="display:table-cell; width:10%; padding:10px;">1)</div>
        <div style="display:table-cell; width:90%; padding:10px;">$SE_\bar{x} = \sqrt{\dfrac{\sigma^2}{n}} \approx \sqrt{\dfrac{s^2}{n}}$</div>
    </div>
        <div style="display:table-row;">
        <div style="display:table-cell; width:10%; padding:10px;">2)</div>
        <div style="display:table-cell; width:90%; padding:10px;">$t_{df} = \dfrac{\bar{x} - \mu_{\bar{x}}}{\sigma_\bar{x}} = \dfrac{\bar{x} - \mu}{SE_\bar{x}}$</div>
    </div>
        <div style="display:table-row;">
        <div style="display:table-cell; width:10%; padding:10px;">3)</div>
        <div style="display:table-cell; width:90%; padding:10px;">$P(\bar{X} \leq \bar{x})=P(T_{df} \leq t_{df})=F_{one}(t_{df})$</div>
    </div>
</div></center>

Если задана передельная ошибка $\Delta$ и известны размер выборки $n$, выборочное среднее значение $\bar{x}$ и выборочная дисперсия $s^2$, то доверительная вероятность $\gamma$ вычисляется следующим образом:

<center><div style="display:table; width:35%">
    <div style="display:table-row;">
        <div style="display:table-cell; width:10%; padding:10px;">1)</div>
        <div style="display:table-cell; width:90%; padding:10px;">$SE_\bar{x} = \sqrt{\dfrac{\sigma^2}{n}} \approx \sqrt{\dfrac{\hat{s}^2}{n}}$</div>
    </div>
        <div style="display:table-row;">
        <div style="display:table-cell; width:10%; padding:10px;">2)</div>
        <div style="display:table-cell; width:90%; padding:10px;">$t_{df} = \dfrac{\bar{x} - \mu_{\bar{x}}}{\sigma_\bar{x}} = \dfrac{\bar{x} - \mu_{\bar{x}}}{SE_\bar{x}}=\dfrac{\Delta}{SE_\bar{x}}$</div>
    </div>
        <div style="display:table-row;">
        <div style="display:table-cell; width:10%; padding:10px;">3)</div>
        <div style="display:table-cell; width:90%; padding:10px;">$P(\left|\bar{x} - \mu_{\bar{x}}\right|\leq \Delta)=1-F_{two}(t_{df})=\gamma$</div>
    </div>
</div></center>

<p>Если задан уровень доверия $\gamma$ и известны размер выборки $n$, выборочное среднее значение $\bar{x}$ и выборочная дисперсия $s^2$, то доверительный интервал рассчитывается следующим образом:</p>

<center><div style="display:table; width:30%">
    <div style="display:table-row;">
        <div style="display:table-cell; width:10%; padding:10px;">1)</div>
        <div style="display:table-cell; width:90%; padding:10px;">$SE_\bar{x} = \sqrt{\dfrac{\sigma^2}{n}} \approx \sqrt{\dfrac{\hat{s}^2}{n}}$</div>
    </div>
        <div style="display:table-row;">
        <div style="display:table-cell; width:10%; padding:10px;">2)</div>
        <div style="display:table-cell; width:90%; padding:10px;">$F_{two}(t_{df}) =1 - \gamma \to t_{df}$</div>
    </div>
        <div style="display:table-row;">
        <div style="display:table-cell; width:10%; padding:10px;">3)</div>
        <div style="display:table-cell; width:90%; padding:10px;">$\bar{x} - t_{df} \cdot SE_\bar{x}  \leq \mu_\bar{x} \leq \bar{x} + t_{df} \cdot SE_\bar{x}$</div>
    </div>
</div></center>

<p>График $t_{df}$</p>

In [None]:
x = np.linspace(-5, 5, 100)
y_pdf = stats.norm.pdf(x, loc=0, scale=1)
y_cdf = stats.norm.cdf(x, loc=0, scale=1)

adf = [1,2,5,10, 15]

plt.figure(1, figsize=[12, 4])

legs = ["d.f. = " + str(adf[i]) for i in range(len(adf))]
legs.insert(0, "s.n.d")
plt.subplot(1,2,1)
plt.title("t-distribution, pdf")
plt.plot(x, y_pdf, lw=2, color="black")
for i in adf:
    pd = stats.t.pdf(x, i)
    plt.plot(x,pd)
plt.legend(legs, loc="upper right")

plt.grid(True)

plt.subplot(1,2,2)
plt.title("t-distribution, cdf")
plt.plot(x, y_cdf, lw=2, color="black")
for i in adf:
    pd = stats.t.cdf(x, i)
    plt.plot(x,pd)
plt.legend(legs, loc="lower right")
plt.grid(True)
plt.show()

In [None]:
plt.figure(1, figsize=[12, 4])

plt.subplot(1,2,1)
getGraphOne([-4,4], -1.81, typefunc=1, lm=0, df=10)
plt.subplot(1,2,2)
getGraphTwo([-4,4], 2.23, typefunc=1, df=10, lm=1)
plt.show()

<p>Условия использования z-значений</p>

<p>Вероятность того, что отклонение выборочной средней не превзойдет число $\Delta$</p>

$$P(\left|\bar{x} - \mu_{\bar{x}}\right|\leq \Delta)=\Phi(z)$$ - доверительная вероятность

$$\Delta = z\sigma_\bar{x}$$

<p><b>Пример</b></p>

<p>Среднее потребление воды 2 литра с дисперсией 0.7. Случайно выбраны 50 человек. Какая вероятность того, что им не хватит 110 литров воды?</p>

In [None]:
vol = 110
n = 50
mu =  2
sigma = 0.7

# 1) Среднее потребление воды человеком, чтобы хватило равно 110 литров
x_bar = vol / n

# 2) Вычисляем стандартную ошибку SE
se = sigma / np.sqrt(n)

# 3) Определяем z
z = (x_bar - mu) / se

# 4) Рассчитываем вероятность того, что в среднем на каждого придется меньше или равно x_bar литров
p = stats.norm.cdf(z, loc=0, scale=1)

# 5) Вероятность того, что им не хватит 110 литров воды
p_res = 1 - p
p_res

In [None]:
#Проверка
1 - stats.norm.cdf(x_bar, loc=mu, scale=se)

In [None]:
plt.figure(1, figsize=[12, 4])

plt.subplot(1,2,1)
getGraphOne([-4,4], z, lm=0)
plt.subplot(1,2,2)
getGraphOne([-4,4], z, lm=1)

plt.show()

<a name="5"></a>
<div style="display:table; width:100%; padding-top:10px; padding-bottom:10px; border-bottom:1px solid lightgrey">
    <div style="display:table-row">
        <div style="display:table-cell; width:80%; font-size:14pt; font-weight:bold">5. Проверка гипотез</div>
    	<div style="display:table-cell; width:20%; text-align:center; background-color:whitesmoke; border:1px solid lightgrey"><a href="#0">К содержанию</a></div>
    </div>
</div>

<a name = "5a"></a>
<div style = "display:table; width:100%">
    <div style = "display:table-row">
        <div style = "display:table-cell; width:80%; font-style:italic; font-weight:bold; font-size:12pt">
            a. Общие сведения 
        </div>
        <div style="display:table-cell; border:1px solid lightgrey; width:20%">
            <div style = "display:table-cell; width:10%; text-align:center; background-color:whitesmoke;">
                <a href="#5">Назад</a>
            </div>
            <div style = "display:table-cell; width:10%; text-align:center;">
                <a href="#5b">Далее</a>
            </div>
        </div>
    </div>
</div>

<p>Нулевая гипотеза $H_0$ - наблюдаемые данные соответствуют ранее полученным, нет изменений</p>
<p>Альтернативная гипотеза $H_A$ - наблюдаемые данные отличаются от ранее полученных, есть изменения</p>

<table>
<tr>
<th>Гипотеза $H_0$</th>
<th>Принимается</th>
<th>Отвергается</th>
</tr>
<tr>
<td><b>Верна</b></td>
<td>Правильное решение</td>
<td>Ошибка 1-го рода</td>
</tr>
<tr>
<td><b>Неверна</b></td>
<td>Ошибка 2-го рода</td>
<td>Правильное решение</td>
</tr>
</table>

<p><i>p-значение</i> (p-value) - вероятность наблюдения данных, которые были бы в пользу альтернативной гипотезы, также как и текущие данные, если нулевая гипотеза верна.</p>

<p>Малая величина p-value означает, что если нулевая гипотеза верна, то существует малая вероятность наблюдения данных по крайней мере на столько же экстремальных, как мы получили. p-value получают после проведения эксперимента, исследования.</p>

<p><i>Уровень значимости</i> (significance level) $\alpha$ - вероятность допустить ошибку 1-го рода, т.е. отвергнуть гипотезу $H_0$, когда она верна. <i>Уровень значимости</i> - допустимый уровень ошибки, устанавливается до проведения эксперимента, исследования.</p>

<p style="text-align:center">При <i>p-value</i> меньшем уровня значимости $\alpha$ отвергается нулевая гипотеза $H_0$</p>

In [None]:
def getSE(sigma, n):
    return sigma / np.sqrt(n)

def getZ(x, mu, se):
    return (x - mu) / se

def getPrByX(x, mu, se):
    return stats.norm.cdf(x, loc=mu, scale=se)

def getPrByZ(z):
    return stats.norm.cdf(z, loc=0, scale=1)

def getZbyPr2Tail(pr):
    return stats.norm.ppf((1-pr)/2, loc=0, scale=1)

def getZbyPr1Tail(pr):
    return stats.norm.ppf(1-pr, loc=0, scale=1)

def getPValue1Tail_Norm(z):
    return 1 - stats.norm.cdf(z, loc=0, scale=1)

def getPValue2Tail_Norm(z):
    return 2 * (stats.norm.cdf(-abs(z), loc=0, scale=1))

def getPValue2Tail_T(t, df):
    return 2 * stats.t.cdf(-abs(t), df=df)

def getPValue1Tail_T(t, df):
    return 1 - stats.t.cdf(t, df=df)

<a name = "5b"></a>
<div style = "display:table; width:100%">
    <div style = "display:table-row">
        <div style = "display:table-cell; width:80%; font-style:italic; font-weight:bold; font-size:12pt">
            b. Проверка гипотез со средним значением
        </div>
        <div style="display:table-cell; border:1px solid lightgrey; width:20%">
            <div style = "display:table-cell; width:10%; text-align:center; background-color:whitesmoke;">
                <a href="#5a">Назад</a>
            </div>
            <div style = "display:table-cell; width:10%; text-align:center;">
                <a href="#6">Далее</a>
            </div>
        </div>
    </div>
</div>

<p><b>Одна выборка</b></p>

<p>Если известны $\mu_{prev}$, $n$, $\bar{x}_{curr}$, $s_{curr}$, то:</p>
<p>$$H_0: \mu_{prev}=\mu_{curr}$$<p>
<p>$$H_A: \mu_{prev} \neq \mu_{curr}$$<p>

<p><b><i>Пример</i></b></p>

<p>Среднее потребление человеком воды в 2014 было 2 литра. Для оценки среднего потребления в 2015 году были случайно выбраны 100 человек. В резльтате получены следующие данные по выборке: среднее потребление воды 2.3, выборочная дисперсия 0.5. На основании выборки можно ли утверждать, что среднее потребление воды изменилось в 2015 по сравнению с 2014? Допустимый уровень ошибки 1-го рода 0.05.</p>

<p>$$H_0: \mu_{2014}=\mu_{2015}$$<p>

In [None]:
mu_2014 = 2
x_bar_2015 = 2.3
s_2015 = 1
n = 110
alpha = 0.05

# 1) Вычисляем стандартную ошибку SE
se = getSE(s_2015, n)
print("SE =", se)

# 2) Z-score
z = getZ(x_bar_2015, mu_2014, se)
print("z-score =", z)

# 3) P-Value 
pvalue = getPValue2Tail_Norm(z)
print("p-value =", pvalue)

print("alpha =", alpha)

if alpha > pvalue:
    print("alpha > p-value")
    print("Отказываемся от нулевую гипотезы: полагаем, что потребление воды отличается в 2014 и 2015")
else:
    print("alpha <= p-value")
    print("Принимаем нулевую гипотезу: нет достаточных доказательств, что потребление различно в 2014 и 2015")

In [None]:
plt.figure(1, figsize=[12, 4])

plt.subplot(1,2,1)
xx = abs(stats.norm.ppf(alpha/2, loc=0, scale=1))
plt.axvline(-xx, lw=2, color="orange", linestyle="-")
plt.axvline(xx, lw=2, color="orange", linestyle="-")
plt.axvspan(-xx, xx, color="orange", alpha=0.1)
getGraphTwo([-4,4], z, lm=0)

plt.subplot(1,2,2)
plt.axvline(-xx, lw=2, color="orange", linestyle="-")
plt.axvline(xx, lw=2, color="orange", linestyle="-")
plt.axvspan(-xx, xx, color="orange", alpha=0.1)
getGraphTwo([-4,4], z, lm=1)

plt.show()

<p><b>Одна парная выборка</b></p>

<table width=30%>
<tr>
<th>Наблюдение</th>
<th>$X_1$</th>
<th>$X_2$</th>
<th>$X_1-X_2$</th>
</tr>
<tr>
<td>1</td>
<td>$x_{1,1}$</td>
<td>$x_{2,1}$</td>
<td>$x_{diff,1}$</td>
</tr>
<tr>
<td>2</td>
<td>$x_{1,2}$</td>
<td>$x_{2,2}$</td>
<td>$x_{diff,2}$</td>
</tr>
<tr>
<td>$\vdots$</td>
<td>$\vdots$</td>
<td>$\vdots$</td>
<td>$\vdots$</td>
</tr>
<tr>
<td>$n$</td>
<td>$x_{1,n}$</td>
<td>$x_{2,n}$</td>
<td>$x_{diff,n}$</td>
</tr>
</table>

$$x_{diff,i}=x_{1,i}-x_{2,i}$$

<p>Если известны $n$, $\bar{x}_{diff}$, $s_{diff}$, то:</p>
<p>$$H_0: \mu_{diff}=0$$<p>
<p>$$H_A: \mu_{diff} \neq 0$$<p>

<p><b>Средние значения двух выборок</b></p>

<p>Если известны $n_{treated}$, $\bar{x}_{treated}$, $s_{treated}$ и $n_{control}$, $\bar{x}_{control}$, $s_{control}$, то:</p>
<p>$$H_0: \mu_{treated}-\mu_{control}=0$$<p>
<p>$$H_A: \mu_{treated}-\mu_{control} \neq 0$$<p>

$$SE_{\mu_{treated}-\mu_{control}} = \sqrt{\dfrac{\sigma_{treated}^2}{n_{treated}}+\dfrac{\sigma_{control}^2}{n_{control}}} \approx \sqrt{\dfrac{s_{treated}^2}{n_{treated}}+\dfrac{s_{control}^2}{n_{control}}}$$

$$z = \dfrac{(\bar{x}_{treated} - \bar{x}_{control}) - (\mu_{\bar{x}_{treated}} - \mu_{\bar{x}_{control}})}{SE_{\mu_{treated}-\mu_{control}} }$$

<a name="6"></a>
<div style="display:table; width:100%; padding-top:10px; padding-bottom:10px; border-bottom:1px solid lightgrey">
    <div style="display:table-row">
        <div style="display:table-cell; width:80%; font-size:14pt; font-weight:bold">6. Источники</div>
    	<div style="display:table-cell; width:20%; text-align:center; background-color:whitesmoke; border:1px solid lightgrey"><a href="#0">К содержанию</a></div>
    </div>
</div>

Кремер Н.Ш. Теория вероятностей и математическая статистика<br>
<a href="https://www.openintro.org/stat/textbook.php?stat_book=os">OpenIntro Statistics 3rd Edition</a><br>
<a href="http://www.kean.edu/~fosborne/bstat/07b2means.html">Hypothesis Testing of the Difference Between Two Population Means</a><br>
<a href="https://www.khanacademy.org/math/probability/statistics-inferential">Inferential statistics</a><br>