In [1]:
import pandas as pd
import numpy as np

from scipy import stats
from sympy import *
import matplotlib.pyplot as plt

pd.options.display.float_format = '{:,.4f}'.format

import warnings
warnings.filterwarnings("ignore")


# Задача 1. 

Килограмм атлантического лосося на среднеоптовых торгах стоит $1000$ руб. Одна из торговых фирм выиграла тендер, проводимый методом запроса котировок. ФАС, получив жалобу другого участника о том, что выигравшая фирма систематически демпингует (занижает предлагаемую цену), при проверке жалобы установила на основе случайно выборки $17$ договоров с поставщиками, что средняя цена, указанная в договоре поставки по итогам торгов, составила $940$ руб. с дисперсией $3600 руб^2$. В ответ с точностью до сотых запишите наблюдаемое значение статистики при проверке гипотезы об обоснованности жалобы на фирму, выигравшую тендер. Уровень значимости $\alpha  = 0,05$

$$H_0: a = 1000$$
$$H_1: a < 1000$$

In [2]:
a = 1000
mean  = 940
var = 3600
n = 17

T = ((mean - a) / np.sqrt(var)) * np.sqrt(n)

T

-4.123105625617661

In [3]:
stats.t.cdf(T, df=n-1)

0.0003984989495131264

**p-value ниже** уровня статистической значимости $\alpha = 0.05$, принять нулевую гипотезe не можем. Следовательно, **компания демпингует**. 

# Задача 2

Ожидается, что добавление специальных веществ уменьшит жесткость воды. По оценке жесткости воды до после добавления специальных веществ по $40-ка$ и $50-ти$ пробам соответственно получим средние значения жесткости (в стандартных единицах), равные $4.0$ и $0.8$. Дисперсия измерений в обоих случаях предполагается равно $0,25$. Подтверждают ли эти результаты ожидаемый эффект? Принять $α = 0,05$. Контролируемая величина имеет нормальное распределение. 

$$H_0: a_1 = a_2$$
$$H_1: a_1 > a_2$$

$$X \sim N(a_1, \sigma^2=0.25)$$
$$Y \sim N(a_2, \sigma^2=0.25)$$

#### Решение 

Статистика критерия при неизвестной дисперсии генеральной совокупности, но равных дисперсиях выборок:

$$Z_{набл} = \frac{\overline{x} - \overline{y}}{\sqrt{\frac{\sigma^2_X}{n} + \frac{\sigma^2_Y}{m}}}$$ 

In [4]:
a_1, a_2 = 4.0, 0.8
n, m = 40, 50
var = 0.25

In [5]:
z = (a_1 - a_2) / np.sqrt((var/n) + (var/m))

z

30.16988933062603

In [6]:
stats.norm.sf(z)

2.941821472464861e-200

**p-value ниже** уровня статистической значимости $\alpha = 0.05$, принять нулевую гипотезe не можем. Следовательно, добавление специальных веществ **уменьшает жесткость воды**. Влияние реагента существенно, результаты подтверждают ожидаемый эффект

# Задача 3

Производительность каждого из агрегатов $А$ и $В$ составила (в кг вещества за час работы):

|Номер замера|1|2|3|4|5|
|---|---|---|---|---|---|
|Агрегат А|14.1|13.1|14.7|13.7|14.0|
|Агрегат В|14.0|14.5|13.7|12.7|14.1|

Можно ли считать производительность агрегатов $А$ и $В$ одинаковой в предложении, что обе выборки получены из нормального распределенных генеральных совокупностей, при уровне значимости $\alpha=0.1$ 

$$H_0: a_1 = a_2$$
$$H_1: a_1 \neq a_2$$

In [30]:
df = pd.DataFrame([[14.1, 13.1, 14.7, 13.7, 14.0], 
                    [14.0, 14.5, 13.7, 12.7, 14.1]],
                   columns=range(1, 6), 
                   index=['Агрегат А', 'Агрегат В']).T

In [31]:
mean_a = df['Агрегат А'].mean()
mean_b = df['Агрегат В'].mean()

var_a = df['Агрегат А'].var()
var_b = df['Агрегат В'].var()

m = df['Агрегат А'].count()
n = df['Агрегат В'].count()

print(mean_a, mean_b, var_a, var_b)

13.919999999999998 13.8 0.34199999999999997 0.46000000000000035


#### Проверим гипотезу о равенстве дисперсий

$$H_0: \sigma^2_1 = \sigma^2_2$$
$$H_1: \sigma^2_1 \neq \sigma^2_2$$

In [32]:
T = var_a / var_b
T

0.7434782608695646

In [10]:
stats.f.cdf(T, dfn=4, dfd=4) * 2

0.7808942950674872

In [33]:
T = var_b / var_a
T

1.345029239766083

In [34]:
stats.f.sf(T, dfn=4, dfd=4)*2

0.7808942950674874

$p-value$ **выше** уровня статистической значимости  $\alpha=0.05$ , отвергнуть нулевую гипотезe не можем. Следовательно, принимаем, что наши **дисперсии равны**. 

#### Рассчитаем статистику критерия для неизвестных, но равных дисперсий 

$$t = (\frac{\overline{x} - \overline{y}}{s}) \cdot \sqrt{\frac{m \cdot n}{m + n}}$$ 

$$s^2 = (\frac{(m-1) \cdot s^2_x + (n-1) \cdot s^2_y}{m + n - 2})$$ 

#### Расчет вручную 

In [13]:
sqrt_s = ((m - 1) * var_a + (n - 1) * var_b) / (m + n - 2)
sqrt_s

0.40100000000000013

In [14]:
T = (mean_a - mean_b) / np.sqrt(sqrt_s) * np.sqrt((m*n)/(m+n))
T

0.29962570166334695

In [15]:
stats.t.sf(T, df=m+n-2)*2

0.7720997680308299

$p-value$ **выше** уровня статистической значимости $\alpha=0.05$, отвергнуть нулевую гипотезe не можем. Следовательно, **производительность агрегатов одинаковая**.

#### Pассчет пакетом stats 

In [16]:
stats.ttest_ind(df['Агрегат А'], df['Агрегат В'], equal_var=True)

Ttest_indResult(statistic=0.29962570166334695, pvalue=0.7720997680308299)

$p-value$ **выше** уровня статистической значимости $\alpha=0.1$, отвергнуть нулевую гипотезe не можем. Следовательно, **производительность агрегатов одинаковая**.

# Задача 4

Обычно на конец финансового года средний размер кредиторской задолженности ОАО составлял $18$ млн. у.е. Основываясь на данных $82$ счетов со средним размером задолженности в $17.75$ млн. у.е. и стандартным отклонением $900$ тыс. у.е. финансовый директор на заседании правления сообщил, что принятые его службой меры помогли уменьшить в текущем году задолженность перед контрагентами, и просит выделить ему дополнительную премию за достигнутые результаты в улучшении финансовой дисциплины. Помогите правлению ОАО принять верное решение в отношении хадатайства финансового директора о премировании, проверив его утверждение на уровне значимости $\alpha = 0.05$. В ответ запишите критическое значение статистического критерия с точностью до сотых. 

$$H_0: a = 18$$
$$H_1: a < 18$$


$$T = (\frac{\overline{x} - a_0}{S}) \cdot \sqrt{n}$$ 

In [41]:
a = 18
mean  = 17.75
std = 0.9
var = std**2
n = 82

T = ((mean - a) / np.sqrt(var)) * np.sqrt(n)

T

-2.515384760593727

In [43]:
stats.t.ppf(0.05, df=n-1)

-1.663883912866253

In [16]:
stats.t.cdf(T, df=n-1)

0.006933688946715202

**p-value ниже** уровня статистической значимости $\alpha = 0.05$, принять нулевую гипотезe не можем. Следовательно, **принятые службой меры помогли уменьшить в текущем году задолженность перед контрагентами**. 

# Задача 5

Венчурная компания принимает решение о прекращении отношений с девелопером, если показатель риска по портфелю его инвестиционных проектов (средний квадрат отконения величин денежных потоков в $i-e$ месяца проекта) начинает превышать $7.5$ (млн. $у.е.^2$). Для принятия решения о продолжении венчурного финансирования компания, по итогам изучения отчетности по $16$ случайно отобранным инвестиционным проектам, получает среднюю величину денежного потока $12$ (млн. у.е.) с дисперсией $10$ (млн. $у.е.^2$). Является ли статистически значимым такое увеличение показателя риска? Уровень статистической значимости $\alpha=0.1$. В ответ запишите критическое значение статистического критерия, при необходимости округлив его до десятых. 

$$H_0: \sigma^2 = \sigma^2_0$$
$$H_1: \sigma^2 > \sigma^2_0$$

$$T = \frac{(n-1) \cdot s^2}{\sigma^2_0}$$ 

In [38]:
var = 7.5
s = 10
n = 16

T = ((n - 1) * s) / var

T

20.0

In [39]:
stats.chi2.ppf(0.9, df=n-1)

22.307129581578693

In [40]:
stats.chi2.sf(T, df=n-1)

0.17193268937660083

**p-value выше** уровня статистической значимости $\alpha = 0.05$, отвергнуть нулевую гипотезe не можем. Следовательно, **не нужно принимать решение о прекращении отношений с девелопером**. 

# Задача 6

Психолог измерял время сложной сенсомоторной реакции выбора (в мс) в контрольной и экспериментальной группах. В экспериментальную группу ($X$) входили $9$ спортсменов высокой квалификации. Контрольной группой ($Y$) являлись $8$ человек, активно не занимающихся спортом. Психолог проверяет гипотезу о том, что средняя скорость сложной сенсомоторной реакции выбора у спорсменов выше, чем эта же виличина у людей, не занимающихся спортом.

|X|Y|
|---|---|
|504|580|
|560|692|
|420|700|
|600|621|
|580|640|
|530|561|
|490|680|
|580|630|
|470|-|

$$H_0: a_1 = a_2$$
$$H_1: a_1 < a_2$$

In [17]:
X = np.array([504, 560, 420, 600, 580, 530, 490, 580, 470])
Y = np.array([580, 692, 700, 621, 640, 561, 680, 630])

mean_x = X.mean()
mean_y = Y.mean()

var_x = X.var()
var_y = Y.var()

m = X.size
n = Y.size

var_x = (m/(m-1)) * var_x
var_y = (n/(n-1)) * var_y

print(mean_x, mean_y, var_x, var_y, m, n)

526.0 638.0 3579.0 2596.285714285714 9 8


#### Проверим гипотезу о равенстве дисперсий

$$H_0: \sigma^2_1 = \sigma^2_2$$
$$H_1: \sigma^2_1 \neq \sigma^2_2$$

In [18]:
T = var_y / var_x
T

0.7254221051371094

In [19]:
stats.f.cdf(T, dfn=m-1, dfd=n-1) * 2

0.6589561794267188

$p-value$ **выше** уровня статистической значимости  $\alpha=0.05$ , отвергнуть нулевую гипотезe не можем. Следовательно, принимаем, что наши **дисперсии равны**. 

#### Рассчитаем статистику критерия для неизвестных, но равных дисперсий 

$$t = (\frac{\overline{x} - \overline{y}}{s}) \cdot \sqrt{\frac{m \cdot n}{m + n}}$$ 

$$s^2 = (\frac{(m-1) \cdot s^2_x + (n-1) \cdot s^2_y}{m + n - 2})$$ 

#### расчет вручную

In [20]:
sqrt_s = ((m - 1) * var_x + (n - 1) * var_y) / (m + n - 2)
sqrt_s

3120.4

In [21]:
T = ((mean_x - mean_y) / np.sqrt(sqrt_s)) * np.sqrt((m*n)/(m+n))
T

-4.12624181242505

In [22]:
stats.t.cdf(T, df=m+n-2)

0.00044862781820971206

#### расчет с помощью stats

In [23]:
stats.ttest_ind(X, Y, equal_var=True, alternative='less')

Ttest_indResult(statistic=-4.12624181242505, pvalue=0.00044862781820971206)

$p-value$ **меньше** уровня статистической значимости  $\alpha=0.05$ , принять нулевую гипотезe не можем. Следовательно, **средняя скорость сложной сенсомоторной реакции выбора у спорсменов выше**. 

# Задача 7

Предположим, в ходе проверки эффективности тренинга каждому из $8$ членов группы задавался вопрос "Насколько часто твое мнение совпадает с мнением группы?" - дважды, до и после тренинга. Для ответов использовалась $10-балльная$ шкала: $1$ - никогда, ..., $5$ - в половине случаев,..., $10$ - всегда. Проверялась гипотеза о том, что в результате тренинга самооценка конформизма участников возрастает ($\alpha=0.05$). Составим таблицу для промежуточных вычислений:

|№|X_1|X_2|
|---|---|---|
|$1$|3|4|
|$2$|6|6|
|$3$|5|6|
|$4$|2|4|
|$5$|7|6|
|$6$|3|4|
|$7$|4|5|
|$8$|5|6|


Наши выборки связаны, нужно проводить парный t-test, $\Rightarrow$ наши гипотезы:

$$H_0: (a_2 - a_1) = 0$$
$$H_1: (a_2 - a_1) > 0$$

In [25]:
df = pd.DataFrame([[3, 4],
                   [6, 6],
                   [5, 6],
                   [2, 4],
                   [7, 6],
                   [3, 4],
                   [4, 5],
                   [5, 6]],
                   columns=['X_1', 'X_2'], 
                   index=range(1, 9))

df['diff'] = df['X_2'] - df['X_1']

df

Unnamed: 0,X_1,X_2,diff
1,3,4,1
2,6,6,0
3,5,6,1
4,2,4,2
5,7,6,-1
6,3,4,1
7,4,5,1
8,5,6,1


#### Рассчет вручную

In [26]:
mean = df['diff'].mean()
var = df['diff'].var()
n = df['diff'].count()

In [27]:
t = ((mean - 0) / np.sqrt(var)) * np.sqrt(n)

t

2.3931721056523974

In [28]:
stats.t.sf(t, df=n-1)

0.023972386089811646

#### Расчет с помощью пакета stats

In [29]:
stats.ttest_1samp(df['diff'], 0, alternative='greater')

Ttest_1sampResult(statistic=2.393172105652397, pvalue=0.023972386089811688)

$p-value$ **меньше** уровня статистической значимости  $\alpha=0.05$ , принять нулевую гипотезe не можем. Следовательно, **в результате тренинга самооценка конформизма участников возрастает**. 