В процессе очистки питьевой воды выпадает значительный осадок. Для его уменьшения можно воздействовать на разные факторы,
в т.ч. на количество микроорганизмов в жидкости, способствующих окислению органики. В группу из $261$ очистительных установок
был добавлен реагент, подавляющих активность микроорганизмов, а состав остальных $119$ остался без изменений.
Пусть $\theta$ - разность в средних значениях количества твердых частиц в этих двух группах установок.
Оценить по данным WaterTreatment величину $\theta$, оценить стандартную ошибку оценки, построить
$95\%$ и $99\%$ доверительные интервалы. Какие выводы можно сделать на основе полученных результатов?

In [1]:
import math
import pandas as pd
from scipy import stats

In [2]:
water = pd.read_csv('WaterTreatment.csv')

In [3]:
water.head(5)

Unnamed: 0,sediment,reduced_microorganism
0,0.0,1.0
1,0.03,1.0
2,0.02,1.0
3,3.5,0.0
4,0.02,1.0


In [4]:
water.shape

(380, 2)

In [5]:
with_reagent = 261
without_reagent = 119

In [6]:
sediment_mean_with = water[water['reduced_microorganism'] == 1]['sediment'].sum() / with_reagent
sediment_mean_with

0.013793103448275862

In [7]:
sediment_mean_wtht = water[water['reduced_microorganism'] == 0]['sediment'].sum() / without_reagent
sediment_mean_wtht

0.08512605042016805

Оценка для $\theta$

In [8]:
theta = sediment_mean_wtht - sediment_mean_with
theta

0.07133294697189219

Оценка для дисперсии $D\theta$

In [9]:
def get_variance(x, mean):
    return ((x - mean)*(x - mean)).sum()/len(x)

In [10]:
sediment_var_with = get_variance(water[water['reduced_microorganism'] == 1]['sediment'], sediment_mean_with)
sediment_var_with

0.000286378649755582

In [11]:
sediment_var_wtht = get_variance(water[water['reduced_microorganism'] == 0]['sediment'], sediment_mean_wtht)
sediment_var_wtht

0.12370901772473696

Тогда оценка стандартной ошибки будет:  
se = $\sqrt{V\theta} = \sqrt{V(\theta_1-\theta_2)} = \sqrt{V\theta_1 + V\theta_2}$, где $\theta_1$ - среднее значение sediment для установок без добавления реагента, а $\theta_2$ - с добавлением

In [12]:
se = math.sqrt(sediment_mean_wtht + sediment_mean_with)
se

0.31451415527515436

In [13]:
def get_interval(alpha, mean, se):
    t = stats.norm.ppf(1-alpha/2)
    return mean - t*se, mean + t*se

95% доверительный интервал

In [14]:
get_interval(0.05, theta, se)

(-0.5451034699954486, 0.6877693639392329)

99% доверительный интервал

In [15]:
get_interval(0.01, theta, se)

(-0.7388018305667794, 0.8814677245105638)

В доверительный интервале присутствуют как отрицательные, так и положительные значения (причем сам интервал сдвинут в правую сторону). Поэтому нельзя утверждать, что добавление реагентов в воду помогает её отчищению. Однако это не означает, что не существует какой-то иной причины, влияющей на отчищение воды.