# Доверительный интервал для разности средних

95% асимптотический доверительный интервал для разницы в средней стоймости квартир в монолитных панельных домах


In [1]:
import numpy as np
import pandas as pd
from scipy import stats
import seaborn as sns
import matplotlib.pyplot as plt

In [3]:
df = pd.read_csv('./data/flat.csv', sep='\t')
df.head()

Unnamed: 0,n,price,totsp,livesp,kitsp,dist,metrdist,walk,brick,floor,code
0,1,81,58,40,6.0,12.5,7,1,1,1,3
1,2,75,44,28,6.0,13.5,7,1,0,1,6
2,3,128,70,42,6.0,14.5,3,1,1,1,3
3,4,95,61,37,6.0,13.5,7,1,0,1,1
4,5,330,104,60,11.0,10.5,7,0,1,1,3


In [5]:
x = df[df.brick == 1].price.values
y = df[df.brick == 0].price.values

diff = x.mean() - y.mean()
nx,ny = x.size, y.size
diff_sd = np.sqrt(x.var(ddof=1)/nx + y.var(ddof=1)/ny)

left, right = stats.norm.interval(0.95, loc=diff, scale=diff_sd)
print("Доверительный интервал [{:.4}; {:.4}] ширины {:.4}".format(left, right, right-left))


Доверительный интервал [23.49; 34.36] ширины 10.87


In [7]:
# 0 не попал, значит стоймость различается сильно

In [8]:
# Предположим, что дисперсии неизвестны, но равны:

diff = x.mean() - y.mean()
nx, ny = x.size, y.size

s2 = ((nx-1) * x.var() + (ny - 1) * y.var())/(nx + ny - 2)
diff_sd = np.sqrt(s2/nx + s2/ny)

left, right = stats.t.interval(0.95, df=(nx + ny - 2), loc=diff, scale=diff_sd)
print("Доверительный интервал [{:.4}; {:.4}] ширины {:.4}".format(left, right, right-left))

Доверительный интервал [24.28; 33.58] ширины 9.297


In [9]:
# Предположим, что дисперсии неизвестны и не равны: (Интервал Уэлча)
diff = x.mean() - y.mean()
nx, ny = x.size, y.size
diff_sd = np.sqrt(x.var()/nx + y.var()/ny)

u = (x.var()/nx + y.var() / ny)**2
d = (x.var()**2)/(nx**2 * (nx-1)) + (y.var()**2)/(ny**2*(ny-1))

nu = u/d 
print('Число степеней свободы: ', nu)

left, right = stats.t.interval(0.95, df=nu, loc=diff, scale=diff_sd)
print("Доверительный интервал [{:.4}; {:.4}] ширины {:.4}".format(left, right, right-left))

Число степеней свободы:  911.4012642833161
Доверительный интервал [23.49; 34.37] ширины 10.88


In [10]:
# Т.к. выборка большая, интервалы не слиьно различаются