# 参数估计

In [2]:
import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt 
from scipy import stats


# 总体均值区间估计

In [7]:
# 大样本
# alpha:置信水平 0.9
# loc: 均值
# scale: 方差
data=pd.read_excel(
    'week5/data/5.1.xlsx'
)
data=data.values.flatten()

alpha=0.1
mu=np.mean(data)
sigma=np.std(data)

lower=mu+stats.norm.ppf(alpha/2)*sigma/np.sqrt(len(data))
upper=mu+stats.norm.ppf(1-alpha/2)*sigma/np.sqrt(len(data))
lower,upper

(37.3987392810234, 41.6012607189766)

In [8]:
# 小样本
data52=pd.read_excel(
    'week5/data/5.2.xlsx'
)
data52=data52.values.flatten()

alpha=0.05
mu=np.mean(data52)
sigma=np.std(data52)
# alpha:置信水平
# df: 自由度
# loc: 均值
# scale: 方差

lower=mu+stats.t.ppf(alpha/2,df=len(data52)-1)*sigma/np.sqrt(len(data))
upper=mu+stats.t.ppf(1-alpha/2,df=len(data52)-1)*sigma/np.sqrt(len(data))
lower,upper

(102.10611629441006, 108.61388370558997)

In [6]:
# pandas读取sav文件
# 需要安装pip install pyreadstat
data=pd.read_spss(
    'week5/data/5.3.sav'
)
data=data.values.flatten()

alpha=0.05
mu=np.mean(data)
sigma=np.std(data)

lower=mu+stats.t.ppf(alpha/2,df=len(data)-1)*sigma/np.sqrt(len(data))
upper=mu+stats.t.ppf(1-alpha/2,df=len(data)-1)*sigma/np.sqrt(len(data))
lower,upper

(1477.2224088488201, 1502.7775911511799)

# 总体比例区间估计

In [5]:

p=.65
alpha=0.05
lower=p+stats.norm.ppf(alpha/2)*np.sqrt(.65*(1-.65)/100)
upper=p+stats.norm.ppf(1-alpha/2)*np.sqrt(.65*(1-.65)/100)
lower,upper



(0.5565156760890944, 0.7434843239109057)

# 总体方差估计

In [6]:
alpha=0.05
mu=np.mean(data52)
sigma=np.std(data52,ddof=1)
n=len(data52)

lower=(n-1)*sigma**2/stats.chi2.ppf(1-alpha/2,df=n-1,loc=0,scale=1)
upper=(n-1)*sigma**2/stats.chi2.ppf(alpha/2,df=n-1,loc=0,scale=1)
lower,upper


(56.82897120865117, 180.3881060043311)

 # 两个参数区间估计

In [7]:
# 两个总体均值之差
# 大样本
n1=46
mu1=126
sigma1=5.8

n2=33
mu2=118
sigma2=7.2

# 取95%的置信区间
alpha=.05

lower=(mu1-mu2)+stats.norm.ppf(alpha/2)*np.sqrt(sigma1**2/46+sigma2**2/33)
upper=(mu1-mu2)+stats.norm.ppf(1-alpha/2)*np.sqrt(sigma1**2/46+sigma2**2/33)
lower,upper


(5.026137507995736, 10.973862492004262)

In [8]:
# 两个总体均值之差
# 小样本

data57=pd.read_spss(
    'week5/data/5.7.sav'
)
d1=data57.iloc[:12,-1].values
d2=data57.iloc[12:-1,-1].values



In [9]:
# 两总体方差相等
mu1=np.mean(d1)
sigma1=np.std(d1,ddof=1)
n1=len(d1)

mu2=np.mean(d2)
sigma2=np.std(d2,ddof=1)
n2=len(d2)

alpha=0.05
# 两总体方差合并估计量
sp2=((n1-1)*sigma1**2+(n2-1)*sigma2**2)/(n1+n2-2)

# mu1-mu2的置信区间
lower=(mu1-mu2)+stats.t.ppf(alpha/2,df=(n1+n2-2))*np.sqrt(sp2*(1/n1+1/n2))
upper=(mu1-mu2)+stats.t.ppf(1-alpha/2,df=(n1+n2-2))*np.sqrt(sp2*(1/n1+1/n2))

lower,upper


(-0.21694443559173138, 7.198762617409922)

In [10]:
# 配对样本估计
data58=pd.read_spss(
    'week5/data/5.8.sav'
)
data58.head()



Unnamed: 0,Ñ§Éú±àºÅ,ÊÔ¾íA,ÊÔ¾íB
0,1.0,78.0,71.0
1,2.0,63.0,44.0
2,3.0,72.0,61.0
3,4.0,89.0,84.0
4,5.0,91.0,74.0


In [11]:
d1=data58.iloc[:,1].values
d2=data58.iloc[:,2].values

alpha=0.05

d=d1-d2
d_bar=np.sum(d)/len(data58)

s_d=np.sqrt(np.sum((d-d_bar)**2)/(len(d)-1))
lower=d_bar+stats.t.ppf(alpha/2,df=len(d)-1)*s_d/np.sqrt(len(d))
upper=d_bar+stats.t.ppf(1-alpha/2,df=len(d)-1)*s_d/np.sqrt(len(d))
lower,upper



(6.327308257173502, 15.672691742826498)

In [12]:
# 两总体比例之差
p1=0.32
n1=400

p2=0.45
n2=500

alpha=0.05 # 95%置信水平

lower=np.abs(p1-p2)+stats.norm.ppf(alpha/2)*np.sqrt(p1*(1-p1)/500+p2*(1-p2)/400)
upper=np.abs(p1-p2)+stats.norm.ppf(1-alpha/2)*np.sqrt(p1*(1-p1)/500+p2*(1-p2)/400)

lower,upper

(0.06637056086943266, 0.19362943913056735)

In [13]:
# 两总体方差比

n1=25
x1_bar=520
s1=260

n2=25
x2_bar=480
s2=280

alpha=0.05


lower=(s1/s2)/stats.f.ppf(1-alpha/2,dfn=n1-1,dfd=n2-1)
upper=(s1/s2)/stats.f.ppf(alpha/2,dfn=n1-1,dfd=n2-1)
lower,upper


(0.40919258202978326, 2.10718604350561)

 # 样本量的确定

In [14]:
# 总体均值的样本量确定
# 一个总体均值
sigma=2000 
error=400 # 误差
alpha=0.05

n=stats.norm.ppf(alpha/2)**2*2000**2/400**2 # 样本量的确定
n # 97


96.03647051735318

In [15]:
# 两个总体均值

# 方差
var1=90 
var2=120

error=5
alpha=0.05

n=stats.norm.ppf(alpha/2)**2*(var1+var2)/error**2
n # 33


32.26825409383067

In [16]:
# 总体比例的样本量确定
# 一个总体比例
p=0.9
error=0.05
alpha=0.05

n=stats.norm.ppf(alpha/2)**2*p*(1-p)/error**2
n


138.29251754498853

In [17]:
# 两个总体比例
p=0.5
error=0.1

n=stats.norm.ppf(alpha/2)**2*(p*(1-p)+p*(1-p))/error**2
n # n1=n2

192.07294103470633