Ziehen eine ( einfache ) Stichprobe von n = 6 Schweinen und wiegen diese. Man kann davon ausgehen, dass X:"Gewicht eines Schweins" eine normalverteilte Zufallsvariable ist.
Angenommen man wüsste, dass das Gewicht eines Schweins normalverteilt ist mit
μ = 100 und σ^2 = 6.

Jetzt wird das Schätzintervall für $μ$ mit $1 - \alpha = 0.95 $ gesucht

In [4]:
# einfache Stichprobe vom Umfang n =6 
set.seed(1)
Stichprobe<-rnorm(n=6,mean=100,sd=sqrt(6))

In [13]:
#erwartungstreue Punktschätzungen
m<-mean(Stichprobe)
s<-var(Stichprobe)
m
s

# Falls 1:  Normalverteilt mit bekannten Varianz (n<30)

In [14]:

sigma1<-sqrt(6)
N<-6
lower<-m-qnorm(p=0.975)*sigma1/sqrt(N)
upper<-m+qnorm(p=0.975)*sigma1/sqrt(N)
lower
upper



Interpretation :  Wenn ein Konfidenzintervall von 95 % angegeben wird, bedeutet dies, dass bei unzähligen Wiederholungen der Stichprobenziehung etwa 95 % der berechneten Intervalle den wahren Wert des Parameters enthalten werden.

In [15]:
# Simulation mit n=1000
n=1000
r<-replicate(n,rnorm(n=6,mean=100,sd=sqrt(6)))
df<-as.data.frame(t(r))

df$mean <-rowMeans(df)
df$lower<-df$mean-qnorm(p=0.975)*sqrt(6)/sqrt(6)
df$upper<-df$mean+qnorm(p=0.975)*sqrt(6)/sqrt(6)
df$mu <- 100
df$enthalten<-mapply(function(a,b,c) if (a<c & c<b) 1 else 0,df$lower,df$upper,df$mu)
head(df)

V1,V2,V3,V4,V5,V6,mean,lower,upper,mu,enthalten
100.31511,99.41123,98.45768,99.69129,101.80882,97.33773,99.50364,97.54368,101.4636,100,1
97.57257,99.82115,98.47513,99.59876,101.97613,104.06018,100.25065,98.29069,102.2106,100,1
105.32346,99.42151,99.77449,100.08137,100.06082,102.05497,101.11944,99.15947,103.0794,100,1
97.24466,98.69182,103.77073,98.92136,96.20551,103.85095,99.78084,97.82088,101.7408,100,1
101.91589,97.63962,103.23859,103.95127,101.53808,98.66787,101.15856,99.19859,103.1185,100,1
100.84717,97.96936,95.51186,100.89698,103.90187,102.09306,100.20338,98.24342,102.1633,100,1


In [16]:
sum(df$enthalten)/1000

In [17]:
## Der Wert nähert sich immer weiter (1-alpha)=0.95 an.
n=100000
r<-replicate(n,rnorm(n=6,mean=100,sd=sqrt(6)))
df<-as.data.frame(t(r))

df$mean <-rowMeans(df)
df$lower<-df$mean-qnorm(p=0.975)*sqrt(6)/sqrt(6)
df$upper<-df$mean+qnorm(p=0.975)*sqrt(6)/sqrt(6)
df$mu <- 100
df$enthalten<-mapply(function(a,b,c) if (a<=c & c<=b) 1 else 0,df$lower,df$upper,df$mu)

sum(df$enthalten)/n


# Falls 2: Normalverteilt mit unbekannten Varianz (n<30)

In [18]:
lower<-m-qt(p=0.975,df=N-1)*s/sqrt(N)
upper<-m+qt(p=0.975,df=N-1)*s/sqrt(N)
lower
upper

# Falls 3: Normalverteilt mit unbekannten Varianz (n>30)

In [19]:
lower<-m-qnorm(p=0.975)*s/sqrt(N)
upper<-m+qnorm(p=0.975)*s/sqrt(N)
lower
upper

# Falls 4: Unbekannte Verteilung mit bekannten Varianz (n>30)

In [21]:
# Mit ZGS
lower<-m-qnorm(p=0.975)*sigma1/sqrt(N)
upper<-m+qnorm(p=0.975)*sigma1/sqrt(N)
lower
upper

# Falls 5: Unbekannte Verteilung mit unbekannten Varianz (n>30)

In [22]:
# Mit ZGS
lower<-m-qnorm(p=0.975)*s/sqrt(N)
upper<-m+qnorm(p=0.975)*s/sqrt(N)
lower
upper

# Spezialfall: Konfidenzintervall für den Anteilswert π

In [27]:
n<-10
pi<-0.3
set.seed(1)
x<-rbinom(1,n,pi)
x

In [28]:
m<-x/n
v<-sqrt(m*(1-m))
lower<-m-qnorm(p=0.975)*v/sqrt(n)
upper<-m+qnorm(p=0.975)*v/sqrt(n)
lower 
upper