# 信賴區間 (Confidence interval)
對產生這樣本的母體的參數分佈中的某一個未知參數值, 以區間的形式給出估計 
***
常態分布都遵循68-95-99.7規則
- 68%的觀測值會落在距平均數一個標準差的範圍內。
- 95%的觀測值會落在距平均數二個標準差的範圍內。
- 99.7%的觀測值會落在距平均數三個標準差的範圍內。


In [2]:
import scipy.stats as stats
import matplotlib.pyplot as plt
import math
import pandas as pd
import numpy as np
%matplotlib inline

### 樣本比例之抽樣分布 (CLT)
從一個成功比例為p 的很大母體抽取一個大小為n的SRS（簡單隨機樣本）。  
$\overline{p} = \frac{樣本中成功的計數}{n}$ 
當n足夠大時:
- p的分佈近似常態
- 平均數$\mu$跟母體相同
- 標準差$\sigma=\sqrt{\frac{p(1-p)}{n}}$

### ＿
對$\overline{p}$來說有95%的機會落在平均值p加減2的標準差的範圍內  
$| \overline{p}-p |<2\sqrt{\frac{p(1-p)}{n}}$  
也可以如下表達可以涵蓋p的區間  
$\overline{p}\pm 2\sigma$  
$\overline{p}\pm 2\sqrt{\frac{p(1-p)}{n}}$  
假設$\overline{p}$近似p  
$\overline{p}\pm 2\sqrt{\frac{\overline{p}( 1-\overline{p} )}{n}}$  

民調表示高達6成7的民眾表示曾親自接到詐騙電話, 成功訪問到的人有912位
在95%信心水準下, 誤差在正負3.2個百分比

$\overline{p}=0.67$  
$\overline{p}\pm 2\sqrt{\frac{0.67(1-0.67)}{912}}$ = 0.67$\pm$2*0.01557 =  0.67$\pm0.032$  
=(0.639,0.701)

施政滿意度調查以電話號碼後四碼隨機抽樣, 成功訪問1068位民眾  
在95%的信心水準下, 滿意度3成9, 抽樣誤差為正負3.0個百分點

信賴區間 (0.36,0.42)

95%的信心水準的意思是指：  
如果我們重複抽樣很多次，每次都會得到一個信賴區間，  
那麼這麼多的信賴區間中，約有 95%的區間會涵蓋真正的 p 值。 (機率: 有95%會涵蓋p值)

假設X~B(n,p)  
令隨機變數$\overline{p}$為$\frac{X}{n}$  
則期望值E[$\overline{p}$] = p  
標準差$\sigma_\overline{p} = \sqrt{\frac{p(1-p)}{n}}$  

### 由中央極限定理, 當n足夠大時, $\overline{p}$標準化後的分佈會趨近標準常態分佈  
Pr(| Z |$\leq$ 1) = 68%  
Pr(| Z |$\leq$ 2) = 95%  
Pr(| Z |$\leq$ 3) = 97.5%  
For Two-tails 雙邊, 1-alpha/2, 對95%令alpha=0.05, Z=1-0.05/2=0.975
Pr($|\frac{\overline{p}-p}{\sqrt{\frac{p( 1-p )}{n}}}| \leq 1或2或3$)  
信心水準68% 區間$[ \overline{p} - \sqrt{\frac{\overline{p}( 1-\overline{p} )}{n}}, \overline{p} + \sqrt{\frac{\overline{p}( 1-\overline{p} )}{n}}]$  
信心水準95% 區間$[ \overline{p} - 2\sqrt{\frac{\overline{p}( 1-\overline{p} )}{n}}, \overline{p} + 2\sqrt{\frac{\overline{p}( 1-\overline{p} )}{n}}]$  
信心水準97.5% 區間$[ \overline{p} - 3\sqrt{\frac{\overline{p}( 1-\overline{p} )}{n}}, \overline{p} + 3\sqrt{\frac{\overline{p}( 1-\overline{p} )}{n}}]$  



***
抽樣人數 n = 100 ; 樣本平均時間 xbar = 21.2 小時  
母體看電視時間的標準差 sigma = 8 小時  
估計 95% 信心水準下，老年人每星期看電視平均時間的信賴區間？  

假設樣本平均時間的抽樣分配服從常態分佈: xbar ~ N(mu_xbar, sigma_xbar)  

In [7]:
def Interval_estimation(n, xbar, sigma, alpha):
    # standard error of the mean:
    se = sigma / np.sqrt(n)
    
    # margin of error:
    # Hint: Z_(0.05/2) for Two-tails
    E = stats.norm.ppf(1 - alpha/2, loc = 0, scale = 1) * se
    
    # (1 - alpha)% Confidence Interval of Population mean with Known Variance:
    Interval = [xbar - E, xbar + E]
    #
    return Interval

#設alpha = 0.05 
Interval_estimation(n = 100, xbar = 21.2, sigma = 8, alpha = 0.05)

[19.632028812367956, 22.767971187632043]

改為"樣本"看電視時間的標準差 std = 8 小時，其餘條件與前一題一樣

- 標準差是從樣本來的, 我們要n-1取代n, 使用t分佈df設為n - 1 (無母數估計)

In [8]:
# 改為樣本看電視時間的標準差 std = 8 小時，其餘條件與前一題一樣
def Interval_estimation(n, xbar, sigma, alpha):
    # standard error of the mean:
    se = sigma / np.sqrt(n)
    
    # margin of error:
    # Hint: T_(0.05/2, n-1) for Two-tails
    E = stats.t.ppf(1 - alpha/2, df = n - 1) * se
    
    # (1 - alpha)% Confidence Interval of Population mean with Known Variance:
    Interval = [xbar - E, xbar + E]
    
    return Interval

Interval_estimation(n = 100, xbar = 21.2, sigma = 8, alpha = 0.05)

[19.612626438793054, 22.787373561206945]

***
資料非常態分佈該如何  
有可能是因為small size  
或真的非常態  
或small effect size  

作資料轉換。  
單峰左右偏的資料,單獨做數學的轉換即可, 如log  
雙峰可用無母數估計  
***