<a href="https://colab.research.google.com/github/hank199599/data_science_from_scratch_reading_log/blob/main/Chapter7.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 統計假設檢定

* ## 零假設(H₀,null hypothesis)：表達我們預設的立場
* ## 替代假設(H₁,alternative hypothesis)：與預設立場對比的立場



### 範例：擲硬幣測試
假設我們想知道一枚硬幣是否是公正的，假設正面朝上的機率是p：
* 零假設(H₀)：認為硬幣是公正的，即p=0.5 
* 替代假設(H₁)：認為硬幣是不公正的，即p≠0.5 
  
**檢定方法**：  
丟擲硬幣N次，然後計算正面朝上的次數。
而每一次丟擲硬幣都代表一次伯努利測試，則X是一個二項式隨機變數Binomial(n,p)。  
因此可以用常態分佈來當作近似結果。  

In [None]:
from typing import Tuple
import math

def normal_approximation_to_binomial(n:int,p:float) -> Tuple[float,float]:
  #送回Binominal(n,p)對應的平均值mu和標準差sigma
  mu = n*p
  sigma = math.sqrt(p*(1-p)*n)
  return mu,sigma

只要隨機變數確實依循常態分佈，我們就可以用normal_cdf算出其值落在特定區間內(或之外)的機率

In [None]:
from scratch.probability import normal_pdf

# normal_cdf 代表的是變數落在某個門檻值以下的機率
normal_probability_below = normal_cdf

#若不在門檻值以下，就表示在門檻值以上 
def normal_probability_above(lo:float,
               mu:float = 0,
               sigma:float = 1) ->float:
  return 1 - normal_cdf(lo,mu,sigma) # N(mu,sigma)大於lo的機率

#若低於 hi 且不低於 lo ，就表示落在區間之內
def normal_probability_between(lo:float,
               hi:float,
               mu:float = 0,
               sigma:float = 1) ->float:
  return normal_cdf(hi,mu,sigma) - normal_cdf(lo,mu,sigma) # N(mu,sigma)介於 hi 與 lo的機率

#若不在區間之內，就表示落在區間之外 
def normal_probability_above(lo:float,
               mu:float = 0,
               sigma:float = 1) ->float:
  return 1 - normal_probability_between(lo,hi,mu,sigma) # N(mu,sigma)不介於 hi 與 lo 之間的機率

或是自機率反推常態分佈中相對應**「非尾區間」(nontail region)**

In [None]:
from scratch.probability import inverse_normal_cdf

#送回一個 z 值，使的 P(Z <= z)等於某機率值
def normal_upper_bound(probability:float,
            mu:float = 0,
            sigma:float = 1) -> float:
  
  return inverse_normal_cdf(probability,mu.sigma) 

#送回一個 z 值，使的 P(Z >= z)等於某機率值
def normal_lower_bound(probability:float,
            mu:float = 0,
            sigma:float = 1) -> float:
  
  return inverse_normal_cdf( 1 - probability,mu.sigma)

def normal_two_sided_bounds(probability:float,
               mu:float = 0,
               sigma:float = 1) -> Tuple[float,float]:
  #送回一組(以平均值為中心的)對稱邊界，其中所涵蓋的區域正好等於指定的機率值
  tail_probalbility = ( 1 - probability) /2

  #高於上邊界的機率，應恰好等於tail_probabiity
  upper_bound = normal_lower_bound(tail_probability,mu,sigma)

  #低於上邊界的機率，也應恰好等於tail_probabiity
  lower_bound = normal_upper_bound(tail_probability,mu,sigma)

  return upper_bound,lower_bound

# p值

# 信賴區間

# p-Hacking

# 貝氏推論