# scipy.stats

* <font size = 5>簡述 : </font>

    scipy.stats 是 SciPy(Scientific Python) 庫中的一個子模塊, 有執行各種統計學相關的功能. 它提供許多統計學上的分佈、統計檢定、樣本生成和機率計算等功能.

* <font size = 5>功能 : </font>

    * 機率分佈 : scipy.stats 提供了許多常見的概率分佈的函數。可以使用這些函數來計算概率密度函數（PDF）、累積分佈函數（CDF）、百分位點（Percent Point Function，PPF）等。
    * 統計檢定 : scipy.stats 提供了多種統計檢定的函數，如t檢定（單樣本t檢定、獨立樣本t檢定、配對樣本t檢定）、卡方檢定（卡方適合度檢定、卡方獨立性檢定）、ANOVA（單因素變異數分析）等。
    * 樣本生成 : scipy.stats 提供了許多概率分佈的樣本生成函數，如 rvs 函數可以生成從指定分佈中抽取的隨機樣本，這對於模擬和數據生成很有用.
    * 概率計算 : scipy.stats 提供了許多概率計算的函數，比如計算離散或連續分佈的期望值、變異數、偏度、峰度等。
    * 拟合分佈 : scipy.stats 提供了一些拟合分佈的函數，可以通過最大似然估計（MLE）將觀測數據拟合到指定的分佈。

## 機率分佈

<font color = orange> 為了方便, 以下都已 ss 代表 scipy.stats (也就是說 import scipy.stats as ss)</font>

### 常用的機率分佈有以下幾個

1. 常態分佈（Normal Distribution）：在統計學和自然科學中最常見的分佈，也稱為高斯分佈。
    
    code 寫法 : norm_dist = ss.norm(loc=mean, scale=std) # std 是標準差
---
2. 二項分佈（Binomial Distribution）：描述在n次獨立試驗中成功的次數的分佈。

    code 寫法 : binom_dist = ss.binom(n=n_trials, p=p_success) # n 是數量, p 是成功機率
---
3. 普瓦松分佈（Poisson Distribution）：用於描述在固定時間間隔內發生事件的次數。

    code 寫法 : poisson_dist = ss.poisson(mu=lambda_poisson)
--- 
4. gamme 分佈（Gamma Distribution）：描述連續事件的時間間隔，也用於描述連續分佈的和。

    code 寫法 : gamma_dist = ss.gamma(a=alpha, scale=1/beta)
---
5. 指數分佈（Exponential Distribution）：描述連續事件之間的等待時間。

    code 寫法 : exponential_dist = ss.expon(scale=1/lambda_exponential)
---
6. t分佈（t-distribution）：用於小樣本情況下，對母體均值進行推斷的統計分佈。

    code 寫法 : t_dist = ss.t(df=df_t)
---
7. F分佈（F-distribution）：用於進行兩個或多個樣本的方差比較的統計分佈。

    code 寫法 : f_dist = ss.f(dfn=df1_f, dfd=df2_f)
---
8. 卡方分佈（Chi-Square Distribution）：用於進行卡方檢定的統計分佈。

    code 寫法 : chi2_dist = ss.chi2(df=df_chi2)
---
9. 負二項分佈（Negative Binomial Distribution）：描述在n次獨立試驗中成功的次數之前出現k次失敗的次數。

    code 寫法 : neg_binom_dist = ss.nbinom(n=n_failures, p=p_failure)
------
10. Beta分佈（Beta Distribution）：用於描述介於0和1之間的隨機變數。

    code 寫法 : beta_dist = ss.beta(a=alpha, b=beta)
---
11. 柏努利分佈（Bernoulli Distribution）：描述僅有兩個可能結果（成功或失敗）的試驗。

    code 寫法 : bernoulli_dist = ss.bernoulli(p=p_bernoulli)
---
12. 離散均勻分佈（Discrete Uniform Distribution）：用於描述在有限範圍內等可能事件的分佈。

    code 寫法 : discrete_uniform_dist = ss.randint(low, high+1)
---

### 分佈的使用方法

以上 code 皆可以使用以下方式創建想創建的(這邊以normal為例 : norm_dist = ss.norm(loc = mean, scale = std))

1. pdf : 機率值

    norm_dist.pdf(x = x)

2. cdf : 累積機率

    norm_dist.cdf(x = x)

3. ppf : 百分位點

    norm_dist.ppf(q = q)

4. 模擬資料

    norm_dist.rvs(size = size)

In [4]:
import scipy.stats as ss

norm_dist = ss.norm(loc = 0, scale = 1)
print('norm_dist.pdf(0) = {}'.format(norm_dist.pdf(x = 0)))
print('norm_dist.cdf(0) = {}'.format(norm_dist.cdf(x = 0)))
print('norm_dist.ppf(0) = {}'.format(norm_dist.ppf(q = 0.5)) )
sample_normal = norm_dist.rvs(size = 30)
print('simulation : \n', sample_normal)

norm_dist.pdf(0) = 0.3989422804014327
norm_dist.cdf(0) = 0.5
norm_dist.ppf(0) = 0.0
simulation : 
 [-0.95268006  0.7063922   0.32601013 -1.03561425  0.80905165  0.98610316
  0.35009251 -2.1443746  -0.1851054  -0.78916748 -0.79786901  1.04212641
  1.07277502  0.18204418  0.35091151 -1.01669597  1.8045507  -0.40288356
 -0.51447076  1.14913721 -0.58591679 -1.19847162  1.2375873   0.20643975
  0.08415182 -1.21189109 -0.73809628  0.17268276  1.36724084 -0.84804248]
