# Python機器學習與深度學習入門 - 期中專案
##### 本學期有修讀另一門統計相關課程，課程中提及Binomial、gamma、負二項分配，分別為Bernoulli、指數、幾何分配的相加，
##### 故當Binomial、gamma、負二項分配的n越大，代表相加的分配數量越多，基於中央極限定理，皆會越來越接近常態分佈。
##### 基於對於統計的興趣及可望求證的好奇心，想藉由python中的scipy.stats及 interact套件，驗證並可視化此理論。

In [1]:
%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from ipywidgets import interact
from scipy.stats import norm,binom,bernoulli, gamma,nbinom

## 1.Binomial的n越大，越近似常態分配驗證
#### Binomial中的每一次試驗都是一次Bernoulli，故n大於1的Binomial是多個Bernoulli相加。

In [2]:
def binomialToNormal(numOfTrials=1,p_success=0.3):
    n = numOfTrials
    p = p_success
    k = np.arange(int((n*p)*0.06),int((n*p)*2.5)+5)
    binomial = binom.pmf(k,n,p)
    
    k_continuous = np.linspace(int((n*p)*0.06),int((n*p)*2.5)+5,1000)
    
    #normal的參數mean及std，用binomial得知的參數值進行moment estimate去推估
    normal = norm.pdf(k_continuous,loc = n*p , scale = np.sqrt(n*p*(1-p)) )
    
    plt.plot(k,binomial, '-o',color='orange', label='Binomial')
    
    plt.fill_between(k_continuous,normal,facecolor='blue',alpha = 0.3, label='Normal')
    
    plt.title(f'Binomial(n={n},p={p}) vs Normal(mean={np.round(n*p,2)},var={np.round(n*p*(1-p),2)})')
    plt.legend(loc='upper right')
    plt.xlabel('num of successes')
    plt.ylabel('probability')
    plt.show()

#### 因中央極限定理，當n越大(累加越多Bernoulli)，Binomial分配越近似常態。

In [3]:
interact(binomialToNormal,numOfTrials = (1,100),p_success = (0.1,0.9,0.1) )

interactive(children=(IntSlider(value=1, description='numOfTrials', min=1), FloatSlider(value=0.3, description…

<function __main__.binomialToNormal(numOfTrials=1, p_success=0.3)>

## 2.Gamma的n越大，越近似常態分配驗證
#### Gamma中的每一次試驗都是一次指數分配，故n大於1的Gamma是多個指數分配相加。

In [4]:
def gammaToNormal(nn=1):
    n = nn #n為欲相加的指數分配數量
    theAlpha = nn
    theBeta = 2
    
    k_continuous = np.linspace(int((theAlpha*theBeta)*0.06),int((theAlpha*theBeta)*2.5)+5,1000)
    
    Gamma = gamma.pdf(k_continuous,a=theAlpha, scale=theBeta)
    
    #normal的參數mean及std，用 gammal得知的參數值進行moment estimate去推估
    normal = norm.pdf(k_continuous,loc = (theAlpha*theBeta) , scale = np.sqrt(theAlpha*(theBeta**2)))
    
    plt.plot(k_continuous,Gamma, '-.',color='orange', label='Gamma')
    
    plt.fill_between(k_continuous,normal,facecolor='blue',alpha = 0.3, label='Normal')
    
    plt.title(f'Gamma(alpha={theAlpha},beta={theBeta}) vs Normal(mean={np.round(theAlpha*theBeta,2)},var={np.round(theAlpha*(theBeta**2),2)})')
    plt.legend(loc='upper right')
    plt.xlabel('x')
    plt.ylabel('probability density')
    plt.show()

#### 因中央極限定理，當n越大(累加越多指數分配)，gamma分配越近似常態。

In [5]:
interact(gammaToNormal,nn = (1,100))

interactive(children=(IntSlider(value=1, description='nn', min=1), Output()), _dom_classes=('widget-interact',…

<function __main__.gammaToNormal(nn=1)>

## 3.負二項分配的n越大，越近似常態分配驗證
#### 負二項分配中的每一次試驗都是一次幾何分配，故n大於1的負二項分配是多個幾何分配相加。

In [6]:
def NBToNormal(numOfTrials=1,p_success=0.1):
    n = numOfTrials
    p = p_success
    k = np.arange(int((n/p)*0.06),int((n/p)*2.5)+5)
    NB = nbinom.pmf(k,n,p)
    
    k_continuous = np.linspace(int((n/p)*0.06),int((n/p)*2.5)+5,1000)
    
    #normal的參數mean及std，用NB得知的參數值進行moment estimate去推估
    normal = norm.pdf(k_continuous,loc = n/p , scale = np.sqrt((n*(1-p))/p**2) )
    
    plt.plot(k+1,NB, '-o',color='orange', label='NB')
    
    plt.fill_between(k_continuous,normal,facecolor='blue',alpha = 0.3, label='Normal')
    
    plt.title(f'NB(n={n},p={p}) vs Normal(mean={np.round(n/p,2)},var={np.round((n*(1-p))/p**2,2)})')
    plt.legend(loc='upper right')
    plt.xlabel('X')
    plt.ylabel('probability')
    plt.show()

#### 因中央極限定理，當n越大(累加越多幾何分配)，負二項分配越近似常態。

In [7]:
interact(NBToNormal,numOfTrials = (1,100),p_success = (0.1,0.9,0.1) )

interactive(children=(IntSlider(value=1, description='numOfTrials', min=1), FloatSlider(value=0.1, description…

<function __main__.NBToNormal(numOfTrials=1, p_success=0.1)>

### 由上述三個例子可看見，當Binomial、gamma、負二項分配的n越大，基於中央極限定理，皆會越來越接近常態分佈。