In [13]:
import numpy as np
import pymc as pm
import arviz as az

data = np.array([56, 60, 58, 55, 57, 59, 61, 56, 58, 60])

# a)
with pm.Model() as model_a:
    mu = pm.Normal('mu', mu=data.mean(), sigma=10)

    sigma = pm.HalfNormal('sigma', sigma=10)

    X= pm.Normal('X', mu=mu, sigma=sigma, observed=data)
# b)
with model_a:
    idata_a = pm.sample(2000, tune=1000, random_seed=42, target_accept=0.9)

summary_a = az.summary(idata_a, hdi_prob=0.95)
print(summary_a)

# c) Estimarile frecventiste pentru acest set de date sunt media esantionului (care este 58.0) si deviatia standard a esantionului (care este 1.99).
# Estimarile Bayesiene, calculate ca medii ale distributiilor a posteriori respective, sunt mu 58.005 si sigma 2.31.
# In cazul mediei mu, cele doua estimari sunt practic identice. Acest lucru se explica prin utilizarea unui prior neinformativ (slab) pentru mu, N(58, 10^2).
# Avand o varianta foarte mare (100), priorul nu a impus o convingere initiala puternica, permitand datelor (verosimilitatii) sa domine rezultatul final,
# iar datele erau deja centrate pe 58.0.
# In cazul deviatiei standard sigma, exista o diferenta notabila. Estimarea Bayesiana (2.31) este mai mare decat cea frecventista (1.99).
# Acest lucru se intampla deoarece estimarea frecventista este un singur calcul punctual, in timp ce estimarea Bayesiana este media unei intregi distributii a posteriori.
# Aceasta distributie incorporeaza incertitudinea datorata numarului mic de observatii (N=10). Deoarece exista o incertitudine semnificativa, distributia a posteriori pentru sigma este asimetrica
# ceea ce duce la o medie a posteriori mai mare decat estimarea punctuala frecventista.


# d)

with pm.Model() as model_d:
    mu = pm.Normal('mu', mu=50, sigma=1)
    sigma = pm.HalfNormal('sigma', sigma=10)
    X = pm.Normal('X', mu=mu, sigma=sigma, observed=data)

with model_d:
    idata_d = pm.sample(2000, tune=1000, random_seed=42, target_accept=0.9)

summary_d = az.summary(idata_d, hdi_prob=0.95)
print(summary_d)


# In modelul (d), priorul puternic N(50, 1) a fortat media a posteriori a lui mu sa ajunga la 50.718. Aceasta valoare e un compromis, fiind trasa puternic de la media datelor (58.0) spre media priorului (50.0).
# Deoarece priorul a avut o varianta mica (o incredere mare) si am avut putine date, priorul a dominat.
# Ca o consecinta, estimarea pentru sigma a crescut la 7.530 (de la 2.31).
# Pentru a "impaca" conflictul dintre media fortata (50.7) si datele reale (grupate la 58), modelul a trebuit sa concluzioneze ca imprastierea (sigma)
# este foarte mare pentru a justifica aceasta diferenta.

Output()

         mean     sd  hdi_2.5%  hdi_97.5%  mcse_mean  mcse_sd  ess_bulk  \
mu     57.985  0.762    56.363     59.424      0.018    0.016    1901.0   
sigma   2.341  0.672     1.275      3.673      0.018    0.020    1603.0   

       ess_tail  r_hat  
mu       1725.0    1.0  
sigma    1959.0    1.0  


Output()

         mean     sd  hdi_2.5%  hdi_97.5%  mcse_mean  mcse_sd  ess_bulk  \
mu     51.377  1.085    49.347     53.502      0.027    0.019    1643.0   
sigma   7.593  2.172     3.943     12.047      0.054    0.050    1613.0   

       ess_tail  r_hat  
mu       1871.0    1.0  
sigma    1755.0    1.0  
