# Inferenza bayesiana {#sec-solutions-bayesian-inference}

In [16]:
# Standard library imports
import os

# Third-party imports
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import arviz as az
import scipy.stats as stats
from scipy.special import expit  # Funzione logistica
from cmdstanpy import cmdstan_path, CmdStanModel

# Configuration
seed = sum(map(ord, "stan_poisson_regression"))
rng = np.random.default_rng(seed=seed)
az.style.use("arviz-darkgrid")
%config InlineBackend.figure_format = "retina"

# Define directories
home_directory = os.path.expanduser("~")
project_directory = f"{home_directory}/_repositories/psicometria"

# Print project directory to verify
print(f"Project directory: {project_directory}")

Project directory: /Users/corradocaudek/_repositories/psicometria


# @sec-congiugate-families-1 {.unnumbered} 

@exr-conjugate-families-1

```python
import scipy.stats as stats
import numpy as np

# Dati forniti
alpha_prior = 31.91
beta_prior = 100 - 31.91  # 100 - successo = insuccesso

# Parametri per la distribuzione a priori
a_prior = alpha_prior
b_prior = beta_prior

# Parametri per il calcolo della distribuzione a posteriori
n_observations = 152

# Scenario (a): tasso di successo del 60%
successes_a = 0.60 * n_observations

# Scenario (b): tasso di successo del 96%
successes_b = 0.96 * n_observations

# Calcolo della distribuzione a posteriori
a_posterior_a = a_prior + successes_a
b_posterior_a = b_prior + (n_observations - successes_a)

a_posterior_b = a_prior + successes_b
b_posterior_b = b_prior + (n_observations - successes_b)

# Distribuzioni beta a posteriori
x = np.linspace(0, 1, 1000)
posterior_a = stats.beta.pdf(x, a_posterior_a, b_posterior_a)
posterior_b = stats.beta.pdf(x, a_posterior_b, b_posterior_b)

a_posterior_a, b_posterior_a, a_posterior_b, b_posterior_b
```

La risoluzione del problema ha portato al calcolo delle distribuzioni a posteriori nei due scenari specificati, utilizzando il metodo delle famiglie coniugate.

**Scenario (a): Tasso di successo del 60%**

- **Parametri della distribuzione a posteriori:**
  - $\alpha_{\text{post}} = 123.11$
  - $\beta_{\text{post}} = 128.89$

**Scenario (b): Tasso di successo del 96%**

- **Parametri della distribuzione a posteriori:**
  - $\alpha_{\text{post}} = 177.83$
  - $\beta_{\text{post}} = 74.17$

In entrambi gli scenari, i parametri $\alpha_{\text{post}}$ e $\beta_{\text{post}}$ determinano le forme delle distribuzioni a posteriori, che ci forniscono informazioni aggiornate su $\theta$ (il tasso di successo) dopo aver osservato i dati.

**Commento sui Risultati**

- **Scenario (a)**: Con un tasso di successo osservato del 60%, la distribuzione a posteriori riflette una moderata concentrazione attorno a $\theta = 0.49$, suggerendo una certa incertezza nella stima del vero tasso di successo, ma comunque compatibile con la distribuzione a priori basata sugli studi preregistrati.
  
- **Scenario (b)**: Con un tasso di successo osservato del 96%, la distribuzione a posteriori è fortemente concentrata verso l'alto, con un valore medio di $\theta$ che si avvicina a 0.71. Questo scenario riflette una maggiore confidenza in un tasso di successo elevato, pur risultando in una distribuzione molto diversa rispetto alla distribuzione a priori.

Questi risultati mostrano come i dati osservati influenzino la nostra stima del tasso di successo, con la distribuzione a priori che viene "aggiornata" in base alle osservazioni fatte. In particolare, lo scenario con il 96% di successo evidenzia una netta discrepanza rispetto alla distribuzione a priori, suggerendo che i risultati ottenuti potrebbero essere molto più ottimistici rispetto alla base di riferimento data dagli studi preregistrati.

# @sec-subj-prop {.unnumbered} 

```python
import numpy as np
from scipy.stats import binom

# Definire i parametri del problema
n = 100  # numero di studi
k = 20   # numero di studi che hanno condiviso i materiali

# Discretizzazione della probabilità theta
theta_grid = np.array([0.05, 0.15, 0.25, 0.35, 0.45, 0.55, 0.65, 0.75, 0.85, 0.95])

# Distribuzione a priori
prior_probs = np.array([0.05, 0.20, 0.30, 0.15, 0.10, 0.08, 0.05, 0.03, 0.02, 0.02])

# Calcolo della verosimiglianza per ciascuna theta
likelihood = binom.pmf(k, n, theta_grid)

# Distribuzione a posteriori (non normalizzata)
posterior_unnorm = likelihood * prior_probs

# Normalizzazione della distribuzione a posteriori
posterior_probs = posterior_unnorm / np.sum(posterior_unnorm)

# Calcolo della media a posteriori
posterior_mean = np.sum(posterior_probs * theta_grid)

# Estrazione di un campione casuale dalla distribuzione a posteriori
np.random.seed(42)  # per la riproducibilità
posterior_sample = np.random.choice(theta_grid, size=10000, p=posterior_probs)

# Calcolo dell'intervallo di credibilità al 89%
cred_interval = np.percentile(posterior_sample, [5.5, 94.5])

posterior_mean, cred_interval
```

La soluzione dell'esercizio basato sul metodo della griglia fornisce i seguenti risultati:

- **Media della distribuzione a posteriori**: 0.2152
- **Intervallo di credibilità al 89%**: [0.15, 0.25]

Questi risultati indicano che, dopo aver osservato i dati e aver considerato la distribuzione a priori, la probabilità stimata che uno studio condivida i materiali di ricerca è circa il 21.5%, con un intervallo di credibilità all'89% che va dal 15% al 25%.