<a href="https://colab.research.google.com/github/Areliortiz/SIMULACION2/blob/main/frecuentistas_y_bayesianos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## FRECUENTISTAS Y BAYESIANOS

Frecuentistas: Creen que la probabilidad solo tiene sentido en experimentos
repetidos y que mide la frecuencia con la que un evento ocurre.

Bayesianos: Creen que la probabilidad refleja nuestro grado de conocimiento o certeza sobre un evento, y se puede aplicar tanto a eventos repetidos como a situaciones únicas.

In [4]:
#iportar librerias
import numpy as np
import matplotlib.pyplot as plt

# **Ejemplo: Mediciones de flujo de fotones.**

Apuntamos un telescopio al cielo y observamos la luz que provienede una sola estrella, tenemos los siguientes datos:

$F$: flujo real de fotones de la estrella

$N$: numero de mediones

$F_i$: flujo observado

$e_i$: error de medición

In [5]:
np.random.seed(2)  # para reproducibilidad
e = np.random.normal(30, 3, 50) # Genera un conjunto de 50 números aleatorios siguiendo una distribución normal
F = np.random.normal(1000, e) #Genera un conjunto de números aleatorios siguiendo una distribución normal


Enfoque frecuentista.

Utiliza máxima verosimilitud para estimar parametros. En este caso, la probabilidad condicional de una medición $D_i$ dado un flujo verdadero $F$ se modela como una distribución normal:
$P(D_i|F) = \frac{1}{\sqrt{2\pi e_i^2}} \exp\left(-\frac{(F_i - F)^2}{2e_i^2}\right)$

El log-verosimilitud para un conjunto de mediciones $D$ es:

$\log L(D|F) = -\frac{1}{2} \sum_{i=1}^N \left[ \log(2\pi e_i^2) + \frac{(F_i - F)^2}{e_i^2} \right]$

El valor que maximiza la verisimiltud es:

$\hat{F} = \frac{\sum w_i F_i}{\sum w_i}, \quad w_i = \frac{1}{e_i^2}$

La incertidumbre en $\hat{F}$ se calcula como:

$\sigma_{\hat{F}} = \left(\sum w_i\right)^{-1/2}$

In [6]:
# Establecemos pesos inversamente proporcionales a la varianza (frecuentista)
w = 1. / e ** 2

# Calculamos el valor promedio ponderado de F
F_hat = np.sum(w * F) / np.sum(w)

# Calculamos la incertidumbre asociada al promedio ponderado
sigma_F = np.sqrt(1. / np.sum(w))

# Mostramos los resultados
print(f"Frequentista: F̂ = {F_hat:.2f} ± {sigma_F:.2f}")




Frequentista: F̂ = 998.65 ± 4.11


Bayesianismo: Uso de probabilidades.

El enfoque bayesiano calcula la distribución posterior de $F$ utilizando el teorema de Bayes:

$P(F|D) = \frac{P(D|F)P(F)}{P(D)}$

Donde:

$P(F|D)$: Probabilidad posterior(la meta del análisis)

$P(D|F)$: Verosimilidad

$P(F|D)$: Prior, que en este caso asume el plano ($P$($F$) α 1).




si fijamos lo anterior P(F) ∝ 1 (a flat prior), tenemos.

P(F|D) ∝ L (D|F). El resultado es equivalente al frecuentista en este caso.

Divergencia en los resultados
Aunque frecuentismo y bayesianismo suelen coincidir en problemas simples, en casos más complejos pueden diferir notablemente, especialmente en:

Manejo de parámetros de molestia.
Diferencias entre intervalos de confianza (frecuentistas) y regiones creíbles (bayesianas).

# **Ejemplo: Juego de billar de Bayes**


- **Contexto**: Alice y Bob compiten para alcanzar seis puntos. Los puntos dependen de un marcador cuya posición, desconocida para ambos, determina el lado ganador. Alice tiene cinco puntos y Bob tres después de ocho lanzamientos. La probabilidad de ganar de Bob depende de este parámetro de molestia.

Datos:

B = Bob gana

D = datos observados, es decir, D = (nA,nB) = (5,3)

p = probabilidad desconocida de que una pelota caiga en el lado de Alice


- **Frecuentismo**:
   - Estima $p$, la probabilidad de que una bola favorezca a Alice, como $( \hat{p} = \frac{5}{8}).$
   - Calcula la probabilidad de que Bob gane los siguientes tres puntos consecutivos:
   $   P(B) = (1 - \hat{p})^3 = 0.053 \quad$ (esto es, 18 a 1 en contra de Bob).

- **Bayesianismo**:

   -Comenzamos aplicando la definición de probabilidad condicional
para expandir el término $P(B, p|D):$

  $P(B|D) = \int P(B|p,D) \cdot P(p|D) \, dp$

Ahora la probabilidad deseada se expresa en términos
utilizando la regla de Bayes, la identidad de probabilidad obtendremos lo siguiente.
La probabilidad deseada está expresada en términos de tres cantidades que podemos calcular:

$P(B|D) = \frac{\int P(B|p, D) P(D|p) P(p) \, dp}{\int P(D|p) P(p) \, dp}$

Donde:

1. $ P(B|p, D)  = (1 - p)^3 $ Probabilidad de que Bob gane los tres lanzamientos restantes.

2. $   P(D|p) \propto p^5 (1 - p)^3$): probabilidad de observar 5 éxitos para Alice y 3 para Bob

3. $P(p) \propto 1$Prior uniforme sobre $p$

Juntando todo y simplificando, obtenemos:
$P(B|D) = \frac{\int_0^1 (1 - p)^3 p^5 \, dp}{\int_0^1 (1 - p)^3 p^3 \, dp}$

Usando la libreria spacy:

El bayesianismo proporciona una mejor forma de manejar parámetros de molestia mediante la marginalización.



In [7]:
from scipy.special import beta
# Importamos la función `beta` de SciPy, que calcula la función beta especial:


P_B_D = beta(7, 6) / beta(4, 6)
# Calculamos la probabilidad posterior (P(B|D)) para un modelo bayesiano.
# Resultado esperado: 0.091
# Este valor indica que los odds (razón de probabilidades) son de 10 a 1 contra Bob.

P_B_D
# Muestra el valor calculado de P(B|D)


0.09090909090909091

El enfoque bayesiano produce una probabilidad más precisa al considerar la incertidumbre en $p$. El frecuentismo subestima esta variabilidad.


#### Intervalos de confianza vs. regiones creíbles
- **Definiciones:**
   - **Frecuentista:** La probabilidad se refiere a la proporción de intervalos generados que contienen el valor verdadero en experimentos repetidos.
   - **Bayesiano:** La probabilidad se refiere a la certeza de que el parámetro desconocido está dentro de un intervalo dado los datos observados.

   Esencialmente, tenemos datos \( D \) provenientes del modelo:

$
P(x|θ) =
\begin{cases}
\exp(θ - x), & x > θ \\
0, & x < θ
\end{cases}
$


- **Problema del modelo truncado exponencial:**
   - Se estima θ , el tiempo antes de que ocurra un fallo, a partir de datos de fallos observados \( D = \{10, 12, 15\} \).
   - **Frecuentismo:** Calcula un intervalo de confianza $CI$ usando la media muestral y su desviación estándar.
   
   Ejemplo:

     $ CI(\theta) = (10.2, 12.5)$
    
     Sin embargo, este intervalo contradice el límite $θ \leq \min(D) = 10.$
   - **Bayesianismo:** Utiliza una prior plana y encuentra la región creíble (CR):

     $     CR(\theta) = (9.0, 10.0)$
     Este intervalo respeta el límite lógico basado en los datos.

Conclusión.
El IC y el CR, represntan diferentes valores.
Usando simulaciones de Monte Carlo, es posible confirmar que ambos resultados anteriores responden correctamente.

El CR bayesiano muestra el valor de θ en sí (la probabilidad de que el parámetro esté en el CRfijo).

El IC frecuentista muestra el procedimiento utilizado para construir el IC (la probabilidad de que cualquier IC potencial contenga el parámetro fijo).


El enfoque bayesiano es más intuitivo y consistente en problemas donde los datos están restringidos o hay parámetros desconocidos. Sin embargo, ambos enfoques tienen sus aplicaciones según el problema.

# **Aplicación: Un modelo lineal simple**


Se utiliza un modelo lineal con tres parámetros: intersección, pendiente y dispersión.
Los datos se generan aleatoriamente para ajustar el modelo utilizando tanto enfoques frecuentistas como bayesianos.

Para los datos $ D = \{x_i, y_i\} $, el modelo es:

$\hat{y}(x_i|\alpha, \beta) = \alpha + \beta x_i,$

y la verosimilitud es el producto de la distribución Gaussiana para cada punto:

$
\mathcal{L}(D|\alpha, \beta, \sigma) = (2\pi\sigma^2)^{-N/2} \prod_{i=1}^N \exp\left[-\frac{[y_i - \hat{y}(x_i|\alpha, \beta)]^2}{2\sigma^2}\right].$

In [8]:
import numpy as np
# Importa la biblioteca NumPy
np.random.seed(42)
# Fija una semilla para el generador de números aleatorios.


theta_true = (25, 0.5)
# Define los valores "verdaderos" de los parámetros del modelo lineal:


xdata = 100 * np.random.random(20)
# Genera 20 valores aleatorios uniformemente distribuidos en el rango [0, 100].


ydata = theta_true[0] + theta_true[1] * xdata
# Calcula los valores correspondientes de y (dependientes) según el modelo lineal:

ydata = np.random.normal(ydata, 10)
# Agrega ruido aleatorio (error) a los valores de y





Frecuentista:
El intervalo de confianza alrededor de este valor es una elipse en el espacio de parámetros definida por la siguiente matriz:

$
\Sigma_{\hat{\theta}} \equiv
\begin{bmatrix}
\sigma_\alpha^2 & \sigma_{\alpha\beta} \\
\sigma_{\alpha\beta} & \sigma_\beta^2
\end{bmatrix}
= \sigma^2 (M^T M)^{-1}.
$

Aquí, σ es nuestro término de error desconocido
$Σ _{\hat{\theta}} $ representan la incertidumbre correlacionada entre las estimaciones.

In [9]:
#frecuentista
X = np.vstack([np.ones_like(xdata), xdata]).T
theta_hat = np.linalg.solve(np.dot(X.T, X), np.dot(X.T, ydata))
y_hat = np.dot(X, theta_hat)
sigma_hat = np.std(ydata - y_hat)
Sigma = sigma_hat**2 * np.linalg.inv(np.dot(X.T, X))


In [10]:
import statsmodels.api as sm
X = sm.add_constant(xdata)
result = sm.OLS(ydata, X).fit()
print(result.summary2())


                 Results: Ordinary least squares
Model:              OLS              Adj. R-squared:     0.683   
Dependent Variable: y                AIC:                147.7737
Date:               2024-12-09 05:53 BIC:                149.7651
No. Observations:   20               Log-Likelihood:     -71.887 
Df Model:           1                F-statistic:        41.97   
Df Residuals:       18               Prob (F-statistic): 4.30e-06
R-squared:          0.700            Scale:              86.157  
-------------------------------------------------------------------
            Coef.    Std.Err.     t      P>|t|     [0.025    0.975]
-------------------------------------------------------------------
const      24.6361     3.7871   6.5053   0.0000   16.6797   32.5924
x1          0.4483     0.0692   6.4782   0.0000    0.3029    0.5937
-----------------------------------------------------------------
Omnibus:              1.996        Durbin-Watson:           2.758
Prob(Omnibus):   

Podemos demostrar que:
$
P(\sigma) \propto \frac{1}{\sigma},
$

lo cual es comúnmente conocido como el **Prior de Jeffreys**  y es equivalente a un prior plano en $ \log \sigma $. Combinando todo esto,obtenemos para nuestro problema de regresión lineal:

$
P(\alpha, \beta, \sigma) \propto \frac{1}{\sigma} (1 + \beta^2)^{-3/2}.
$

Ahora se evalua numéricamente la posterior mediante MCMC.


In [11]:
!pip install emcee



In [12]:
import emcee
def log_prior(theta):
    alpha, beta, sigma = theta
    if sigma < 0:
        return -np.inf  # log(0)
    return -1.5 * np.log(1 + beta**2) - np.log(sigma)

def log_like(theta, x, y):
    alpha, beta, sigma = theta
    y_model = alpha + beta * x
    return -0.5 * np.sum(np.log(2 * np.pi * sigma**2) + (y - y_model)**2 / sigma**2)

def log_posterior(theta, x, y):
    return log_prior(theta) + log_like(theta, x, y)


A continuación, configuramos el cálculo. emcee combina varios “caminantes”
que interactúan, cada uno de los cuales genera su propia cadena
de Markov. También especificaremos un período de rodaje para permitir que las cadenas se estabilicen antes de dibujar nuestros trazos finales:

In [13]:
ndim = 3
nwalkers = 50
nburn = 1000
nsteps = 2000
starting_guesses = np.random.rand(nwalkers, ndim)
sampler = emcee.EnsembleSampler(nwalkers, ndim, log_posterior, args=[xdata, ydata])
sampler.run_mcmc(starting_guesses, nsteps)
trace = sampler.chain[:, nburn:, :].reshape(-1, ndim).T


Ahora llamamos al sampler y extraemos el rastro:

In [14]:
sampler = emcee.EnsembleSampler(nwalkers, ndim,
log_posterior,
args=[xdata,ydata])
sampler.run_mcmc(starting_guesses, nsteps)
# chain is of shape (nwalkers, nsteps, ndim):
# discard burn-in points and reshape:
trace = sampler.chain[:, nburn:, :]
trace = trace.reshape(-1, ndim).T

# **Con PyMC:**

Modelo con decoradores:
Para este ejercicio no obtuvimos resultado ya que el codigo no se logro ejecutar

In [15]:
import pymc as pm
import numpy as np

# Generar datos simulados
np.random.seed(42)
xdata = 100 * np.random.random(20)
true_alpha, true_beta = 25, 0.5
ydata = true_alpha + true_beta * xdata + np.random.normal(0, 10, size=len(xdata))

# Construir el modelo en PyMC3
with pm.Model() as model:
    # Priors para los parámetros (ajustados)
    alpha = pm.Normal("alpha", mu=25, sigma=20)  # Prior centrado cerca del valor verdadero
    beta = pm.Normal("beta", mu=0.5, sigma=1)   # Prior más estrecho
    sigma = pm.HalfNormal("sigma", sigma=10)    # Prior para sigma

    # Modelo determinístico para y
    y_model = alpha + beta * xdata

    # Likelihood (verosimilitud) para los datos observados
    y = pm.Normal("y", mu=y_model, sigma=sigma, observed=ydata)

    # Revisar los valores iniciales
    print("Puntos iniciales del modelo:", model.initial_point)

    # Configuración del muestreador MCMC
    trace = pm.sample(1000, tune=500, cores=1, return_inferencedata=True)

# Resumen de los resultados
print(pm.summary(trace))
#se modifico el codigo original ya que presentaba errores

Puntos iniciales del modelo: <bound method Model.initial_point of <pymc.model.core.Model object at 0x7c7b5ee273d0>>


Output()

Output()

         mean     sd  hdi_3%  hdi_97%  mcse_mean  mcse_sd  ess_bulk  ess_tail  \
alpha  24.596  3.830  17.413   31.541      0.129    0.092     884.0    1042.0   
beta    0.449  0.071   0.313    0.583      0.002    0.002     856.0     939.0   
sigma   9.569  1.619   6.882   12.564      0.047    0.034    1193.0    1335.0   

       r_hat  
alpha    1.0  
beta     1.0  
sigma    1.0  


In [17]:
import pymc as pm
import numpy as np

# Supongamos que tienes datos de ejemplo
x = np.random.normal(0, 1, 100)
y = 2.5 * x + np.random.normal(0, 0.5, 100)

# Modelo Bayesiano
with pm.Model() as model:
    # Priors
    alpha = pm.Normal("alpha", mu=0, sigma=10)
    beta = pm.Normal("beta", mu=0, sigma=10)
    sigma = pm.HalfNormal("sigma", sigma=1)

    # Likelihood (observed data)
    mu = alpha + beta * x
    y_obs = pm.Normal("y_obs", mu=mu, sigma=sigma, observed=y)

    # MCMC sampling
    trace = pm.sample(draws=500, tune=500, return_inferencedata=True)

# Acceder a las muestras
alpha_samples = trace.posterior["alpha"].values.flatten()
beta_samples = trace.posterior["beta"].values.flatten()
sigma_samples = trace.posterior["sigma"].values.flatten()

# Resultados
print(f"Media de alpha: {np.mean(alpha_samples)}")
print(f"Media de beta: {np.mean(beta_samples)}")
print(f"Media de sigma: {np.mean(sigma_samples)}")



Output()

Output()

Media de alpha: 0.054467009692447506
Media de beta: 2.5014396757725144
Media de sigma: 0.5037394233612695


In [20]:
from cmdstanpy import cmdstan_path
print(f"CmdStan está instalado en: {cmdstan_path()}")


CmdStan está instalado en: /root/.cmdstan/cmdstan-2.35.0


In [21]:
import cmdstanpy
import numpy as np

# Datos de ejemplo
xdata = np.random.normal(0, 1, 100)
ydata = 2.5 * xdata + np.random.normal(0, 0.5, 100)

# Código del modelo en Stan
model_code = """
data {
  int<lower=0> N;  // número de puntos
  real x[N];       // valores x
  real y[N];       // valores y
}
parameters {
  real alpha_perp;
  real<lower=-pi()/2, upper=pi()/2> theta;
  real log_sigma;
}
transformed parameters {
  real alpha;
  real beta;
  real sigma;
  real ymodel[N];
  alpha = alpha_perp / cos(theta);
  beta = sin(theta);
  sigma = exp(log_sigma);
  for (j in 1:N) {
    ymodel[j] = alpha + beta * x[j];
  }
}
model {
  y ~ normal(ymodel, sigma);
}
"""

# Guardar el modelo Stan en un archivo
with open("model.stan", "w") as f:
    f.write(model_code)

# Compilar el modelo
stan_model = cmdstanpy.CmdStanModel(stan_file="model.stan")

# Configuración de los datos
data = {
    "N": len(xdata),
    "x": xdata,
    "y": ydata
}

# Ajuste del modelo
fit = stan_model.sample(data=data, chains=4, iter_sampling=5000, iter_warmup=1000)

# Extraer muestras
posterior = fit.draws_pd()

# Acceder a las muestras específicas
alpha_samples = posterior["alpha"]
beta_samples = posterior["beta"]
sigma_samples = posterior["sigma"]

# Mostrar resultados
print(f"Media de alpha: {alpha_samples.mean()}")
print(f"Media de beta: {beta_samples.mean()}")
print(f"Media de sigma: {sigma_samples.mean()}")


ValueError: Failed to get source info for Stan model '/content/model.stan'. Console:
Syntax error in '/content/model.stan', line 4, column 9 to column 10, parsing error:
   -------------------------------------------------
     2:  data {
     3:    int<lower=0> N;  // número de puntos
     4:    real x[N];       // valores x
                  ^
     5:    real y[N];       // valores y
     6:  }
   -------------------------------------------------

";" expected after variable declaration.
It looks like you are trying to use the old array syntax.
Please use the new syntax:
array[N] real x;


### De lo anterior podemos concluir lo siguiente
El ajuste de un modelo lineal simple utilizando enfoques frecuentistas y bayesianos permite comparar cómo cada paradigma trata la incertidumbre y los datos. En este caso:

1. **Frecuentismo:**
   - La estimación de los parámetros α,Β y Γ se realiza a través de máxima verosimilitud y álgebra lineal.
   - Se calculan intervalos de confianza basados en supuestos estrictos sobre la varianza y los residuos.
   - Los intervalos son más estrechos pero menos flexibles, ya que dependen de un enfoque puntual para los parámetros.

2. **Bayesianismo:**
   - El ajuste incorpora la incertidumbre a través de priors no informativos (como el Prior de Jeffreys) y la verosimilitud.
   - Métodos como MCMC (Markov Chain Monte Carlo) permiten estimar distribuciones completas para los parámetros en lugar de un único punto.
   - Los resultados incluyen intervalos creíbles, que representan directamente la probabilidad de que los parámetros se encuentren dentro de esos rangos, dado el modelo y los datos.

3. **Herramientas utilizadas:**
   - Los paquetes `emcee`, `PyMC`, y `PyStan` se implementaron para realizar ajustes bayesianos. Pero desafortunadamnete tuvimos problemas con el codigo y no se ejecuto

4. **Diferencias clave:**
   - Los enfoques frecuentistas tienden a ser más rápidos y directos, pero dependen de supuestos estrictos.
   - Los enfoques bayesianos, aunque computacionalmente más costosos, ofrecen una representación más rica de la incertidumbre.



# **Conclusión **

La comparación entre frecuentismo y bayesianismo muestra que ambos enfoques tienen fortalezas y limitaciones dependiendo del contexto del problema. Aunque los métodos frecuentistas son más rápidos y ampliamente utilizados, los enfoques bayesianos ofrecen una mayor flexibilidad al integrar incertidumbres y conocimientos previos en el análisis.

En problemas simples, ambos enfoques pueden producir resultados similares. Sin embargo, en problemas complejos o con datos limitados, el enfoque bayesiano destaca por su capacidad de manejar la incertidumbre de manera explícita y proporcionar interpretaciones más completas sobre los parámetros del modelo.

La decisión entre uno u otro depende de los objetivos del análisis, los recursos computacionales y el grado de incertidumbre que se necesite modelar