 Simulering av sjukdom (disease)

syftet här är att uppskatta den observerade andelen sjuka i datasetet 
och sedan jämföra detta med 1000 simulerade stickprov som utgår från 
samma sannolikhet (p = andel sjuka).


In [None]:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import ttest_ind
df = pd.read_csv("health_study_dataset.csv")


In [None]:
p_disease = df ["disease"].mean()
p_disease

In [None]:
np.random.seed(42) #Ger reproducerbara resultat

n = len(df) # Storleken på det riktiga stickprovet
n_sim = 1000 # Antal simuleringar 

# Binomial slumpninh: antal sjuka per simulering
simulated_counts = np.random.binomial(n=n, p=p_disease, size=n_sim)

# Konvertera till andelar 
simulated_props = simulated_counts / n

# Visa några av de simulerade värdena
simulated_props[:10]

In [None]:
sim_mean = simulated_props.mean()
sim_std = simulated_props.std()

sim_mean, sim_std

In [None]:

plt.figure(figsize=(8,5))
plt.hist(simulated_props, bins=30, color="skyblue", edgecolor="black")
plt.axvline(p_disease, color="red", linestyle="--", linewidth=2, label="Observerad andel")
plt.xlabel("Andel sjuka (simulerad)")
plt.ylabel("Antal simuleringar")
plt.title("Simulerad andel sjuka jämför med observerad andel")
plt.legend()
plt.show()

- Den observerade andelen sjuka i datasetet är `p_disease` (≈ X %).
- I 1000 simuleringar med samma sannolikhet fick jag:
  - Medelvärde: `sim_mean`
  - Standardavvikelse: `sim_std`

Den observerade andelen ligger nära mitten av fördelningen av de simulerade värdena, 
vilket tyder på att den observerade andelen sjuka är rimlig givet den antagna 
sannolikheten. Detta innebär att modellen med en fast sannolikhet för sjukdom 
fungerar väl i detta fall.
