# Programowanie probabilistyczne w PyMC3

In [0]:
# Arviz służy do wizualizacji modeli Bayesowskich
!pip install arviz 
!pip install 'pymc3==3.8'

In [0]:

%matplotlib inline
import numpy as np
import theano
import theano.tensor as tt
import pymc3 as pm
import arviz
import pandas as pd

import seaborn as sns
import matplotlib.pyplot as plt

sns.set_context('notebook')
plt.style.use('seaborn-darkgrid')
print('Running on PyMC3 v{}'.format(pm.__version__))


PyMC3 ma mnóstwo wbudowanych rozkładów prawdopodobieństw.

In [0]:
print('\n'.join([d for d in dir(pm.distributions) if d[0].isupper()]))

## Rzucanie monetą

Załóżmy, że rzuciliśmy 50 razy monetą i 17 razy wypadła reszka. Jak ocenić szansę na wyrzucenie reszki? Czy możemy założyć, że szansa wypadnięcia orła i reszki jest taka sama?

In [0]:
n = 50
heads = 17

niter = 2000
with pm.Model() as coin_model:
    # ustawiamy model
    p = pm.Uniform('p')
    # p = pm.Beta('p', alpha=2, beta=2)
    # p = pm.Beta('p', alpha=5, beta=1)
    y = pm.Binomial('y', n=n, p=p, observed=heads)


    trace = pm.sample(niter)
    # rysujemy wynik
    pm.traceplot(trace);

    # Jakie prawdopodobieństwo wylosowania reszki jest najbardziej zgodne z danymi?
    p_map = pm.find_MAP()
    print("p MAP = ", p_map)

Możemy zaobserwować co się dzieje przy wyborze różnych rozkładów dla `p`. Najbardziej zachowawczym wyborem jest rozkład równomierny (zakładamy, że każde prawdopodobieństwo wylosowania reszki jest tak samo możliwe). Możemy też ustawić inny rozkład, przykładowo `pm.Beta('p', alpha=2, beta=2)` który wyraża nasze przekonanie, że prawodopodobieństwa w okolicach 0.5 są bardziej prawdopodobne. Dlaczego akurat rozkład beta a nie jakikolwiek inny? Jeśli chcielibyśmy symulować model innymi metodami to rozkład beta byłby wygodny (to tzw. _conjugate prior_ dla rozkładu dwumianowego), ale dla metod typu Monte Carlo ma to mniejsze znaczenie. Nie ma żadnych wytycznych odnośnie tego który rozkład jest "lepszy". To, że któryś jest _conjugate prior_ oznacza głównie łatwiejsze obliczenia.

Wybór rozkładu prawdopodobieństwa dla zmiennych które chcemy znaleźć jest szczególnie istotny gdy mamy mało danych. Jak danych jest sporo to i tak one przeważą.

In [0]:
grid = np.linspace(0.0, 1.0, 100)
uniform_p = np.exp(pm.Uniform.dist().logp(grid))
beta22_p = np.exp(pm.Beta.dist(alpha=2, beta=2).logp(grid))
beta51_p = np.exp(pm.Beta.dist(alpha=5, beta=1).logp(grid))

plt.plot(grid, uniform_p.eval(), 'r',
         grid, beta22_p.eval(), 'g',
         grid, beta51_p.eval(), 'b');


Weźmy teraz drugą monetę. Rzuciliśmy nią 50 razy i otrzymaliśmy 23 reszek.

In [0]:
n = 500
heads1 = 170
heads2 = 230

niter = 2000
with pm.Model() as coin_model:
    # ustawiamy model
    p1 = pm.Uniform('p1')
    p2 = pm.Uniform('p2')
    y1 = pm.Binomial('y1', n=n, p=p1, observed=heads1)
    y2 = pm.Binomial('y2', n=n, p=p2, observed=heads2)
    diffp = pm.Deterministic('p1-p2', p1-p2)


    trace = pm.sample(niter)
    # rysujemy wynik
    pm.traceplot(trace);
    display(pm.summary(trace, var_names=['p1', 'p2', 'p1-p2']))

    # Jakie prawdopodobieństwo wylosowania reszki jest najbardziej zgodne z danymi?
    p_map = pm.find_MAP()
    print("MAP = ", p_map)

    # Jak ocenić szansę, że druga moneta ma większe prawodopodobieństwo wyrzucenia reszki?
    p1vals = trace.get_values('p1')
    p2vals = trace.get_values('p2')
    numvals = len(p1vals)
    counts = sum([1 for i in range(numvals) if p1vals[i] < p2vals[i]])
    print("p1 < p2? ", counts/numvals)


    # Jak ocenić szansę, że obie monety mają taką samą szansę wylosowania reszki?
    pm.plot_posterior(trace, var_names=['p1-p2'],
                      ref_val=0,
                      color='#00eeee');

    
    pm.forestplot(trace, var_names=['p1',
                                    'p2',
                                    'p1-p2']);

    
  

## Prosty model regresji

In [0]:
with pm.Model() as model_reg_simple:
    mu = pm.Normal('mu', mu=0, sigma=1)
    mup1 = mu+1 # transformacja zmiennej
    mum1 = pm.Deterministic('mu minus 1', mu - 1)
    obs = pm.Normal('obs', mu=mup1, sigma=1, observed=np.random.randn(100))

    print("Zmienne losowe:", model_reg_simple.basic_RVs)
    print("Zmienne losowe które obserwujemy: ", model_reg_simple.observed_RVs)
    print("Zmienne będące transformacjami innych: ", model_reg_simple.deterministics)
    print("Pozostałe zmienne: ", model_reg_simple.free_RVs)

    trace = pm.sample(1000, tune=500)
    pm.traceplot(trace);


Domyślnie dla rozkładów ciągłych stosowany jest algorytm NUTS, ale dostępne są też inne.

In [0]:
print('\n'.join(m for m in dir(pm.step_methods) if m[0].isupper()))

## Analiza wypadków w kopalniach

In [0]:
# Time series of recorded coal mining disasters in the UK from 1851 to 1962
disasters_data = np.array([4, 5, 4, 0, 1, 4, 3, 4, 0, 6, 3, 3, 4, 0, 2, 6,
                           3, 3, 5, 4, 5, 3, 1, 4, 4, 1, 5, 5, 3, 4, 2, 5,
                           2, 2, 3, 4, 2, 1, 3, 2, 2, 1, 1, 1, 1, 3, 0, 0,
                           1, 0, 1, 1, 0, 0, 3, 1, 0, 3, 2, 2, 0, 1, 1, 1,
                           0, 1, 0, 1, 0, 0, 0, 2, 1, 0, 0, 0, 1, 1, 0, 2,
                           3, 3, 1, 1, 2, 1, 1, 1, 1, 2, 4, 2, 0, 0, 1, 4,
                           0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1])
year = np.arange(1851, 1962)

plt.plot(year, disasters_data)

with pm.Model() as model_mine:

    switchpoint = pm.DiscreteUniform('switchpoint', lower=year.min(), upper=year.max())
    early_mean = pm.Exponential('early_mean', lam=1.)
    late_mean = pm.Exponential('late_mean', lam=1.)

    # Allocate appropriate Poisson rates to years before and after current
    # switchpoint location
    rate = tt.switch(switchpoint >= year, early_mean, late_mean)
    
    disasters = pm.Poisson('disasters', rate, observed=disasters_data)

    # Initial values for stochastic nodes
    start = {'early_mean': 2., 'late_mean': 3.}
    
    tr = pm.sample(2000, tune=500, start=start)
    pm.traceplot(tr)


pm.model_to_graphviz(model_mine)

## Poziom randonu

Zmierzono poziom radonu w domach w różnych hrabstwach aby sprawdzić, czy obecność piwnicy wpływa na poziom szkodliwego radonu.

Za: https://github.com/pymc-devs/pymc3/blob/master/docs/source/notebooks/GLM-hierarchical.ipynb
oraz https://docs.pymc.io/notebooks/multilevel_modeling.html

Co zakłada poniższy model? Spróbuj uzasadnić dlaczego współczynniki `b` przy niektórych hrabstrawach mają bardzo duże rozpiętości.

In [0]:
print(pd.read_csv(pm.get_data('radon.csv')).columns)

data = pd.read_csv(pm.get_data('radon.csv'))[['Unnamed: 0', 'county', 'county_code', 'region', 'floor', 'room', 'fips', 'Uppm', 'log_radon']]
data['log_radon'] = data['log_radon'].astype(theano.config.floatX)
county_names = data.county.unique()
county_idx = data.county_code.values

display(data.loc[data['county_code'] == 81])
display(data.loc[data['county_code'] == 84])

data.county = data.county.map(str.strip)
unique_counties = data.county.unique()
n_counties = len(unique_counties)
# county_lookup = dict(zip(mn_counties, range(len(unique_counties))))

# county = srrs_mn['county_code'] = srrs_mn.county.replace(county_lookup).values

print(n_counties)
display(data.describe())

with pm.Model() as unpooled_model:

    # Independent parameters for each county
    a = pm.Normal('a', 0, sigma=50, shape=n_counties)
    b = pm.Normal('b', 0, sigma=50, shape=n_counties)

    # Model error
    eps = pm.HalfCauchy('eps', 5)

    # Model prediction of radon level
    # a[county_idx] translates to a[0, 0, 0, 1, 1, ...],
    # we thus link multiple household measures of a county
    # to its coefficients.
    radon_est = a[county_idx] + b[county_idx]*data.floor.values

    # Data likelihood
    y = pm.Normal('y', radon_est, sigma=eps, observed=data.log_radon)

    trace = pm.sample(1000, tune=500)
    pm.traceplot(trace)
    summary = pm.summary(trace, var_names=['a', 'b', 'eps'])
    summary.sort_values(by=['r_hat'])
    display(summary)

    pm.forestplot(trace, var_names=['a', 'b', 'eps'])

Można przedstawić kod jako model grafowy:

In [0]:
pm.model_to_graphviz(unpooled_model)

### Model wielopoziomowy dla przykładu z radem

In [0]:
with pm.Model() as hierarchical_model:
    # Hyperpriors for group nodes
    mu_a = pm.Normal('mu_a', mu=0., sigma=100)
    sigma_a = pm.HalfNormal('sigma_a', 5.)
    mu_b = pm.Normal('mu_b', mu=0., sigma=100)
    sigma_b = pm.HalfNormal('sigma_b', 5.)

    # Intercept for each county, distributed around group mean mu_a
    # Above we just set mu and sd to a fixed value while here we
    # plug in a common group distribution for all a and b (which are
    # vectors of length n_counties).
    a = pm.Normal('a', mu=mu_a, sigma=sigma_a, shape=n_counties)
    # Intercept for each county, distributed around group mean mu_a
    b = pm.Normal('b', mu=mu_b, sigma=sigma_b, shape=n_counties)

    # Model error
    eps = pm.HalfCauchy('eps', 5.)

    radon_est = a[county_idx] + b[county_idx]*data.floor.values

    # Data likelihood
    radon_like = pm.Normal('radon_like', mu=radon_est,
                           sigma=eps, observed=data.log_radon)
    
    hierarchical_trace = pm.sample(2000, tune=2000, target_accept=.9)

    pm.traceplot(hierarchical_trace,
                 var_names=['mu_a', 'mu_b', 'sigma_a', 'sigma_b', 'eps'])
    display(pm.summary(hierarchical_trace, var_names=['mu_a', 'mu_b', 'eps']))

    pm.forestplot(hierarchical_trace, var_names=['mu_a', 'mu_b', 'sigma_a', 'sigma_b', 'eps'])

Model grafowy:

In [0]:
pm.model_to_graphviz(hierarchical_model)

Możemy wykorzystać dodatkowe informacje które zostały zebrane, na przykład poziom uranu. W poprzednim przykładzie zakładaliśmy, że różnice w rozkładach średniego poziomu i efektu występowania piwnicy pomiędzy hrabstwami są zupełnie losowe. W kolejnym modelu badamy związek pomiędzy zawartością uranu w ziemi a poziomem radonu.

In [0]:
# centrujemy zmienną aby lepiej zobaczyć wpływ jej odchyleń od średniej
u = np.log(data.Uppm)
u = u - np.mean(u)
print(u)

with pm.Model() as hierarchical_intercept:

    # Priors
    sigma_a = pm.HalfCauchy('sigma_a', 5)

    # County uranium model for slope
    gamma_0 = pm.Normal('gamma_0', mu=0., sigma=1e5)
    gamma_1 = pm.Normal('gamma_1', mu=0., sigma=1e5)


    # Uranium model for intercept
    mu_a = gamma_0 + gamma_1*u
    # County variation not explained by uranium
    eps_a = pm.Normal('eps_a', mu=0, sigma=sigma_a, shape=n_counties)
    a = pm.Deterministic('a', mu_a + eps_a[data['county_code']])

    # Common slope
    b = pm.Normal('b', mu=0., sigma=1e5)

    # Model error
    sigma_y = pm.Uniform('sigma_y', lower=0, upper=100)

    # Expected value
    y_hat = a + b * data['floor']

    # Data likelihood
    y_like = pm.Normal('y_like', mu=y_hat, sigma=sigma_y, observed=data['log_radon'])

    trace = pm.sample(2000, tune=2000, target_accept=.9)

    pm.traceplot(trace,
                 var_names=['a', 'b', 'gamma_0', 'gamma_1', 'sigma_a'])
    display(pm.summary(trace, var_names=['b', 'gamma_0', 'gamma_1', 'sigma_a']))

    pm.forestplot(trace, var_names=['b', 'gamma_0', 'gamma_1', 'sigma_a'])

pm.model_to_graphviz(hierarchical_intercept)