Sveučilište u Zagrebu  
Fakultet elektrotehnike i računarstva  
  
## Strojno učenje 1 2021/2022
http://www.fer.unizg.hr/predmet/struce1

------------------------------

### Probabilistički grafički modeli

*Verzija: 1.0  
Zadnji put ažurirano: 6. siječnja 2021.*

(c) 2015-2021 Jan Šnajder, Domagoj Alagić  

Rok za predaju: **9. siječnja 2021. u 23:59h**

------------------------------

### Upute

Ova laboratorijska vježba sastoji se od dva zadatka. U nastavku slijedite upute navedene u ćelijama s tekstom. Rješavanje vježbe svodi se na **dopunjavanje ove bilježnice**: umetanja ćelije ili više njih **ispod** teksta zadatka, pisanja odgovarajućeg kôda te evaluiranja ćelija. 

Osigurajte da u potpunosti **razumijete** kôd koji ste napisali. Kod predaje vježbe, morate biti u stanju na zahtjev asistenta (ili demonstratora) preinačiti i ponovno evaluirati Vaš kôd. Nadalje, morate razumjeti teorijske osnove onoga što radite, u okvirima onoga što smo obradili na predavanju. Ispod nekih zadataka možete naći i pitanja koja služe kao smjernice za bolje razumijevanje gradiva (**nemojte pisati** odgovore na pitanja u bilježnicu). Stoga se nemojte ograničiti samo na to da riješite zadatak, nego slobodno eksperimentirajte. To upravo i jest svrha ovih vježbi.

Vježbe trebate raditi **samostalno**. Možete se konzultirati s drugima o načelnom načinu rješavanja, ali u konačnici morate sami odraditi vježbu. U protivnome vježba nema smisla.

In [1]:
# Učitaj osnovne biblioteke...
import sklearn
from sklearn.metrics import silhouette_samples, silhouette_score
import numpy as np
import matplotlib.pyplot as plt
import pgmpy as pgm
%pylab inline

Populating the interactive namespace from numpy and matplotlib


### 1. Probabilistički grafički modeli -- Bayesove mreže

Ovaj zadatak bavit će se Bayesovim mrežama, jednim od poznatijih probabilističkih grafičkih modela (*probabilistic graphical models*; PGM). Za lakše eksperimentiranje koristit ćemo programski paket [`pgmpy`](https://github.com/pgmpy/pgmpy). Molimo Vas da provjerite imate li ovaj paket te da ga instalirate ako ga nemate. Upute se nalaze na gornjoj poveznici. Za korisnike Anaconde, najlakše je upisati `conda install -c ankurankan pgmpy` (ili `pip install pgmpy` ako ne prolazi) unutar Anaconda Prompta (i ponovno pokrenuti Jupyter).

Prvo ćemo pogledati udžbenički primjer s prskalicom. U ovom primjeru razmatramo Bayesovu mrežu koja modelira zavisnosti između oblačnosti (slučajna varijabla $C$), kiše ($R$), prskalice ($S$) i mokre trave ($W$). U ovom primjeru također pretpostavljamo da već imamo parametre vjerojatnosnih distribucija svih čvorova. Ova mreža prikazana je na sljedećoj slici:

![This](http://www.fer.unizg.hr/_download/repository/bayes-net-sprinkler.jpg)

Koristeći paket `pgmpy`, konstruirajte Bayesovu mrežu iz gornjeg primjera. Zatim, koristeći **egzaktno** zaključivanje, postavite sljedeće posteriorne upite: $P(w=1)$, $P(s=1|w=1)$, $P(r=1|w=1)$, $P(c=1|s=1, r=1)$ i $P(c=1)$. Provedite zaključivanje na papiru i uvjerite se da ste ispravno konstruirali mrežu. Pomoći će vam službena dokumentacija te primjeri korištenja (npr. [ovaj](https://github.com/pgmpy/pgmpy/blob/dev/examples/Monty%20Hall%20Problem.ipynb)).

In [2]:
from pgmpy.models import BayesianModel
from pgmpy.factors.discrete.CPD import TabularCPD
from pgmpy.inference import VariableElimination

In [3]:
# Vaš kôd ovdje...

model = BayesianModel([('cloudy', 'sprinkler'), ('cloudy', 'rain'), ('sprinkler', 'wet_grass'), ('rain', 'wet_grass')])

cpd_cloudy = TabularCPD(variable='cloudy', variable_card=2, values=[[0.5], [0.5]])
cpd_sprinkler = TabularCPD(variable='sprinkler', variable_card=2, values=[[0.5, 0.9], [0.5, 0.1]], evidence=['cloudy'], evidence_card=[2])
cpd_rain = TabularCPD(variable='rain', variable_card=2, values=[[0.8, 0.2], [0.2, 0.8]], evidence=['cloudy'], evidence_card=[2])
cpd_wet_grass = TabularCPD(variable='wet_grass', variable_card=2,
                        values=[[1., 0.1, 0.1, 0.01],
                                [0., 0.9, 0.9, 0.99]],
                        evidence=['sprinkler', 'rain'],
                        evidence_card=[2, 2])

model.add_cpds(cpd_cloudy, cpd_sprinkler, cpd_rain, cpd_wet_grass)
# model.get_cpds()
# model.check_model()

#print(model.get_cpds('wet_grass'))

infer = VariableElimination(model)
# posterior_p = infer.query('wet_grass', evidence = {'wet_grass' : 1})

print('P(wet_grass=1)')
print(infer.query(['wet_grass'], show_progress=False))
print()
print('P(sprinkler=1|wet_grass=1)')
print(infer.query(['sprinkler'], evidence = {'wet_grass' : 1}, show_progress=False))
print()
print('P(rain=1|wet_grass=1)')
print(infer.query(['rain'], evidence = {'wet_grass' : 1}, show_progress=False))
print()
print('P(cloudy=1|sprinkler=1, wet_grass=1)')
print(infer.query(['cloudy'], evidence = {'sprinkler' : 1, 'rain' : 1}, show_progress=False))
print()
print('P(cloudy=1)')
print(infer.query(['cloudy'], show_progress=False))

P(wet_grass=1)
+--------------+------------------+
| wet_grass    |   phi(wet_grass) |
| wet_grass(0) |           0.3529 |
+--------------+------------------+
| wet_grass(1) |           0.6471 |
+--------------+------------------+

P(sprinkler=1|wet_grass=1)
+--------------+------------------+
| sprinkler    |   phi(sprinkler) |
| sprinkler(0) |           0.5702 |
+--------------+------------------+
| sprinkler(1) |           0.4298 |
+--------------+------------------+

P(rain=1|wet_grass=1)
+---------+-------------+
| rain    |   phi(rain) |
| rain(0) |      0.2921 |
+---------+-------------+
| rain(1) |      0.7079 |
+---------+-------------+

P(cloudy=1|sprinkler=1, wet_grass=1)
+-----------+---------------+
| cloudy    |   phi(cloudy) |
| cloudy(0) |        0.5556 |
+-----------+---------------+
| cloudy(1) |        0.4444 |
+-----------+---------------+

P(cloudy=1)
+-----------+---------------+
| cloudy    |   phi(cloudy) |
| cloudy(0) |        0.5000 |
+-----------+------------

**Q:** Koju zajedničku vjerojatnosnu razdiobu ova mreža modelira? Kako tu informaciju očitati iz mreže?  
**Q:** U zadatku koristimo egzaktno zaključivanje. Kako ono radi?  
**Q:** Koja je razlika između posteriornog upita i MAP-upita?  
**Q:** Zašto je vjerojatnost $P(c=1)$ drugačija od $P(c=1|s=1,r=1)$ ako znamo da čvorovi $S$ i $R$ nisu roditelji čvora $C$?

### 2. Efekt objašnjavanja

 **Efekt objašnjavanja** (engl. *explaining away*) zanimljiv je fenomen u kojem se događa da se dvije varijable "natječu" za objašnjavanje treće. Ovaj fenomen može se primijetiti na gornjoj mreži. U tom se slučaju varijable prskalice ($S$) i kiše ($R$) "natječu" za objašnjavanje mokre trave ($W$). Vaš zadatak je pokazati da se fenomen zaista događa.

In [4]:
# Vaš kôd ovdje...

print('P(rain=1|wet_grass=1)')
print(infer.query(['rain'], evidence = {'wet_grass' : 1}, show_progress=False))
print()
print('P(rain=1|sprinkler=1, wet_grass=1)')
print(infer.query(['rain'], evidence = {'sprinkler' : 1,  'wet_grass' : 1}, show_progress=False))
print()
print('P(sprinkler=1|wet_grass=1)')
print(infer.query(['sprinkler'], evidence = {'wet_grass' : 1}, show_progress=False))
print()
print('P(sprinkler=1|rain=1, wet_grass=1)')
print(infer.query(['sprinkler'], evidence = {'rain' : 1,  'wet_grass' : 1}, show_progress=False))


P(rain=1|wet_grass=1)
+---------+-------------+
| rain    |   phi(rain) |
| rain(0) |      0.2921 |
+---------+-------------+
| rain(1) |      0.7079 |
+---------+-------------+

P(rain=1|sprinkler=1, wet_grass=1)
+---------+-------------+
| rain    |   phi(rain) |
| rain(0) |      0.6796 |
+---------+-------------+
| rain(1) |      0.3204 |
+---------+-------------+

P(sprinkler=1|wet_grass=1)
+--------------+------------------+
| sprinkler    |   phi(sprinkler) |
| sprinkler(0) |           0.5702 |
+--------------+------------------+
| sprinkler(1) |           0.4298 |
+--------------+------------------+

P(sprinkler=1|rain=1, wet_grass=1)
+--------------+------------------+
| sprinkler    |   phi(sprinkler) |
| sprinkler(0) |           0.8055 |
+--------------+------------------+
| sprinkler(1) |           0.1945 |
+--------------+------------------+


**Q:** Kako biste svojim riječima opisali ovaj fenomen, koristeći se ovim primjerom?