# Projekt z programowania probabilistycznego

Każda grupa ma osobny zestaw danych do opracowania. Każdy zestaw składa się z 2500 próbek opisujących oceny filmów przez różnych ludzi. Każdy rekord zawiera następujące informacje:

1.   id filmu
2.   id osoby wystawiającej ocenę
3.   id gatunku do którego należy film
4.   ocenę wystawioną przez określoną osobę określonemu filmowi

Każda baza danych obejmuje 200 filmów należących do 5 gatunków. Filmy oceniane były przez 25 ludzi. Ta sama osoba mogła wystawić więcej niż jedną ocenę jeżli widziała określony film wielokrotnie.

Dla uproszczenia analizy oceny filmów są liczbami rzeczywistymi, mogą być zarówno dodatnie jak i ujemne.

W ramach projektu trzeba będzie przygotować modele odpowiadające na poniższe pytania.






## Na 3.0

Przygotuj model opisujący ocenę filmu jako wartość losową określoną rozkładem normalnym. Każdy film ma inną średnią `mu_movie` (którą możemy traktować jako rzeczywistą jakość filmu) którą jesteśmy zainteresowani. Dla uproszczenia zakładamy tę samą wariancję:
```
sigma_movie = pm.Gamma('sigma_movie', alpha=10, beta=5)
mu_movie = pm.Normal('mu_movie', mu=0.0, sigma=sigma_movie, shape=n_movies)
```
Zapisując to matematycznie odchylenie standardowe:

$\sigma_{movie} \sim \Gamma(10, 5)$

średnia dla filmu $i$:

$\mu_i \sim N(0, \sigma_{movie})$

Ocena filmu $i$ z gatunku $g$ przez osobę $o$:

$\mathit{O}_{i,o,g} \sim N(\mu_i, \sigma_{movie})$

Każde $\mathit{O}_{i,o,g}$ odpowiada pojedynczemu rekordowi w danych.

Podaj trzy filmy z najwyższymi ocenami i trzy z najniższymi ocenami.

## Na 4.0

Niektóre osoby są większymi fanami kina niż inne. Co więcej, kryteria przyznawania tej samej oceny różnią się pomiędzy ludźmi. Ponadto jedne gatunki bywają raczej lepiej oceniane od innych. Rozszerz model o dodatkowe składniki uwzględniające te efekty.

Do średniej dla rozkładu $\mathit{O}_{i,o,g}$ dodaj odpowiednie składniki:

$\mathit{O}_{i,o,g} \sim N(\mu_i + \mu_o + \mu_g, \sigma_{movie})$

gdzie $\mu_o$ oznacza jak ostro ocenia dana osoba i pochodzi z rozkładu

$\mu_o \sim N(0, \sigma_{person})$

zaś $\mu_g$ oznacza jak ostro oceniane są filmy z danego gatunku:

$\mu_g \sim N(0, \sigma_{genre})$.

Przyjmij
```
sigma_person = pm.Gamma('sigma_person', alpha=10, beta=5)
sigma_genre = pm.Gamma('sigma_genre', alpha=10, beta=5)
```

Który gatunek cieszy się największą populatnością a który najmniejszą? Która osoba najbardziej krytycznie ocenia filmy?

Spróbuj usunąć z bazy wszystkie oceny wybranego filmu i zobacz jak to wpłynie na wynik (ocenę usuniętego filmu -- średnią i przedział HPD).


## Na 5.0

Wzbogać model uwzględniając, że różne osoby w różnym stopniu lubią gatunki filmowe. Rozbuduj model uwzględniajac dodatkowo ten efekt:

```
mu_gp = pm.Normal('mu_gp', mu=0.0, sigma=sigma_person, shape=(n_genres, n_people))
```

Na co Twoim zdaniem wpływa uwzględnianie dodatkowych efektów? Które osoby szczególnie lubią jakiś gatunek?



## Osobno dla każdego modelu opisywanego w sprawozdaniu

Wykonaj sampling z następującymi ustawieniami:
```
trace = pm.sample(5000, tune=1000, target_accept=.9)
```

Czy sampling kończy się sukcesem? Dlaczego tak uważasz? Zapisz w sprawozdaniu wartości `mean`, `sd`, `hpd_3%` i `hpd_97%` dla odchylenia standardowego i 20 pierwszych filmów korzystając z funkcji:
```
pm.summary(trace)
```
Zanotuj wartości `mean` dla wszystkich filmów.

# Kod do generowania danych testowych

In [0]:
# Arviz służy do wizualizacji modeli Bayesowskich
!pip install arviz 
!pip install 'pymc3==3.8'

In [0]:
%matplotlib inline
import numpy as np
import theano
import theano.tensor as tt
import pymc3 as pm
import arviz
import pandas as pd

import seaborn as sns
import matplotlib.pyplot as plt

sns.set_context('notebook')
plt.style.use('seaborn-darkgrid')
print('Running on PyMC3 v{}'.format(pm.__version__))

pd.set_option('display.max_rows', 300)

In [0]:
n_genres = 5
n_people = 25
n_movies = 200

def gen_data(n_examples):
  sigma_person = pm.Gamma.dist(alpha=10, beta=5).random()
  sigma_movie = pm.Gamma.dist(alpha=10, beta=5).random()
  sigma_genre = pm.Gamma.dist(alpha=10, beta=5).random()

  d_mu_m = pm.Normal.dist(mu=0.0, sigma=sigma_movie)
  d_mu_g = pm.Normal.dist(mu=0.0, sigma=sigma_genre)
  mu_movie = [d_mu_m.random() for gi in range(n_movies)] # średnia ocena filmu
  mu_genre = [d_mu_g.random() for gi in range(n_genres)] # średnia ocena gatunku
  d_mu_person = pm.Normal.dist(mu=0.0, sigma=sigma_person)

  mu_person = [d_mu_person.random() for _ in range(n_people)] # średnia ocena prez osobę
  d_mu_gp = pm.Normal.dist(mu=0.0, sigma=sigma_person)
  mu_gp = [[d_mu_gp.random() for _ in range(n_people)] for _ in range(n_genres)] # średnia ocena gatunku prez osobę

  d_genre = pm.DiscreteUniform.dist(0, n_genres-1)
  d_person = pm.DiscreteUniform.dist(0, n_people-1)
  d_movie = pm.DiscreteUniform.dist(0, n_movies-1)

  movie_to_genre = [d_genre.random() for _ in range(n_movies)]

  def gen_random():
    movie = d_movie.random()
    person = d_person.random()
    genre = movie_to_genre[movie]
    like = pm.Normal.dist(mu=mu_movie[movie] + mu_genre[genre] + mu_person[person] + mu_gp[genre][person], sigma=sigma_person).random()
    return [movie, person, genre, like]

  df = pd.DataFrame(np.array([gen_random() for _ in range(n_examples)]),
                    columns=['movie', 'person', 'genre', 'like'])
  dataframe = df.astype({"movie": int, "person": int, "genre": int})
  return (dataframe, mu_movie, mu_genre, mu_person, mu_gp, movie_to_genre, sigma_person, sigma_movie, sigma_genre)
  
dataframe, orig_mu_movie, orig_mu_genre, orig_mu_person, mu_gp, movie_to_genre, orig_sigma_person, orig_sigma_movie, orig_sigma_genre = gen_data(2500)

# dataframe -- dane testowe w odpowiednim formacie do analizy
# orig_* -- ukryte zmienne objaśniające które nie są znane

# Można weryfikować poprawność modelu generując nowe dane i sprawdzając czy wygenerowane wartości zmiennych (orig_*) objaśniających mniej więcej odpowiadają tym które zwraca model.


def save_data(id, dataframe, orig_mu_movie, orig_mu_genre, orig_mu_person, mu_gp, movie_to_genre, orig_sigma_person, orig_sigma_movie, orig_sigma_genre):
  dataframe.to_csv(f'/content/drive/My Drive/Colab Notebooks/ProbProbProjData/dataframe {id}.csv')
  with open(f'/content/drive/My Drive/Colab Notebooks/ProbProbProjData/latent {id}.txt', 'w') as f:
    f.write(f'orig_sigma_person = {orig_sigma_person}\n')
    f.write(f'orig_sigma_movie = {orig_sigma_movie}\n')
    f.write(f'orig_sigma_genre = {orig_sigma_genre}\n')
    f.write('orig_mu_movie = \n')
    for i in range(n_movies):
      f.write(f'{i}\t{orig_mu_movie[i]}')
      f.write('\n')
    f.write('orig_mu_genre = \n')
    for i in range(n_genres):
      f.write(f'{i}\t{orig_mu_genre[i]}')
      f.write('\n')
    f.write('orig_mu_person = \n')
    for i in range(n_people):
      f.write(f'{i}\t{orig_mu_person[i]}')
      f.write('\n')
    f.write('movie_to_genre = \n')
    for i in range(n_movies):
      f.write(f'{i}\t{movie_to_genre[i]}')
      f.write('\n')
    f.write('orig_mu_gp = \n')
    for i in range(n_genres):
      f.write(f'{i}')
      for j in range(n_people):
        f.write(f'\t{mu_gp[i][j]}')
      f.write('\n')

# for i in range(100):
#   save_data(i, *gen_data(2500))

print("sigmas", orig_sigma_person, orig_sigma_movie, orig_sigma_genre)
display(dataframe.describe())
display(dataframe)
print("mu_genre")
display(orig_mu_genre)
print("mu_person")
display(orig_mu_person)
print("mu_movie")
display(orig_mu_movie)