# <span id="0">Casus *Hidden Markov Model* - Deel I</span>

Inhoud:

* **<a href="#1">CpG-islands (CGIs)</a>**

* **<a href="#2">Hidden Markov Models</a>**

* **<a href="#3">CpG-eiland en non-CpG-eiland sequenties</a>**

* **<a href="#4">Toy-data</a>**

* **<a href="#5">Je eigen `HiddenMarkovModel` class</a>**

In [19]:
%matplotlib inline
%reload_ext autoreload
%autoreload 2

from matplotlib import pyplot as plt
import numpy as np

<a id="1" href="#0" style="text-align: right; display: block;">Terug naar boven</a>

### CpG-islands (CGIs)

CpG-eilandjes zijn elementen in het genoom die een grote invloed uitoefenen op de regulatie van genexpressie door DNA-methylatie. Hun rol in kankerontwikkeling door abnormale methylatie van tumorsuppressorgenen en oncogenen maakt het een doelwit voor diagnostische en therapeutische benaderingen. Begrip van de dynamiek van CpG-eilandjes biedt inzicht in de moleculaire mechanismen van kanker en mogelijkheden voor innovatieve behandelingsstrategieën.

CpG-eilandjes zijn gebieden in het DNA die een hoge dichtheid hebben aan CpG-dinucleotiden, waarbij "CpG" staat voor een cytosine nucleotide (C) gevolgd door een guanine nucleotide (G) verbonden door een fosfaatgroep (p). Deze eilanden zijn meestal ongewoon rijk aan de CG-combinatie en bevatten vaak geen gemethyleerde cytosines, wat hen onderscheidt van de rest van het genoom waar CpG dinucleotiden vaak gemethyleerd zijn en daardoor minder frequent voorkomen. CpG-eilandjes komen vaak voor in of nabij de promotorregio's van genen, die de expressie van de corresponderende genen reguleren. Ze zijn typisch een paar honderd tot een paar duizend basenparen lang en hebben een GC-gehalte van meer dan 50%, met een CpG-dichtheid hoger dan wat gemiddeld is voor het genoom.

CpG-eilandjes spelen een cruciale rol bij de regulatie van genexpressie via hun invloed op DNA-methylatie, een epigenetisch mechanisme. Dit proces voegt een methylgroep toe aan het cytosine-residu in CpG-dinucleotiden, meestal door de werking van DNA-methyltransferasen. In promotorregio's is methylatie vaak geassocieerd met gen-silencing omdat het de binding van transcriptiefactoren en andere noodzakelijke eiwitten voor genexpressie ontmoedigt. Omgekeerd kan het demethyleren van CpG-eilandjes de expressie van geassocieerde genen activeren, aangezien het de toegankelijkheid van transcriptiefactoren en RNA-polymerase vergroot.

<img src="https://media.licdn.com/dms/image/D4D22AQEdqGnu8ZC80Q/feedshare-shrink_2048_1536/0/1684682580953?e=2147483647&v=beta&t=r6jlPalFOi_YDqJ_tBSPkdZRlvfakvmH1DVf9bnTTEk" width="40%" heigth="40%" />

De epigenetische modificatie van CpG-eilandjes speelt een belangrijke rol in kankerontwikkeling door abnormale genexpressie. In kankercellen worden CpG-eilandjes in de promotorregio's van tumorsuppressorgenen vaak hypergemethyleerd. Dit leidt tot silencing van deze genen, wat bijdraagt aan ongecontroleerde celgroei en proliferatie. Voorbeelden van tumorsuppressorgenen die vaak gehypermethyleerd zijn in kanker omvatten *p16INK4a* en *BRCA1*. Globale hypomethylatie van het genoom kan ook voorkomen in kankercellen, wat resulteert in genomische instabiliteit en de activatie van oncogenen. Dit draagt bij aan tumorvorming en -progressie.

Abnormale methylatiepatronen van CpG-eilandjes kunnen dienen als biomarkers voor de vroege detectie en diagnose van kanker. Epigenetische therapieën, zoals DNA-methylatie-inhibitoren (bijv. azacitidine en decitabine), worden gebruikt om abnormale methylatie om te keren en de normale expressie van tumorsuppressorgenen te herstellen.

Bekijk onderstaande inleidende video en schrijf er een samenvatting van. Zoek zo nodig zelf uitgebreidere achtergrondinformatie over onbekende onderwerpen en vermeld deze bronnen in je samenvatting als referenties. Neem onder andere de bijbehorende [Wikipedia](https://en.wikipedia.org/wiki/CpG_site) pagina door.

In [20]:
%%html
<iframe width="560" height="315" src="https://www.youtube.com/embed/bc3wtVXyAXo" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" referrerpolicy="strict-origin-when-cross-origin" allowfullscreen></iframe>

In [21]:
# UITWERKING

<a id="2" href="#0" style="text-align: right; display: block;">Terug naar boven</a>

### Hidden Markov Models

CpG-eilandjes kunnen worden gedetecteerd met behulp van verschillende computationele methoden, waarvan een van de meest effectieve methoden het gebruik van Hidden Markov Models (HMMs) is.

Een Hidden Markov Model is een krachtig hulpmiddel voor het modelleren van tijdreeksen en sequentiële data waarin de werkelijke toestanden niet direct zichtbaar zijn, maar waar de uitkomsten afhankelijk zijn van deze toestanden. HMMs maken gebruik van probabilistische berekeningen om te schatten welke verborgen toestanden het meest waarschijnlijk zijn gegeven de waargenomen data, wat ze tot een waardevol instrument maakt in een breed scala aan toepassingen. HMMs worden breed toegepast in verschillende domeinen van de bioinformatica, maar ook bijvoorbeeld in spraakherkenning en natuurlijke taalverwerking of financiële modellering van markttendensen.

Hidden Markov Models zijn zeer geschikt voor de detectie van CpG-eilandjes vanwege hun vermogen om sequenties te modelleren en patronen te herkennen in biologische data. In het kader van CpG-eilandjes vormen de verschillende nucleotiden in het DNA de waargenomen data, en is de aanwezigheid van een CpG-eiland, al dan niet, de verborgen toestand. Door het toepassen van HMMs kunnen wetenschappers efficiënt de locatie van CpG-eilandjes bepalen, wat waardevolle inzichten biedt in genregulatie en kankeronderzoek.

<img src="https://www.researchgate.net/profile/Tomer-Toledo/publication/245563174/figure/fig1/AS:669081116094471@1536532777801/State-transition-diagram-of-a-hidden-Markov-model.png" width="40%" height="40%" />

Een HMM wordt gekarakteriseerd door de volgende eigenschappen:

* **Toestanden / States** Een gegeven aantal verschillende verborgen interne toestanden waarin een geobserveerd systeem zich kan bevinden. In de context van CpG-eilandjesdetectie kunnen de toestanden bijvoorbeeld "in een CpG-eiland" en "buiten een CpG-eiland" zijn.

* **Overgangswaarschijnlijkheden / Transition probabilities** De kans dat het systeem van de ene toestand naar de andere overgaat. Bijvoorbeeld, de kansen om van "buiten een CpG-eiland" naar "in een CpG-eiland" te veranderen, en omgekeerd, of de kansen om binnen dezelfde toestand te blijven.

* **Emissiekansen / Emission probabilities** De kans om een bepaalde uitkomst te observeren vanuit een gegeven toestand. Voor CpG-eilandjes zijn dit de kansen van het voorkomen van verschillende nucleotiden (A, T, C, G) zowel in als buiten de eilandjes.

* **Begintoestandsverdeling / Start probabilities** De initiële waarschijnlijkheden dat het systeem dat zich in een bepaalde toestand bevindt. Een DNA-sequentie kan met zekere kans beginnen met een CpG-eilandje, of niet.

Een HMM maakt, net als elk model, diverse aannamen die de analyse van gegevens vereenvoudigen. De belangrijkste aannamen van een HMM zijn dat (1) het waargenomen systeem zich alléén in een discreet (d.w.z. eindig) aantal verschillende toestanden kan bevinden die variëren in de loop van de reeks, (2) dat de waarnemingen die aan het systeem gedaan worden alléén afhangen van de huidige toestand van het systeem, en (3) dat de kansverdeling omtrent wat de toestand van het systeem op een volgend moment gaat zijn alléén afhangt van wat de toestand van het systeem op een voorgaand moment was.

De toestand van het systeem is zelf niet rechtstreeks waarneembaar; wel waarneembaar zijn de emissies die afhangen van de toestand. De meestgestelde vraag die een HMM kan proberen te beantwoorden is: "gegeven een serie waarnemingen, wat waren de meest waarschijnlijke onderliggende toestanden van het systeem"? Bijvoorbeeld, in ons geval: "gegeven een nucleotidesequentie, welke delen vallen in een CpG-eiland en welke vallen erbuiten"?

Bekijk onderstaande inleidende video en schrijf er een samenvatting van. Zoek zo nodig zelf uitgebreidere achtergrondinformatie over onbekende onderwerpen en vermeld deze bronnen in je samenvatting als referenties. Neem onder andere de bijbehorende [Wikipedia](https://en.wikipedia.org/wiki/Hidden_Markov_model) pagina door.

In [22]:
%%html
<iframe width="560" height="315" src="https://www.youtube.com/embed/fX5bYmnHqqE" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" referrerpolicy="strict-origin-when-cross-origin" allowfullscreen></iframe>

In [23]:
# UITWERKING

<a id="3" href="#0" style="text-align: right; display: block;">Terug naar boven</a>

### CpG-eiland en non-CpG-eiland sequenties

De onderstaande tabellen geven de experimentele waarschijnlijkheden aan dat een zekere nucleotide (in de rijen) gevolg wordt door een zekere andere nucleotide (in de kolommen) binnen en buiten CpG-eilanden.

Bron: "Biological sequence analysis - Probabilistic models of proteins and nucleic acids", Durbin et al. (1998), hoofdstuk 3, p50-51 ([ref](http://www.mcb111.org/w06/durbin_book.pdf)).

*CGI* (`+`)

|  `+`  |   A   |   C   |   G   |   T   |
| :---: | :---: | :---: | :---: | :---: |
| **A** | 0.180 | 0.274 | 0.426 | 0.120 |
| **C** | 0.171 | 0.368 | 0.274 | 0.188 |
| **T** | 0.161 | 0.339 | 0.375 | 0.125 |
| **G** | 0.079 | 0.355 | 0.384 | 0.182 |

*non-CGI* (`-`)

|  `-`  |   A   |   C   |   G   |   T   |
| :---: | :---: | :---: | :---: | :---: |
| **A** | 0.300 | 0.205 | 0.285 | 0.210 |
| **C** | 0.322 | 0.298 | 0.078 | 0.302 |
| **G** | 0.248 | 0.246 | 0.298 | 0.208 |
| **T** | 0.177 | 0.239 | 0.292 | 0.292 |

Bijvoorbeeld, de kans dat een gegeven C gevolgd wordt door een G is slechts 7.8 % buiten een CpG-eilandje, maar neemt toe tot maar liefst 27.4 % binnen een CpG-eilandje, hetgeen benadrukt hoe sterk CpG-dinucleotiden relatief oververtegenwoordigd zijn binnen CpG-eilandjes. Ga na dat de som van de kansen in elke rij van de tabel moet sommeren tot 100% (op afrondfouten na).

Genereer met python-code een willekeurige sequentie van 300 baseparen lengte overeenkomend met een CpG-eiland en een soortgelijke sequentie van een non-CpG-eiland. Kies telkens het eerste nucleotide willekeurig, en gebruik dan de bovenstaande overgangswaarschijnlijkheden om de sequentie te verlengen. Bepaal van de gegenereerde complete sequenties de kansen op elk nucleotide ($P_A, P_C, P_G, P_T$) evenals de kansen op elk dinucleotide ($P_{AA}, P_{AC}, \ldots, P_{TT}$). Bepaal voor elk dinucleotide ook de ratios $r$ tussen de waargenomen en de verwachte kans, zoals

$$
r_{AC} = \frac{P_{AC}}{P_A \cdot P_C}
$$

Wat kun je verhoudingsgewijs zeggen over hoe vaak C en G afzonderlijk voorkomen, en hoe vaak het CpG-dinucleotide voorkomt? Welke combinaties van nucleotiden zijn het sterkst over- of ondergerepresenteerd?

In [2]:
import random
from collections import Counter

# Overgangswaarschijnlijkheden voor CpG-eiland
transition_cgi = {
    'A': {'A': 0.180, 'C': 0.274, 'G': 0.426, 'T': 0.120},
    'C': {'A': 0.171, 'C': 0.368, 'G': 0.274, 'T': 0.188},
    'G': {'A': 0.079, 'C': 0.355, 'G': 0.384, 'T': 0.182},
    'T': {'A': 0.161, 'C': 0.339, 'G': 0.375, 'T': 0.125},
}

def generate_sequence(length, transition_probs):
    nucleotides = list(transition_probs.keys())
    sequence = [random.choice(nucleotides)]
    
    for _ in range(length - 1):
        current_nucleotide = sequence[-1]
        next_nucleotide = random.choices(
            nucleotides, 
            weights=[transition_probs[current_nucleotide][nuc] for nuc in nucleotides]
        )[0]
        sequence.append(next_nucleotide)
    
    return ''.join(sequence)

# Genereer een sequentie van 300 nucleotiden voor CpG-eiland
cgi_sequence = generate_sequence(300, transition_cgi)

def calculate_frequencies(sequence):
    nucleotide_counts = Counter(sequence)
    total_nucleotides = len(sequence)
    
    nucleotide_freqs = {nuc: count / total_nucleotides for nuc, count in nucleotide_counts.items()}
    
    dinucleotide_counts = Counter([sequence[i:i+2] for i in range(total_nucleotides - 1)])
    total_dinucleotides = total_nucleotides - 1
    
    dinucleotide_freqs = {dinuc: count / total_dinucleotides for dinuc, count in dinucleotide_counts.items()}
    
    return nucleotide_freqs, dinucleotide_freqs

# Bepaal kansen
cgi_nucleotide_freqs, cgi_dinucleotide_freqs = calculate_frequencies(cgi_sequence)

def calculate_ratios(dinucleotide_freqs, nucleotide_freqs):
    ratios = {}
    for dinuc, freq in dinucleotide_freqs.items():
        first, second = dinuc
        expected_freq = nucleotide_freqs[first] * nucleotide_freqs[second]
        ratios[dinuc] = freq / expected_freq if expected_freq > 0 else 0
    return ratios

cgi_ratios = calculate_ratios(cgi_dinucleotide_freqs, cgi_nucleotide_freqs)

def format_output(nucleotide_freqs, dinucleotide_freqs, ratios):
    nucleotides = ['A', 'C', 'G', 'T']
    nucleotide_list = [nucleotide_freqs.get(nuc, 0) for nuc in nucleotides]
    
    print(f"Sequence:\n{cgi_sequence}\n")
    
    print("Observed nucleotides (ACGT):")
    print([round(freq, 3) for freq in nucleotide_list], "\n")
    
    print("Observed dinucleotides:")
    dinuc_matrix = [[round(dinucleotide_freqs.get(f"{nuc1}{nuc2}", 0), 3) for nuc2 in nucleotides] for nuc1 in nucleotides]
    for row in dinuc_matrix:
        print(row)
    print()
    
    print("Observed/Expected ratio:")
    ratio_matrix = [[round(ratios.get(f"{nuc1}{nuc2}", 0), 3) for nuc2 in nucleotides] for nuc1 in nucleotides]
    for row in ratio_matrix:
        print(row)

# Output weergeven in gevraagde vorm
format_output(cgi_nucleotide_freqs, cgi_dinucleotide_freqs, cgi_ratios)


Sequence:
GAAGGTGACGCGCCCGGCTAGGCCGCATTAGCCCCAGCCTTACTTCCTCAGGGAAGCCCCCGGCTGCCCCCCTGCGACCACCAAGTAGTGGCTCAGCTCGCCTGGGCGTCGGCTCGCAGTCTGCGGTGTCCCCGGCCGGGTGGACGCAGGTTGGCGGCCCCAAAGCTAGGTCCCGTTCAGGGAATGGGGTGCCGGCTGCGGGCAGGTCGGCTCAGGTAGCCAGCCAGGCCTGGTGGGCCTAGAGGGCGCGTCTGGGCGCAGGCGGCGTAGGCTCGAGGTAGCGGGGGCGTAGTCCGCCGG

Observed nucleotides (ACGT):
[0.13, 0.327, 0.393, 0.15] 

Observed dinucleotides:
[0.02, 0.017, 0.087, 0.007]
[0.05, 0.12, 0.097, 0.06]
[0.027, 0.14, 0.157, 0.067]
[0.033, 0.05, 0.05, 0.017]

Observed/Expected ratio:
[1.187, 0.394, 1.701, 0.343]
[1.181, 1.128, 0.755, 1.229]
[0.523, 1.093, 1.016, 1.134]
[1.715, 1.024, 0.85, 0.743]


<a id="4" href="#0" style="text-align: right; display: block;">Terug naar boven</a>

### Toy-data

Gegeven zijn drie tafels (overeenkomend met toestanden) die elk een grabbelton bevatten waaruit gekleurde knikkers kunnen worden getrokken (emissies) en met elk een dobbelsteen die bepaalt naar welke volgende tafel je gaat (overgangswaarschijnlijkheden).

| Tafel: |  ❶  |  ❷  |  ❸  |
| -----: | :-: | :-: | :-: |
| **Grabbelton:** | 6x blauw | 2x blauw | 1x blauw |
|                 | 3x geel  | 6x geel  | 0x geel  | 
|                 | 1x groen | 2x groen | 6x groen |
|                 | 2x rood  | 2x rood  | 5x rood  |
| **Dobbelsteen:** | ⚀→① | ⚀→① | ⚀→① |
|                  | ⚁→② | ⚁→② | ⚁→① |
|                  | ⚂→② | ⚂→② | ⚂→① |
|                  | ⚃→② | ⚃→③ | ⚃→① |
|                  | ⚄→③ | ⚄→③ | ⚄→② |
|                  | ⚅→③ | ⚅→③ | ⚅→③ |

Beginnend bij een willekeurige tafel, trek individueel een knikker en noteer de kleur samen met het nummer van de tafel. Gebruik de dobbelsteen om te bepalen naar welke volgende tafel je gaat. Herhaal dit tot je ongeveer een dertigtal waarnemingen hebt gegenereerd en je weer precies terug bent gekomen bij de tafel waar je was begonnen.

Bijvoorbeeld:
| **Beurt:** | 1     | 2     | 3     | 4     | 5     | 6     | 7     | ... | 30    |
| ---------: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :-: | :---: |
| **Tafel:** | ❷     | ❸     | ❶     | ❸     | ❷     | ❷     | ❶     | ... | ❸     |
| **Kleur:** | geel  | groen | blauw | rood  | groen | geel  | blauw | ... | rood  |
| **Worp:**  | ⚃     | ⚀     | ⚄     | ⚄     | ⚂     | ⚀     | ⚂     | ... | ⚄     |

Naast het bepalen van je eigen sequentie, combineer de waarnemingen van al je klasgenoten tot één lange sequentie.

<a id="5" href="#0" style="text-align: right; display: block;">Terug naar boven</a>

### Je eigen `HiddenMarkovModel` class

Maak een eigen module-bestand genaamd `hmmmodel.py` aan en definieer daarin een klasse `HiddenMarkovModel`. Deze klasse dient een begintoestandsverdeling, overgangswaarschijnlijkheden, en emissiekansen te kunnen bevatten. De klasse dient verder een methode `sample()` te hebben die het mogelijk maakt om een gevraagd aantal waarnemingen te genereren op basis van een gegeven Hidden Markov Model. Voeg implementaties van een aantal standaard dunder-methoden toe (`__init__()`, `__str__()`, `__repr__()`).

Implementeer de functionaliteit van je eigen module zodanig dat deze grotendeels compatibel is met de `CategoricalHMM` klasse van de `hmmlearn` module waarvan je de documentatie [online](https://hmmlearn.readthedocs.io/en/latest/api.html#categoricalhmm) kan vinden. Deze module zit niet in de standaard library van python en dien je zelf wellicht nog te installeren. Merk op dat niet alle functionaliteit uit deze klasse hoeft te worden geïmplementeerd. Vooralsnog gaat het voornamelijk om initialisatie en de `sample()` methode. Later voegen we nog meer methoden aan je klasse toe.

Gebruik je eigen module om sequenties van 1200 toestanden en bijbehorende waarnemingen te genereren voor de eerdere toy-data. De tafelnummers zijn daarin de toestanden en de kleuren knikkers zijn de emissies. Dit zou moeten kunnen met code zoals hieronder.

```python
from hmmmodel import HiddenMarkovModel as HMM
model = HMM(n_components=..., n_features=...)
model.startprob_ = ...
model.transmat_ = ...
model.emissionprob_ = ...
emissions, states = model.sample(1200)
print(model)
```

Toon histogrammen van de toestanden en emissies voor al deze sequenties, en schat *op basis van de gegenereerde sequentie* de overgangswaarschijnlijkheden en emissiekansen. Ga na of deze goed overeenkomen met de instellingen van het Hidden Markov Model.

Vergelijk tenslotte of je eigen klasse soortgelijke resultaten geeft als `hmmlearn.hmm.CategoricalHMM` (d.w.z. met soortgelijke code als hierboven, maar met `from hmmlearn.hmm import CategoricalHMM as HMM`).

In [None]:
import numpy as np

class HiddenMarkovModel:
    def __init__(self, n_components, n_features):
        
        self.n_components = n_components  # Aantal toestanden in dit geval 3 voor elke tafel 1 
        self.n_features = n_features    # Aantal mogelijke emissies in dit geval 4 voor elke kleur 
        self.startprob_ = np.zeros(n_components)  # start kans, in dit geval 3 voor elke tafel
        self.transmat_ = np.zeros((n_components, n_components))  # De kans om van een toestand naar een andere toestand te gaan 
        self.emissionprob_ = np.zeros((n_components, n_features))  # De kans om een kleur te krijgen bij een specifieke toestand 

    def __str__(self):
        # in string mode om het leesbaar te maken 
        return (f"HiddenMarkovModel(n_components={self.n_components}, "
                f"n_features={self.n_features})\n"
                f"Startprobabilities: {self.startprob_}\n"
                f"Transition matrix:\n{self.transmat_}\n"
                f"Emission matrix:\n{self.emissionprob_}")

    def __repr__(self):
        # geeft een samenvatting van het object dat leesbaar is.
        return (f"HiddenMarkovModel(n_components={self.n_components}, "
                f"n_features={self.n_features})")

    
    def sample(self, n_samples):
        # deze functie genereerd de sample data aan de hand van wat de kansen zijn voor de overgangsmatrix/kansen. 
        states = []
        emissions = []
        
        # de som moet altijd 1 zijn. 
        self.startprob_ = self.startprob_ / self.startprob_.sum()
        self.transmat_ = np.array([row / row.sum() if row.sum() != 0 else row for row in self.transmat_])
        self.emissionprob_ = np.array([row / row.sum() if row.sum() != 0 else row for row in self.emissionprob_])

        # het random kiezen van een toestand
        current_state = np.random.choice(self.n_components, p=self.startprob_)
        states.append(current_state)
        
        for _ in range(n_samples):
            
            # per stap wordt de emissie gegenereerd 
            emission = np.random.choice(self.n_features, p=self.emissionprob_[current_state])
            emissions.append(emission)
            
            # De current states met de random kansen 
            current_state = np.random.choice(self.n_components, p=self.transmat_[current_state])
            states.append(current_state)
        
        return emissions, states[:-1]  # Laatste toestand verwijderen om gelijke lengte te hebben

# Kansverdelingen
# kans per starttafel
startprob = np.array([1/3, 1/3, 1/3])
# kans naar welke tafel je gaat 
transmat = np.array([
    [1/3, 1/3, 1/3],
    [1/6, 1/3, 1/2],
    [1/2, 1/6, 1/3],
])
# De kansen per kleur, in dit geval zijn dat er 4 
emissionprob = np.array([
    [1/2, 1/4, 1/12, 1/6],  
    [1/6, 1/2, 1/6, 1/6],   
    [1/12, 0, 1/2, 5/12],    
])

# Start het model 
model = HiddenMarkovModel(n_components=3, n_features=4)
model.startprob_ = startprob # Aan welke tafel je begint, elke is 1/3 
model.transmat_ = transmat # De kans om van de ene toestand naar een andere toestand te gaan 
model.emissionprob_ = emissionprob # De kans dat een bepaalde kleur/emissie waartenemen is in een specifieke toestand 

# Kies hoeveel samples je hebt 
emissions, states = model.sample(1200)


print("All States:", states)
print("All Emissions:", emissions)


# Om een of andere reden is het me niet gelukt om het eerste gedeelte van deze code in een apparte hmmmodel.py file te stoppen. Daarom staat nu alles in de jupyter notebook 

All States: [1, 2, 1, 1, 2, 2, 0, 1, 2, 1, 1, 2, 2, 1, 1, 1, 0, 0, 0, 2, 2, 0, 2, 0, 1, 2, 2, 0, 1, 2, 1, 2, 1, 2, 0, 0, 0, 2, 0, 2, 0, 1, 1, 1, 2, 0, 1, 2, 0, 1, 0, 0, 2, 0, 0, 1, 1, 0, 2, 1, 2, 2, 2, 0, 1, 2, 2, 2, 2, 1, 0, 1, 1, 1, 1, 2, 1, 2, 2, 0, 1, 2, 1, 1, 2, 2, 2, 0, 0, 1, 1, 2, 0, 0, 0, 2, 2, 2, 1, 2, 2, 1, 2, 0, 1, 0, 0, 2, 2, 0, 1, 1, 1, 2, 0, 0, 1, 2, 0, 1, 2, 0, 0, 1, 0, 2, 0, 2, 2, 1, 1, 2, 1, 2, 1, 0, 2, 1, 2, 0, 2, 0, 2, 2, 0, 0, 1, 0, 0, 2, 0, 2, 2, 2, 2, 0, 1, 1, 1, 1, 2, 2, 1, 2, 0, 2, 0, 2, 2, 0, 1, 1, 0, 2, 0, 2, 2, 0, 1, 2, 0, 0, 2, 0, 0, 1, 2, 0, 2, 1, 2, 0, 1, 2, 2, 1, 2, 0, 0, 2, 2, 0, 0, 1, 2, 2, 0, 0, 1, 2, 0, 1, 2, 2, 0, 0, 2, 0, 0, 1, 0, 2, 0, 2, 0, 1, 0, 2, 2, 0, 1, 1, 1, 0, 1, 2, 2, 2, 0, 0, 2, 1, 1, 2, 0, 0, 1, 1, 2, 2, 0, 2, 1, 0, 2, 2, 2, 0, 1, 1, 0, 0, 0, 0, 0, 2, 0, 1, 2, 0, 2, 0, 2, 2, 1, 2, 2, 2, 1, 2, 2, 0, 2, 0, 1, 1, 2, 2, 0, 2, 0, 2, 2, 1, 0, 1, 1, 2, 2, 0, 2, 0, 0, 2, 0, 1, 2, 2, 1, 1, 1, 2, 0, 0, 0, 1, 2, 0, 1, 2, 2, 1, 1, 1, 2, 0, 1, 1, 1, 

***

&copy; 2024 - Dave R.M. Langers <d.r.m.langers@pl.hanze.nl>