## Παραδοτέο 1

Παρακάτω φαίνεται η υλοποίηση της Markov Chain όπου υπολογίζουμε τη μέση τιμή των εκτιμήσεων και τη διασπορά τους. 


Η θεωρητικά αναμενόμενη εκτίμηση υπολογίζεται ως εξής: Η πιθανότητα $P [ X_n = 0 | X_0 = 0] $ προκύπτει από το ${p_{00}}^{(n)}$, δηλαδή το πρώτο στοιχείο του πίνακα. Από το χαρακτηριστικό πολυώνυμο $\lambda I - P$, προκύπτει η χαρακτηρηστική εξίσωση $\frac{(\lambda - 1)}{3} (3 {\lambda}^2+ \lambda + p)$, όπου $p = 1/6$. Συνεπώς, η διακρίνουσα είναι $\Delta = -1$, και οι ιδιοτιμές είναι ${\lambda}_1 = 1, {\lambda}_{2,3} = \frac{-1 \pm i}{6} $ και λύνοντας το σύστημα για τα ιδιοδιανύσματα, βρίσκουμε ότι τελικά ισχύει ότι: 
        ${p_{00}}^{(n)} = \frac{1}{25} + \frac{24}{25 {(3 \sqrt(2))}^n}\cos(\frac{3 \pi n}{4}) + \frac{18}{25 {(3 \sqrt(2))}^n}\sin(\frac{3 \pi n}{4})$

Έτσι, αντικαθιστώντας όπου $n = 40$, δηλαδή τον αριθμό των steps, βρίσκουμε ότι η θεωρητική εκτίμηση ισούται με $0.4$. 

In [1]:
import random
import statistics as stat
from simple_markov_chain_lib import markov_chain

random.seed(2016)  # for reproducibility

p = 1/6

init_probs = {0: 1.0} 
 
markov_table = {
    0: {1: 1.},
    1: {1: 2/3, 2: 1/3},
    2: {0: p, 1: 1-p}
}
 
mc = markov_chain(markov_table, init_probs)

N = 20000    # number of samples
steps = 40   # the target time
counter = 0  # to count the number of times the event {X_40  = 0} occurs
M = 50       # number of iterations of initial experiment

estimates=[]

for k in range(M):
    counter = 0
    for i in range(N):
        mc.start() 
        for j in range(steps):  mc.move()
        if mc.running_state == 0:  counter += 1

    phat = counter / N
    
    estimates.append(phat)

    print("""
    On iteration {4}, we executed {0} times the first {1} steps of the markov chain
    and we captured the running state in state zero {2} times.
    So we estimate the Pr[X_{1} = 0 | X_0 = 0] to be {3} 
    """.format(N, steps, counter, phat, k))

print(
    """ 
    The sample mean is {0:.5f} and the sample variance is {1:.5f}
    """.format(stat.mean(estimates), stat.variance(estimates))
)


    On iteration 0, we executed 20000 times the first 40 steps of the markov chain
    and we captured the running state in state zero 801 times.
    So we estimate the Pr[X_40 = 0 | X_0 = 0] to be 0.04005 
    

    On iteration 1, we executed 20000 times the first 40 steps of the markov chain
    and we captured the running state in state zero 793 times.
    So we estimate the Pr[X_40 = 0 | X_0 = 0] to be 0.03965 
    

    On iteration 2, we executed 20000 times the first 40 steps of the markov chain
    and we captured the running state in state zero 758 times.
    So we estimate the Pr[X_40 = 0 | X_0 = 0] to be 0.0379 
    

    On iteration 3, we executed 20000 times the first 40 steps of the markov chain
    and we captured the running state in state zero 800 times.
    So we estimate the Pr[X_40 = 0 | X_0 = 0] to be 0.04 
    

    On iteration 4, we executed 20000 times the first 40 steps of the markov chain
    and we captured the running state in state zero 740 times.
    S

1. Η μέση τιμή για Ν = 200, όπως φαίνεται αν τρέξουμε τον παραπάνω κώδικα είναι 0.03870, ενώ για Ν=20000 είναι 0.04012.
2. Η θεωρητικά αναμενόμενη τιμή είναι 0.04, και παρατηρούμε ότι για μεγαλύτερο δείγμα Ν=20000 η μέση τιμή είναι πιο κοντά στην θεωρητική, οπότε έχουμε καλή προσέγγιση του αποτελέσματος.
3. Η διασπορά για Ν=200 είναι 0.00020, ενώ για Ν=20000 είναι 0.
4. Αλλάζουμε την γραμμή init_probs σε {2:1.0}, για να ξεκινάει από την κατάσταση 2. Και για τις δύο τιμές του Ν, οι τιμές για μέση τιμή και διασπορά είναι ακριβώς ίδιες για 50 επαναλήψεις, οπότε δεν επηρεάζεται τίποτα. 


## Παραδοτέο 2

Για το παιχνίδι τέννις, φαίνεται στο κομμάτι κώδικα ο πίνακας πιθανοτήτων μετάβασης, καθώς και ο συμβολισμός των καταστάσεων. Προφανώς, η αρχική κατανομή είναι 1 στη θέση 0, καθώς το game ξεκινάει από το 0-0 (state 0). Χρησιμοποιήσαμε τον ίδιο σκελετό για τον κώδικά μας, μεταβάλλοντας το πλήθος των επαναλήψεων και παρατηρώντας την τιμή της εκτιμήτριας. 
Οι μεταβάσεις από τη μια κατάσταση της αλυσίδας στην άλλη είναι ως εξής: έστω ότι βρίσκεται στην κατάσταση 15-15 (state 4). Τότε με πιθανότητα p νικάει ο παίκτης Α, οπότε φτάνουμε στην κατάσταση 30-15 (state 7) με πιθανότητα p, ενώ με q  φτάνουμε στην κατάσταση 15-30 (state 8), και ούτω καθεξής. 

In [4]:
import random
import statistics as stat
from simple_markov_chain_lib import markov_chain

random.seed(2016)  # for reproducibility

p = 3/5  # probability that player A wins
q = 2/5  # probability that player B wins equals 1-p

init_probs = {0: 1.0} 
 
markov_table = {
    0: {1: p, 2: q},       # 0  -> 0-0
    1: {3: p, 4: q},       # 1  -> 15-0
    2: {4: p, 5: q},       # 2  -> 0-15
    3: {6: p, 7: q},       # 3  -> 30-0
    4: {7: p, 8: q},       # 4  -> 15-15
    5: {8: p, 9: q},       # 5  -> 0-30
    6: {10: q, 15: p},     # 6  -> 40-0
    7: {10: p, 11: q},     # 7  -> 30-15
    8: {11: p, 12: q},     # 8  -> 15-30
    9: {12: p, 16: q},     # 9  -> 0-40
    10: {13: q, 15: p},    # 10 -> 40-15
    11: {13: p, 14: q},    # 11 -> 30-30   ("Deuce")
    12: {14: p, 16: q},    # 12 -> 15-40
    13: {11: q, 15: p},    # 13 -> 40-30
    14: {11: p, 16: q},    # 14 -> 30-40
    15: {15: 1.},          # 15 -> "A wins"
    16: {16: 1.}           # 16 -> "B wins"
}
 
mc = markov_chain(markov_table, init_probs)

N = 10000   # number of samples
steps = 100   # the target time
counter = 0  # to count the number of times the event {X_40  = 0} occurs
M = 100     # number of iterations of initial experiment

estimates=[]

for k in range(M):
    counter = 0
    for i in range(N):
        mc.start() 
        for j in range(steps):  mc.move()
        if mc.running_state == 15:  counter += 1

    phat = counter / N
    
    estimates.append(phat)

    print("""
    On iteration {4}, we executed {0} times the first {1} steps of the markov chain
    and we captured the running state in state "A wins" {2} times.
    So we estimate the Pr[X_{1} = "A wins" | X_0 = "A wins"] to be {3} 
    """.format(N, steps, counter, phat, k))

print(
    """ 
    The sample mean is {0:.5f} and the sample variance is {1:.5f}
    """.format(stat.mean(estimates), stat.variance(estimates))
)


    On iteration 0, we executed 10000 times the first 100 steps of the markov chain
    and we captured the running state in state "A wins" 7294 times.
    So we estimate the Pr[X_100 = "A wins" | X_0 = "A wins"] to be 0.7294 
    

    On iteration 1, we executed 10000 times the first 100 steps of the markov chain
    and we captured the running state in state "A wins" 7318 times.
    So we estimate the Pr[X_100 = "A wins" | X_0 = "A wins"] to be 0.7318 
    

    On iteration 2, we executed 10000 times the first 100 steps of the markov chain
    and we captured the running state in state "A wins" 7298 times.
    So we estimate the Pr[X_100 = "A wins" | X_0 = "A wins"] to be 0.7298 
    

    On iteration 3, we executed 10000 times the first 100 steps of the markov chain
    and we captured the running state in state "A wins" 7394 times.
    So we estimate the Pr[X_100 = "A wins" | X_0 = "A wins"] to be 0.7394 
    

    On iteration 4, we executed 10000 times the first 100 steps of 

 Παρατηρήσαμε τα εξής: πειραματιστήκαμε με τις τιμές για τα Ν, Μ, steps. Τα steps έμειναν στην τιμή 100, ενώ δοκιμάσαμε και τις τιμές 10, 100, 200, χωρίς αισθητή αλλαγή. Βέβαια, μεταβάλλοντας την τιμή των steps, βλέπουμε ότι η εκτιμήτρια έχει πολύ μικρή απόκλιση. Αυτό οφείλεται στην ισχύ του Νόμου των Μεγάλων Αριθμών, καθώς έχουμε μεγάλα Ν. Εκτελέσαμε το πείραμα με M = 10, M = 100, M = 1000, και δεν παρατηρήθηκαν αξιοσημείωτες διαφορές. Το ίδιο ίσχυσε και για μεταβολές του Ν, από 100 έως 10000. Στις περιπτώσεις αυτές, παρατηρήθηκε μια μικρή μεταβολή της τάξης του $10^{-4}$. Η πειραματική μέση τιμή για το παραπάνω setting που φαίνεται στο κομμάτι κώδικα παραπάνω είναι 0.73551 και η τυπική απόκλιση 0.00023, και είναι 0.7355 ο μέσος όρος των μέσων τιμών που παρατηρήθηκαν για τις διάφορες τιμές των παραμέτρων, με πολύ μικρή τιμή για τη διασπορά. 