# Wprowadzenie do łańcuchów Markova

https://towardsdatascience.com/introduction-to-markov-chain-programming-8ddbe0ac1c84

In [1]:
import numpy as np

In [2]:
states = ["sunny", "rainy"]
transitions = [["SS", "SR"],["RS", "RR"]]
T = [[0.9, 0.1],[0.5, 0.5]]
print("States: {}\nTransitions: {}\nT: {}".format(states, transitions, T))

States: ['sunny', 'rainy']
Transitions: [['SS', 'SR'], ['RS', 'RR']]
T: [[0.9, 0.1], [0.5, 0.5]]


In [3]:
def weather_forecast(n_days, weather_today="sunny"):
    weather_list = [weather_today]
    n = 0
    prob = 1.0    
    while n != n_days:
        if weather_today == "sunny":
            change = np.random.choice(transitions[0], p=T[0])
            if change == "SS":
                prob = prob * T[0][0]
                weather_list.append(states[0])
            else:
                prob = prob * T[0][1]
                weather_list.append(states[1])        
                
        else:
            change = np.random.choice(transitions[1], p=T[1])
            if change == "RS":
                prob = prob * T[1][0]
                weather_list.append(states[0])
            else:
                prob = prob * T[1][1]
                weather_list.append(states[1])        
        n = n + 1        
    return weather_list

In [12]:
weather_forecast(5, "rainy")

['rainy', 'sunny', 'rainy', 'rainy', 'rainy', 'rainy']

# Zadanie – value iteration
 

Zadanie polega na zaimplementowaniu prostego łańcucha decyzyjnego Markowa, w którym mamy 10 możliwych stanów (oznaczanych przez cyfry 0..9), a akcja pojedynczego ruchu polega na wyborze ruchu w prawo lub w lewo.

---   Ruch w prawo: \
o    z prawdopodobieństwem 0.6 przesuwa nas o jedno pole w prawo;   \
o    z prawdopodobieństwem 0.15 przesuwa nas o dwa pola w prawo;    \
o    z prawdopodobieństwem 0.15 przesuwa nas o jedno pole w lewo;   \
o    z prawdopodobieństwem 0.1 przesuwa nas o dwa pola w lewo;

---   Ruch w lewo: \
o    z prawdopodobieństwem 0.6 przesuwa nas o jedno pole w lewo;    \
o    z prawdopodobieństwem 0.15 przesuwa nas o dwa pola w lewo;     \
o    z prawdopodobieństwem 0.15 przesuwa nas o jedno pole w prawo;  \
o    z prawdopodobieństwem 0.1 przesuwa nas o dwa pola w prawo;

Nagrodą za stan 5 (który kończy grę) jest wartość 100. Pozostałe stany mają wartość -2.

**Polecenie** \
Zaimplementuj opisany powyżej łańcuch decyzyjny Markowa, a następnie metodą Value Iteration zaproponuj strategię postępowania w tym łańcuchu.

In [14]:
stan = [_ for _ in range(10)]
stan

reward = 0

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [16]:
P_R = [# 0,    1,    2,    3,    4,    5,    6,    7,    8,    9 stan kolejny/stan początkowy
    [ 0.25,  0.6, 0.15,  0.0,  0.0,  0.0,  0.0,  0.0,  0.0,  0.0], # 0
    [ 0.25,  0.0,  0.6, 0.15,  0.0,  0.0,  0.0,  0.0,  0.0,  0.0], # 1
    [  0.1, 0.15,  0.0,  0.6, 0.15,  0.0,  0.0,  0.0,  0.0,  0.0], # 2
    [  0.0,  0.1, 0.15,  0.0,  0.6, 0.15,  0.0,  0.0,  0.0,  0.0], # 3
    [  0.0,  0.0,  0.1, 0.15,  0.0,  0.6, 0.15,  0.0,  0.0,  0.0], # 4
    [  0.0,  0.0,  0.0,  0.1, 0.15,  0.0,  0.6, 0.15,  0.0,  0.0], # 5
    [  0.0,  0.0,  0.0,  0.0,  0.1, 0.15,  0.0,  0.6, 0.15,  0.0], # 6
    [  0.0,  0.0,  0.0,  0.0,  0.0,  0.1, 0.15,  0.0,  0.6, 0.15], # 7
    [  0.0,  0.0,  0.0,  0.0,  0.0,  0.0,  0.1, 0.15,  0.0, 0.75], # 8
    [  0.0,  0.0,  0.0,  0.0,  0.0,  0.0,  0.0,  0.1, 0.15, 0.75]] # 9

P_L = [# 0,    1,    2,    3,    4,    5,    6,    7,    8,    9 stan kolejny/stan początkowy
    [ 0.75, 0.15,  0.1,  0.0,  0.0,  0.0,  0.0,  0.0,  0.0,  0.0], # 0
    [ 0.75,  0.0, 0.15,  0.1,  0.0,  0.0,  0.0,  0.0,  0.0,  0.0], # 1
    [ 0.15,  0.6,  0.0, 0.15,  0.1,  0.0,  0.0,  0.0,  0.0,  0.0], # 2
    [  0.0, 0.15,  0.6,  0.0, 0.15,  0.1,  0.0,  0.0,  0.0,  0.0], # 3
    [  0.0,  0.0, 0.15,  0.6,  0.0, 0.15,  0.1,  0.0,  0.0,  0.0], # 4
    [  0.0,  0.0,  0.0, 0.15,  0.6,  0.0, 0.15,  0.1,  0.0,  0.0], # 5
    [  0.0,  0.0,  0.0,  0.0, 0.15,  0.6,  0.0, 0.15,  0.1,  0.0], # 6
    [  0.0,  0.0,  0.0,  0.0,  0.0, 0.15,  0.6,  0.0, 0.15,  0.1], # 7
    [  0.0,  0.0,  0.0,  0.0,  0.0,  0.0, 0.15,  0.6,  0.0, 0.25], # 8
    [  0.0,  0.0,  0.0,  0.0,  0.0,  0.0,  0.0, 0.15,  0.6, 0.25]] # 9