## "An introduction to Q-Learning: Reinforcement Learning"

![](https://i.ibb.co/c8LXj7X/Capture.png)

<center>The environment</center>

In [10]:
# Only numpy
import numpy as np

In [11]:
# Initialize parameters
gamma = 0.75 # Discount factor 
alpha = 0.9 # Learning rate 

In [12]:
# Define the states
location_to_state = {
    'L1' : 0,
    'L2' : 1,
    'L3' : 2,
    'L4' : 3,
    'L5' : 4,
    'L6' : 5,
    'L7' : 6,
    'L8' : 7,
    'L9' : 8
}

In [13]:
# Define the actions
actions = [0,1,2,3,4,5,6,7,8]

![](https://i.ibb.co/k4kgnQS/Capture.png)

<center>Rewards' table</center>

In [14]:
# Define the rewards
rewards = np.array([[0,1,0,0,0,0,0,0,0],
              [1,0,1,0,0,0,0,0,0],
              [0,1,0,0,0,1,0,0,0],
              [0,0,0,0,0,0,1,0,0],
              [0,1,0,0,0,0,0,1,0],
              [0,0,1,0,0,0,0,0,0],
              [0,0,0,1,0,0,0,1,0],
              [0,0,0,0,1,0,1,0,1],
              [0,0,0,0,0,0,0,1,0]])

In [15]:
# Indexleri konumlara eşliyoruz
state_to_location = dict((state,location) for location,state in location_to_state.items())

In [16]:
# Define the actions
actions = [0,1,2,3,4,5,6,7,8]

Aşağıdaki işlev iki argüman alacak:

* Depodaki başlangıç konumu 
* Sırasıyla depodaki son konumu

Sıralı bir liste biçiminde (harfleri içeren) başlangıç konumundan son konuma ulaşmak için en uygun rotayı döndürecektir.

In [17]:
def get_optimal_route(start_location,end_location):
   
    
    rewards_new = np.copy(rewards)   # rexards matrisini yeni Matrise kopyalıyoruz
    
    
    ending_state = location_to_state[end_location] # Verilen bitiş konumuna karşılık gelen bitiş durumunu alıyoruz
    
    # Yukarıdaki bilgilerle, verilen bitiş durumunun önceliğini otomatik olarak en yüksek olana ayarlayıyoruz
    
    rewards_new[ending_state,ending_state] = 999
    

    # -----------Q-Learning algorithm-----------
   
    
    Q = np.array(np.zeros([9,9])) # Initializing Q-Values

    # Q-Learning process
    for i in range(1000):
        
        # Rastgele bir durum seçiyoruz
        current_state = np.random.randint(0,9) # Python üst sınırı yani upper bound u hariç tutar
        
        
        playable_actions = [] #Labirentteki komşu konumlardan geçmek için playable_actions adında bir liste oluşturuyoruz
        
   
        # Yeni reward matrisini tekrarlıyoruz ve actionsları >0 dan büyük olacak şekilde alıyoruz.
        for j in range(9):
            if rewards_new[current_state,j] > 0:
                playable_actions.append(j)
                
        # Bizi bir sonraki duruma götüren playable_actions listesinden rastgele bir action seçiyoruz
        
        next_state = np.random.choice(playable_actions)
        
        # Zamansal farkı hesaplıyoruz
        # Buradaki eylem tam olarak bir sonraki duruma geçmeyi ifade ediyor aslında
        
        TD = rewards_new[current_state,next_state] + gamma * Q[next_state, np.argmax(Q[next_state,])] - Q[current_state,next_state]
        

        # Bellman denklemini kullanarak Q Değerini güncelleyiyoruz
        Q[current_state,next_state] += alpha * TD

    # Başlangıç konumu ile en uygun rotayı initialize ediyoruz.
    route = [start_location]
    
    # Bir sonraki konumu henüz bilmiyoruz, bu nedenle başlangıç konumunun değeriyle başlıyoruz
    next_location = start_location
    
    # We don't know about the exact number of iterations needed to reach to the final location hence while loop will be a good choice for iteratiing
    # son konuma ulaşmak için gereken yineleme sayısını tam olarak bilmiyoruz, bu nedenle döngü yineleme için iyi bir seçim olacaktır
    while(next_location != end_location):
        
        # Başlangıç durumunu getiriyoruz ve starting_state değerine atıyoruz.
        starting_state = location_to_state[start_location]
        
        # Başlangıç durumuna ait en yüksek Q değerini getirip next_state e atıyoruz
        next_state = np.argmax(Q[starting_state,])
        
        # Bir sonraki durumun dizinini alıyoruz burda. Ancak corresponding letter a ihtiyacımız var. 
        next_location = state_to_location[next_state]
        route.append(next_location)
        
        # Sonraki iteration için başlangıç konumunu güncelliyoruz 
        start_location = next_location
    
    return route

In [18]:
print(get_optimal_route('L9', 'L1'))

['L9', 'L8', 'L5', 'L2', 'L1']
