# âœ…Gerekli KÃ¼tÃ¼phanelerin Ä°Ã§e AktarÄ±lmasÄ±

In [2]:
import numpy as np  # NumPy, Ã¶zellikle vektÃ¶r ve matris iÅŸlemleri iÃ§in kullanÄ±lÄ±r.
import gym  # OpenAI Gym, RL ortamlarÄ±nÄ± saÄŸlar. Burada CartPole kullanÄ±lÄ±yor.
from collections import deque  # Deneyim hafÄ±zasÄ± iÃ§in Ã§ift taraflÄ± kuyruk.
from tensorflow.keras.models import Sequential  # Basit katmanlÄ± model tanÄ±mÄ±.
from tensorflow.keras.layers import Dense  # Yapay sinir aÄŸÄ±na tam baÄŸlantÄ±lÄ± katmanlar ekler.
from tensorflow.keras.optimizers import Adam  # Geri yayÄ±lÄ±mda kullanÄ±lan optimizasyon algoritmasÄ±.
import random  # Rastgele eylem seÃ§imi ve Ã¶rnekleme iÃ§in kullanÄ±lÄ±r.
from tqdm import tqdm  # EÄŸitim dÃ¶ngÃ¼sÃ¼ ilerlemesini gÃ¶rsel olarak takip etmeye yarar.

# âœ… Derin Q-Learning AjanÄ±nÄ±n TanÄ±mÄ±

In [3]:
class DQLAgent:
    def __init__(self, env):
        self.state_size = env.observation_space.shape[0]  # OrtamÄ±n gÃ¶zlem (state) boyutu alÄ±nÄ±r.
        self.action_size = env.action_space.n  # Ortamda yapÄ±labilecek toplam eylem sayÄ±sÄ±.

        self.gamma = 0.95  # Gelecekteki Ã¶dÃ¼llerin bugÃ¼ne indirgenme katsayÄ±sÄ± (discount factor).
        self.learning_rate = 0.001  # Ã–ÄŸrenme oranÄ±.

        self.epsilon = 1  # BaÅŸlangÄ±Ã§ta tamamen rastgele eylem seÃ§imi (exploration).
        self.epsilon_decay = 0.995  # Her bÃ¶lÃ¼m sonunda epsilon deÄŸeri yavaÅŸÃ§a azaltÄ±lÄ±r.
        self.epsilon_min = 0.01  # Epsilonâ€™un ulaÅŸabileceÄŸi en dÃ¼ÅŸÃ¼k deÄŸer.

        self.memory = deque(maxlen=1000)  # Deneyimlerin saklanacaÄŸÄ± bir kuyruk (Experience Replay).

        self.model = self.build_model()  # Sinir aÄŸÄ± modeli oluÅŸturulur.

    # Sinir AÄŸÄ± Modelinin Ä°nÅŸasÄ±
    def build_model(self):
        model = Sequential()
        
        model.add(Dense(48, input_dim=self.state_size, activation="relu"))  # Ä°lk katman: Girdi boyutuna gÃ¶re nÃ¶ronlar.
        
        model.add(Dense(24, activation="relu"))  # Orta katman: daha az nÃ¶ron ile temsil gÃ¼cÃ¼.
       
        model.add(Dense(self.action_size, activation="linear"))  # Ã‡Ä±kÄ±ÅŸ katmanÄ±: Her aksiyon iÃ§in bir deÄŸer.
        
        model.compile(loss="mse", optimizer=Adam(learning_rate=self.learning_rate))  # Hata fonksiyonu ve optimizer.
        return model

    # HafÄ±zaya Deneyim Ekleme Fonksiyonu
    def remember(self, state, action, reward, next_state, done):
        self.memory.append((state, action, reward, next_state, done))  # Her adÄ±mÄ± belleÄŸe kaydeder.

    # Aksiyon SeÃ§me Fonksiyonu (Îµ-Greedy PolitikasÄ±)
    def act(self, state):
        if random.uniform(0, 1) <= self.epsilon:
            return env.action_space.sample()  # Rastgele aksiyon seÃ§ (exploration).
        
        act_values = self.model.predict(state, verbose=0)  # Modelle tahmin yap (exploitation).
        return np.argmax(act_values[0])  # En yÃ¼ksek Q-deÄŸerine sahip aksiyon seÃ§ilir.

    # Replay - AjanÄ±n Ã–ÄŸrenme Fonksiyonu
    def replay(self, batch_size):
        if len(self.memory) < batch_size:
            return  # Yeterli deneyim yoksa Ã¶ÄŸrenme yapÄ±lmaz.

        minibatch = random.sample(self.memory, batch_size)  # HafÄ±zadan rastgele Ã¶rnekler seÃ§ilir.

        for state, action, reward, next_state, done in minibatch:
            if done:
                target = reward  # EÄŸer bÃ¶lÃ¼m bittiyse sadece Ã¶dÃ¼l kullanÄ±lÄ±r.
            else:
                target = reward + self.gamma * np.amax(self.model.predict(next_state, verbose=0)[0])
                # EÄŸer devam ediyorsa gelecekteki maksimum Ã¶dÃ¼l eklenir.

            train_target = self.model.predict(state, verbose=0)
            train_target[0][action] = target  # Sadece ilgili aksiyonun Q-deÄŸeri gÃ¼ncellenir.

            self.model.fit(state, train_target, verbose=0)  # Model eÄŸitilir.

        
    # Epsilon GÃ¼ncelleme Fonksiyonu (Exploration AzaltÄ±mÄ±)
    def adaptiveEGreedy(self):
        if self.epsilon > self.epsilon_min:
            self.epsilon *= self.epsilon_decay  # Epsilon zamanla azaltÄ±lÄ±r.

# âœ… Ana EÄŸitim DÃ¶ngÃ¼sÃ¼ - AjanÄ±n Ortamda Ã–ÄŸrenmesi

In [4]:
env = gym.make("CartPole-v1", render_mode="human")  # Ortam oluÅŸturulur (insan gÃ¶zlemi iÃ§in).
agent = DQLAgent(env)

batch_size = 32  # Mini-batch boyutu.
episodes = 2  # EÄŸitim bÃ¶lÃ¼mÃ¼ sayÄ±sÄ± (daha sonra artÄ±rÄ±labilir).

for e in tqdm(range(episodes)):
    state = env.reset()[0]  # Ortam sÄ±fÄ±rlanÄ±r ve baÅŸlangÄ±Ã§ durumu alÄ±nÄ±r.
    state = np.reshape(state, [1, 4])  # Modelle uyumlu hale getirilir.

    time = 0  # AdÄ±m sayacÄ±

    while True:
        action = agent.act(state)  # Ajan aksiyon seÃ§er.

        next_state, reward, terminated, truncated, _ = env.step(action)
        done = terminated or truncated  # BÃ¶lÃ¼mÃ¼n bitip bitmediÄŸi kontrol edilir.
        next_state = np.reshape(next_state, [1, 4])  # Modelle uyumlu hale getirilir.

        agent.remember(state, action, reward, next_state, done)  # HafÄ±zaya kaydedilir.
        state = next_state  # Yeni duruma geÃ§ilir.

        agent.replay(batch_size)  # Ã–ÄŸrenme yapÄ±lÄ±r.
        agent.adaptiveEGreedy()  # Epsilon gÃ¼ncellenir.

        time += 1

        if done:
            print(f"Episode {e+1} finished after {time} timesteps")  # BÃ¶lÃ¼m sonucu yazdÄ±rÄ±lÄ±r.
            break


  super().__init__(activity_regularizer=activity_regularizer, **kwargs)
  if not isinstance(terminated, (bool, np.bool8)):
 50%|â–ˆâ–ˆâ–ˆâ–ˆâ–ˆ     | 1/2 [00:03<00:03,  3.69s/it]

Episode 1 finished after 18 timesteps


100%|â–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆ| 2/2 [06:35<00:00, 197.87s/it]

Episode 2 finished after 44 timesteps





# ğŸ§ª EÄŸitilmiÅŸ AjanÄ± Test Etme

In [8]:
import time
# EÄŸitilmiÅŸ ajanÄ± kullanÄ±ma hazÄ±r hale getiriyoruz.
trained_model = agent

# CartPole-v1 ortamÄ±nÄ±, gÃ¶rselleÅŸtirme (render) modunda baÅŸlatÄ±yoruz.
env = gym.make("CartPole-v1", render_mode="human")

# OrtamÄ± sÄ±fÄ±rlÄ±yoruz ve baÅŸlangÄ±Ã§ durumunu alÄ±yoruz.
# env.reset() fonksiyonu bir tuple dÃ¶ndÃ¼rÃ¼r; ilk eleman gÃ¶zlemlerdir.
state = env.reset()[0]

# GÃ¶zlem vektÃ¶rÃ¼nÃ¼ (state) modele uygun hale getirmek iÃ§in yeniden ÅŸekillendiriyoruz.
# Modelimiz [1, 4] boyutunda giriÅŸ bekliyor.
state = np.reshape(state, [1, 4])

# Zaman adÄ±mÄ± sayacÄ±nÄ± baÅŸlatÄ±yoruz.
time_t = 0

# Sonsuz dÃ¶ngÃ¼: AjanÄ± eÄŸitilmiÅŸ politika ile Ã§alÄ±ÅŸtÄ±rÄ±yoruz.
while True:
    # OrtamÄ± gÃ¶rsel olarak ekranda gÃ¶steriyoruz.
    env.render()

    # Ajan, mevcut duruma gÃ¶re en iyi eylemi (aksiyonu) tahmin eder.
    action = trained_model.act(state)

    # Ortamda bu aksiyonu gerÃ§ekleÅŸtiriyoruz; yeni durumu, Ã¶dÃ¼lÃ¼ ve bitiÅŸ bilgisini alÄ±yoruz.
    next_state, reward, done, _, _ = env.step(action)

    # Yeni durumu yine modele uygun forma dÃ¶nÃ¼ÅŸtÃ¼rÃ¼yoruz.
    next_state = np.reshape(next_state, [1, 4])

    # AjanÄ±n mevcut durumunu gÃ¼ncelliyoruz.
    state = next_state

    # Zaman adÄ±m sayacÄ±nÄ± artÄ±rÄ±yoruz.
    time_t += 1

    # Her adÄ±mda geÃ§en zamanÄ± konsola yazdÄ±rÄ±yoruz.
    print(f"Time: {time_t}")

    # AjanÄ±n aksiyonlar arasÄ±nda kÄ±sa bir duraklama yapmasÄ±nÄ± saÄŸlÄ±yoruz.
    time.sleep(0.5)

    # EÄŸer Ã§ubuk dÃ¼ÅŸerse (done=True), dÃ¶ngÃ¼yÃ¼ sonlandÄ±rÄ±yoruz.
    if done:
        break

# SimÃ¼lasyon tamamlandÄ±ÄŸÄ±nda mesaj veriyoruz.
print("Done")

Time: 1
Time: 2
Time: 3
Time: 4
Time: 5
Time: 6
Time: 7
Time: 8
Time: 9
Time: 10
Time: 11
Time: 12
Time: 13
Time: 14
Time: 15
Time: 16
Time: 17
Time: 18
Time: 19
Time: 20
Done
