Pekiştirmeli öğrenme (Reinforcement Learning, RL), bir yapay zekâ modelinin, belirli bir ortamda en iyi eylemleri öğrenerek belirli bir hedefe ulaşmasını sağlayan bir makine öğrenmesi yöntemidir. Bu yöntemde, model, bir dizi durum (state), eylem (action) ve ödül (reward) üzerinden çalışır. Pekiştirmeli öğrenmede temel olarak şu adımlar izlenir:

1. **Durum (State):** Çevrenin mevcut durumu, model tarafından algılanır.
2. **Eylem (Action):** Model, mevcut durumdan bir eylem seçer.
3. **Ödül (Reward):** Eylemin sonucunda bir ödül veya ceza alır.
4. **Geri Bildirim (Feedback):** Alınan ödül veya ceza ile model, eylemin ne kadar başarılı olduğunu öğrenir.
5. **Politika (Policy):** Model, bu geri bildirimleri kullanarak gelecekteki durumlar için daha iyi eylemler seçmeye çalışır.

### Q-Oğrenme Algoritması

Modelin amacı, uzun vadede en yüksek toplam ödülü elde edecek şekilde davranışlarını optimize etmektir. Pekiştirmeli öğrenme, deneme-yanılma yoluyla öğrenme sürecini içerir ve genellikle karmaşık ve dinamik ortamlarda kullanılır. Bu yöntemin uygulama alanları arasında robotik, oyunlar, finansal modelleme ve özerk sistemler yer alır.


Q-öğrenme algoritması, pekiştirmeli öğrenme (Reinforcement Learning, RL) alanında yaygın olarak kullanılan bir yöntemdir. Bir ajanın (agent) bir ortamda nasıl davranması gerektiğini öğrenmesine yardımcı olur. Bu öğrenme süreci, ödül (reward) sinyallerine dayanır ve amaç, ajan için uzun vadede en yüksek toplam ödülü elde edecek bir politika (policy) geliştirmektir.

Q-öğrenme algoritmasının ana bileşenleri ve işleyişi şu şekildedir:

### 1. Durum (State) ve Eylem (Action)
- **Durum (State, \( s \))**: Ajanın içinde bulunduğu mevcut çevresel durum.
- **Eylem (Action, \( a \))**: Ajanın mevcut durumda yapabileceği hareketler veya kararlar.

### 2. Q-Tablosu (Q-Table)
- Q-tablosu, her durum-eylem çifti için bir Q-değerini (eylem değeri) saklayan bir tablodur. Q-değeri, belirli bir durumda belirli bir eylemi seçmenin beklenen ödülüdür.
- Q-tablosu başlangıçta sıfırlarla başlatılır ve zamanla güncellenir.

### 3. Güncelleme Kuralı
Q-öğrenme, Bellman denklemini kullanarak Q-değerlerini iteratif olarak günceller. Güncelleme kuralı şu şekildedir:

$[ Q(s, a) \leftarrow Q(s, a) + \alpha \left[ r + \gamma \max_{a'} Q(s', a') - Q(s, a) \right] ]$

Burada:
- \( $\alpha$ \) (öğrenme oranı): Q-değerinin ne kadarının yeni bilgiyle güncelleneceğini belirler.
- \( r \) (ödül): Ajanın eylem sonucunda aldığı ödül.
- \( $\gamma$ \) (indirim faktörü): Gelecekteki ödüllerin ne kadar önemli olduğunu belirler.
- \( s \): Eylem sonrası yeni durum.
- \( $\max_{a'}$ $Q(s', a')$ \): Yeni durumda seçilebilecek en iyi eylemin Q-değeri.

### 4. Keşif ve Sömürü (Exploration and Exploitation)
- Ajanın, Q-tablosunu güncellerken hem çevresini keşfetmesi (exploration) hem de öğrendiği bilgiyi kullanarak en iyi eylemleri seçmesi (exploitation) gerekir.
- **Epsilon-greedy politika**: Ajan, epsilon (\( \epsilon \)) olasılıkla rastgele bir eylem seçer (keşif), ve \( 1 - \epsilon \) olasılıkla en yüksek Q-değerine sahip eylemi seçer (sömürü).

### 5. Algoritmanın Adımları
1. **Başlatma**: Q-tablosunu sıfırlarla başlat.
2. **Episod başlatma**: Ortamı resetleyerek başlangıç durumuna geç.
3. **Adımları tekrarla**:
   - Mevcut durumda bir eylem seç (epsilon-greedy politika kullanarak).
   - Eylemi uygula ve yeni durumu ve ödülü al.
   - Q-tablosunu yukarıdaki güncelleme kuralı ile güncelle.
   - Yeni duruma geç.
   - Eğer hedefe ulaşıldıysa veya maksimum adım sayısına ulaşıldıysa bu epizodu bitir.
4. **Epsilon'u azalt**: Daha fazla bilgi topladıkça keşif oranını azalt (decay rate ile).
5. **Episodları tekrarla**: Belirli bir sayıda (örneğin 10.000) epizod tamamlanana kadar adımları tekrarla.

Q-öğrenme algoritması, doğru şekilde uygulandığında ajan, en iyi eylemleri öğrenir ve ödülünü maksimize edecek bir politika geliştirir. Bu algoritma, özellikle çevrimdışı öğrenme ve geniş durum-eylem uzaylarına sahip sorunlarda etkili bir yöntemdir.

In [None]:
!pip install 'gymnasium[all]' &>/dev/null


### "CartPole-v1" Ortamı Örneği

"CartPole-v1" ortamında, `observation` çıktısı dört değerden oluşur:
1. **Cart Position (aracın pozisyonu)**: Arabacın yatay eksendeki konumu.
2. **Cart Velocity (aracın hızı)**: Arabacın yatay eksendeki hızı.
3. **Pole Angle (direğin açısı)**: Direğin dikeyden sapma açısı.
4. **Pole Velocity at Tip (direğin ucundaki hız)**: Direğin ucunun açısal hızı.

### Kod Örneği ve Çıktı

```python
import gym

# CartPole ortamını oluştur
env = gym.make('CartPole-v1')

# Ortamı başlat ve ilk gözlemi al
observation = env.reset()
print("İlk gözlem:", observation)

# Rastgele bir eylem gerçekleştir ve yeni gözlemi al
action = env.action_space.sample()
observation, reward, done, info = env.step(action)
print("Yeni gözlem:", observation)
```

### Olası Çıktı

```plaintext
İlk gözlem: [-0.03225139  0.02965271 -0.02572898 -0.03329633]
Yeni gözlem: [-0.03165833 -0.16500978 -0.02639591  0.24774924]
```

Bu çıktı, `CartPole-v1` ortamında bir eylem gerçekleştirdikten sonra alınan gözlemi göstermektedir. Dört değer de sırasıyla arabacın pozisyonunu, hızını, direğin açısını ve direğin ucundaki hızı temsil eder.

### Gözlem Alanlarının Açıklaması

- **Box**: Sürekli değerler içeren bir uzayı temsil eder. `CartPole-v1` ortamında, gözlem alanı `Box(-inf, inf, (4,), dtype=float32)` olarak tanımlanır, yani dört boyutlu sürekli bir uzaydır.
  
  ```python
  import gym
  env = gym.make('CartPole-v1')
  print(env.observation_space)
  # Output: Box(-inf, inf, (4,), float32)
  ```



In [None]:
import gymnasium as gym

ortam = gym.make('CartPole-v1',render_mode='human')
ortam_durumu = ortam.reset()
ortam_durumu

In [None]:
def pprint(ortam):
    print(f"Aracin pozisyonu : {ortam[0]}")
    print(f"Aracin hizi : {ortam[1]}")
    print(f"Diregin acisi : {ortam[2]}")
    print(f"Diregin ucunun hizi : {ortam[3]}")

pprint(ortam_durumu[0])

In [None]:
ortam_durumu, odul, bittimi, kesildimi, bilgi = ortam.step(1)
pprint(ortam_durumu)

In [None]:
ortam.close()



Aşağıdaki kod, CartPole ortamını kullanarak bir ajanı rastgele hareketlerle çalıştırır:

```python
import gymnasium as gym
import numpy as np

# CartPole ortamını başlat
env = gym.make('CartPole-v1', render_mode="human")
obs = env.reset()  # Ortamı sıfırla

# 1000 adım için simülasyonu çalıştır
for _ in range(1000):
    action = env.action_space.sample()  # Rastgele bir aksiyon seç
    obs, reward, done, truncated, info = env.step(action)  # Aksiyonu uygula
    env.render()  # Ortamı görselleştir
    if done:
        obs = env.reset()  # Ortam sona erdiğinde sıfırla

env.close()
```

### 3. Q-Learning İle CartPole Ajanı Eğitme

Q-Learning algoritmasını kullanarak ajanı eğitmek için daha karmaşık bir kod yazmamız gerekiyor. İşte temel bir Q-Learning algoritması ile CartPole ajanını eğiten bir örnek:

```python
import gymnasium as gym
import numpy as np
import random
from collections import defaultdict

# Ortamı başlat
env = gym.make('CartPole-v1')

# Q-table oluştur
Q = defaultdict(lambda: np.zeros(env.action_space.n))

# Hiperparametreler
alpha = 0.1  # Öğrenme oranı
gamma = 0.99  # Gelecekteki ödüllerin indirim oranı
epsilon = 0.1  # Keşif oranı
num_episodes = 1000  # Eğitim için bölüm sayısı

def get_discrete_state(state, bins=(10, 10, 10, 10)):
    discrete_state = tuple(np.digitize(s, np.linspace(-1, 1, num)) for s, num in zip(state, bins))
    return discrete_state

# Eğitim döngüsü
for episode in range(num_episodes):
    state, _ = env.reset()
    state = get_discrete_state(state)
    
    done = False
    while not done:
        if random.uniform(0, 1) < epsilon:
            action = env.action_space.sample()
        else:
            action = np.argmax(Q[state])

        next_state, reward, done, truncated, info = env.step(action)
        next_state = get_discrete_state(next_state)

        # Q-value güncellemesi
        best_next_action = np.argmax(Q[next_state])
        td_target = reward + gamma * Q[next_state][best_next_action]
        td_delta = td_target - Q[state][action]
        Q[state][action] += alpha * td_delta

        state = next_state

env.close()

# Eğitimden sonra, ajanı test edelim
state, _ = env.reset()
state = get_discrete_state(state)
done = False

while not done:
    action = np.argmax(Q[state])
    next_state, reward, done, truncated, info = env.step(action)
    next_state = get_discrete_state(next_state)
    env.render()
    state = next_state

env.close()
```

Bu kod, basit bir Q-Learning algoritması ile CartPole ajanını eğitir ve ardından eğitilen ajanı test eder. Q-Learning algoritması, öğrenme oranı (`alpha`), indirim oranı (`gamma`) ve keşif oranı (`epsilon`) gibi hiperparametreler kullanarak ajanı eğitir.

Eğer daha gelişmiş RL algoritmalarını (örneğin, DQN, A2C, PPO) kullanmak isterseniz, `stable-baselines3` gibi kütüphaneleri kullanabilirsiniz.

In [None]:
import gymnasium as gym
import numpy as np
import random
from collections import defaultdict

# Ortamı başlat
env = gym.make('CartPole-v1',render_mode='human')

# Q-table oluştur
Q = defaultdict(lambda: np.zeros(env.action_space.n))

# Hiperparametreler
alpha = 0.1  # Öğrenme oranı
gamma = 0.99  # Gelecekteki ödüllerin indirim oranı
epsilon = 0.1  # Keşif oranı
num_episodes = 1000  # Eğitim için bölüm sayısı

def get_discrete_state(state, bins=(10, 10, 10, 10)):
    discrete_state = tuple(np.digitize(s, np.linspace(-1, 1, num)) for s, num in zip(state, bins))
    return discrete_state

# Eğitim döngüsü
for episode in range(num_episodes):
    state, _ = env.reset()
    state = get_discrete_state(state)
    
    done = False
    while not done:
        if random.uniform(0, 1) < epsilon:
            action = env.action_space.sample()
        else:
            action = np.argmax(Q[state])

        next_state, reward, done, truncated, info = env.step(action)
        next_state = get_discrete_state(next_state)

        # Q-value güncellemesi
        best_next_action = np.argmax(Q[next_state])
        td_target = reward + gamma * Q[next_state][best_next_action]
        td_delta = td_target - Q[state][action]
        Q[state][action] += alpha * td_delta

        state = next_state

env.close()

# Eğitimden sonra, ajanı test edelim
state, _ = env.reset()
state = get_discrete_state(state)
done = False

while not done:
    action = np.argmax(Q[state])
    next_state, reward, done, truncated, info = env.step(action)
    next_state = get_discrete_state(next_state)
    env.render()
    state = next_state

env.close()
