In [1]:
import numpy as np

# 환경 설정
n_states = 16  # 상태 수
n_actions = 4  # 행동 수 (상, 하, 좌, 우)
goal_state = 15  # 목표 상태

# Q-Table 초기화
Q_table = np.zeros((n_states, n_actions))

# 하이퍼파라미터 설정
learning_rate = 0.8
discount_factor = 0.95
exploration_prob = 0.2
epochs = 1000

# Q-Learning 알고리즘
for epoch in range(epochs):
    current_state = np.random.randint(0, n_states)  # 무작위 상태에서 시작
    
    while current_state != goal_state:
        # 행동 선택 (epsilon-greedy 전략)
        if np.random.rand() < exploration_prob:
            action = np.random.randint(0, n_actions)  # 탐색
        else:
            action = np.argmax(Q_table[current_state])  # 활용

        # 환경에서 다음 상태로 이동 (단순화된 이동)
        next_state = (current_state + 1) % n_states

        # 보상 정의 (목표 상태 도달 시 보상 부여)
        reward = 1 if next_state == goal_state else 0

        # Q-값 업데이트 (벨만 방정식 적용)
        Q_table[current_state, action] += learning_rate * \
            (reward + discount_factor * np.max(Q_table[next_state]) - Q_table[current_state, action])
        
        current_state = next_state  # 다음 상태로 이동

# 학습된 Q-Table 출력
print("학습된 Q-Table:")
print(Q_table)

학습된 Q-Table:
[[0.48767498 0.4868947  0.48377358 0.39013998]
 [0.51334208 0.51334057 0.51330923 0.5131053 ]
 [0.54036009 0.54035981 0.51874568 0.54035981]
 [0.56880009 0.56880009 0.56880009 0.56880009]
 [0.59873615 0.59873694 0.59873694 0.59873694]
 [0.63024941 0.63024941 0.63024941 0.63024941]
 [0.66342043 0.66342043 0.66342043 0.66342043]
 [0.6983373  0.6983373  0.6983373  0.6983373 ]
 [0.73509189 0.73509189 0.73509189 0.73509189]
 [0.77378094 0.77378094 0.77378094 0.77378094]
 [0.81450625 0.81450625 0.81450625 0.81450625]
 [0.857375   0.857375   0.857375   0.857375  ]
 [0.9025     0.9025     0.9025     0.9025    ]
 [0.95       0.95       0.95       0.95      ]
 [1.         1.         1.         1.        ]
 [0.         0.         0.         0.        ]]
