In [None]:
import gym
import numpy as np
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from tensorflow.keras.optimizers import Adam

# 환경 생성
env = gym.make('CartPole-v1')

# 모델 생성
model = Sequential([
    Dense(24, input_shape=(env.observation_space.shape[0],), activation='relu'),
    Dense(24, activation='relu'),
    Dense(env.action_space.n, activation='softmax')
])

# 모델 컴파일
model.compile(loss='categorical_crossentropy', optimizer=Adam(learning_rate=0.001))

# 주어진 상태에 대해 모델이 예측한 행동을 반환
def get_action(state):
    policy = model.predict(state)[0]
    return np.random.choice(env.action_space.n, p=policy)

# 에피소드가 끝난 후, 보상을 기반으로 모델을 학습
def train(reward, state, action):
    target = reward * np.ones((1, env.action_space.n))
    target[0][action] = reward
    model.fit(state, target, epochs=1, verbose=0)

# 에피소드 실행
for episode in range(100):
    state = env.reset()
    state = np.reshape(state, [1, 4])
    done = False
    total_reward = 0

    while not done:
        action = get_action(state)
        next_state, reward, done, _ = env.step(action)
        next_state = np.reshape(next_state, [1, 4])

        train(reward, state, action)

        state = next_state
        total_reward += reward

        if done:
            print(f"에피소드: {episode+1}, 보상: {total_reward}")

env.close()

에피소드: 1, 보상: 10.0
에피소드: 2, 보상: 14.0
에피소드: 3, 보상: 18.0
에피소드: 4, 보상: 15.0
에피소드: 5, 보상: 9.0
에피소드: 6, 보상: 13.0
에피소드: 7, 보상: 21.0
에피소드: 8, 보상: 28.0
에피소드: 9, 보상: 14.0
에피소드: 10, 보상: 22.0
에피소드: 11, 보상: 9.0
에피소드: 12, 보상: 20.0
에피소드: 13, 보상: 32.0
에피소드: 14, 보상: 10.0
에피소드: 15, 보상: 11.0
에피소드: 16, 보상: 9.0
에피소드: 17, 보상: 22.0
에피소드: 18, 보상: 12.0
에피소드: 19, 보상: 24.0
에피소드: 20, 보상: 9.0
에피소드: 21, 보상: 10.0
에피소드: 22, 보상: 16.0
에피소드: 23, 보상: 13.0
에피소드: 24, 보상: 12.0
에피소드: 25, 보상: 14.0
에피소드: 26, 보상: 27.0
에피소드: 27, 보상: 19.0
에피소드: 28, 보상: 12.0
에피소드: 29, 보상: 14.0
에피소드: 30, 보상: 17.0
에피소드: 31, 보상: 10.0
에피소드: 32, 보상: 25.0
에피소드: 33, 보상: 9.0
에피소드: 34, 보상: 11.0
에피소드: 35, 보상: 12.0
에피소드: 36, 보상: 16.0
에피소드: 37, 보상: 12.0
에피소드: 38, 보상: 18.0
에피소드: 39, 보상: 27.0
에피소드: 40, 보상: 11.0
에피소드: 41, 보상: 15.0
에피소드: 42, 보상: 20.0
에피소드: 43, 보상: 18.0
에피소드: 44, 보상: 9.0
에피소드: 45, 보상: 9.0
에피소드: 46, 보상: 13.0
에피소드: 47, 보상: 11.0
에피소드: 48, 보상: 12.0
에피소드: 49, 보상: 10.0
에피소드: 50, 보상: 11.0
에피소드: 51, 보상: 27.0
에피소드: 52, 보상: 8.0
에피소드: 53, 보상: 10.0
에피소드: 54, 