# Задача 

Напишите агента, набирающего как можно больше баллов в игре MountainCar-V0

# Методы решения 

Попробуем решить задачу двумя способами и сравнить результаты:
- Сделаем выборку из большого числа "успешных" игр и обучим нейронную сеть
    - Так как мы получаем награду, отличную от $-1$ только в том случае, когда машинка пересекает отметку в $0.5$ (что при случайных действиях случается экстремально редко), изменим функцию награды так, что значение награды за итерацию увеличивается на $1$, если мы достигли отметку в $-0.18$ (это значение нам подойдёт, так как стартовая позиция принимает значения от $-0.6$ до $-0.4$).
    - Игра будет считаться успешной, если за $200$ максимально возможных итераций суммарное значение награды составило больше $-199$.
- DQN
    - Мы не будем просто собирать данные и обучать нейронную сеть на их основе. Вместо этого мы будем создавать тренировочные данные прямо после каждой попытки и будем обучать сеть сразу же после попытки.

# Решение

In [1]:
import gym
import random
import numpy as np
import tensorflow as tf 
from collections import deque
from tensorflow.keras.models     import Sequential
from tensorflow.keras.layers     import Dense, Dropout
from tensorflow.keras.optimizers import Adam

Сначала напишем метод, который будет сравнивать эффективность моделей. Он будет принимать модель, которая играет $100$ игр и считает среднее количество награды за игру (расчёт награды не меняется относительно условия задачи).

In [13]:
def model_test(test_model):
    
    # Список из суммарных наград за 1 игру.
    scores = [] 
    
    games_number = 100
    goal_steps = 200
    
    # Пробегаемся по 100 играм.
    for each_game in range(games_number):    
        
        score = 0
        
        # Состояние среды за предыдущую итерацию. 
        # Будем его передавать в качестве параметра для нашей модели.
        previous_observation = []
        
        for step_index in range(goal_steps):
            
            # Если это первая итерация, то выбераем случайное действие.
            if len(previous_observation)==0:
                action = random.randrange(0,2)
            # Иначе подаём модели прошлой состояние и выбираем действие с наибольшим весом.
            else:
                action = np.argmax(test_model.predict(previous_observation.reshape(-1, env.observation_space.shape[0]))[0])

            new_observation, reward, done, info = env.step(action)
            previous_observation = new_observation
            score += reward
            
            if done:            
                break
                
        env.reset()
        scores.append(score)
            
    print('Средняя награда за {} игр: {}'.format(games_number, sum(scores)/len(scores)))

## Решение №1 

Напишем класс, содержащий всю логику решения.

In [44]:
class NN:
    def __init__(self, env):
        self.env = env
        
        self.goal_steps = 200
        self.score_requirement = -199
        self.games_number = 10000

        self.model = self.create_model()

    # Создание модели.
    def create_model(self):
        model = Sequential([
            Dense(512, input_dim=self.env.observation_space.shape[0], activation='relu'),
            Dense(256, activation='relu'),
            Dense(128, activation='relu'),
            Dense(64, activation='relu'),
            Dense(self.env.action_space.n, activation='linear')
        ])
        model.compile(loss='mse', optimizer=Adam(), metrics=['acc'])
        return model
    
    # Обучение модели.
    def train_model(self, x, y):        
        self.model.fit(x, y, epochs=5)

    # Подготовка данных для обучения.
    def data_preparation(self):
        
        # Сюда будем записывать информацию об играх, которые прошли отбор по награде.
        training_data = []
        
        # Сюда будем записывать количество очков в играх, которые прошли отбор.
        accepted_scores = []
        
        # Пробегаемся по всем играм.
        for game_index in range(self.games_number):
            
            score = 0
            
            # Сюда запишем всю историю
            game_memory = []
            previous_observation = []
            
            for step_index in range(self.goal_steps):
                action = random.randrange(0, 3)
                observation, reward, done, info = env.step(action)

                if len(previous_observation) > 0:
                    game_memory.append([previous_observation, action])

                previous_observation = observation
                if observation[0] > -0.18:
                    reward = 1

                score += reward
                if done:
                    break

            # Если к концу игры мы набрали нужное количество награды, то 
            # все состояния и принятые решение записываем в training data.
            if score >= self.score_requirement:
                accepted_scores.append(score)
                for data in game_memory:
                    if data[1] == 1:
                        output = [0, 1, 0]
                    elif data[1] == 0:
                        output = [1, 0, 0]
                    elif data[1] == 2:
                        output = [0, 0, 1]
                    training_data.append([data[0], output])

            env.reset()
            
            if (game_index%(self.games_number//10)==0):
                print('Завершено {} игр из {}.'.format(game_index, self.games_number))

        print("Количество игр, данные по которым будут использованы для обучения: ",len(accepted_scores))
        
        # Составляем массивы для обучения (x – состояние, y – решение)
        x = np.array([i[0] for i in training_data]).reshape(-1, self.env.observation_space.shape[0])
        y = np.array([i[1] for i in training_data]).reshape(-1, self.env.action_space.n)

        return x, y
    def save_model(self, filepath):
        self.model.save(filepath)

Протестируем данный метод.

In [45]:
env = gym.make("MountainCar-v0")
env.reset()

array([-0.48093674,  0.        ])

In [46]:
nn_agent = NN(env)

In [47]:
x, y = nn_agent.data_preparation()

Завершено 0 игр из 10000.
Завершено 1000 игр из 10000.
Завершено 2000 игр из 10000.
Завершено 3000 игр из 10000.
Завершено 4000 игр из 10000.
Завершено 5000 игр из 10000.
Завершено 6000 игр из 10000.
Завершено 7000 игр из 10000.
Завершено 8000 игр из 10000.
Завершено 9000 игр из 10000.
Количество игр, данные по которым будут использованы для обучения:  23


In [48]:
nn_agent.train_model(x, y)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


In [49]:
model_test(nn_agent.model)

Средняя награда за 100 игр: -149.35


In [50]:
nn_agent.save_model("NNmodel.h5")

## Решение №2

Напишем класс, содержащий всю логику решения.

In [64]:
class DQN:
    def __init__(self, env):
        self.env     = env
        
        # Сюда будем складывать информацию о всех играх.
        self.memory  = deque(maxlen=2000)
        
        # Параметр, на который будет снижаться награда с последующими итерациями.
        self.gamma = 0.85
        
        # Разброс коэффицента, в зависимости от которого мы будем совершать случайное
        # действие в конкретном случае. Вначале он большой, так как у нас нет
        # никакой информации о среде.
        self.epsilon = 1.0
        self.epsilon_min = 0.01
        
        # Коэффицент, на который мы будем снижать эпсилон после каждой успешной итерации.
        self.epsilon_decay = 0.995
        
        self.learning_rate = 0.005
        
        # Коэффицент для пересчёта весов model в веса target_model.
        self.tau = .125

        # model – непосредственно для предсказания шага, мы делаем.
        # target_model – для предсказания шага, который мы хотим сделать.
        self.model        = self.create_model()
        self.target_model = self.create_model()

    # Создание модели.
    def create_model(self):
        model = Sequential([
            Dense(24, input_dim=self.env.observation_space.shape[0], activation="relu"),
            Dense(48, activation="relu"),
            Dense(24, activation="relu"),
            Dense(self.env.action_space.n)
        ])
        model.compile(loss="mean_squared_error", optimizer=Adam(lr=self.learning_rate), metrics=['acc'])
        return model

    # Метод, который выдаёт действие, которое мы в конечном итоге применяем.
    # Будет ли действие случайным или же оно будет выдоно моделью зависит от
    # текущих параметров эпсилон.
    def act(self, state):
        self.epsilon *= self.epsilon_decay
        self.epsilon = max(self.epsilon_min, self.epsilon)
        if np.random.random() < self.epsilon:
            return self.env.action_space.sample()
        return np.argmax(self.model.predict(state)[0])

    # Добавление итераций в память.
    def remember(self, state, action, reward, new_state, done):
        self.memory.append([state, action, reward, new_state, done])

    # Обучаем сеть на основе предыдущих итераций.
    def replay(self):
        batch_size = 32
        
        # Если у нас ещё недостаточно данных, ничего не делоем.
        if len(self.memory) < batch_size: 
            return
        
        # Берём случайных срез данных.
        samples = random.sample(self.memory, batch_size)
        
        for sample in samples:
            state, action, reward, new_state, done = sample
            target = self.target_model.predict(state)
            
            # Если мы дошли до последней итерации или дошли до значения 0.5, то
            # мы больше не получим последующих наград.
            if done:
                target[0][action] = reward
            
            # Иначе мы хотем увидеть максимальную награду, которую мы бы получили
            # если бы у нас была возможность совершить любое действие.
            else:
                Q_future = max(self.target_model.predict(new_state)[0])
                target[0][action] = reward + Q_future * self.gamma
                
            self.model.fit(state, target, epochs=1, verbose=0)

    # Копируем веса в target_model.
    def target_train(self):
        weights = self.model.get_weights()
        target_weights = self.target_model.get_weights()
        for i in range(len(target_weights)):
            target_weights[i] = weights[i] * self.tau + target_weights[i] * (1 - self.tau)
        self.target_model.set_weights(target_weights)
        
    # Собираем всё воедино и обучаем модель.
    def train_model(self):
        
        games_number  = 1000
        goal_steps = 200
        
        steps = []
        for game_index in range(games_number):

            cur_state = env.reset().reshape(1,2)

            for step_index in range(goal_steps):
                
                # Выбираем действие.
                action = self.act(cur_state)
                new_state, reward, done, _ = env.step(action)

                # Запоминаем состояние.
                new_state = new_state.reshape(1,2)
                self.remember(cur_state, action, reward, new_state, done)

                # Обновляем веса обоих моделей
                self.replay()       
                self.target_train() 

                cur_state = new_state
                if done:
                    break
                    
            if step_index < 120:
                print("Выполнение завершено за {} игр.".format(game_index))
                self.save_model("DQNmodel.h5")
                break
                        
            print('Завершено {} игр из {}.'.format(game_index, games_number))
            
            if (game_index%1==0):
                self.save_model("DQNmodel-game-{}.h5".format(game_index))
                print("Игра {} сохранена.".format(game_index))

    # Сохраняем модель.
    def save_model(self, filepath):
        self.model.save(filepath)

In [65]:
env = gym.make("MountainCar-v0")
env.reset()

array([-0.57021653,  0.        ])

In [66]:
dqn_agent = DQN(env)

In [67]:
dqn_agent.train_model()

Завершено 0 игр из 1000.
Игра 0 сохранена.
Завершено 1 игр из 1000.
Игра 1 сохранена.
Завершено 2 игр из 1000.
Игра 2 сохранена.
Завершено 3 игр из 1000.
Игра 3 сохранена.
Завершено 4 игр из 1000.
Игра 4 сохранена.
Завершено 5 игр из 1000.
Игра 5 сохранена.
Завершено 6 игр из 1000.
Игра 6 сохранена.
Завершено 7 игр из 1000.
Игра 7 сохранена.
Завершено 8 игр из 1000.
Игра 8 сохранена.
Завершено 9 игр из 1000.
Игра 9 сохранена.
Завершено 10 игр из 1000.
Игра 10 сохранена.
Завершено 11 игр из 1000.
Игра 11 сохранена.
Завершено 12 игр из 1000.
Игра 12 сохранена.
Завершено 13 игр из 1000.
Игра 13 сохранена.
Завершено 14 игр из 1000.
Игра 14 сохранена.
Завершено 15 игр из 1000.
Игра 15 сохранена.
Завершено 16 игр из 1000.
Игра 16 сохранена.
Завершено 17 игр из 1000.
Игра 17 сохранена.
Завершено 18 игр из 1000.
Игра 18 сохранена.
Завершено 19 игр из 1000.
Игра 19 сохранена.
Завершено 20 игр из 1000.
Игра 20 сохранена.
Завершено 21 игр из 1000.
Игра 21 сохранена.
Завершено 22 игр из 1000.
Игра

Завершено 179 игр из 1000.
Игра 179 сохранена.
Завершено 180 игр из 1000.
Игра 180 сохранена.
Завершено 181 игр из 1000.
Игра 181 сохранена.
Завершено 182 игр из 1000.
Игра 182 сохранена.
Завершено 183 игр из 1000.
Игра 183 сохранена.
Завершено 184 игр из 1000.
Игра 184 сохранена.
Завершено 185 игр из 1000.
Игра 185 сохранена.
Завершено 186 игр из 1000.
Игра 186 сохранена.
Завершено 187 игр из 1000.
Игра 187 сохранена.
Завершено 188 игр из 1000.
Игра 188 сохранена.
Завершено 189 игр из 1000.
Игра 189 сохранена.
Завершено 190 игр из 1000.
Игра 190 сохранена.
Завершено 191 игр из 1000.
Игра 191 сохранена.
Завершено 192 игр из 1000.
Игра 192 сохранена.
Завершено 193 игр из 1000.
Игра 193 сохранена.
Завершено 194 игр из 1000.
Игра 194 сохранена.
Завершено 195 игр из 1000.
Игра 195 сохранена.
Завершено 196 игр из 1000.
Игра 196 сохранена.
Завершено 197 игр из 1000.
Игра 197 сохранена.
Завершено 198 игр из 1000.
Игра 198 сохранена.
Завершено 199 игр из 1000.
Игра 199 сохранена.
Завершено 200

Завершено 354 игр из 1000.
Игра 354 сохранена.
Завершено 355 игр из 1000.
Игра 355 сохранена.
Завершено 356 игр из 1000.
Игра 356 сохранена.
Завершено 357 игр из 1000.
Игра 357 сохранена.
Завершено 358 игр из 1000.
Игра 358 сохранена.
Завершено 359 игр из 1000.
Игра 359 сохранена.
Завершено 360 игр из 1000.
Игра 360 сохранена.
Завершено 361 игр из 1000.
Игра 361 сохранена.
Завершено 362 игр из 1000.
Игра 362 сохранена.
Завершено 363 игр из 1000.
Игра 363 сохранена.
Завершено 364 игр из 1000.
Игра 364 сохранена.
Завершено 365 игр из 1000.
Игра 365 сохранена.
Завершено 366 игр из 1000.
Игра 366 сохранена.
Завершено 367 игр из 1000.
Игра 367 сохранена.
Завершено 368 игр из 1000.
Игра 368 сохранена.
Завершено 369 игр из 1000.
Игра 369 сохранена.
Завершено 370 игр из 1000.
Игра 370 сохранена.
Завершено 371 игр из 1000.
Игра 371 сохранена.


KeyboardInterrupt: 

In [68]:
loaded_model=tf.keras.models.load_model("DQNmodel-game-371.h5")

In [69]:
model_test(loaded_model)

Средняя награда за 100 игр: -198.39
