# Обучение с подкреплением (Q-Learning)
Данный шаблон используется для создания различных пользовательских задач, которые можно решить с помощью 
обучения с подкреплением.
 model.py - Построение модели нейронной сети
 dqnsolver.py - Класс для реализации Q-Learning
 score_logger.py - Класс для логирования
 template_task.py - Шаблон для написания собственной задачи
 cartpole.py - Пример задачи CartPole, которая выполняется ниже
 
Чтобы реализовать свою задачу нужно определить следующие методы:
 step - Расчитывает следующий шаг игры, вознаграждение за совершённое действие и признак завершения текущей игры.
 reset - Сбрасывает игру в текущее состояние.
 game_over - Условие на завершение текущей игры.
 getBalance - Текущий баланс игры.
 getStartNum - Номер примера, с которого осуществляется старт.

In [1]:
import csv
from scores.model import ModelNeuro
from scores.dqnsolver import DQNSolver
from scores.cartpole import CartPole

  from ._conv import register_converters as _register_converters
Using TensorFlow backend.


In [2]:
GAMMA = 0.95 #Коэффициент функции вознаграждения
LEARNING_RATE = 0.001 #Скорость обучения
MEMORY_SIZE = 1000 #Размер памяти очереди примеров
RND_MEMORY = True #Выбирать примеры случайно из очереди?
BATCH_SIZE = 20 #Размер выборки
MAX_ITERATION = 100 #Максимальное количество игр
MAX_EXAMPLES = 10000 #Максимальное количество сформированных примеров
EXPLORATION_MAX = 1.0 #Первоначальный коэффициент эксплуатации
EXPLORATION_MIN = 0.01 #Минимальный коэффициент эксплуатации
EXPLORATION_DECAY = 0.995 #Уменьшение коэффициента эксплуатации
LOG_STATE = False #Вывод состояния

In [3]:
LAYERS = [24, 24] #Количество нейронов в скрытых слоях
ACTIV = ["tanh", "tanh", "linear"] #Функции активации слоёв
TYPE_NET = "dense" #Тип нейросети

In [4]:
ENV_NAME = "CartPole" #Название задачи
FILE_NAME_LOG = "log.csv" #Файл с логами

## Создаём среду выполнения

In [5]:
env = CartPole()

## Используем алгоритм DQN

In [6]:
dqn_solver = DQNSolver(env, ENV_NAME,
                           MAX_ITERATION,
                           MAX_EXAMPLES,
                           LEARNING_RATE,
                           MEMORY_SIZE,
                           BATCH_SIZE,
                           GAMMA,
                           EXPLORATION_MIN,
                           EXPLORATION_MAX,
                           EXPLORATION_DECAY,
                           RND_MEMORY,
                           LOG_STATE)

compilation time:  0.05900001525878906
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense_1 (Dense)              (None, 24)                120       
_________________________________________________________________
dense_2 (Dense)              (None, 24)                600       
_________________________________________________________________
dense_3 (Dense)              (None, 2)                 50        
Total params: 770
Trainable params: 770
Non-trainable params: 0
_________________________________________________________________
None


## Обучаем модель

In [7]:
dqn_solver.train()

Run: 1, exploration: 0.90916, score: 39, memory: 39, balance: 39.00
Scores: (min: 39, avg: 39, max: 39)

Run: 2, exploration: 0.83489, score: 18, memory: 57, balance: 18.00


  z = np.polyfit(np.array(trend_x), np.array(y[1:]), 1)


Scores: (min: 18, avg: 28.5, max: 39)

Run: 3, exploration: 0.50830, score: 100, memory: 157, balance: 100.00
Scores: (min: 18, avg: 52.333333333333336, max: 100)

Run: 4, exploration: 0.46678, score: 18, memory: 175, balance: 18.00
Scores: (min: 18, avg: 43.75, max: 100)

Run: 5, exploration: 0.44396, score: 11, memory: 186, balance: 11.00
Scores: (min: 11, avg: 37.2, max: 100)

Run: 6, exploration: 0.39561, score: 24, memory: 210, balance: 24.00
Scores: (min: 11, avg: 35, max: 100)

Run: 7, exploration: 0.29729, score: 58, memory: 268, balance: 58.00
Scores: (min: 11, avg: 38.285714285714285, max: 100)

Run: 8, exploration: 0.26893, score: 21, memory: 289, balance: 21.00
Scores: (min: 11, avg: 36.125, max: 100)

Run: 9, exploration: 0.25197, score: 14, memory: 303, balance: 14.00
Scores: (min: 11, avg: 33.666666666666664, max: 100)

Run: 10, exploration: 0.22679, score: 22, memory: 325, balance: 22.00
Scores: (min: 11, avg: 32.5, max: 100)

Run: 11, exploration: 0.20210, score: 24, m

Run: 70, exploration: 0.01000, score: 28, memory: 1000, balance: 28.00
Scores: (min: 9, avg: 104.65714285714286, max: 265)

Run: 71, exploration: 0.01000, score: 60, memory: 1000, balance: 60.00
Scores: (min: 9, avg: 104.02816901408451, max: 265)

Run: 72, exploration: 0.01000, score: 133, memory: 1000, balance: 133.00
Scores: (min: 9, avg: 104.43055555555556, max: 265)

Run: 73, exploration: 0.01000, score: 116, memory: 1000, balance: 116.00
Scores: (min: 9, avg: 104.58904109589041, max: 265)

Run: 74, exploration: 0.01000, score: 123, memory: 1000, balance: 123.00
Scores: (min: 9, avg: 104.83783783783784, max: 265)

Run: 75, exploration: 0.01000, score: 20, memory: 1000, balance: 20.00
Scores: (min: 9, avg: 103.70666666666666, max: 265)

Run: 76, exploration: 0.01000, score: 127, memory: 1000, balance: 127.00
Scores: (min: 9, avg: 104.01315789473684, max: 265)

Run: 77, exploration: 0.01000, score: 151, memory: 1000, balance: 151.00
Scores: (min: 9, avg: 104.62337662337663, max: 265)

In [8]:
if env.log:
    with open(FILE_NAME_LOG, 'wt') as csvfile:
        csvhead = env.log[0].keys()
        cout = csv.DictWriter(csvfile, csvhead, delimiter=';', lineterminator='\n')
        cout.writeheader()
        cout.writerows(env.log)
    print("Write log >> " + FILE_NAME_LOG)

Write log >> log.csv
