# Análise dos dados obtidos no jogo Pong

In [1]:
!pip install seaborn



## Definições

In [2]:
name_dfs = 'df_results.csv'
name_dict_experiments = 'plan_experiments.txt'

## Funções

In [3]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import json

In [4]:
def get_documents(uri):
    
    '''
        uri: (str) Diretório onde se encontra o experimento que deseja ser lido.
    '''
    
    df = pd.read_csv(uri+name_dfs)
    js = json.load(open(uri+name_dict_experiments))
    
    return (df, js)

In [5]:
def summary(jsn, tab=0, specific_key=None):
    
    '''
        jsn: (dict) Dicionário contendo os parâmetros do experimento.
        tab: (int) Esse parâmetro é para realizar a identação da visualização criada. Não é necessário modifica-lo.
        specific_key: (list) Como nossos parâmetros são compostos por map dentro de map, ou melhor, dict dentro de dict, é 
                        possível especificar um parâmetro específico do dicionário de experimento.
    
    '''
    
    if specific_key != None and isinstance(specific_key, list):
        for sk in specific_key:
            if sk in jsn:
                jsn = jsn[sk] if isinstance(jsn[sk], dict) else {
                    sk: jsn[sk]
                }
            else:
                print('Não existe essa key: {}'.format(sk))
            
    for k, v in jsn.items():
        if isinstance(v, dict):
            print('\n - {}'.format(k))
            summary(v, tab+1)
        elif isinstance(v, list):
            if len(v) > 0 and isinstance(v[0], dict):
                print('\n - {}:'.format(k))
                for enum, vi in enumerate(v, 1):
                    print('\n{} > {}({}):'.format('\t'*tab, k, enum))
                    summary(vi, tab+1)
            else:
                print('{}{}: {}'.format('\t'*tab, k, v))
        else:
            print('{}{}: {}'.format('\t'*tab, k, v))

## Load datasets

In [6]:
df_pong, dict_pong = get_documents('../experiments/Pong/')
df_pong.shape

(446, 7)

#### Informações sobre o experimento 0

In [7]:
summary(dict_pong)

version: 0.0.0
game: Pong-v0
description: 
    
    ..
    
    
sample_batch_size: 32
epochs_to_save_results: 10
freq_update_nn: 1000
frames_skip: 1
down_sample: 2
episodes: 10000
freq_save_video: 10

 - dirs
	dir_results: experiments/Pong/
	dir_annotations_experiments: experiments/Pong/
	dir_videos: experiments/Pong/movies/
	dir_model: experiments/Pong/model/

 - prune_image
	top: 35
	bottom: 16
	right: 7
	left: 7

 - params_agent
	memory_size: 150000
	min_learning_rate: 8e-05
	max_learning_rate: 8e-05
	epochs_interval_lr: 0
	gamma: 0.99
	exploration_rate: 1
	exploration_min: 0.05
	exploration_decay: 1e-05
	k_frames: 4

 - structure_neural_network
	input_shape: [80, 80]
	output_activation: linear

 - conv:

	 > conv(1):
		filter: 32
		kernel_size: [8, 8]
		strides: 4
		activation: relu
		padding: valid

	 > conv(2):
		filter: 64
		kernel_size: [4, 4]
		strides: 2
		activation: relu
		padding: valid

	 > conv(3):
		filter: 64
		kernel_size: [3, 3]
		strides: 1
		activation: relu
		pad

In [8]:
df_pong_v1, dict_pong_v1 = get_documents('../experiments/Pong-v1/')
df_pong_v1.shape

(1040, 7)

#### Informações sobre o experimento 1

In [9]:
summary(dict_pong_v1)

version: 0.0.1
game: Pong-v0
description: 
    
    Experimento variando o learning rate de ( 0.00009 ) até ( 0.000005 ) em 200 episódios.
    A ideia é observar se o agente obtém um melhor desempenho, conseguindo atingir melhores pontuações do meio para o fim do experimento.
    
    
sample_batch_size: 32
epochs_to_save_results: 10
freq_update_nn: 1000
frames_skip: 1
down_sample: 2
episodes: 10000
freq_save_video: 10

 - dirs
	dir_results: experiments/Pong-v1/
	dir_annotations_experiments: experiments/Pong-v1/
	dir_videos: experiments/Pong-v1/movies/
	dir_model: experiments/Pong-v1/model/

 - prune_image
	top: 35
	bottom: 16
	right: 7
	left: 7

 - params_agent
	memory_size: 150000
	min_learning_rate: 5e-06
	max_learning_rate: 9e-05
	epochs_interval_lr: 200
	gamma: 0.99
	exploration_rate: 1
	exploration_min: 0.05
	exploration_decay: 1e-05
	k_frames: 4

 - structure_neural_network
	input_shape: [80, 80]
	output_activation: linear

 - conv:

	 > conv(1):
		filter: 32
		kernel_size: [8, 

In [10]:
df_pong_v5, dict_pong_v5 = get_documents('../experiments/Pong-v5/')
df_pong_v5.shape

(1403, 7)

#### Informações sobre o experimento 5

In [11]:
summary(dict_pong_v5)

version: 0.0.1
game: Pong-v0
description: 
    
    Experimento variando o learning rate de ( 0.00009 ) até ( 0.000005 ) em 200 episódios.
    A ideia é observar se o agente obtém um melhor desempenho, conseguindo atingir melhores pontuações do meio para o fim do experimento.
    
    
sample_batch_size: 32
epochs_to_save_results: 10
freq_update_nn: 1000
frames_skip: 1
down_sample: 2
episodes: 10000
freq_save_video: 10

 - dirs
	dir_results: experiments/Pong-v5/
	dir_annotations_experiments: experiments/Pong-v5/
	dir_videos: experiments/Pong-v5/movies/
	dir_model: experiments/Pong-v5/model/

 - prune_image
	top: 35
	bottom: 15
	right: 7
	left: 7

 - params_agent
	memory_size: 100000
	min_learning_rate: 0.0001
	max_learning_rate: 0.0001
	epochs_interval_lr: 0
	gamma: 0.99
	exploration_rate: 1
	exploration_min: 0.05
	exploration_decay: 1e-05
	k_frames: 4

 - structure_neural_network
	input_shape: [84, 84]
	output_activation: linear

 - conv:

	 > conv(1):
		filter: 32
		kernel_size: [8, 

## Pré-processamento

In [None]:
def norm(n):
    return 0 if n<0 else n
    
def mean_reward(values, interval):
    
    '''
        Essa função tem como propósito melhorar a visualização das recompensas ao longo dos jogos.
        Ela remove o ruído da visualização realizando a média de cada ponto considerando a uma quantidade de valores.
        
        
        values: (list) Valores que serão aplicado a média.
        interval: (int) Quantidade de valores que serão considerados para os cálculos das médias.
    '''
    
    mean_rewards = []
    
    for i in range(1, len(values)+1):
        #print('{} - {} ||| len: {}'.format(norm(i-interval), i, len(values[norm(i-interval):i])))
        mean_rewards.append(values[norm(i-interval):i].mean())

    return mean_rewards

In [None]:
df_pong['MEAN_REWARD'] = mean_reward(df_pong['REWARD'], 50)
df_pong_v1['MEAN_REWARD'] = mean_reward(df_pong_v1['REWARD'], 50)
df_pong_v5['MEAN_REWARD'] = mean_reward(df_pong_v5['REWARD'], 50)

### Estrutura dos modelos

In [None]:
summary(dict_pong, specific_key=['structure_neural_network'])

In [None]:
summary(dict_pong_v1, specific_key=['structure_neural_network'])

In [None]:
summary(dict_pong_v5, specific_key=['structure_neural_network'])

## Visualizações 

In [None]:
fig, axs = plt.subplots(3, sharex=True, sharey=True, figsize=(15, 10))
fig.suptitle('Visualizações ')
axs[0].plot(df_pong['TRAIN'], df_pong['MEAN_REWARD'])
axs[1].plot(df_pong_v1['TRAIN'], df_pong_v1['MEAN_REWARD'])
axs[2].plot(df_pong_v5['TRAIN'], df_pong_v5['MEAN_REWARD'])

## Comparação de experimentos

In [None]:
plt.figure(figsize=(10,7))
plt.plot(df_pong['TRAIN'], df_pong['MEAN_REWARD'], label='Experimento (0)')
plt.plot(df_pong_v1['TRAIN'], df_pong_v1['MEAN_REWARD'], label='Experimento (1)')
plt.plot(df_pong_v5['TRAIN'], df_pong_v5['MEAN_REWARD'], label='Experimento (5)')
plt.legend()

> É perceptível que o experimento 5 obteve atingiu melhores resultados com maior rapidez comparado aos outros.

### Observação da variação da taxa de aprendizado de cada experimento

In [None]:
plt.figure(figsize=(10,7))
plt.plot(df_pong['TRAIN'], df_pong['LR'], label='Experimento (0)')
plt.plot(df_pong_v1['TRAIN'], df_pong_v1['LR'], label='Experimento (1)')
plt.plot(df_pong_v5['TRAIN'], df_pong_v5['LR'], label='Experimento (5)')
plt.legend()

In [None]:
df_pong

> De acordo com esse gráfico é possível perceber que o experimento 5 obteve resultados melhores com maior rapidez, pois ele estava com uma taxa de aprendizado maior que a dos outros e, não variou, se manteve com 0.0001 do inicio ao fim do treinamento. 

> Visto isso, é possivel tentar novos experimentos com uma taxa de aprendizado maior, para observar se obtém melhores resultados.

**O Trabalho conta com poucos experimentos por questão de tempo, estes levam dias para serem concluídos!**

### Observação da variação da taxa de exploração de cada experimento

In [None]:
plt.figure(figsize=(10,7))
plt.plot(df_pong['TRAIN'], df_pong['EXPLORATION_RATE'], label='Experimento (0)')
plt.plot(df_pong_v1['TRAIN'], df_pong_v1['EXPLORATION_RATE'], label='Experimento (1)')
plt.plot(df_pong_v5['TRAIN'], df_pong_v5['EXPLORATION_RATE'], label='Experimento (5)')
plt.legend()

> Nos experimentos realizados com o jogo Pong, não foi modificado o decaimento da exploração, todos os 3 experimentos foram realizados seguindo o mesmo modelo.

## Tempo gasto para o treinamento de cada experimento

In [None]:
def transform_time(sec, label):
    minutes = sec//60
    sec = int(sec%60)
    
    hours = minutes//60
    minutes %= 60
    
    days = hours//24
    hours %=24
    
    print('{} - {} dias - {}:{}:{}'.format(label, days, hours, minutes, sec))

In [None]:
time_0 = df_pong['TIME'].iloc[-1] - df_pong['TIME'].iloc[0]
time_1 = df_pong_v1['TIME'].iloc[-1] - df_pong_v1['TIME'].iloc[0]
time_5 = df_pong_v5['TIME'].iloc[-1] - df_pong_v5['TIME'].iloc[0]

transform_time(time_0, 'Experimento 0')
transform_time(time_1, 'Experimento 1')
transform_time(time_5, 'Experimento 5')