In [1]:
import gymnasium   #
import numpy as np
import CoppeliaSim_Gym   # Entorno personalizado
import stable_baselines3   # Biblioteca RL
import torch as th   # para modelo CNN
import torch.nn as nn
from gymnasium import spaces
from stable_baselines3.common.env_checker import check_env # Verificar el entorno
from stable_baselines3.common.vec_env import VecFrameStack, VecNormalize # Envoltorio para imagen
from stable_baselines3.sac.policies import MlpPolicy, CnnPolicy # Arquitectura de RN
from stable_baselines3 import A2C, TD3, DQN, DDPG, PPO, SAC, HER # algoritmo de entrenamiento
from stable_baselines3.common.torch_layers import BaseFeaturesExtractor
from stable_baselines3.common.utils import get_system_info
#get_system_info(True)

In [2]:
# set the device
use_cuda = False
if use_cuda:
    device = th.device("cuda" if th.cuda.is_available() else "cpu")
else:
    device = th.device("cpu")
print(device)

cpu


In [3]:
# Inicializar el entorno
ENV_NAME = "CoppeliaSim_Gym/GymCoppManR-v0"
env = gymnasium.make(ENV_NAME) 
# check_env(env, warn=True) # si funciona
# env = VecFrameStack(env, n_stack=4)

Conectado al servidor API remoto


In [4]:
# Arquitectura CNN personalizada
class CustomCNN(BaseFeaturesExtractor):
    """
    :param observation_space: (gym.Space)
    :param features_dim: (int) Number of features extracted.
        This corresponds to the number of unit for the last layer.
    """
    def __init__(self, observation_space: spaces.Box, joint_dim: int = 7):
        super().__init__(observation_space, joint_dim)
        
        n_input_channels = observation_space.shape[0]
        self.cnn = nn.Sequential(
            nn.Conv2d(n_input_channels, 32, kernel_size=3, stride=1, padding=1),
            nn.ReLU(),
            nn.MaxPool2d(2,2),
            nn.Conv2d(32, 64, kernel_size=3, stride=1, padding=1),
            nn.ReLU(),
            nn.MaxPool2d(2,2),
            nn.Conv2d(64, 32, kernel_size=3, stride=1, padding=1),
            nn.ReLU(),
            nn.MaxPool2d(2,2),
            nn.Flatten(),
            nn.ReLU(),
        )
        # Compute shape by doing one forward pass
        with th.no_grad():
            n_flatten = self.cnn(
                th.as_tensor(observation_space.sample()[None]).float()
            ).shape[1]
        self.linear = nn.Sequential(nn.Linear(n_flatten, joint_dim), nn.ReLU())
        
    def forward(self, observations: th.Tensor) -> th.Tensor:
        return self.linear(self.cnn(observations))
    
policy_kwargs = dict(
    features_extractor_class = CustomCNN,
    features_extractor_kwargs = dict(joint_dim=7),
)
fc = policy_kwargs
print(fc)

{'features_extractor_class': <class '__main__.CustomCNN'>, 'features_extractor_kwargs': {'joint_dim': 7}}


In [5]:
# Arquitectura CNN prueba
class CustomCNN(BaseFeaturesExtractor):
    def __init__(self, observation_space: spaces.Box, joint_dim: int = 7):
        super().__init__(observation_space, joint_dim)
        
        n_input_channels = observation_space.shape[0]
        self.cnn = nn.Sequential(
            nn.Conv2d(n_input_channels, 16, kernel_size=8, stride=2, padding=1),
            nn.ReLU(),
            nn.Conv2d(32, 64, kernel_size=2, stride=2, padding=1),
            nn.ReLU(),
            nn.Flatten(),
            nn.ReLU(),
            nn.Linear(256, joint_dim),
        )
        # Compute shape by doing one forward pass
        with th.no_grad():
            n_flatten = self.cnn(
                th.as_tensor(observation_space.sample()[None]).float()
            ).shape[1]
        self.linear = nn.Sequential(nn.Linear(n_flatten, joint_dim), nn.ReLU())
    
    # Pasar el estado en el tiempo t a través de la red para obtener Q(s,a)    
    def forward(self, observations: th.Tensor) -> th.Tensor:
        return self.linear(self.cnn(observations))
    
policy_kwargs = dict(
    features_extractor_class = CustomCNN,
    features_extractor_kwargs = dict(joint_dim=7),
)
fc = policy_kwargs
print(fc)

{'features_extractor_class': <class '__main__.CustomCNN'>, 'features_extractor_kwargs': {'joint_dim': 7}}


In [3]:
# Arquitectura simple cnn
class CustomCNN(BaseFeaturesExtractor):
    def __init__(self, observation_space: spaces.Box, joint_dim: int = 7):
        super().__init__(observation_space, joint_dim)
        
        n_input_channels = observation_space.shape[0]
        self.cnn = nn.Sequential(
            nn.Conv2d(n_input_channels, 16, kernel_size=8, stride=3, padding=3),
            nn.ReLU(),
            nn.Conv2d(16, 32, kernel_size=8, stride=3, padding=3),
            nn.ReLU(),
            nn.Flatten(),
            nn.ReLU(),
        )
        self.linear = nn.Sequential(nn.Linear(n_flatten, joint_dim), nn.ReLU())
    
    # Pasar el estado en el tiempo t a través de la red para obtener Q(s,a)    
    def forward(self, observations: th.Tensor) -> th.Tensor:
        return self.linear(self.cnn(observations))
    
policy_kwargs = dict(
    features_extractor_class = CustomCNN,
    features_extractor_kwargs = dict(joint_dim=7),
)
fc = policy_kwargs
print(fc)

{'features_extractor_class': <class '__main__.CustomCNN'>, 'features_extractor_kwargs': {'joint_dim': 7}}


In [5]:
# Definir y entrenar el agente
model = A2C('CnnPolicy', env, policy_kwargs=policy_kwargs, verbose=1, device="auto", tensorboard_log='./A2C_tensorboard/')
model.learn(total_timesteps = 1500)
model.save("modeloA2C") # Guardar modelo DRL

Using cuda device
Wrapping the env with a `Monitor` wrapper
Wrapping the env in a DummyVecEnv.
Wrapping the env in a VecTransposeImage.
Logging to ./A2C_tensorboard/A2C_23
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.844589352607727 -0.0011013359762728214 0.06420253217220306
Distancia previa : 0.21 m
Distancia actual: 0.46 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  0.0
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.7026829123497009 -0.004139091819524765 0.39217159152030945
Distancia previa : 0.51 m
Distancia actual: 0.54 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  0.0
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.7026829123497009 -0.0041390210390090

pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.7026829123497009 -0.004139094613492489 0.39217159152030945
Distancia previa : 0.51 m
Distancia actual: 0.59 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  29.36697208666255
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.7026829123497009 -0.004139070864766836 0.39217159152030945
Distancia previa : 0.51 m
Distancia actual: 0.52 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  29.36697208666255
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.7026829123497009 -0.0041390894912183285 0.39217159152030945
Distancia previa : 0.51 m
Distancia actual: 0.56 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efe

Distancia previa : 0.51 m
Distancia actual: 0.50 m
Recompensa distancia: 0.01 m
Recompensa longitud brazo: 11.97 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  87.77075123845509
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.6844235062599182 -0.09562517702579498 0.36888039112091064
Distancia previa : 0.51 m
Distancia actual: 0.51 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 14.36 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  102.13020260171642
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.6844235062599182 -0.09562462568283081 0.36888039112091064
Distancia previa : 0.51 m
Distancia actual: 0.68 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  102.13020260171642
Episodio:  1
pos esfera:  1.0499999

pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.6844235062599182 -0.09562506526708603 0.36888036131858826
Distancia previa : 0.51 m
Distancia actual: 0.62 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  132.36377518831605
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.6844235062599182 -0.09562506526708603 0.36888036131858826
Distancia previa : 0.51 m
Distancia actual: 0.87 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  132.36377518831605
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.6844235062599182 -0.0956251323223114 0.36888039112091064
Distancia previa : 0.51 m
Distancia actual: 0.84 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efecto

Distancia previa : 0.51 m
Distancia actual: 0.54 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  149.24470639768418
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.6844235062599182 -0.0956251323223114 0.36888039112091064
Distancia previa : 0.51 m
Distancia actual: 0.53 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  149.24470639768418
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.6844235062599182 -0.09562507271766663 0.36888039112091064
Distancia previa : 0.51 m
Distancia actual: 0.56 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  149.24470639768418
Episodio:  1
pos esfera:  1.049999952

pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.6844235062599182 -0.09562504291534424 0.36888036131858826
Distancia previa : 0.51 m
Distancia actual: 0.49 m
Recompensa distancia: 0.02 m
Recompensa longitud brazo: 10.96 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  208.98672658861014
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.6844235062599182 -0.09562506526708603 0.36888036131858826
Distancia previa : 0.51 m
Distancia actual: 0.65 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  208.98672658861014
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.6844235062599182 -0.09562506526708603 0.36888036131858826
Distancia previa : 0.51 m
Distancia actual: 0.82 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efec

El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  278.03457975367024
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.5882779359817505 -0.1365443468093872 0.07214592397212982
Distancia previa : 0.48 m
Distancia actual: 0.48 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 15.77 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  293.8085497838154
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.5882826447486877 -0.136548712849617 0.07213343679904938
Distancia previa : 0.48 m
Distancia actual: 0.68 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  293.8085497838154
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.16315248608589172 0.033226266503334045 0.18270014226436615
Dist

pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.3946390450000763 -0.13431936502456665 -0.045884907245635986
Distancia previa : 0.67 m
Distancia actual: 1.09 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  389.017133691876
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.30452728271484375 0.09381549805402756 0.5503411889076233
Distancia previa : 0.92 m
Distancia actual: 0.68 m
Recompensa distancia: 0.24 m
Recompensa longitud brazo: 10.41 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  399.66490735971036
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.1595669984817505 0.011337091214954853 0.14995256066322327
Distancia previa : 0.90 m
Distancia actual: 0.89 m
Recompensa distancia: 0.01 m
Recompensa longitud brazo: 9.83 m
El efect

El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  531.8694890380294
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.5893231630325317 -0.13520371913909912 0.0802571028470993
Distancia previa : 0.48 m
Distancia actual: 0.53 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  531.8694890380294
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.804016649723053 0.029539944604039192 0.21653179824352264
Distancia previa : 0.31 m
Distancia actual: 0.74 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  531.8694890380294
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.2761947512626648 -0.02759183757007122 0.5412781238555908
Distanc

pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.16305607557296753 0.033175066113471985 0.18353062868118286
Distancia previa : 0.90 m
Distancia actual: 0.78 m
Recompensa distancia: 0.12 m
Recompensa longitud brazo: 14.38 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  670.5226980684344
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.28407418727874756 0.011194217950105667 0.550548791885376
Distancia previa : 0.93 m
Distancia actual: 0.90 m
Recompensa distancia: 0.03 m
Recompensa longitud brazo: 4.78 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  675.330854733378
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.6933233737945557 -0.023570915684103966 0.41459810733795166
Distancia previa : 0.53 m
Distancia actual: 0.39 m
Recompensa distancia: 0.14 m
Recompensa longitud brazo: 12.20 m
El efect

El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  754.9550788083246
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.7026829123497009 -0.004139091819524765 0.39217159152030945
Distancia previa : 0.51 m
Distancia actual: 1.28 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  754.9550788083246
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.284105122089386 0.01091801654547453 0.5505933165550232
Distancia previa : 0.91 m
Distancia actual: 1.03 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  754.9550788083246
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.3205954432487488 -0.016990957781672478 0.39174309372901917
Dista

pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.6811524629592896 -0.0904870480298996 0.39155545830726624
Distancia previa : 0.53 m
Distancia actual: 0.33 m
Recompensa distancia: 0.20 m
Recompensa longitud brazo: 14.84 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  837.8760735709342
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.7988142967224121 0.04556688666343689 0.20867863297462463
Distancia previa : 0.31 m
Distancia actual: 0.55 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  837.8760735709342
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.3160293996334076 0.13151997327804565 0.5402697920799255
Distancia previa : 0.91 m
Distancia actual: 0.86 m
Recompensa distancia: 0.05 m
Recompensa longitud brazo: 13.09 m
El efector y

El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  994.6875202543348
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.8078143000602722 0.017914047464728355 0.22084954380989075
Distancia previa : 0.31 m
Distancia actual: 0.54 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  994.6875202543348
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.3160149157047272 0.13146957755088806 0.5402886271476746
Distancia previa : 0.91 m
Distancia actual: 1.07 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  994.6875202543348
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.3160315752029419 0.13151833415031433 0.5402730107307434
Distanci

pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.5451482534408569 0.10683977603912354 -0.043646469712257385
Distancia previa : 0.52 m
Distancia actual: 0.86 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  1135.3642475325528
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.3045349419116974 0.09383469820022583 0.5503406524658203
Distancia previa : 0.92 m
Distancia actual: 0.80 m
Recompensa distancia: 0.12 m
Recompensa longitud brazo: 10.69 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  1146.1767432180152
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.5891752243041992 -0.13499581813812256 0.08146843314170837
Distancia previa : 0.48 m
Distancia actual: 0.58 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efect

El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  1298.7184553053316
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.8147427439689636 -0.02951643615961075 0.23704689741134644
Distancia previa : 0.32 m
Distancia actual: 0.45 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  1298.7184553053316
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.8147472739219666 -0.0294406209141016 0.2370137721300125
Distancia previa : 0.32 m
Distancia actual: 0.61 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  1298.7184553053316
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.6844234466552734 -0.09562521427869797 0.36888036131858826
Dis

pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.3284710943698883 0.21638652682304382 0.2138000726699829
Distancia previa : 0.78 m
Distancia actual: 0.70 m
Recompensa distancia: 0.07 m
Recompensa longitud brazo: 9.35 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  1402.1833479216252
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.3045220971107483 0.09379440546035767 0.5503456592559814
Distancia previa : 0.92 m
Distancia actual: 1.14 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  1402.1833479216252
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.7025704979896545 -0.003976393491029739 0.39179527759552
Distancia previa : 0.51 m
Distancia actual: 0.95 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y e

El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  1465.8570095899042
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.21944788098335266 0.09845522791147232 0.08109082281589508
Distancia previa : 0.84 m
Distancia actual: 0.84 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  1465.8570095899042
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.21895283460617065 0.09785353392362595 0.0805538222193718
Distancia previa : 0.84 m
Distancia actual: 0.89 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  1465.8570095899042
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.7026829123497009 -0.004139163065701723 0.39217159152030945
D

pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.3950822055339813 -0.13490398228168488 -0.04515089839696884
Distancia previa : 0.67 m
Distancia actual: 0.68 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  1528.086135787273
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.15936987102031708 0.011492439545691013 0.15039542317390442
Distancia previa : 0.90 m
Distancia actual: 0.87 m
Recompensa distancia: 0.03 m
Recompensa longitud brazo: 11.84 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  1539.9535056729353
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.15821747481822968 -0.010801701806485653 0.12614162266254425
Distancia previa : 0.90 m
Distancia actual: 0.78 m
Recompensa distancia: 0.12 m
Recompensa longitud brazo: 11.42 m
El 

El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  1629.7003867220722
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.7081132531166077 -0.0009223978850059211 0.36913788318634033
Distancia previa : 0.49 m
Distancia actual: 1.12 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  1629.7003867220722
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.2761947512626648 -0.02759183757007122 0.5412781238555908
Distancia previa : 0.93 m
Distancia actual: 0.99 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  1629.7003867220722
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.2839479148387909 0.011182128451764584 0.5509549379348755
D

pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.5893861055374146 -0.13512682914733887 0.0807371586561203
Distancia previa : 0.48 m
Distancia actual: 0.46 m
Recompensa distancia: 0.02 m
Recompensa longitud brazo: 12.99 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  1734.0968809683197
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.5893529057502747 -0.1351071149110794 0.08084383606910706
Distancia previa : 0.48 m
Distancia actual: 0.99 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  1734.0968809683197
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.6350106596946716 -0.19145351648330688 0.17035223543643951
Distancia previa : 0.48 m
Distancia actual: 0.91 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efecto

El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  1890.5612286720145
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.2761947214603424 -0.027591872960329056 0.5412781238555908
Distancia previa : 0.93 m
Distancia actual: 1.05 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  1890.5612286720145
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.28407418727874756 0.011194208636879921 0.5505488514900208
Distancia previa : 0.93 m
Distancia actual: 1.05 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  1890.5612286720145
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.2761947512626648 -0.027591828256845474 0.5412781834602356
D

pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.3160303235054016 0.13151714205741882 0.5402727127075195
Distancia previa : 0.91 m
Distancia actual: 0.52 m
Recompensa distancia: 0.38 m
Recompensa longitud brazo: 11.25 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  2001.0489512733716
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.6811522841453552 -0.09048914164304733 0.39154866337776184
Distancia previa : 0.53 m
Distancia actual: 0.84 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  2001.0489512733716
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.7519741654396057 -0.170525923371315 0.21283429861068726
Distancia previa : 0.39 m
Distancia actual: 0.89 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector 

El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  2081.0142583349566
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.808171808719635 0.01596732623875141 0.22219936549663544
Distancia previa : 0.31 m
Distancia actual: 0.25 m
Recompensa distancia: 0.07 m
Recompensa longitud brazo: 9.15 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  2090.2270110429295
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.2776688039302826 0.2514907121658325 0.09410684555768967
Distancia previa : 0.81 m
Distancia actual: 0.60 m
Recompensa distancia: 0.22 m
Recompensa longitud brazo: 12.19 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  2102.6344223867177
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.6174646615982056 0.09610240161418915 0.04567567631602287
Dista

El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  2171.836138100833
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.589007556438446 -0.13489113748073578 0.08201770484447479
Distancia previa : 0.48 m
Distancia actual: 0.83 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  2171.836138100833
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.8147123456001282 -0.029491670429706573 0.23699907958507538
Distancia previa : 0.32 m
Distancia actual: 0.32 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  2171.836138100833
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.8078820705413818 0.01788230612874031 0.22093069553375244
Dista

pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.8147265315055847 -0.029557280242443085 0.23706862330436707
Distancia previa : 0.32 m
Distancia actual: 0.30 m
Recompensa distancia: 0.02 m
Recompensa longitud brazo: 11.40 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  2249.0697063813905
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.7378963828086853 -0.18246038258075714 0.20081058144569397
Distancia previa : 0.40 m
Distancia actual: 0.42 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  2249.0697063813905
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.2761947512626648 -0.02759181335568428 0.5412781834602356
Distancia previa : 0.93 m
Distancia actual: 1.20 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efec

El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  2370.4800682679256
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.27807074785232544 0.25194334983825684 0.09424496442079544
Distancia previa : 0.81 m
Distancia actual: 0.58 m
Recompensa distancia: 0.24 m
Recompensa longitud brazo: 14.47 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  2385.1896671593813
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.2761947512626648 -0.02759190835058689 0.541278064250946
Distancia previa : 0.93 m
Distancia actual: 1.01 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  2385.1896671593813
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.8038472533226013 0.03041103668510914 0.21579934656620026
Dis

pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.6636350750923157 0.08165085315704346 0.04615470767021179
Distancia previa : 0.40 m
Distancia actual: 0.38 m
Recompensa distancia: 0.02 m
Recompensa longitud brazo: 11.92 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  2508.8082965275084
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.661996603012085 0.079655721783638 0.04542144015431404
Distancia previa : 0.40 m
Distancia actual: 0.41 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  2508.8082965275084
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.6595468521118164 0.08112450689077377 0.04354862868785858
Distancia previa : 0.40 m
Distancia actual: 0.41 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y 

El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  2614.937318391743
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.7081094980239868 -0.0009419270791113377 0.3691282272338867
Distancia previa : 0.49 m
Distancia actual: 0.55 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  2614.937318391743
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.8149148225784302 -0.029218735173344612 0.2366355061531067
Distancia previa : 0.32 m
Distancia actual: 0.78 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  2614.937318391743
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.304531991481781 0.09383048862218857 0.550338625907898
Distanc

pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.8147688508033752 -0.029511619359254837 0.23694221675395966
Distancia previa : 0.32 m
Distancia actual: 0.46 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  2742.9003156776566
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.6611112952232361 0.08106524497270584 0.04437419772148132
Distancia previa : 0.40 m
Distancia actual: 0.41 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  2742.9003156776566
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.2761947512626648 -0.027591833844780922 0.5412781834602356
Distancia previa : 0.93 m
Distancia actual: 1.02 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efect

El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  2865.9517337586253
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.8088055849075317 0.013108043931424618 0.22469720244407654
Distancia previa : 0.31 m
Distancia actual: 0.96 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  2865.9517337586253
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.6844235062599182 -0.09562519192695618 0.36888036131858826
Distancia previa : 0.51 m
Distancia actual: 0.65 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  2865.9517337586253
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.8204259276390076 -0.11382045596837997 0.12771016359329224
D

pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.8147462010383606 -0.029592126607894897 0.23706890642642975
Distancia previa : 0.32 m
Distancia actual: 0.33 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  3067.2641310669023
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.16313838958740234 0.03315632790327072 0.1832636594772339
Distancia previa : 0.90 m
Distancia actual: 0.76 m
Recompensa distancia: 0.15 m
Recompensa longitud brazo: 13.28 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  3080.695128029563
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.31603047251701355 0.13151709735393524 0.5402728915214539
Distancia previa : 0.91 m
Distancia actual: 0.89 m
Recompensa distancia: 0.01 m
Recompensa longitud brazo: 10.50 m
El efect

El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  3180.040846827634
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.589006781578064 -0.13489079475402832 0.0820179432630539
Distancia previa : 0.48 m
Distancia actual: 0.82 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  3180.040846827634
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.4773126244544983 -0.13556340336799622 -0.00271784421056509
Distancia previa : 0.59 m
Distancia actual: 0.44 m
Recompensa distancia: 0.15 m
Recompensa longitud brazo: 17.24 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  3197.4262254941345
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.31603047251701355 0.13151709735393524 0.5402728915214539
Dist

pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.3048268258571625 -0.27950021624565125 0.1778637170791626
Distancia previa : 0.81 m
Distancia actual: 0.37 m
Recompensa distancia: 0.44 m
Recompensa longitud brazo: 11.87 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  3309.2070165687155
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.3007834851741791 -0.014332137070596218 -0.11150774359703064
Distancia previa : 0.68 m
Distancia actual: 0.78 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  3309.2070165687155
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.1684841811656952 -0.005300617311149836 0.08273040503263474
Distancia previa : 0.88 m
Distancia actual: 0.96 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El ef

El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  3409.853230033042
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.48334529995918274 -0.1335238367319107 -0.012954626232385635
Distancia previa : 0.58 m
Distancia actual: 0.80 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  3409.853230033042
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.681151807308197 -0.09048886597156525 0.3915504813194275
Distancia previa : 0.53 m
Distancia actual: 0.82 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  3409.853230033042
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.45360520482063293 -0.1393962800502777 0.057633545249700546
Dis

pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.1938190907239914 0.15769286453723907 0.16318395733833313
Distancia previa : 0.88 m
Distancia actual: 0.76 m
Recompensa distancia: 0.12 m
Recompensa longitud brazo: 7.90 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  3541.889732163608
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.6182012557983398 0.09795180708169937 0.042052026838064194
Distancia previa : 0.44 m
Distancia actual: 0.35 m
Recompensa distancia: 0.09 m
Recompensa longitud brazo: 5.93 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  3547.9074119698585
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.19431039690971375 0.15893268585205078 0.16132919490337372
Distancia previa : 0.88 m
Distancia actual: 0.71 m
Recompensa distancia: 0.17 m
Recompensa longitud brazo: 13.87 m
El efecto

El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  3674.3764650677613
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.28340646624565125 -0.00908003468066454 0.5503447651863098
Distancia previa : 0.93 m
Distancia actual: 1.13 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  3674.3764650677613
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.24788035452365875 0.11042679101228714 0.21288590133190155
Distancia previa : 0.83 m
Distancia actual: 0.85 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  3674.3764650677613
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.3312176764011383 -0.2173912525177002 0.2605397403240204
Dis

pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.7913671731948853 0.12224390357732773 0.2369205504655838
Distancia previa : 0.36 m
Distancia actual: 0.69 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  3800.0736237041915
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.27585119009017944 0.029611947014927864 0.5402684807777405
Distancia previa : 0.93 m
Distancia actual: 0.85 m
Recompensa distancia: 0.08 m
Recompensa longitud brazo: 9.67 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  3809.8262451693176
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.7024616599082947 0.005095252301543951 0.39155158400535583
Distancia previa : 0.51 m
Distancia actual: 0.84 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector

El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  3926.5176649672403
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.31539449095726013 -0.12958501279354095 0.5412734150886536
Distancia previa : 0.91 m
Distancia actual: 1.07 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  3926.5176649672403
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.4732089340686798 -0.023856736719608307 0.023409469053149223
Distancia previa : 0.58 m
Distancia actual: 0.73 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  3926.5176649672403
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.2834015190601349 -0.009058964438736439 0.5503389835357666

pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.2480701506137848 0.11044808477163315 0.21242982149124146
Distancia previa : 0.83 m
Distancia actual: 0.82 m
Recompensa distancia: 0.01 m
Recompensa longitud brazo: 11.48 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  4028.948491201086
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.24673724174499512 0.23857614398002625 0.19017714262008667
Distancia previa : 0.85 m
Distancia actual: 0.82 m
Recompensa distancia: 0.04 m
Recompensa longitud brazo: 7.60 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  4036.5846044187124
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.24803446233272552 0.1103232353925705 0.2126571089029312
Distancia previa : 0.83 m
Distancia actual: 0.78 m
Recompensa distancia: 0.05 m
Recompensa longitud brazo: 7.79 m
El efector 

El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  4152.5513185968475
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.2834049165248871 -0.009074057452380657 0.5503444075584412
Distancia previa : 0.93 m
Distancia actual: 0.99 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  4152.5513185968475
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.2997111678123474 -0.06816510111093521 0.5470588803291321
Distancia previa : 0.92 m
Distancia actual: 0.71 m
Recompensa distancia: 0.20 m
Recompensa longitud brazo: 15.78 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  4168.53198992528
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.6842164397239685 0.09676562249660492 0.36914706230163574
Dist

pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.3002133369445801 0.014951853081583977 -0.11137862503528595
Distancia previa : 0.76 m
Distancia actual: 0.76 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  4202.456053559276
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.16395890712738037 -0.008203786797821522 0.09501557052135468
Distancia previa : 0.89 m
Distancia actual: 0.81 m
Recompensa distancia: 0.08 m
Recompensa longitud brazo: 8.44 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  4210.977951780936
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.283407062292099 -0.009108083322644234 0.5503440499305725
Distancia previa : 0.93 m
Distancia actual: 0.93 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 8.62 m
El efect

El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  4315.149674785836
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.569193959236145 -0.08882677555084229 -0.07145927101373672
Distancia previa : 0.50 m
Distancia actual: 0.65 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  4315.149674785836
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.7024620175361633 0.005079440772533417 0.39155176281929016
Distancia previa : 0.51 m
Distancia actual: 0.97 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  4315.149674785836
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.7553611993789673 0.16798172891139984 0.21687133610248566
Dista

pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.19430780410766602 -0.15008041262626648 0.1496685892343521
Distancia previa : 0.88 m
Distancia actual: 0.74 m
Recompensa distancia: 0.14 m
Recompensa longitud brazo: 13.77 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  4510.949894888774
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.21296687424182892 -0.17891380190849304 0.09314092248678207
Distancia previa : 0.86 m
Distancia actual: 0.55 m
Recompensa distancia: 0.31 m
Recompensa longitud brazo: 16.01 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  4527.273866690508
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.19413892924785614 -0.15029926598072052 0.15042196214199066
Distancia previa : 0.88 m
Distancia actual: 0.74 m
Recompensa distancia: 0.14 m
Recompensa longitud brazo: 13.76 m
El ef

El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  4599.773401435958
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.806071937084198 -0.017657168209552765 0.21815435588359833
Distancia previa : 0.31 m
Distancia actual: 0.76 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  4599.773401435958
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.28339990973472595 -0.009044067934155464 0.5503407120704651
Distancia previa : 0.93 m
Distancia actual: 1.35 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  4599.773401435958
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.544293224811554 -0.24908892810344696 -0.05305856466293335
Dis

pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.30413487553596497 -0.0916372686624527 0.5505436062812805
Distancia previa : 0.92 m
Distancia actual: 0.82 m
Recompensa distancia: 0.09 m
Recompensa longitud brazo: 13.20 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  4709.048791392596
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.28339648246765137 -0.009087927639484406 0.550337016582489
Distancia previa : 0.93 m
Distancia actual: 0.92 m
Recompensa distancia: 0.01 m
Recompensa longitud brazo: 11.80 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  4720.85542229482
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.5885394215583801 0.13419444859027863 0.0812731459736824
Distancia previa : 0.48 m
Distancia actual: 0.88 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y

El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  4805.8567292572825
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.7913922667503357 0.12240616232156754 0.23703867197036743
Distancia previa : 0.36 m
Distancia actual: 0.82 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  4805.8567292572825
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.2834056317806244 -0.009078879840672016 0.5503448843955994
Distancia previa : 0.93 m
Distancia actual: 0.96 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  4805.8567292572825
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.47729915380477905 -0.13571986556053162 -0.00251727900467813


pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.6605640053749084 0.0812852755188942 0.04440589249134064
Distancia previa : 0.40 m
Distancia actual: 0.30 m
Recompensa distancia: 0.10 m
Recompensa longitud brazo: 16.10 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  4966.12021477554
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.7516815066337585 -0.1709485501050949 0.21338246762752533
Distancia previa : 0.39 m
Distancia actual: 0.96 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  4966.12021477554
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.3045227825641632 0.09379596263170242 0.5503448247909546
Distancia previa : 0.92 m
Distancia actual: 0.81 m
Recompensa distancia: 0.11 m
Recompensa longitud brazo: 14.31 m
El efector y el

El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  5068.511739236749
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.2675258219242096 0.19502465426921844 0.3783024549484253
Distancia previa : 0.88 m
Distancia actual: 0.86 m
Recompensa distancia: 0.02 m
Recompensa longitud brazo: 13.57 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  5082.108589520538
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.641426146030426 -0.07682307064533234 0.08100715279579163
Distancia previa : 0.42 m
Distancia actual: 0.41 m
Recompensa distancia: 0.01 m
Recompensa longitud brazo: 16.90 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  5099.020607011397
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.5884982943534851 0.13416482508182526 0.08128323405981064
Distan

pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.8270969986915588 0.08488091826438904 0.11561451852321625
Distancia previa : 0.25 m
Distancia actual: 0.26 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  5185.746845551137
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.8271892666816711 0.08482981473207474 0.11626296490430832
Distancia previa : 0.26 m
Distancia actual: 0.52 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  5185.746845551137
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.827660083770752 0.08380953967571259 0.11408764868974686
Distancia previa : 0.25 m
Distancia actual: 0.58 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y e

El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  5292.552589390981
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.4729319214820862 0.11704849451780319 0.018367761746048927
Distancia previa : 0.59 m
Distancia actual: 0.62 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  5292.552589390981
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.20583218336105347 -0.04435795918107033 0.0826999843120575
Distancia previa : 0.82 m
Distancia actual: 0.84 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  5292.552589390981
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.19422556459903717 -0.15007925033569336 0.14962145686149597
Dis

pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.7024622559547424 0.0050735571421682835 0.3915514647960663
Distancia previa : 0.51 m
Distancia actual: 0.76 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  5368.554700323506
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.5891409516334534 -0.1349746137857437 0.08157610148191452
Distancia previa : 0.48 m
Distancia actual: 0.73 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  5368.554700323506
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.6404660940170288 0.07616297900676727 0.0805891677737236
Distancia previa : 0.42 m
Distancia actual: 0.56 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y 

El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  5493.057913638327
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.8147463202476501 -0.02962864190340042 0.23704522848129272
Distancia previa : 0.32 m
Distancia actual: 0.45 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  5493.057913638327
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.6577348709106445 0.0810190811753273 0.04270274564623833
Distancia previa : 0.40 m
Distancia actual: 0.43 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  5493.057913638327
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.6644597053527832 0.08111347258090973 0.04629790037870407
Distanc

pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.6408188939094543 0.07643050700426102 0.07949357479810715
Distancia previa : 0.42 m
Distancia actual: 0.56 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  5705.513816058974
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.3159945607185364 -0.1208663284778595 0.06905604153871536
Distancia previa : 0.75 m
Distancia actual: 0.74 m
Recompensa distancia: 0.01 m
Recompensa longitud brazo: 14.51 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  5720.03116219523
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.7381254434585571 -0.012878131121397018 0.17956039309501648
Distancia previa : 0.35 m
Distancia actual: 0.63 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector 

El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  5791.0177983684625
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.32889512181282043 0.21642234921455383 0.21330976486206055
Distancia previa : 0.78 m
Distancia actual: 0.78 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 19.32 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  5810.334811901093
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.328809529542923 0.21650969982147217 0.2137383222579956
Distancia previa : 0.78 m
Distancia actual: 0.56 m
Recompensa distancia: 0.21 m
Recompensa longitud brazo: 6.38 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  5816.933044943025
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.32832470536231995 0.21647873520851135 0.2142466902732849
Distan

pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.3045161962509155 0.0937689021229744 0.5503450632095337
Distancia previa : 0.92 m
Distancia actual: 1.00 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  5922.361406440576
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.2583015263080597 -0.09148618578910828 0.10795170068740845
Distancia previa : 0.83 m
Distancia actual: 0.79 m
Recompensa distancia: 0.04 m
Recompensa longitud brazo: 13.54 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  5935.947685358317
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.6844234466552734 -0.09562516957521439 0.36888036131858826
Distancia previa : 0.51 m
Distancia actual: 0.82 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y

El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  6010.824398397507
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.702462911605835 0.005046515725553036 0.3915507197380066
Distancia previa : 0.51 m
Distancia actual: 1.08 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  6010.824398397507
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.27585119009017944 0.029611947014927864 0.5402684807777405
Distancia previa : 0.93 m
Distancia actual: 1.07 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  6010.824398397507
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.8084776997566223 0.03277610242366791 0.2294875830411911
Distanci

pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.7771874666213989 0.2303459793329239 0.19276763498783112
Distancia previa : 0.39 m
Distancia actual: 1.30 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  6132.023775687006
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.28341442346572876 -0.009116706438362598 0.5503466129302979
Distancia previa : 0.93 m
Distancia actual: 1.01 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  6132.023775687006
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.7914671897888184 0.12225122004747391 0.237151101231575
Distancia previa : 0.36 m
Distancia actual: 0.63 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y e

El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  6179.322089857445
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.283401221036911 -0.009055906906723976 0.5503388047218323
Distancia previa : 0.93 m
Distancia actual: 1.00 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  6179.322089857445
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.31539449095726013 -0.12958501279354095 0.5412734150886536
Distancia previa : 0.91 m
Distancia actual: 0.63 m
Recompensa distancia: 0.28 m
Recompensa longitud brazo: 7.97 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  6187.569455724161
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.28373175859451294 -0.09929271042346954 0.1797286719083786
Dista

pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.31539225578308105 -0.1295842081308365 0.5412723422050476
Distancia previa : 0.91 m
Distancia actual: 1.10 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  6321.1781179961945
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.7077656984329224 0.0020427554845809937 0.3688873052597046
Distancia previa : 0.49 m
Distancia actual: 0.55 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  6321.1781179961945
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.6412337422370911 -0.07842865586280823 0.07160045206546783
Distancia previa : 0.42 m
Distancia actual: 0.30 m
Recompensa distancia: 0.12 m
Recompensa longitud brazo: 15.68 m
El efect

El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  6455.931133586196
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.6062572002410889 0.14942143857479095 0.04600396752357483
Distancia previa : 0.47 m
Distancia actual: 0.63 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  6455.931133586196
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.6145933270454407 0.15933014452457428 0.051498133689165115
Distancia previa : 0.44 m
Distancia actual: 0.92 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  6455.931133586196
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.8283444046974182 0.09254488348960876 0.15857335925102234
Distan

pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.2758602499961853 0.029561258852481842 0.5402848720550537
Distancia previa : 0.93 m
Distancia actual: 1.01 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  6541.442362431581
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.8033362627029419 -0.0290818028151989 0.21369294822216034
Distancia previa : 0.31 m
Distancia actual: 0.52 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  6541.442362431581
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.30414244532585144 -0.09165837615728378 0.5505419969558716
Distancia previa : 0.92 m
Distancia actual: 0.97 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y

El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  6725.734916863164
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.7716668248176575 0.16638478636741638 0.23008421063423157
Distancia previa : 0.39 m
Distancia actual: 1.02 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  6725.734916863164
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.3153945207595825 -0.12958501279354095 0.5412734150886536
Distancia previa : 0.91 m
Distancia actual: 0.59 m
Recompensa distancia: 0.32 m
Recompensa longitud brazo: 16.60 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  6742.656309867794
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.6407475471496582 0.07640788704156876 0.07987628877162933
Distan

pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.31603047251701355 0.13151709735393524 0.5402728915214539
Distancia previa : 0.91 m
Distancia actual: 0.77 m
Recompensa distancia: 0.13 m
Recompensa longitud brazo: 14.43 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  6837.289687089653
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.5882291197776794 -0.13649050891399384 0.07231775671243668
Distancia previa : 0.48 m
Distancia actual: 0.66 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  6837.289687089653
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.38971713185310364 0.07831830531358719 -0.050953250378370285
Distancia previa : 0.66 m
Distancia actual: 0.58 m
Recompensa distancia: 0.08 m
Recompensa longitud brazo: 17.64 m
El efec

El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  6971.760687444986
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.7466563582420349 -0.1747925579547882 0.2092415988445282
Distancia previa : 0.39 m
Distancia actual: 0.52 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  6971.760687444986
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.802007257938385 0.03666502237319946 0.2130885124206543
Distancia previa : 0.31 m
Distancia actual: 0.44 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  6971.760687444986
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.6811519861221313 -0.0904884785413742 0.3915503919124603
Distancia p

pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.15807044506072998 0.019070589914917946 0.17794032394886017
Distancia previa : 0.91 m
Distancia actual: 0.92 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  7087.41538081204
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.28472137451171875 0.09254996478557587 0.24275191128253937
Distancia previa : 0.80 m
Distancia actual: 0.80 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 15.91 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  7103.323956654488
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.28455427289009094 0.09191223233938217 0.24235233664512634
Distancia previa : 0.80 m
Distancia actual: 0.72 m
Recompensa distancia: 0.09 m
Recompensa longitud brazo: 16.17 m
El efect

El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  7171.735243015574
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.48740899562835693 0.07564722001552582 -0.031665120273828506
Distancia previa : 0.60 m
Distancia actual: 0.56 m
Recompensa distancia: 0.05 m
Recompensa longitud brazo: 15.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  7186.784215776721
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.31603047251701355 0.13151711225509644 0.5402728915214539
Distancia previa : 0.91 m
Distancia actual: 0.71 m
Recompensa distancia: 0.19 m
Recompensa longitud brazo: 11.19 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  7198.161711962181
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.792022705078125 0.21587428450584412 0.09734689444303513
Dis

pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.2716154158115387 0.03169074282050133 0.2637070417404175
Distancia previa : 0.81 m
Distancia actual: 0.65 m
Recompensa distancia: 0.17 m
Recompensa longitud brazo: 12.88 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  7295.02593413301
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.7026829123497009 -0.004139091819524765 0.39217159152030945
Distancia previa : 0.51 m
Distancia actual: 0.64 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  7295.02593413301
Episodio:  1
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.2761947512626648 -0.027591867372393608 0.5412781238555908
Distancia previa : 0.93 m
Distancia actual: 1.01 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y

In [6]:
del model # si se entrena agregar, cc solo cargar modelo
model = A2C.load("modeloA2C", env=env)

Wrapping the env with a `Monitor` wrapper
Wrapping the env in a DummyVecEnv.
Wrapping the env in a VecTransposeImage.


In [10]:
model.policy # mostrar arq del modelo

ActorCriticCnnPolicy(
  (features_extractor): CustomCNN(
    (cnn): Sequential(
      (0): Conv2d(1, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
      (1): ReLU()
      (2): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
      (3): Conv2d(32, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
      (4): ReLU()
      (5): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
      (6): Conv2d(64, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
      (7): ReLU()
      (8): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
      (9): Flatten(start_dim=1, end_dim=-1)
      (10): ReLU()
    )
    (linear): Sequential(
      (0): Linear(in_features=32768, out_features=7, bias=True)
      (1): ReLU()
    )
  )
  (pi_features_extractor): CustomCNN(
    (cnn): Sequential(
      (0): Conv2d(1, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
      (1): ReLU()
      (2): MaxPool2d(kernel_size=2, 

In [7]:
# Evaluar el modelo entrenado
ep_reward = 0
obs, inf = env.reset()
print('obs', obs.shape)
for episode in range(25):
    env.render()
    action, _state = model.predict(obs, deterministic=False) # ,deterministic=True
    n_obs, reward, done, tru, info = env.step(action)
    #print(f'Obs: {obs} reward: {reward} done: {done} info: {info}')
    #print(f'Acciones: {action} Estado: {reward}')
    ep_reward += reward
    print(f'reward: {reward} done: {done} act: {action}')
    obs = n_obs
env.close()

obs (85, 85, 1)
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.8139622807502747 -0.02941865660250187 0.2363327443599701
Distancia previa : 0.32 m
Distancia actual: 0.60 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  7365.546714769223
Episodio:  1
reward: 7365.546714769223 done: False act: [ 0.6827084  0.7230465 -0.8399009 -0.9344497  1.        -1.
 -1.       ]
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.316018670797348 0.13148203492164612 0.5402841567993164
Distancia previa : 0.91 m
Distancia actual: 0.93 m
Recompensa distancia: 0.00 m
Recompensa longitud brazo: 0.00 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  7365.546714769223
Episodio:  2
reward: 7365.546714769223 done: False act: [ 0.35944545 -0.91886234 -1.          1.         -1.         -1.
  0.754912  ]
pos esfera

El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  7445.972116439219
Episodio:  17
reward: 7445.972116439219 done: False act: [-0.03352195  0.5119894   0.39446077 -0.08997302  0.05796376 -1.
 -1.        ]
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.46637919545173645 -0.2138051986694336 0.5505488514900208
Distancia previa : 0.81 m
Distancia actual: 0.55 m
Recompensa distancia: 0.26 m
Recompensa longitud brazo: 14.44 m
El efector y el objeto no están colisionando
Recompensa colision  0.0
Recompensa Total:  7460.671454342787
Episodio:  18
reward: 7460.671454342787 done: False act: [ 1.          0.46719742 -0.05961255 -1.         -1.         -0.75137985
 -0.7825483 ]
pos esfera:  1.0499999523162842 0.0 0.02500000037252903
pos efector final:  0.30140024423599243 0.07890501618385315 0.5492669939994812
Distancia previa : 0.88 m
Distancia actual: 0.78 m
Recompensa distancia: 0.10 m
Recompensa longitud brazo: 15.50 m
El efe