# Symbolic Synthesis of a Robot Controller (Genetic Programming)

This notebook explores **Genetic Programming (GP)** to evolve an interpretable controller for a grid-world robot, using **multi-objective optimization** (e.g., distance-to-goal vs. controller complexity).

Repository overview: see `README.md` and `docs/NOTEBOOK.md`.


### Objetivo general

Evolucionar programas simb√≥licos (√°rboles) que controlen a un "robot" en un entorno 2D simulado (como seguir una l√≠nea o evitar obst√°culos), maximizando precisi√≥n y minimizando complejidad del controlador.

##### **üß† ¬øQu√© es Programaci√≥n Gen√©tica (GP)?**




La GP es una t√©cnica de inteligencia artificial inspirada en la evoluci√≥n biol√≥gica, en la que se evolucionan programas (en forma de √°rboles de expresiones) en lugar de vectores num√©ricos como en otros algoritmos gen√©ticos. Los √°rboles contienen operaciones como +, -, *, condicionales, comparaciones, etc.

##### Definir el √°rbol de Programaci√≥n Gen√©tica (GP)

**¬øQu√© es un √°rbol GP?**

En Programaci√≥n Gen√©tica (GP), cada individuo es un programa en forma de √°rbol. Este √°rbol est√° compuesto por:

- Nodos internos: funciones que operan sobre datos (como suma, resta, condiciones, etc.).

- Hojas o terminales: entradas (como x, y) o constantes (0, 1).

Los individuos ser√°n programas simb√≥licos en forma de √°rboles. Cada √°rbol recibe como entrada las coordenadas (x, y) del robot y devuelve una acci√≥n (por ahora: 0 = avanzar, 1 = girar).

##### Formato del controlador (GP):

Usaremos √°rboles con:

- Funciones internas:

  - if_then_else, add, sub, gt (mayor que), mul

- Terminales:

  - Variables como x, y (posici√≥n)

  - Constantes aleatorias


##### Especificaciones del entorno:

- Representaremos el entorno como una rejilla 2D (por ejemplo, 10x10).

- El robot empieza en una posici√≥n y debe llegar a una meta.

- El "controlador" decidir√° qu√© acci√≥n tomar bas√°ndose en la posici√≥n o sensores.

- Acciones posibles: avanzar, girar, retroceder.

### Implementaci√≥n b√°sica

**Instalar y preparar librer√≠as**

In [None]:
!pip install deap --quiet

In [None]:
import operator
import math
import random
from deap import base, creator, gp, tools, algorithms
import matplotlib.pyplot as plt
import numpy as np

In [None]:
# Funciones b√°sicas para componer el √°rbol
def if_then_else(condition, out1, out2):
    # Esta funci√≥n implementa una condicional:
    # Si 'condition' es verdadera, devuelve 'out1'; si no, devuelve 'out2'.
    return out1 if condition else out2

üìå Esta funci√≥n se usar√° como un nodo en el √°rbol GP, permitiendo a los programas tener estructuras condicionales del tipo "si-entonces-sino".

In [None]:
# Registramos el "tipo" de expresi√≥n simb√≥lica: una funci√≥n que devuelve un entero (la acci√≥n)
pset = gp.PrimitiveSet("MAIN", 2)  # Dos entradas: x, y

üìå Se define un conjunto de primitivas llamado "MAIN" que acepta 2 argumentos (posicionales). Son las entradas del programa a evolucionar (por ejemplo, pueden ser coordenadas o caracter√≠sticas del entorno).

In [None]:
# A√±adir funciones primitivas al conjunto
pset.addPrimitive(operator.add, 2)      # Suma: x + y
pset.addPrimitive(operator.sub, 2)      # Resta: x - y
pset.addPrimitive(operator.mul, 2)      # Multiplicaci√≥n: x * y
pset.addPrimitive(operator.gt, 2)       # Mayor que: x > y (devuelve booleano)
pset.addPrimitive(if_then_else, 3)      # Estructura condicional ternaria

üìå Aqu√≠ se agregan nodos funcionales (tambi√©n llamados primitivas) que el GP puede usar:

add, sub, mul: funciones aritm√©ticas b√°sicas.

gt: compara dos valores y devuelve un booleano.

if_then_else: permite tomar decisiones condicionales dentro del √°rbol.

üëâ Esto permite construir √°rboles como:


```
if x > y:
    return x + y
else:
    return x * y
```



In [None]:
# Terminales constantes que pueden usarse en las expresiones
pset.addTerminal(1)
pset.addTerminal(0)

üìå Los terminales son los valores finales del √°rbol. Aqu√≠ se agregan constantes literales que los programas pueden usar.

In [None]:
# Renombrar las variables de entrada para que sean m√°s legibles
pset.renameArguments(ARG0="x")
pset.renameArguments(ARG1="y")

üìå Por defecto, los nombres de los argumentos son ARG0, ARG1, etc. Aqu√≠ los renombramos a x e y para que sean m√°s interpretables.

**¬øQu√© hace todo esto?**

- Define √°rboles que combinan operaciones aritm√©ticas (+, -, *), comparaciones (>), y condicionales (if).

- Reciben dos entradas (x, y) y devuelven un resultado num√©rico que interpretaremos como acci√≥n.



In [None]:
# Queremos dos objetivos: minimizar error y minimizar complejidad
creator.create("FitnessMulti", base.Fitness, weights=(-1.0, -1.0))  # Minimizar ambos

üìå Aqu√≠ definimos un tipo de fitness multiobjetivo. Los pesos negativos indican que queremos minimizar:

- El primer objetivo (por ejemplo, distancia al objetivo).

- El segundo objetivo (por ejemplo, tama√±o del programa).



In [None]:
creator.create("Individual", gp.PrimitiveTree, fitness=creator.FitnessMulti)

üìå Creamos la clase Individual, que ser√° un √°rbol GP (PrimitiveTree) con una funci√≥n de fitness multiobjetivo. Es la estructura b√°sica que usar√° el algoritmo evolutivo.

In [None]:
toolbox = base.Toolbox()

üìå La toolbox de DEAP es un contenedor donde se registran funciones para:

- Crear individuos y poblaciones.

- Cruzar, mutar, seleccionar, evaluar, etc.

In [None]:
# C√≥mo generar individuos
toolbox.register("expr", gp.genHalfAndHalf, pset=pset, min_=1, max_=3)

üìå Se registra un m√©todo de generaci√≥n de expresiones aleatorias (sub√°rboles) usando el m√©todo Half and Half:

- Combina crecimiento completo (full) y aleatorio (grow).

- min_ y max_ definen la profundidad del √°rbol generado.

In [None]:
toolbox.register("individual", tools.initIterate, creator.Individual, toolbox.expr)

üìå Define c√≥mo crear un individuo: toma una expresi√≥n (expr) y la convierte en un creator.Individual.

In [None]:
toolbox.register("population", tools.initRepeat, list, toolbox.individual)

üìå Crea una poblaci√≥n: una lista de individuos generados con la funci√≥n anterior.

In [None]:
toolbox.register("compile", gp.compile, pset=pset)

üìå Esta funci√≥n compila un √°rbol GP en una funci√≥n de Python ejecutable. Por ejemplo:



```
compiled_fn = toolbox.compile(individual)
action = compiled_fn(x, y)
```



##### Definici√≥n del entorno (entorno simulado tipo grid)

In [None]:
# Par√°metros del entorno
GRID_SIZE = 10
TARGET = (9, 9)
START = (0, 0)

üìå Definimos una cuadr√≠cula 10x10:

- El robot/individuo empieza en (0, 0).

- El objetivo es llegar a (9, 9).

In [None]:
# Movimientos posibles: 0 = derecha, 1 = arriba
def move(x, y, action):
    if action == 0:   # Avanzar horizontalmente
        x = min(GRID_SIZE - 1, x + 1)
    elif action == 1:  # Subir verticalmente
        y = min(GRID_SIZE - 1, y + 1)
    return x, y

üìå Esta funci√≥n simula el movimiento de un agente:

- Acci√≥n 0: se mueve a la derecha (eje x).

- Acci√≥n 1: se mueve hacia arriba (eje y).

- Los movimientos est√°n limitados al tama√±o del grid para que no se salga.

##### üîç Evaluaci√≥n de los individuos

In [None]:
def eval_robot(individual):
    func = toolbox.compile(expr=individual)  # Compila el √°rbol GP en una funci√≥n Python
    x, y = START  # Posici√≥n inicial
    visited = set()

    # Simular hasta 20 pasos
    for _ in range(20):
        action = func(x, y)  # Ejecuta la funci√≥n simb√≥lica con x, y
        action = int(action) % 2  # Asegura que la acci√≥n sea 0 o 1 (derecha o arriba)
        x, y = move(x, y, action)  # Realiza el movimiento
        visited.add((x, y))

        if (x, y) == TARGET:  # Si llega a la meta, se detiene
            break

    # Objetivo 1: distancia a la meta (a menor, mejor)
    distance_error = abs(x - TARGET[0]) + abs(y - TARGET[1])

    # Objetivo 2: complejidad del √°rbol (cantidad de nodos, menor es mejor)
    complexity = len(individual)

    return distance_error, complexity

üìå Esta funci√≥n define la funci√≥n de fitness, con dos objetivos a minimizar:

- Qu√© tan lejos qued√≥ el robot del objetivo.

- Qu√© tan grande es el √°rbol simb√≥lico (m√°s nodos = m√°s complejo).

##### üß∞ Registro de operaciones en la toolbox

In [None]:
toolbox.register("evaluate", eval_robot)
toolbox.register("select", tools.selNSGA2)
toolbox.register("mate", gp.cxOnePoint)
toolbox.register("mutate", gp.mutUniform, expr=toolbox.expr, pset=pset)

üìå Se registran los operadores evolutivos:

- evaluate: funci√≥n de evaluaci√≥n definida arriba.

- select: selecci√≥n por NSGA-II (algoritmo MOEA).

- mate: cruce por punto (intercambia sub√°rboles entre padres).

- mutate: mutaci√≥n por reemplazo aleatorio de un sub√°rbol.

##### ‚õî L√≠mites en tama√±o de √°rboles

In [None]:
toolbox.decorate("mate", gp.staticLimit(key=len, max_value=17))
toolbox.decorate("mutate", gp.staticLimit(key=len, max_value=17))

üìå decoraciones limitan el tama√±o m√°ximo de los √°rboles generados por cruce o mutaci√≥n a 17 nodos, evitando explosi√≥n de complejidad (bloat).

##### üå± Creaci√≥n de poblaci√≥n inicial y estad√≠sticas

In [None]:
random.seed(42)
pop = toolbox.population(n=100)  # Poblaci√≥n inicial de 100 individuos
hof = tools.ParetoFront()        # Conjunto de soluciones no dominadas (frente de Pareto)

# Registro de estad√≠sticas
stats = tools.Statistics(lambda ind: ind.fitness.values)
stats.register("avg", np.mean, axis=0)
stats.register("min", np.min, axis=0)
stats.register("max", np.max, axis=0)

üìå Aqu√≠:

- Se fija una semilla para reproducibilidad.

- Se crea la poblaci√≥n inicial.

- Se define el hall of fame (hof): almacena las mejores soluciones (no dominadas).

- Se recogen estad√≠sticas por generaci√≥n (promedio, m√≠nimo y m√°ximo).



##### ‚öôÔ∏è Ejecuci√≥n del algoritmo evolutivo

In [None]:
pop, log = algorithms.eaMuPlusLambda(
    pop, toolbox,
    mu=100, lambda_=200,       # mu = padres, lambda = hijos generados
    cxpb=0.5, mutpb=0.2,       # prob. cruce y mutaci√≥n
    ngen=20,                   # n√∫mero de generaciones
    stats=stats,
    halloffame=hof,
    verbose=True
)

üìå Esto ejecuta el algoritmo evolutivo Œº + Œª, donde:

- En cada generaci√≥n:

  - Se seleccionan Œº individuos para ser padres.

  - Se generan Œª hijos.

  - Se combinan padres e hijos.

  - Se seleccionan los Œº mejores para la siguiente generaci√≥n.

**üìä stats recolecta datos por generaci√≥n, y hof guarda el frente de Pareto (las mejores soluciones en cuanto a los dos objetivos).**

##### üéØ Graficar la frontera de Pareto

In [None]:
fitnesses = [ind.fitness.values for ind in hof]
errors = [f[0] for f in fitnesses]
complexities = [f[1] for f in fitnesses]

üìå Extraemos los valores de fitness del Hall of Fame (hof), que contiene los mejores individuos no dominados en t√©rminos de:

- error (distancia a la meta).

- complejidad (n√∫mero de nodos en el √°rbol).

üìå Esto genera un diagrama de dispersi√≥n donde cada punto representa un programa simb√≥lico:

- Cuanto m√°s abajo y a la izquierda est√©, mejor (m√°s preciso y m√°s simple).

- Te permite ver el trade-off entre precisi√≥n y complejidad.

In [None]:
plt.figure(figsize=(8, 6))
plt.scatter(errors, complexities, c="blue")
plt.xlabel("Distancia a la meta (error)")
plt.ylabel("Complejidad del programa (nodos)")
plt.title("Frontera de Pareto: Precisi√≥n vs. Simplicidad")
plt.grid(True)
plt.show()

##### ü§ñ Simular la trayectoria del mejor individuo

In [None]:
best = hof[0]
best_func = toolbox.compile(expr=best)

üìå Seleccionamos el primer individuo del Hall of Fame, lo compilamos en una funci√≥n de Python para ejecutarla.

In [None]:
def simulate_trajectory(controller_func):
    x, y = START
    path = [(x, y)]

    for _ in range(20):
        action = controller_func(x, y)
        action = int(action) % 2
        x, y = move(x, y, action)
        path.append((x, y))
        if (x, y) == TARGET:
            break
    return path


üìå Esta funci√≥n simula el movimiento del robot en el grid:

- Ejecuta el programa simb√≥lico 20 veces.

- Guarda la secuencia de posiciones visitadas.

- Detiene la simulaci√≥n si llega a la meta.



In [None]:
def plot_trajectory(path):
    grid = np.zeros((GRID_SIZE, GRID_SIZE))
    for (x, y) in path:
        grid[y][x] = 0.5  # Marcar trayectoria

    tx, ty = TARGET
    grid[ty][tx] = 1  # Marcar la meta

    plt.figure(figsize=(6,6))
    plt.imshow(grid, cmap='Greys', origin='lower')
    plt.title("Trayectoria del robot")
    plt.plot([x for x, y in path], [y for x, y in path], marker='o', color='red')
    plt.grid(True)
    plt.show()

üìå Esta funci√≥n visualiza la trayectoria del robot en la cuadr√≠cula:

- Marca el camino con valores 0.5.

- Resalta la meta con un valor 1.

- Superpone una l√≠nea con los pasos realizados.

In [None]:
# Ejecutamos todo
path = simulate_trajectory(best_func)
plot_trajectory(path)

### Implementaci√≥n con obst√°culos

##### üß± 1. Generaci√≥n de obst√°culos

In [None]:
# Generamos obst√°culos sin bloquear START o TARGET
obstacles = set()
while len(obstacles) < 15:
    ox, oy = random.randint(0, GRID_SIZE-1), random.randint(0, GRID_SIZE-1)
    if (ox, oy) != START and (ox, oy) != TARGET:
        obstacles.add((ox, oy))

üìå Genera 15 obst√°culos aleatorios que no bloquean el punto de partida ni el objetivo. Se almacenan en un set para acceso r√°pido.

##### üîÅ 2. Funci√≥n de movimiento con obst√°culos

In [None]:
def move_with_obstacles(x, y, action):
    next_x, next_y = x, y
    if action == 0:
        next_x = min(GRID_SIZE - 1, x + 1)
    elif action == 1:
        next_y = min(GRID_SIZE - 1, y + 1)

    # Solo moverse si no hay obst√°culo
    if (next_x, next_y) not in obstacles:
        return next_x, next_y
    else:
        return x, y

üìå Similar a move(), pero bloquea el paso si la siguiente celda tiene un obst√°culo. El robot se queda en su lugar si el movimiento est√° obstruido.

##### üìè 3. Nueva funci√≥n de evaluaci√≥n

In [None]:
def eval_robot_with_obstacles(individual):
    func = toolbox.compile(expr=individual)
    x, y = START
    visited = set()

    for _ in range(20):
        action = func(x, y)
        action = int(action) % 2
        x, y = move_with_obstacles(x, y, action)
        visited.add((x, y))
        if (x, y) == TARGET:
            break

    distance_error = abs(x - TARGET[0]) + abs(y - TARGET[1])
    complexity = len(individual)

    return distance_error, complexity

üìå Igual que antes, pero ahora usa move_with_obstacles. Eval√∫a:

- Qu√© tan cerca llega el programa del objetivo.

- Cu√°n simple es la expresi√≥n generada.

##### üîÅ 4. Re-entrenamiento con obst√°culos

In [None]:
# Re-registramos
toolbox.register("evaluate", eval_robot_with_obstacles)

# Nueva poblaci√≥n
pop = toolbox.population(n=100)
hof = tools.ParetoFront()

# Volvemos a correr la evoluci√≥n con el entorno con obst√°culos
pop, log = algorithms.eaMuPlusLambda(
    pop, toolbox,
    mu=100, lambda_=200,
    cxpb=0.5, mutpb=0.2,
    ngen=20, stats=stats,
    halloffame=hof, verbose=True
)


üìå Se redefine la funci√≥n de evaluaci√≥n, y se entrena una nueva poblaci√≥n desde cero. Los mejores individuos ahora deben sortear obst√°culos para llegar al objetivo.

üìå Visualiza la nueva frontera. **La presencia de obst√°culos puede generar mayor error o √°rboles m√°s complejos, ya que el entorno es m√°s dif√≠cil.**

In [None]:
fitnesses = [ind.fitness.values for ind in hof]
errors = [f[0] for f in fitnesses]
complexities = [f[1] for f in fitnesses]

plt.figure(figsize=(8, 6))
plt.scatter(errors, complexities, c="green")
plt.xlabel("Distancia a la meta (error)")
plt.ylabel("Complejidad del programa (nodos)")
plt.title("Frontera de Pareto con obst√°culos")
plt.grid(True)
plt.show()

##### üß≠ 6. Simular y visualizar trayectoria con obst√°culos

In [None]:
def simulate_with_obstacles(controller_func):
    x, y = START
    path = [(x, y)]

    for _ in range(20):
        action = controller_func(x, y)
        action = int(action) % 2
        x, y = move_with_obstacles(x, y, action)
        path.append((x, y))
        if (x, y) == TARGET:
            break
    return path

üìå El robot ejecuta la l√≥gica del programa en un entorno donde algunos movimientos son bloqueados, y la trayectoria se traza junto con los obst√°culos y la meta.

In [None]:
def plot_path_with_obstacles(path, obstacles):
    grid = np.zeros((GRID_SIZE, GRID_SIZE))
    for (x, y) in path:
        grid[y][x] = 0.5  # trayectoria
    for (ox, oy) in obstacles:
        grid[oy][ox] = 0.8  # obst√°culo
    tx, ty = TARGET
    grid[ty][tx] = 1  # meta

    plt.figure(figsize=(6,6))
    plt.imshow(grid, cmap='gray_r', origin='lower')
    plt.plot([x for x, y in path], [y for x, y in path], marker='o', color='red', linewidth=2)
    plt.title("Trayectoria del robot con obst√°culos")
    plt.grid(True)
    plt.show()

In [None]:
best = hof[0]
best_func = toolbox.compile(expr=best)
path = simulate_with_obstacles(best_func)
plot_path_with_obstacles(path, obstacles)

##### üß† 7. Visualizar el √°rbol simb√≥lico

In [None]:
print(best)

üìå Imprime y visualiza con Graphviz la estructura simb√≥lica del mejor programa. Esto permite ver qu√© l√≥gica de decisi√≥n simb√≥lica se ha creado evolutivamente.

In [None]:
import graphviz
from deap import gp

def draw_tree(individual):
    nodes, edges, labels = gp.graph(individual)
    dot = graphviz.Digraph(format='png')

    # Convertir todos los labels a string expl√≠citamente
    for node_id in nodes:
        label = str(labels[node_id])  # <-- conversi√≥n aqu√≠
        dot.node(str(node_id), label)

    for parent, child in edges:
        dot.edge(str(parent), str(child))

    return dot

In [None]:
draw_tree(best)

## Teor√≠a asociada

##### üß† 1. Programaci√≥n Gen√©tica (GP)




**¬øQu√© es la Programaci√≥n Gen√©tica?**

La programaci√≥n gen√©tica es una t√©cnica de inteligencia artificial y optimizaci√≥n evolutiva en la que se buscan programas (expresiones simb√≥licas) que realicen una tarea. A diferencia de otras formas de aprendizaje autom√°tico, GP no entrena pesos ni ajusta par√°metros, sino que evoluciona √°rboles de funciones y operadores que representan programas funcionales.

**¬øC√≥mo funciona?**

1. Se define un conjunto de primitivas (funciones como +, *, if_then_else) y terminales (valores constantes y variables como x, y).

2. Se crean √°rboles sint√°cticos que combinan primitivas y terminales.

3. Cada √°rbol es una posible soluci√≥n (por ejemplo, una funci√≥n de control que decide si moverse arriba o a la derecha).

4. A trav√©s de mecanismos evolutivos como cruce, mutaci√≥n y selecci√≥n, se generan nuevas poblaciones.

5. Se seleccionan las mejores soluciones en cada generaci√≥n seg√∫n una funci√≥n de evaluaci√≥n (fitness).

**¬øPor qu√© √°rboles?**

Porque representan de forma natural expresiones matem√°ticas o l√≥gicas. Un √°rbol puede representar algo como:



```
if x > y:
    return x + 1
else:
    return y - 1
```




##### **‚öñÔ∏è 2. Optimizaci√≥n Multiobjetivo**

**¬øQu√© es la optimizaci√≥n multiobjetivo?**

Muchos problemas reales no tienen un solo objetivo. En este caso, queremos que el programa:

- üèÅ Lleve al robot lo m√°s cerca posible del objetivo (minimizar error).

- üß† Sea lo m√°s simple posible (minimizar la complejidad del √°rbol).

En lugar de combinar ambos criterios en un √∫nico valor de fitness (como una suma ponderada), usamos un enfoque multiobjetivo para mantener el equilibrio entre ambos.


**¬øQu√© es la frontera de Pareto?**

**Es el conjunto de soluciones √≥ptimas no dominadas.** Una soluci√≥n A domina a una soluci√≥n B si es mejor en todos los objetivos o igual en algunos y mejor en al menos uno. **La frontera de Pareto es el conjunto de soluciones que:**

- No son superadas simult√°neamente por ninguna otra.

- Representan distintos compromisos entre los objetivos.

En tu caso:

- Un punto cerca del eje X tiene bajo error pero es complejo.

- Un punto cerca del eje Y es muy simple pero menos preciso.

**Esto permite al usuario elegir seg√∫n la necesidad (ej., en rob√≥tica puede preferirse simplicidad para eficiencia de ejecuci√≥n).**

##### üß¨ 3. Algoritmo Evolutivo Mu + Lambda (eaMuPlusLambda)

Este es el algoritmo evolutivo que usamos, caracterizado por:

**Par√°metros:**
- mu: n√∫mero de individuos seleccionados como padres (por ejemplo, 100).

- lambda_: n√∫mero de hijos generados (por ejemplo, 200).

- cxpb: probabilidad de cruce.

- mutpb: probabilidad de mutaci√≥n.


**Flujo:**

1. Se seleccionan mu padres.

2. Se generan lambda hijos mediante cruce y mutaci√≥n.

3. Se combinan padres e hijos (mu + lambda individuos).

4. Se seleccionan los mejores mu individuos para la siguiente generaci√≥n (seg√∫n su fitness multiobjetivo).

**Este m√©todo permite un equilibrio entre exploraci√≥n (hijos nuevos) y explotaci√≥n (conservar lo mejor de lo anterior).**


##### üß© 4. Compilaci√≥n y ejecuci√≥n simb√≥lica

Gracias a la funci√≥n compile de DEAP, cada √°rbol generado puede convertirse en una funci√≥n de Python ejecutable. Esto es clave porque:

- Permite evaluar directamente la expresi√≥n en el entorno (por ejemplo, decidir una acci√≥n basada en x, y).

- Es completamente flexible: puedes insertar cualquier l√≥gica en la expresi√≥n.

Esto convierte al GP en una herramienta generadora de l√≥gica interpretable.

##### üß± 5. Simulaci√≥n del entorno con obst√°culos

**Entorno b√°sico:**

- Una cuadr√≠cula de 10x10.

- El agente comienza en (0, 0) y busca llegar a (9, 9).

**Obst√°culos:**

- Se agregan celdas que bloquean el movimiento del agente.

- Esto fuerza al programa a aprender a esquivar obst√°culos (aunque sin verlos directamente).

**Movimiento:**

- Acci√≥n 0: moverse a la derecha (x + 1).

- Acci√≥n 1: moverse hacia arriba (y + 1).

- Si hay un obst√°culo, el agente se queda quieto.

**Esto a√±ade dificultad estructural, y pone a prueba la capacidad de los √°rboles para generalizar un comportamiento √∫til.**

##### üß† 6. Evaluaci√≥n de soluciones

Cada individuo es evaluado con:

**Objetivo 1: Distancia al objetivo**

```
abs(x - TARGET[0]) + abs(y - TARGET[1])
```

Esto mide qu√© tan cerca llega el agente a su meta tras 20 pasos.

**Objetivo 2: Complejidad del √°rbol**

```
len(individual)
```

Esto mide cu√°ntos nodos tiene el √°rbol. Menos nodos = menor complejidad computacional = mayor interpretabilidad.



##### üìä 7. Visualizaci√≥n de resultados

**Frontera de Pareto:**

- Gr√°fica de error vs. complejidad.

- Te permite analizar los compromisos entre objetivos.

**Trayectoria del robot:**

- Muestra c√≥mo el mejor √°rbol se comporta en el entorno.

- √ötil para evaluar acciones simb√≥licas aprendidas.

**√Årbol GP visual:**

- Muestra gr√°ficamente c√≥mo es la estructura del programa.

- √ötil para inspeccionar l√≥gica y verificar si tiene sentido.

##### üîé 8. Interpretabilidad y explicabilidad

A diferencia de redes neuronales u otros m√©todos de caja negra, la GP produce expresiones que puedes entender, imprimir y visualizar. Esto es:

- Transparente.

- Analizable.

- Auditado f√°cilmente.

**En entornos sensibles como salud, rob√≥tica o educaci√≥n, esto puede ser una ventaja clave.**