# main functions

In [163]:
import random
import numpy as np
from collections import defaultdict
from typing import List, Tuple

# ---------------------------------------------------------------------------
# Configurazioni e costanti

# Definizione degli operatori
UNARY_OPERATORS = ['sin', 'cos', 'exp', 'log', 'sqrt', 'tan', 'tanh', 'sinh', 'cosh', 'abs', 'log10', 'log2']
BINARY_OPERATORS = ['+', '-', '*', '/', '**', 'mod']

OPERATOR_WEIGHTS = {
    '+': 0.3,
    '-': 0.3,
    '*': 0.2,
    '/': 0.1,    # Divisioni meno frequenti
    '**': 0.05,  # Potenze rare
    'sin': 0.15,
    'cos': 0.15,
    'exp': 0.05, # Exponential molto raro
    'log': 0.1,
    'sqrt': 0.1,
    'tan': 0.05,
    'tanh': 0.05,
    'sinh': 0.05,
    'cosh': 0.05,
    'abs': 0.05,
    'log10': 0.05,
    'log2': 0.05,
    'mod': 0.05
}

class MutationConfig:
    MUTATION_WEIGHTS = {
        'SUBTREE': 0.3,
        'OPERATOR': 0.2,
        'VALUE': 0.2,
        'HOIST': 0.1,
        'EXPANSION': 0.1,
        'COLLAPSE': 0.1
    }

    SUBTREE_DEPTH_RANGE = (1, 4)
    VALUE_STEP_FACTOR = 0.1
    MUTATION_DECAY = 0.5
    MAX_TREE_DEPTH = 10   # 🌲 Limite massimo di profondità
    MAX_TREE_NODES = 40   # 🌲 Limite massimo di nodi


def compile_tree(root: Node):
    """
    Converte l'albero in una stringa che rappresenta un'espressione Python e la compila in una funzione lambda.
    L'espressione utilizza le funzioni safe per gestire in sicurezza operazioni particolari.
    """
    # Funzione helper che trasforma l'albero in una stringa.
    def node_to_str(node: Node) -> str:
        if node.op:
            # Operatore binario
            if node.left is not None and node.right is not None:
                left_str = node_to_str(node.left)
                right_str = node_to_str(node.right)
                # Mappatura per operatori particolari che non hanno una sintassi infissa diretta
                if node.op == '/':
                    op_str = 'safe_divide'
                    return f"{op_str}({left_str}, {right_str})"
                elif node.op == '**':
                    op_str = 'safe_pow'
                    return f"{op_str}({left_str}, {right_str})"
                elif node.op == 'mod':
                    op_str = 'safe_mod'
                    return f"{op_str}({left_str}, {right_str})"
                else:
                    # Per operatori come +, -, *: usa la sintassi infissa
                    return f"({left_str} {node.op} {right_str})"
            # Operatore unario
            elif node.left is not None:
                operand_str = node_to_str(node.left)
                # Alcune funzioni matematiche hanno già un nome corrispondente
                return f"{node.op}({operand_str})"
            else:
                raise ValueError("Nodo operator senza operando.")
        else:
            # Nodo foglia: se è una variabile o una costante
            if isinstance(node.value, str):
                # Assumiamo che le variabili siano definite come 'x[0]', 'x[1]', ...
                return node.value
            else:
                return str(node.value)

    # Converte l'albero in una stringa
    expr_str = node_to_str(root)
    # Crea una stringa per una funzione lambda che accetta x come vettore (o array NumPy)
    func_str = f"lambda x: {expr_str}"

    # Costruisce un dizionario con le funzioni safe e NumPy, così da essere disponibili in eval
    safe_globals = {
        "np": np,
        "safe_divide": safe_divide,
        "safe_pow": safe_pow,
        "safe_mod": safe_mod,
        "sin": safe_sin,
        "cos": safe_cos,
        "exp": safe_exp,
        "log": safe_log,
        "sqrt": safe_sqrt,
        "tan": safe_tan,
        "tanh": safe_tanh,
        "sinh": safe_sinh,
        "cosh": safe_cosh,
        "abs": safe_abs,
        "log10": safe_log10,
        "log2": safe_log2
    }
    # Compila la stringa in una funzione
    try:
        compiled_func = eval(func_str, safe_globals)
    except Exception as e:
        # In caso di errori, ad esempio a causa di espressioni mal formate, restituisce una funzione di fallback.
        def fallback(x):
            return np.zeros_like(x[0])
        compiled_func = fallback
    return compiled_func

    



# ---------------------------------------------------------------------------
# Definizione della classe Node
class Node:
    def __init__(self, value=None, op=None, left: 'Node' = None, right: 'Node' = None):
        self.value = value    # Per foglie: numero costante o variabile (es. "x[0]")
        self.op = op          # Per nodi interni: operatore (es. "+", "sin", "mod", ecc.)
        self.left = left
        self.right = right

    def evaluate(self, x: np.ndarray):
        """
        Valuta l'albero (funzione simbolica) sul vettore x.
        (Implementa l'uso di SAFE_OPERATIONS e clip_value secondo il tuo contesto.)
        """
        try:
            # Valutazione per operatori binari
            if self.op in BINARY_OPERATORS:
                if not self.left or not self.right:
                    return 0
                left_val = self.left.evaluate(x)
                right_val = self.right.evaluate(x)
                return SAFE_OPERATIONS[self.op](left_val, right_val)
            # Valutazione per operatori unari
            elif self.op in UNARY_OPERATORS:
                if not self.left:
                    return 0
                operand_val = self.left.evaluate(x)
                return SAFE_OPERATIONS[self.op](operand_val)
            # Se si tratta di una foglia con variabile
            elif isinstance(self.value, str) and self.value.startswith("x["):
                index = int(self.value[2:-1])
                return clip_value(x[index])
            elif self.value is not None:
                return clip_value(self.value)
        except Exception:
            return 0

    def copy(self) -> 'Node':
        """Restituisce una copia profonda dell'albero."""
        return Node(
            value=self.value,
            op=self.op,
            left=self.left.copy() if self.left else None,
            right=self.right.copy() if self.right else None,
        )

    def __str__(self) -> str:
        """Restituisce una rappresentazione in stringa dell'albero."""
        if self.op:
            if self.left and self.right:
                return f"({self.left} {self.op} {self.right})"
            elif self.left:
                return f"{self.op}({self.left})"
        return str(self.value)

# ---------------------------------------------------------------------------
# Funzioni "safe" e utilità matematiche
CLIP_MIN = -1e6
CLIP_MAX = 1e6

def clip_value(value):
    return np.clip(value, CLIP_MIN, CLIP_MAX)

def safe_divide(a, b):
    return a / b if b != 0 else 0

def safe_sin(x):
    x = np.clip(x, -1000, 1000)
    result = np.sin(x)
    return np.clip(result, -1000, 1000)

def safe_cos(x):
    x = np.clip(x, -1000, 1000)
    result = np.cos(x)
    return np.clip(result, -1000, 1000)

def safe_sinh(x):
    x = np.clip(x, -100, 100)
    result = np.sinh(x)
    return np.clip(result, -1000, 1000)

def safe_cosh(x):
    x = np.clip(x, -100, 100)
    result = np.cosh(x)
    return np.clip(result, -1000, 1000)

def safe_tan(x):
    if np.isclose(np.mod(x, np.pi), np.pi / 2):
        return float(10**6)
    x = np.clip(x, -1000, 1000)
    result = np.tan(x)
    return np.clip(result, -1000, 1000)

def safe_log10(x):
    if x <= 0:
        return float(10**6)
    result = np.log10(x)
    return np.clip(result, -1000, 1000)

def safe_pow(base, exp):
    base = np.clip(base, -1000, 1000)
    exp = np.clip(exp, -40, 40)
    if base == 0 and exp < 0:
        return float(10**6)
    elif base < 0 and not np.all(np.isinteger(exp)):
        return float(10**6)
    try:
        result = np.power(base, exp)
        return np.clip(result, -1000, 1000)
    except ValueError:
        return float(10**6)

def safe_log2(x):
    if x <= 0:
        return float(10**6)
    result = np.log2(x)
    return np.clip(result, -1000, 1000)

def safe_mod(x, y):
    if y == 0:
        return float(10**6)
    x = np.clip(x, -1000, 1000)
    y = np.clip(y, -1000, 1000)
    result = np.mod(x, y)
    return np.clip(result, -1000, 1000)

def safe_tanh(x):
    x = np.clip(x, -1000, 1000)
    result = np.tanh(x)
    return np.clip(result, -1000, 1000)

def safe_exp(x):
    x = np.clip(x, -100, 100)
    result = np.exp(x)
    return np.clip(result, -1000, 1000)

def safe_log(x):
    if x <= 0:
        return float(10**6)
    result = np.log(x)
    return np.clip(result, -1000, 1000)

def safe_sqrt(x):
    x = np.maximum(x, 0)
    result = np.sqrt(x)
    return np.clip(result, -1000, 1000)

def safe_abs(x):
    result = np.abs(x)
    return np.clip(result, -1000, 1000)

SAFE_OPERATIONS = {
    '+': lambda a, b: a + b,
    '-': lambda a, b: a - b,
    '*': lambda a, b: a * b,
    '/': safe_divide,
    'sin': safe_sin,
    'cos': safe_cos,
    'exp': safe_exp,
    'log': safe_log,
    'sqrt': safe_sqrt,
    'tan': safe_tan,
    'tanh': safe_tanh,
    'sinh': safe_sinh,
    'cosh': safe_cosh,
    'abs': safe_abs,
    'log10': safe_log10,
    'log2': safe_log2,
    '**': safe_pow,
    'mod': safe_mod
}

# ---------------------------------------------------------------------------
# Helper functions per la manipolazione degli alberi

def get_random_node(node: Node, include_root: bool = True) -> Node:
    """
    Raccoglie ricorsivamente tutti i nodi dell'albero e ne restituisce uno casuale.
    Se include_root=False, esclude la radice (se possibile).
    """
    nodes = []
    def traverse(n: Node):
        if n is None:
            return
        nodes.append(n)
        traverse(n.left)
        traverse(n.right)
    traverse(node)
    if not include_root and len(nodes) > 1:
        nodes = nodes[1:]
    return random.choice(nodes)

def get_random_node_with_parent(root: Node) -> Tuple[Node, Node, bool]:
    """
    Restituisce una tupla (nodo, genitore, is_left) scelta casualmente,
    dove is_left è True se il nodo è figlio sinistro del genitore.
    """
    nodes = []
    def traverse(node: Node, parent=None, is_left: bool = None):
        if node is None:
            return
        nodes.append((node, parent, is_left))
        traverse(node.left, node, True)
        traverse(node.right, node, False)
    traverse(root)
    return random.choice(nodes)

def replace_node(root: Node, target: Node, new_subtree: Node) -> bool:
    """
    Sostituisce ricorsivamente il nodo target con new_subtree nell'albero radicato in root.
    Restituisce True se la sostituzione ha avuto successo.
    """
    if root is None:
        return False
    if root.left == target:
        root.left = new_subtree
        return True
    if root.right == target:
        root.right = new_subtree
        return True
    return replace_node(root.left, target, new_subtree) or replace_node(root.right, target, new_subtree)

def get_random_leaf_with_parent(root: Node) -> Tuple[Node, Node, bool]:
    """
    Restituisce una tupla (foglia, genitore, is_left) scegliendo casualmente una foglia (nodo senza figli).
    """
    leaves = []
    def traverse(node: Node, parent=None, is_left: bool = None):
        if node is None:
            return
        if node.left is None and node.right is None:
            leaves.append((node, parent, is_left))
        else:
            traverse(node.left, node, True)
            traverse(node.right, node, False)
    traverse(root)
    if leaves:
        return random.choice(leaves)
    return (None, None, None)

# ---------------------------------------------------------------------------
# Operatori Genetici: Crossover e Mutazioni

# def crossover(parent1: Node, parent2: Node) -> Node:
#     """
#     Crossover per symbolic regression: scambia sottoalberi tra i genitori.
#       - Crea una copia di parent1 (offspring).
#       - Seleziona un nodo casuale (target) in offspring.
#       - Seleziona un nodo casuale in parent2 (donor).
#       - Sostituisce il sottoalbero target in offspring con una copia del donor.
#     """
#     offspring = parent1.copy()
#     target = get_random_node(offspring, include_root=True)
#     donor = get_random_node(parent2, include_root=True)
#     new_subtree = donor.copy()
#     if offspring == target:
#         offspring = new_subtree
#     else:
#         replace_node(offspring, target, new_subtree)
#     return offspring
def crossover(parent1: Node, parent2: Node, n_variables: int) -> Node:
    """Esegue un crossover “vincolato” per garantire la coerenza della struttura."""
    offspring = parent1.copy()
    # Seleziona un nodo target con il relativo genitore (per poterlo sostituire)
    target, parent, is_left = get_random_node_with_parent(offspring)
    # Seleziona un nodo donor da parent2
    donor = get_random_node(parent2, include_root=True)
    
    # Creiamo una copia del sottoalbero donor; qui potresti decidere
    # se prendere l'intero sottoalbero oppure solo la parte sinistra (nel caso di operazioni unarie)
    new_subtree = donor.copy()
    
    # Se il target ha un operatore binario, assicuriamoci che new_subtree abbia entrambi i figli.
    if target.op is not None and target.op in BINARY_OPERATORS:
        if new_subtree.left is None:
            new_subtree.left = create_random_tree(0, MutationConfig.SUBTREE_DEPTH_RANGE[1], n_variables)
        if new_subtree.right is None:
            new_subtree.right = create_random_tree(0, MutationConfig.SUBTREE_DEPTH_RANGE[1], n_variables)
    # Se target è un operatore unario, usiamo il figlio sinistro (se disponibile)
    elif target.op is not None and target.op in UNARY_OPERATORS:
        if new_subtree.left is None:
            new_subtree.left = create_random_tree(0, MutationConfig.SUBTREE_DEPTH_RANGE[1], n_variables)
        else:
            new_subtree.left = new_subtree.left.copy()
    # Se target è una foglia, ad esempio sostituisci il valore o crea una foglia nuova
    else:
        if isinstance(target.value, str) and target.value.startswith("x["):
            target.value = f"x[{random.randint(0, n_variables-1)}]"
        else:
            target.value = generate_constant()
        return sanitize_tree(offspring, MutationConfig.MAX_TREE_DEPTH, n_variables)
    
    # Sostituisci il nodo target con new_subtree
    if parent is None:
        offspring = new_subtree
    else:
        if is_left:
            parent.left = new_subtree
        else:
            parent.right = new_subtree

    # Sanifica l'albero risultante per assicurarti che non ci siano figli mancanti
    offspring = sanitize_tree(offspring, MutationConfig.MAX_TREE_DEPTH, n_variables)
    return offspring


def subtree_mutation(individual: Node, max_depth: int, n_variables: int) -> Node:
    """
    Subtree mutation:
      - Seleziona un nodo casuale nell'individuo.
      - Genera un nuovo sottoalbero casuale (con profondità scelta randomicamente).
      - Sostituisce il nodo selezionato con il nuovo sottoalbero.
    """
    mutated = individual.copy()
    target = get_random_node(mutated, include_root=True)
    new_depth = random.randint(MutationConfig.SUBTREE_DEPTH_RANGE[0],
                               MutationConfig.SUBTREE_DEPTH_RANGE[1])
    new_subtree = create_random_tree(0, new_depth, n_variables)
    if mutated == target:
        mutated = new_subtree
    else:
        replace_node(mutated, target, new_subtree)
    return mutated

def point_mutation(individual: Node, n_variables: int) -> Node:
    mutated = individual.copy()
    target = get_random_node(mutated, include_root=True)
    
    if target.op is not None:
        # Se il nodo è operatore, scegli un nuovo operatore compatibile
        if target.left is not None and target.right is not None:
            # Nodo binario
            possible_ops = [op for op in OPERATOR_WEIGHTS.keys() if op in BINARY_OPERATORS]
        elif target.left is not None and target.right is None:
            # Nodo unario: potresti voler limitare a operatori unari
            possible_ops = [op for op in OPERATOR_WEIGHTS.keys() if op in UNARY_OPERATORS]
        else:
            possible_ops = list(OPERATOR_WEIGHTS.keys())
        
        if target.op in possible_ops and len(possible_ops) > 1:
            possible_ops.remove(target.op)
        new_op = random.choice(possible_ops)
        target.op = new_op
        
        # Se il nuovo operatore è binario, assicurati che entrambi i figli esistano
        if new_op in BINARY_OPERATORS:
            if target.left is None:
                target.left = create_random_tree(0, MutationConfig.SUBTREE_DEPTH_RANGE[1], n_variables)
            if target.right is None:
                target.right = create_random_tree(0, MutationConfig.SUBTREE_DEPTH_RANGE[1], n_variables)
        # Se invece è un operatore unario, assicurati che il figlio sinistro esista
        elif new_op in UNARY_OPERATORS:
            if target.left is None:
                target.left = create_random_tree(0, MutationConfig.SUBTREE_DEPTH_RANGE[1], n_variables)
    else:
        # Per una foglia: se è numerica, modifica il valore; se è variabile, cambia indice
        if isinstance(target.value, (int, float)):
            factor = MutationConfig.VALUE_STEP_FACTOR
            target.value += random.uniform(-factor, factor) * (target.value if target.value != 0 else 1)
        elif isinstance(target.value, str) and target.value.startswith("x["):
            target.value = f"x[{random.randint(0, n_variables - 1)}]"
    
    # Sanifica l'albero dopo la mutazione
    mutated = sanitize_tree(mutated, MutationConfig.MAX_TREE_DEPTH, n_variables)
    return mutated

def hoist_mutation(individual: Node) -> Node:
    """
    Hoist mutation:
      - Seleziona un sottoalbero (escludendo la radice) e lo promuove a nuovo individuo.
      - Questo operatore tende a semplificare l'albero.
    """
    mutated = individual.copy()
    target = get_random_node(mutated, include_root=False)
    return target.copy()

def expansion_mutation(individual: Node, max_depth: int, n_variables: int) -> Node:
    """
    Expansion mutation:
      - Seleziona una foglia e la sostituisce con un nuovo sottoalbero casuale.
      - Aumenta la complessità dell'albero, trasformando una foglia in un nodo interno.
    """
    mutated = individual.copy()
    target, parent, is_left = get_random_leaf_with_parent(mutated)
    if target is None:
        return mutated
    new_depth = random.randint(MutationConfig.SUBTREE_DEPTH_RANGE[0],
                               MutationConfig.SUBTREE_DEPTH_RANGE[1])
    new_subtree = create_random_tree(0, new_depth, n_variables)
    if parent is None:
        mutated = new_subtree
    else:
        if is_left:
            parent.left = new_subtree
        else:
            parent.right = new_subtree
    return mutated

def collapse_mutation(individual: Node) -> Node:
    """
    Collapse mutation:
      - Seleziona un nodo interno (sottoalbero) e lo sostituisce con una foglia.
      - Semplifica l'albero, contrastando il fenomeno del bloat.
    """
    mutated = individual.copy()
    nodes = []
    def traverse(node: Node, parent=None, is_left: bool = None):
        if node is None:
            return
        if node.left is not None or node.right is not None:
            nodes.append((node, parent, is_left))
        traverse(node.left, node, True)
        traverse(node.right, node, False)
    traverse(mutated)
    if not nodes:
        return mutated
    target, parent, is_left = random.choice(nodes)
    new_leaf = Node(value=random.uniform(-10, 10))
    if parent is None:
        mutated = new_leaf
    else:
        if is_left:
            parent.left = new_leaf
        else:
            parent.right = new_leaf
    return mutated

# ---------------------------------------------------------------------------
# Funzioni per la generazione casuale dell'albero

def generate_constant():
    """
    Genera un valore costante casuale.
      - Con probabilità 0.5 restituisce un valore piccolo (tra -1 e 1),
        altrimenti un valore più ampio (tra -10 e 10).
    """
    if random.random() < 0.5:
        return random.uniform(-1, 1)
    else:
        return random.uniform(-10, 10)

def create_random_tree(depth: int, max_depth: int, n_variables: int) -> Node:
    """
    Crea un albero casuale per la symbolic regression.
      - Se la profondità raggiunge max_depth o in base a una probabilità,
        genera un nodo foglia (variabile o costante).
      - Altrimenti, genera un nodo operatore (binario o unario) e ricorsivamente crea i figli.
    """
    if depth >= max_depth or (depth > 0 and random.random() < 0.5):
        # Nodo foglia: probabilità di scegliere una variabile oppure una costante
        if random.random() < 0.7:
            return Node(value=f"x[{random.randint(0, n_variables - 1)}]")
        else:
            return Node(value=generate_constant())
    # Genera un nodo operatore
    op = random.choices(list(OPERATOR_WEIGHTS.keys()),
                        weights=list(OPERATOR_WEIGHTS.values()),
                        k=1)[0]
    if op in BINARY_OPERATORS:
        left = create_random_tree(depth + 1, max_depth, n_variables)
        right = create_random_tree(depth + 1, max_depth, n_variables)
        return Node(op=op, left=left, right=right)
    elif op in UNARY_OPERATORS:
        operand = create_random_tree(depth + 1, max_depth, n_variables)
        return Node(op=op, left=operand)
    else:
        # In casi rari, se l'operatore non è categorizzato, lo tratta come unario.
        operand = create_random_tree(depth + 1, max_depth, n_variables)
        return Node(op=op, left=operand)

def tournament_selection(population, fitness_scores, tournament_size=3):     #fast
    """Selezione torneo ottimizzata senza chiamate inutili a `random.sample`."""
    indices = np.random.choice(len(population), size=tournament_size, replace=False)
    winner_idx = indices[np.argmin([fitness_scores[i] for i in indices])]
    return population[winner_idx]

# def tournament_selection(population: List[Node], fitness_scores: List[float], tournament_size: int = 3) -> Node:
#     """Selezione tramite torneo."""
#     competitors = random.sample(list(zip(population, fitness_scores)), tournament_size)
#     winner = min(competitors, key=lambda x: x[1])  # Migliore fitness
#     return winner[0]



def calculate_fitness(tree: Node, x: np.ndarray, y_true: np.ndarray) -> float:
    """Calcola la fitness di un individuo basata sull'errore quadratico medio."""
    try:
        compiled_func = compile_tree(tree)  # Compila una volta
        y_pred = compiled_func(x)  # Esegue la funzione su tutto il dataset
        y_pred = np.nan_to_num(y_pred, nan=0.0, posinf=CLIP_MAX, neginf=CLIP_MIN)  # Protezione da NaN/inf
        return np.mean(np.square(y_true - y_pred))
    except Exception:
        return float('inf')  # Penalizza funzioni non valide


# def calculate_fitness(tree: Node, x: np.ndarray, y_true: np.ndarray) -> float:
#     """Calcola la fitness di un individuo basata sull'errore quadratico medio."""
#     try:
#         y_pred = np.array([tree.evaluate(x[:, i]) for i in range(x.shape[1])])
#         y_pred = np.clip(y_pred, CLIP_MIN, CLIP_MAX)
#         y_pred = np.nan_to_num(y_pred, nan=0.0, posinf=CLIP_MAX, neginf=CLIP_MIN)  # Gestione di nan e inf
#         return np.mean(np.square(y_true-y_pred))
#     except Exception:
#         return float('inf')



# ---------------------------------------------------------------------------
# Fine del modulo


In [164]:

def tree_depth(node: Node) -> int:
    """ Calcola la profondità massima dell'albero """
    if node is None:
        return 0
    left_depth = tree_depth(node.left)
    right_depth = tree_depth(node.right)
    return 1 + max(left_depth, right_depth)

def count_nodes(node: Node) -> int:
    """ Conta il numero totale di nodi in un albero """
    if node is None:
        return 0
    return 1 + count_nodes(node.left) + count_nodes(node.right)

def prune_tree(node: Node, max_depth: int, max_nodes: int) -> Node:
    """ 
    Riduce la dimensione dell'albero se supera il massimo consentito.
    Sostituisce sottoalberi profondi con foglie e taglia rami in eccesso.
    """
    if node is None:
        return None

    # Se supera il limite di profondità, trasformiamo il nodo in foglia
    if tree_depth(node) > max_depth:
        return Node(value=random.uniform(-10, 10))

    # Se supera il limite di nodi, sostituiamo i rami più profondi con foglie
    if count_nodes(node) > max_nodes:
        if node.left and node.right:
            # Scegliamo casualmente un ramo da tagliare
            if random.random() < 0.5:
                node.left = Node(value=random.uniform(-10, 10))
            else:
                node.right = Node(value=random.uniform(-10, 10))
        elif node.left:
            node.left = Node(value=random.uniform(-10, 10))
        elif node.right:
            node.right = Node(value=random.uniform(-10, 10))

    # Applichiamo la potatura in modo ricorsivo sui sottoalberi
    node.left = prune_tree(node.left, max_depth, max_nodes)
    node.right = prune_tree(node.right, max_depth, max_nodes)

    return node

# --- Funzione helper per applicare una mutazione scelta tra quelle implementate ---
def apply_mutation(individual, mutation_prob, max_depth, n_variables):
    """
    Applica una mutazione all'individuo con probabilità mutation_prob.
    Dopo la mutazione, controlla che l'albero non superi i limiti.
    """
    if random.random() > mutation_prob:
        return individual  # Nessuna mutazione

    mutation_choices = {
        'SUBTREE': subtree_mutation,
        'OPERATOR': point_mutation,
        'VALUE': point_mutation,
        'HOIST': hoist_mutation,
        'EXPANSION': expansion_mutation,
        'COLLAPSE': collapse_mutation
    }

    mutation_type = random.choices(
        list(MutationConfig.MUTATION_WEIGHTS.keys()),
        weights=list(MutationConfig.MUTATION_WEIGHTS.values()),
        k=1
    )[0]

    mutation_function = mutation_choices[mutation_type]

    if mutation_type in ['SUBTREE', 'EXPANSION']:
        mutated = mutation_function(individual, max_depth, n_variables)
    elif mutation_type in ['OPERATOR', 'VALUE']:
        mutated = mutation_function(individual, n_variables)
    else:
        mutated = mutation_function(individual)

    # 🌲 Controllo se l'albero è troppo grande e lo poto se necessario
    if tree_depth(mutated) > MutationConfig.MAX_TREE_DEPTH or count_nodes(mutated) > MutationConfig.MAX_TREE_NODES:
        mutated = prune_tree(mutated, MutationConfig.MAX_TREE_DEPTH, MutationConfig.MAX_TREE_NODES)

    return mutated



In [165]:
def function_to_string(root: Node, mse: float, func_name: str) -> str:
    def node_to_str(node: Node) -> str:
        if node.op:
            if node.left is not None and node.right is not None:
                left_str = node_to_str(node.left)
                right_str = node_to_str(node.right)
                if node.op == '/':
                    return f"({left_str} / {right_str})"
                elif node.op == '**':
                    return f"({left_str} ** {right_str})"
                elif node.op == 'mod':
                    return f"np.mod({left_str}, {right_str})"
                else:
                    return f"({left_str} {node.op} {right_str})"
            elif node.left is not None:
                operand_str = node_to_str(node.left)
                # Gestione speciale per operatori unari come '-' o '+'
                if node.op == '-':
                    return f"(-{operand_str})"
                elif node.op == '+':
                    return f"(+{operand_str})"
                mapping = {
                    'sin': 'np.sin',
                    'cos': 'np.cos',
                    'exp': 'np.exp',
                    'log': 'np.log',
                    'sqrt': 'np.sqrt',
                    'tan': 'np.tan',
                    'tanh': 'np.tanh',
                    'sinh': 'np.sinh',
                    'cosh': 'np.cosh',
                    'abs': 'np.abs',
                    'log10': 'np.log10',
                    'log2': 'np.log2'
                }
                if node.op in mapping:
                    return f"{mapping[node.op]}({operand_str})"
                else:
                    return f"np.{node.op}({operand_str})"

            else:
                raise ValueError("Nodo operatore senza operando.")
        else:
            if isinstance(node.value, str):
                return node.value
            else:
                return str(node.value)
    
    expr_str = node_to_str(root)
    func_str = (
        f"def {func_name}(x: np.ndarray) -> np.ndarray:  # mse: {mse:.4e}\n"
        f"    return {expr_str}\n"
    )
    return func_str



In [166]:
def sanitize_tree(node: Node, max_depth: int, n_variables: int, current_depth: int = 0) -> Node:
    """
    Verifica e corregge ricorsivamente la struttura dell'albero:
      - Per gli operatori binari, se manca il figlio sinistro o destro, lo ricrea.
      - Per gli operatori unari, se manca il figlio, lo ricrea.
      - Se il nodo è una foglia, non viene modificato.
    Il parametro current_depth viene usato per evitare di superare la profondità massima.
    """
    if node is None:
        # Se il nodo è mancante, crea una foglia casuale.
        # In alternativa puoi usare una costante o una variabile.
        return Node(value=generate_constant())
    
    # Se siamo troppo profondi, ritorna una foglia (per evitare bloat)
    if current_depth >= max_depth:
        return Node(value=generate_constant())

    # Se il nodo è un operatore, controlla i figli
    if node.op is not None:
        if node.op in BINARY_OPERATORS:
            if node.left is None:
                # Se manca il figlio sinistro, ricrea un sottoalbero casuale
                node.left = create_random_tree(current_depth + 1, max_depth, n_variables)
            else:
                node.left = sanitize_tree(node.left, max_depth, n_variables, current_depth + 1)
            if node.right is None:
                # Se manca il figlio destro, ricrea un sottoalbero casuale
                node.right = create_random_tree(current_depth + 1, max_depth, n_variables)
            else:
                node.right = sanitize_tree(node.right, max_depth, n_variables, current_depth + 1)
        elif node.op in UNARY_OPERATORS:
            if node.left is None:
                node.left = create_random_tree(current_depth + 1, max_depth, n_variables)
            else:
                node.left = sanitize_tree(node.left, max_depth, n_variables, current_depth + 1)
    # Se è una foglia (node.op is None) non serve sanificazione
    return node


# main algorithm

In [167]:
import os
import glob


def genetic_algorithm(filepath: str):
    """
    Esegue l'algoritmo genetico su tutti i file 'problem_#.npz' presenti nella cartella
    indicata da `filepath` e salva le funzioni ottenute in un file Python denominato 's323914.py'.
    
    La funzione scrive nel file una definizione per ciascun problema, nel formato:
    
        import numpy as np
        
        def f1(x: np.ndarray) -> np.ndarray:  # mse: 0.1234
            return <formula>
    
    Dove il numero nella funzione (f1, f2, …) corrisponde al numero estratto dal nome del file
    (es. "problem_1.npz") e il commento indica il valore della fitness (mse) ottenuta.
    """
    # Costanti dell'algoritmo
    POPULATION_SIZE = 1500
    MAX_DEPTH = 7
    GENERATIONS = 150
    # MIN_DIVERSITY = 0.6
    TOURNAMENT_SIZE = 15

    ELITISM_RATE = 0.05
    MUTATION_PROB = 0.5

    
    # Trova tutti i file con pattern "problem_*.npz" nella cartella specificata
    problem_files = glob.glob(os.path.join(filepath, "problem_*.npz"))
    solutions = []  # Lista dei tuple: (numero_problema, best_fitness, best_code)

    # Ciclo sui file dei problemi (ordinati per numero)
    for prob_file in sorted(problem_files):
        
        base = os.path.basename(prob_file)
        try:
            num_str = base.split('_')[1].split('.')[0]
            prob_number = int(num_str)
        except (IndexError, ValueError):
            print(f"Nome file non conforme, salto: {prob_file}")
            continue

        print(f"Risoluzione del problema {prob_number}...")
        # Escludi il problem_0
        # if prob_number == 1 or prob_number == 2 or prob_number ==  5:
        #     print(f"Salto il problema {prob_number} (problem_0 escluso).")
        #     continue

        # Carica i dati dal file .npz
        data = np.load(prob_file)
        x_train = data['x']
        y_train = data['y']
        N_VARIABLES = x_train.shape[0]

        # Inizializza la popolazione
        population = [create_random_tree(0, MAX_DEPTH, N_VARIABLES) for _ in range(POPULATION_SIZE)]

        best_fitness = float('inf')
        best_tree = None

        # fitness_scores = [calculate_fitness(ind, x_train, y_train) for ind in population]

        # Ciclo evolutivo
        # for generation in range(GENERATIONS):
        #     next_generation = []
        #     for _ in range(0, POPULATION_SIZE, 2):
        #         p1 = tournament_selection(population, fitness_scores, TOURNAMENT_SIZE)
        #         p2 = tournament_selection(population, fitness_scores, TOURNAMENT_SIZE)
        #         child1 = crossover(p1, p2)
        #         child2 = crossover(p2, p1)
        #         child1 = apply_mutation(child1, mutation_prob=0.3, max_depth=MAX_DEPTH, n_variables=N_VARIABLES)
        #         child2 = apply_mutation(child2, mutation_prob=0.3, max_depth=MAX_DEPTH, n_variables=N_VARIABLES)
        #         next_generation.extend([child1, child2])
        #     offspring_fitness = [calculate_fitness(ind, x_train, y_train) for ind in next_generation]

        #     # Sostituisce alcuni individui della popolazione con i figli se migliorano la fitness
        #     for child, fitness in zip(next_generation[:num_replacement], offspring_fitness[:num_replacement]):
        #         least_fit_idx = np.argmax(fitness_scores)
        #         if fitness < fitness_scores[least_fit_idx]:
        #             population[least_fit_idx] = child
        #             fitness_scores[least_fit_idx] = fitness
        #             if fitness < best_fitness:
        #                 best_fitness = fitness
        #                 best_tree = child
        # Ciclo evolutivo
        ELITE_COUNT = max(1, int(POPULATION_SIZE * ELITISM_RATE))
    
        for generation in range(GENERATIONS):
            # Calcola la fitness per ogni individuo
            fitness_scores = [calculate_fitness(ind, x_train, y_train) for ind in population]
            # fitness_scores = calculate_fitness_parallel(population, x_train, y_train)


            # Ordina la popolazione in base alla fitness (minore è meglio)
            sorted_indices = np.argsort(fitness_scores)
            elites = [population[i] for i in sorted_indices[:ELITE_COUNT]]
            
            # Aggiorna il best_tree se necessario
            if fitness_scores[sorted_indices[0]] < best_fitness:
                best_fitness = fitness_scores[sorted_indices[0]]
                best_tree = population[sorted_indices[0]]
                no_improvement = 0
            else:
                no_improvement += 1
            
            if no_improvement > 10:
                print("Nessun miglioramento per 20 generazioni consecutive. Early stopping!")
                break
            
            # Genera nuovi individui per completare la popolazione
            new_population = elites.copy()
            while len(new_population) < POPULATION_SIZE:
                # Seleziona due genitori tramite torneo
                p1 = tournament_selection(population, fitness_scores, TOURNAMENT_SIZE)
                p2 = tournament_selection(population, fitness_scores, TOURNAMENT_SIZE)
                # Genera un figlio tramite crossover e applica la mutazione
                child = crossover(p1, p2, n_variables=N_VARIABLES)
                child = apply_mutation(child, mutation_prob=MUTATION_PROB, max_depth=MAX_DEPTH, n_variables=N_VARIABLES)
                new_population.append(child)
                
                # Se la popolazione non è ancora completa, puoi generare un secondo figlio
                if len(new_population) < POPULATION_SIZE:
                    p1 = tournament_selection(population, fitness_scores, TOURNAMENT_SIZE)
                    p2 = tournament_selection(population, fitness_scores, TOURNAMENT_SIZE)
                    child = crossover(p1, p2, n_variables=N_VARIABLES)
                    child = apply_mutation(child, mutation_prob=MUTATION_PROB, max_depth=MAX_DEPTH, n_variables=N_VARIABLES)
                    new_population.append(child)

            # Aggiorna la popolazione per la prossima generazione
            population = new_population

            # diversity = calculate_population_diversity(population)
            # print(f"Diversità: {diversity:.2f}")
            # # Se ogni 5 generazioni la diversità scende sotto la soglia, si applica una strategia per mantenerla
            # if generation % 2 == 0:
            #     if diversity < MIN_DIVERSITY:
            #         population = maintain_diversity(population, MIN_DIVERSITY, MAX_DEPTH, N_VARIABLES)
            print(f"Generazione {generation + 1}: Miglior fitness: {best_fitness}, Miglior individuo: {best_tree}")

        print(f"Problema {prob_number} - Miglior individuo: {best_tree} con fitness: {best_fitness}")
        # Converte l'albero dell'individuo migliore in una stringa contenente una formula valida in Python.
        # best_code = tree_to_string(best_tree)
        solutions.append((prob_number, best_fitness, best_tree))

    # Scrive il file di output "s323914.py" con le funzioni ottenute

    

    output_filename = "s323914.py"
    with open(output_filename, "w") as f:
        f.write("import numpy as np\n\n")
        # Per ogni problema scrive la definizione della funzione (f1, f2, …)
        for prob_number, best_fitness, best_code in sorted(solutions, key=lambda x: x[0]):
            code = function_to_string(best_code, best_fitness, f"f{prob_number}")
            # f.write(f"def f{prob_number}(x: np.ndarray) -> np.ndarray:  # mse: {best_fitness:.4e}\n")
            # f.write("    return " + best_code + "\n\n")
            f.write(code)
    print(f"Soluzioni salvate in {output_filename}")


In [168]:


genetic_algorithm("data")


Risoluzione del problema 1...
Generazione 1: Miglior fitness: 7.125940794232773e-34, Miglior individuo: sin(x[0])
Generazione 2: Miglior fitness: 7.125940794232773e-34, Miglior individuo: sin(x[0])
Generazione 3: Miglior fitness: 7.125940794232773e-34, Miglior individuo: sin(x[0])
Generazione 4: Miglior fitness: 7.125940794232773e-34, Miglior individuo: sin(x[0])
Generazione 5: Miglior fitness: 7.125940794232773e-34, Miglior individuo: sin(x[0])
Generazione 6: Miglior fitness: 7.125940794232773e-34, Miglior individuo: sin(x[0])
Generazione 7: Miglior fitness: 7.125940794232773e-34, Miglior individuo: sin(x[0])
Generazione 8: Miglior fitness: 7.125940794232773e-34, Miglior individuo: sin(x[0])
Generazione 9: Miglior fitness: 7.125940794232773e-34, Miglior individuo: sin(x[0])
Generazione 10: Miglior fitness: 7.125940794232773e-34, Miglior individuo: sin(x[0])
Generazione 11: Miglior fitness: 7.125940794232773e-34, Miglior individuo: sin(x[0])
Nessun miglioramento per 20 generazioni cons