In [293]:
import numpy as np
import torch
import torch.nn as nn
import requests

In [294]:
def readQAP_from_URL(url):
    """
    Lee un archivo DAT desde una URL y lo transforma en un diccionario que contiene el número de nodos (n), matriz de flujo (f) 
    y matriz de distancia (d)

    Args:
        url (str): URL del archivo .dat a leer

    Returns:
        instance_dict (dict): Diccionario que contiene el número de nodos (n), matriz de flujo (f) y matriz de distancia (d)
    """
    response = requests.get(url)
    content = response.text.split('\n')
    
    n_nodos = int(content[0])
    flow_matrix = np.array([list(map(int, line.split())) for line in content[1:n_nodos+1]])
    distance_matrix = np.array([list(map(int, line.split())) for line in content[n_nodos+2:2*n_nodos+2]])
    
    instance_dict = {'n': n_nodos, 'f': flow_matrix, 'd': distance_matrix}
    
    return instance_dict


def evaluateQAP(sol, f, d):
    """
    Evaluar QAP con una solución dada

    Args:
        sol (numpy array): vector con valores de posición para evaluar la función
        f (numpy array): matriz de flujo entre nodos
        d (numpy array): matriz de distancia entre nodos

    Returns:
        Valor de fitness del QAP en base a la solución entregada
    """
    
    fitness = np.sum(f * d[sol[:, None], sol])
    
    return fitness


def generate_population(size, n):
    return [np.random.permutation(n) for _ in range(size)]

def fitness(solution, instance):
    return evaluateQAP(solution, instance['f'], instance['d'])


def crossover(parent1, parent2):
    # Perform ordered crossover
    size = len(parent1)
    idx1, idx2 = sorted(np.random.choice(range(size), 2, replace=False))
    child = -np.ones(size, dtype=int)
    child[idx1:idx2] = parent1[idx1:idx2]
    mask = np.isin(parent2, child)
    child[child==-1] = parent2[~mask]
    return child

def selection(population, scores, k=3):
    # Select k random individuals from the population and return the best one
    selection_idx = np.random.choice(len(population), k, replace=False)
    return population[min(selection_idx, key=lambda idx: scores[idx])]

def mutation(solution):
    # Perform swap mutation
    idx1, idx2 = np.random.choice(range(len(solution)), 2, replace=False)
    solution[idx1], solution[idx2] = solution[idx2], solution[idx1]
    return solution

def replace_with_new_population(population, new_population, scores):
    # Replace the old population with the new population
    population_size = len(population)
    new_scores = [fitness(solution, instance) for solution in new_population]
    population = population + new_population
    scores = scores + new_scores
    idx = np.argsort(scores)[:population_size]
    return [population[i] for i in idx], [scores[i] for i in idx]


def population_diversity(population):
    # A simple measure of population diversity is the standard deviation of the solutions
    return np.std([np.sum(sol) for sol in population])


def genetic_algorithm(instance, n_population, n_iterations, mutation_rate):
    population = generate_population(n_population, instance['n'])
    scores = [fitness(solution, instance) for solution in population]

    for _ in range(n_iterations):
        new_population = []
        for _ in range(n_population):
            parent1 = selection(population, scores)
            parent2 = selection(population, scores)
            child = crossover(parent1, parent2)
            if np.random.rand() < mutation_rate:
                child = mutation(child)
            new_population.append(child)
        population, scores = replace_with_new_population(population, new_population, scores)
    
    best_solution = population[np.argmin(scores)]
    best_score = min(scores)
    
    return best_solution, best_score


class Actor(nn.Module):
    def __init__(self):
        super(Actor, self).__init__()
        self.network = nn.Sequential(
            nn.Linear(3, 64),  # Cambia la dimensión del estado a 3
            nn.ReLU(),
            nn.Linear(64, 64),
            nn.ReLU(),
            nn.Linear(64, 1),
            nn.Sigmoid()  # Sigmoid para que la tasa de mutación esté entre 0 y 1
        )

    def forward(self, state):
        return self.network(state)



class Critic(nn.Module):
    def __init__(self):
        super(Critic, self).__init__()
        self.network = nn.Sequential(
            nn.Linear(3, 64),  # Cambia la dimensión del estado a 3
            nn.ReLU(),
            nn.Linear(64, 64),
            nn.ReLU(),
            nn.Linear(64, 1)
        )

    def forward(self, state):
        return self.network(state)

    
def genetic_algorithm_ac(instance, n_population, n_iterations, actor, critic, optimizer):
    population = generate_population(n_population, instance['n'])
    scores = [fitness(solution, instance) for solution in population]
    last_score = scores[np.argmin(scores)]  # Keep track of the best score from the last generation

    for i in range(n_iterations):
        
        print("Iteración ", i)
        
        optimizer.zero_grad()
        
        new_population = []
        new_scores = []  # Track scores of the new population
        rewards = []  # Track rewards for each child
        
        # Decide mutation rate
        mutation_rate = actor(torch.tensor([np.mean(scores), population_diversity(population), i]).float())
        
        print("Ratio de mutación: ", mutation_rate.item())
        
        for _ in range(n_population):
            parent1 = selection(population, scores)
            parent2 = selection(population, scores)
            child = crossover(parent1, parent2)

            if np.random.rand() < mutation_rate:
                child = mutation(child)

            new_population.append(child)
            child_score = fitness(child, instance)
            new_scores.append(child_score)  # Compute the score of the new child
            
            # Compute individual reward
            rewards.append(last_score - child_score)

        # Compute average reward
        reward = np.mean(rewards)*-1
        print("Recompensa: ", reward)

        # Compute the new state after the entire new population has been generated
        state = torch.tensor([np.mean(new_scores), population_diversity(new_population), i]).float()

        # Update Critic
        target_value = reward + critic(state)  # Target value is based on reward and current value estimate
        critic_loss = (target_value - critic(state))**2
        critic_loss.backward()
        optimizer.step()
        optimizer.zero_grad()  # Reset gradients

        # Update Actor
        actor_loss = -critic(state)  # We want to maximize the value estimate        
        actor_loss.backward()
        optimizer.step()
        optimizer.zero_grad()  # Reset gradients for the next iteration

        # Replace the old population with the new one
        population, scores = new_population, new_scores
        last_score = min(scores)  # Update last_score for the next generation
        
        #print(scores)

    best_solution = population[np.argmin(scores)]
    best_score = min(scores)
    
    return best_solution, best_score

# Entradas

In [None]:
instance = readQAP_from_URL("https://www.opt.math.tugraz.at/qaplib/data.d/tho40.dat")

# Parámetros

In [None]:
n_population = 15
n_iterations = 50
mutation_rate= 0.9

# Genetic Algorithm

In [301]:
results_ga = genetic_algorithm(instance, n_population, n_iterations, mutation_rate)

# G.A con Actor-Critic

In [282]:
actor = Actor()
critic = Critic()
optimizer = torch.optim.Adam(list(actor.parameters()) + list(critic.parameters()))

In [288]:
best_solution, best_score = genetic_algorithm_ac(instance, n_population, n_iterations, actor, critic, optimizer)

Iteración  0
Ratio de mutación:  0.0
Recompensa:  13580.533333333333
Iteración  1
Ratio de mutación:  0.0
Recompensa:  8283.333333333334
Iteración  2
Ratio de mutación:  0.0
Recompensa:  11388.133333333333
Iteración  3
Ratio de mutación:  0.0
Recompensa:  5931.866666666667
Iteración  4
Ratio de mutación:  0.0
Recompensa:  12713.466666666667
Iteración  5
Ratio de mutación:  0.0
Recompensa:  12138.933333333332
Iteración  6
Ratio de mutación:  0.0
Recompensa:  7313.866666666667
Iteración  7
Ratio de mutación:  0.0
Recompensa:  7217.466666666666
Iteración  8
Ratio de mutación:  0.0
Recompensa:  4606.266666666666
Iteración  9
Ratio de mutación:  0.0
Recompensa:  4665.066666666667
Iteración  10
Ratio de mutación:  0.0
Recompensa:  3907.0666666666666
Iteración  11
Ratio de mutación:  0.0
Recompensa:  260.8
Iteración  12
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  13
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  14
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  15
Ratio d

Iteración  149
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  150
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  151
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  152
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  153
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  154
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  155
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  156
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  157
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  158
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  159
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  160
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  161
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  162
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  163
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  164
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  165
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  166
Ratio de mutació

Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  311
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  312
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  313
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  314
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  315
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  316
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  317
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  318
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  319
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  320
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  321
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  322
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  323
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  324
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  325
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  326
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  327
Ratio de mutación:  0.0
Recompe

Iteración  456
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  457
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  458
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  459
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  460
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  461
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  462
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  463
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  464
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  465
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  466
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  467
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  468
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  469
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  470
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  471
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  472
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  473
Ratio de mutació

Iteración  615
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  616
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  617
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  618
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  619
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  620
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  621
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  622
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  623
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  624
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  625
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  626
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  627
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  628
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  629
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  630
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  631
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  632
Ratio de mutació

Recompensa:  -0.0
Iteración  775
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  776
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  777
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  778
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  779
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  780
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  781
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  782
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  783
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  784
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  785
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  786
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  787
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  788
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  789
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  790
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  791
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  79

Iteración  922
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  923
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  924
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  925
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  926
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  927
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  928
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  929
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  930
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  931
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  932
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  933
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  934
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  935
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  936
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  937
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  938
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  939
Ratio de mutació

Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  1070
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  1071
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  1072
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  1073
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  1074
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  1075
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  1076
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  1077
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  1078
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  1079
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  1080
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  1081
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  1082
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  1083
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  1084
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  1085
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  1086
Ratio de mutac

Iteración  1215
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  1216
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  1217
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  1218
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  1219
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  1220
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  1221
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  1222
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  1223
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  1224
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  1225
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  1226
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  1227
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  1228
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  1229
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  1230
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  1231
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  123

Iteración  1358
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  1359
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  1360
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  1361
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  1362
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  1363
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  1364
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  1365
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  1366
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  1367
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  1368
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  1369
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  1370
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  1371
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  1372
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  1373
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  1374
Ratio de mutación:  0.0
Recompensa:  -0.0
Iteración  137