# Generar datasets

Generar archivos de entrada para los distintos experimentos

In [1]:
%load_ext autoreload
%autoreload 2

import os
import math
import pandas as pd
from typing import List, Tuple

In [2]:
def write_instance(S: List[Tuple[int,int]], R: int, dataset: str, instancia: str) :
    dir_path = os.path.join("instancias",dataset)
    
    try:
        os.makedirs(dir_path) 
    except OSError as error:
        pass
        #print(error)
        
    with open(f"instancias/{dataset}/{instancia}.txt", 'w') as f:
        print(f"{len(S)} {R}", file=f)
        for t in S:
            print(f"{t[0]} {t[1]}", file=f)

In [3]:
cols = ["dataset", "instancia", "n", "R", "filename"]

## - Dataset 1: Fuerza Bruta

Dado que nuestro algoritmo de fuerza bruta chequea si la solución es válida o no cuando este termina de recorrer la lista de productos, el único factor que determina su tiempo de ejecución es la cantidad de productos. Por este motivo, no hace falta separar entre mejor y peor caso del algoritmo, ni complejizar las elecciones del peso y resistencia de los productos ($w_{i}$ y $r_{i}$).

In [4]:
rows = []
dataset = "fuerza-bruta"

for n in range(1, 31):
    R = n
    S = [(1, n) for _ in range(n)]
    write_instance(S, R, dataset, f"BF-{n}")
    rows.append([dataset, f"BF-{n}", n, R, f"instancias/{dataset}/BF-{n}.txt"])
pd.DataFrame(rows, columns=cols).to_csv(f"instancias/{dataset}/indice.csv", index=False, header=True)

## - Dataset 2: Backtracking (mejor caso)
Sea $R$ la resistencia del tubo, el mejor caso es cuando no se puede agregar ningún producto. En ese caso la cantidad de nodos que se computan es $\mathcal{O}(n)$.

$S = \big\{(R+1, r_{1}), \cdots, (R+1, r_{n})\big\}$

In [5]:
rows = []
R = 100
dataset = "mejor-caso-bt"
for i in range (1, 101):
    S = [(R+1, R) for _ in range(i)]
    write_instance(S, R, dataset, f"BT-MC-{i}")
    rows.append([dataset, f"BT-MC-{i}", i, R, f"instancias/{dataset}/BT-MC-{i}.txt"])
pd.DataFrame(rows, columns=cols).to_csv(f"instancias/{dataset}/indice.csv", index=False, header=True)

## - Dataset 3: Backtracking (peor caso)

El peor caso del algoritmo de backtracking sucede cuando todos los productos de la instancia pertenecen a una solucion válida simultaneamente (i.e. se pueden meter todos en el tubo sin romperlo, ni a si mismo)

In [6]:
rows = []
R = 1000
dataset= "peor-caso-bt"
for i in range (1, 31):
    S = [(1, R) for _ in range(i)]
    write_instance(S, R, dataset, f"BT-PC-{i}")
    rows.append([dataset, f"BT-PC-{i}", i, R, f"instancias/{dataset}/BT-PC-{i}.txt"])
pd.DataFrame(rows, columns=cols).to_csv(f"instancias/{dataset}/indice.csv", index=False, header=True)

## - Datset 4: Sin superposición
Las ventajas de un algoritmo de programación dinámica suelen exhibirse más claramente cuando una gran proporción de los resultados de los llamados a dicho algoritmo ya han sido precomputados. Por ende, uno esperaría que el peor caso se presente cuando este es exáctamente opuesto (i.e. que nunca se llame al algoritmo con las mismos parámetros).

In [7]:
max_size = 20

In [8]:
rows = []
dataset = "sin-superposicion"
for n in range (1, max_size + 1):
    R = 2**n - 1
    S = [(2**i, R) for i in range (n)]
    write_instance(S, R, dataset, f"LD-{n}")
    rows.append([dataset, f"LD-{n}", n, R, f"instancias/{dataset}/LD-{n}.txt"])
pd.DataFrame(rows, columns=cols).to_csv(f"instancias/{dataset}/indice.csv", index=False, header=True)

## - Dataset 5: Alta superposición

In [9]:
rows = []
dataset = "alta-superposicion"
for n in range(1, max_size +1):
    R = max(1, math.floor(n*(n+1)/4))
    S = [(i, R) for i in range(1, n + 1)]
    write_instance(S, R, dataset, f"HD-{n}")
    rows.append([dataset, f"HD-{n}", n, R, f"instancias/{dataset}/HD-{n}.txt"])
pd.DataFrame(rows, columns=cols).to_csv(f"instancias/{dataset}/indice.csv", index=False, header=True)

## Dataset 6: Muchos productos

In [17]:
rows = []
dataset = "muchos-productos"
for n in range(100, 1001, 10):
    R = max(1, math.floor(n*(n+1)/4))
    S = [(i, R) for i in range(1, n+1)]
    write_instance(S, R, dataset, f"MP-{n}")
    rows.append([dataset, f"MP-{n}", n, R, f"instancias/{dataset}/MP-{n}.txt"])
pd.DataFrame(rows, columns=cols).to_csv(f"instancias/{dataset}/indice.csv", index=False, header=True)   