# Generador de instancias
En este notebook está el código para generar los sets de instancias que se usan para experimentar.
- Estas instancias van a ser guardadas en la carpeta __instancias__.
- Cada set estará en su propia carpeta y tendrá un archivo _indice.csv_ que contendrá información sobre las instancias.

In [None]:
import random, math
import pandas as pd
import numpy as np
from RandomWordGenerator import RandomWord

In [None]:
def save_instance(dataset, instance_name, Palabra):
    with open(F"instancias/{dataset}/{instance_name}.txt", "w") as f:
        for j in Palabra:
            print(j, file=f, end=" \n")

def save_index(dataset, instances):
    with open(F"instancias/{dataset}/instances.txt", "w") as f:
        for instance in instances: 
            print(instance, file=f)

## Dataset 1
Generamos las instancias que componen a los peores casos de ejecucion. Estos son los que tienen palabras que caen siempre sobre el mismo bucket.

In [None]:
letra = "a"
longitud_archivo = 1000
palabras = ["" for i in range(longitud_archivo)]
filas_indice = []

for i in range(0, longitud_archivo):
    randomWord = RandomWord(30, True, False, "", False)
    palabra = letra + randomWord.generate().lower()
    palabras[i] = palabra
    
save_instance('worst-case', 'peorcaso', palabras)
filas_indice.append(["worst-case", "peorcaso", 1, F"instancias/worst-case/peorcaso.txt"])
pd.DataFrame(filas_indice, columns=["dataset", "instancia", "n", "archivo"]).to_csv("instancias/worst-case/indice.csv", index=False, header=True)


## Dataset 2
Generamos instancias del mejor caso. Son las que contienen palabras distribuidas sobre todos los buckets (1 en cada uno).

In [None]:
letra = ord('a') # 97 = ASCII de la letra 'a'
palabras = ["" for i in range(0, 26)]
filas_indice = []

result = []

for i in range(0, 26):
    # final_random = RandomWord(5, True, False, "", False).generate().lower()
    palabras[i] = chr(letra) # + final_random
    letra += 1
    
for i in range(0, 300):
    for p in range(0, 26):
        final_random = RandomWord(5, True, False, "", False).generate().lower()
        result.append(palabras[p]  + final_random)

    
save_instance('best-case', 'mejorcaso', result)
filas_indice.append(["worst-case", "peorcaso", 1, F"instancias/best-case/mejorcaso.txt"])
pd.DataFrame(filas_indice, columns=["dataset", "instancia", "n", "archivo"]).to_csv("instancias/best-case/indice.csv", index=False, header=True)


## Dataset 3
Generamos instancias con palabras aleatorias. Deberian ser representativas a un caso promedio de uso.

In [None]:
palabras_totales = 10000
palabras = ["" for i in range(0, palabras_totales)]
filas_indice = []

for i in range(0, palabras_totales):
    palabra = RandomWord(10, True, False, "", False).generate().lower()
    palabras[i] = palabra
    
save_instance('random', 'random', palabras)
filas_indice.append(["random", "random", 1, F"instancias/random/random.txt"])
pd.DataFrame(filas_indice, columns=["dataset", "instancia", "n", "archivo"]).to_csv("instancias/random/indice.csv", index=False, header=True)
