# obtención de datos

In [12]:
import os
import pandas as pd
# Ruta base donde tienes descomprimido Kplib
BASE_DIR = r"C:\Users\cberrocalenriquez\Downloads\TFG\00Uncorrelated" 
# Lista de valores de n que quieres usar
n_values = ["n00050", "n00100", "n00200"]
tipo_instancia = "R10000"  # Siempre el mismo tipo
# Inicializamos lista para almacenar todas las instancias
instancias = []
# Recorremos cada carpeta de tamaño n
for n in n_values:
    ruta = os.path.join(BASE_DIR, n, tipo_instancia)
    if not os.path.isdir(ruta):
        print(f"Ruta no encontrada: {ruta}")
        continue

    # Listamos archivos .kp en esa carpeta (solo los 15 primeros)
    archivos = sorted([f for f in os.listdir(ruta) if f.endswith('.kp')])[:15]

    for archivo in archivos:
        ruta_archivo = os.path.join(ruta, archivo)
        try:
            with open(ruta_archivo, 'r') as f:
                lineas = f.readlines()
            
            # La primera línea contiene: número de ítems y capacidad
            num_items = int(lineas[1].strip())
            capacidad = int(lineas[2].strip())
            # Las siguientes líneas contienen (valor, peso)
            items = [tuple(map(int, linea.strip().split())) for linea in lineas[4:] if linea.strip()]
            if len(items) != num_items:
                print(f"Advertencia: en {archivo} se esperaban {num_items} ítems pero se leyeron {len(items)}")
                continue
            valores, pesos = zip(*items)
            instancias.append({
                "n": num_items,
                "Capacidad": capacidad,
                "Utilidades": list(valores),
                "Pesos": list(pesos),
                "Archivo": archivo
            })
        except Exception as e:
            print(f"Error al leer {archivo}: {e}")

# Convertimos a DataFrame
df_kplib = pd.DataFrame(instancias)
print(f"Instancias cargadas: {df_kplib.shape}")




df_kplib = df_kplib[[
    "Archivo", "n", "Capacidad",
    "Utilidades", "Pesos"
]]


display(df_kplib)

Instancias cargadas: (45, 5)


Unnamed: 0,Archivo,n,Capacidad,Utilidades,Pesos
0,s000.kp,50,147678,"[8445, 7580, 4206, 2590, 5113, 4050, 7838, 303...","[8032, 4480, 805, 3201, 5080, 9329, 1091, 5513..."
1,s001.kp,50,135850,"[1344, 8475, 7638, 2551, 4955, 4495, 6516, 788...","[3034, 5876, 8825, 8462, 5053, 5891, 346, 2428..."
2,s002.kp,50,138017,"[9561, 9479, 566, 849, 8355, 7360, 6698, 3082,...","[4901, 9249, 5009, 8316, 3540, 8829, 8998, 461..."
3,s003.kp,50,135881,"[2380, 5443, 3700, 6040, 6258, 656, 132, 8375,...","[6820, 9290, 8565, 9910, 6713, 1631, 8607, 964..."
4,s004.kp,50,116084,"[2361, 1032, 3961, 1550, 666, 4016, 9180, 8005...","[2805, 5347, 4713, 3429, 9973, 1956, 4128, 202..."
5,s005.kp,50,119119,"[6230, 7418, 7952, 9425, 7399, 9224, 291, 4657...","[3379, 3100, 8186, 4808, 3158, 4813, 7047, 571..."
6,s006.kp,50,120325,"[7934, 8220, 4851, 2617, 5, 6629, 4703, 7598, ...","[8801, 5253, 1169, 6628, 3123, 1963, 4838, 138..."
7,s007.kp,50,128167,"[3239, 1509, 6510, 725, 5359, 3657, 580, 5075,...","[9802, 1181, 4182, 7572, 1520, 4890, 393, 6683..."
8,s008.kp,50,109740,"[2268, 9623, 1264, 7049, 852, 2475, 9992, 2094...","[7022, 9500, 8435, 5037, 1977, 1502, 5288, 509..."
9,s009.kp,50,114750,"[4631, 3734, 1386, 8666, 65, 5028, 8983, 809, ...","[836, 5398, 175, 849, 4968, 9210, 4202, 3982, ..."


In [None]:
from scipy.optimize import linprog
import pandas as pd
from time import perf_counter


def solve_knapsack_bs(c_bar, c_hat, pesos, capacidad, gamma):
    n = len(c_bar)  # número de ítems
    c = [-ci for ci in c_bar] + [gamma] + [1]*n  # función objetivo CAMBIADA DE SIGNO: c_bar·x + γ·z + sum(p_j)
    A_ub = [pesos + [0]*(1 + n)]  # restricción de capacidad en x + añadir 0's para z,p
    b_ub = [capacidad]
    for j in range(n):  # restricciones de robustez: hat_cj·xj - z - pj ≤ 0
        row = [0]*n + [0] + [0]*n
        row[j] = c_hat[j]
        row[n] = -1       # z
        row[n+1+j] = -1   # p_j
        A_ub.append(row)
        b_ub.append(0.0)
    bounds = [(0, 1)]*n + [(0, None)] + [(0, None)]*n  # variables entre 0 y 1
    t0 = perf_counter()
    res = linprog(c=c, A_ub=A_ub, b_ub=b_ub, bounds=bounds, method="highs")  # resolver
    t1 = perf_counter()
    elapsed = t1-t0

    if res.success:
        x, z, p = res.x[:n], res.x[n], res.x[n+1:]
        return -res.fun, x, z, p, elapsed
    else:
        print("Optimización fallida:", res.message)
        return None, None, None, None

def total_solver(pct_desviacion):
    df_resultado = []
    df_kplib["Desviacion"] = df_kplib["Utilidades"].apply(lambda u: [abs(pct_desviacion * ui) for ui in u])

    for i in range(len(df_kplib)):
        n = len(df_kplib["Utilidades"][i])
        gammas = [(round(pct * n),pct) for pct in [0, 0.05,0.1, 0.25, 0.5, 0.75, 1.0]]
        for gamma,pct in gammas:
            f, x, z, p, tiempo = solve_knapsack_bs(
                c_bar=df_kplib["Utilidades"][i],
                c_hat=df_kplib["Desviacion"][i],
                pesos=df_kplib["Pesos"][i],
                capacidad=df_kplib["Capacidad"][i],
                gamma=gamma
            )
            if f is not None:
                utilidades_desviadas = [ ui - di for ui, di in zip(df_kplib["Utilidades"][i], df_kplib["Desviacion"][i])]
                df_res = pd.DataFrame([{
                    "Archivo": df_kplib["Archivo"][i],
                    "Número de ítems": df_kplib["n"][i],
                    "Utilidades": df_kplib["Utilidades"][i],
                    "Utilidades Desviadas": utilidades_desviadas,
                    "Capacidad": df_kplib["Capacidad"][i],
                    "% Desviación": pct_desviacion,
                    "Gamma": gamma,
                    "% de Parámetros": pct,
                    "Valor objetivo": f,
                    "Solución Óptima": x,
                    "z": z,
                    "p": p,
                    "Tiempo (s)": tiempo
                }])
                df_resultado.append(df_res)

    return pd.concat(df_resultado, ignore_index=True)


df_baja = total_solver(pct_desviacion=0.1)
df_media = total_solver(pct_desviacion=0.3)
df_alta = total_solver(pct_desviacion=0.5)

df = pd.concat([df_baja, df_media, df_alta], ignore_index=True)
df["Valor Objetivo", "z"] = df["Valor Objetivo","z"].round(2)

display(df)

# Crear una columna única por instancia (asumiendo que las columnas existen y son strings o ints)
df["Instancia Id"] = (
    df["Archivo"].astype(str) + "_" +
    df["Número de ítems"].astype(str) + "_" +
    df["Capacidad"].astype(str) + "_" +
    df["% Desviación"].astype(str)
)

# Crear una nueva columna para guardar el incremento relativo
df["Incremento"] = float("nan")  # inicialmente vacío

Unnamed: 0,Archivo,Número de ítems,Utilidades,Utilidades Desviadas,Capacidad,% Desviación,Gamma,% de Parámetros,Valor objetivo,Solución Óptima,z,p,Tiempo (s)
0,s000.kp,50,"[8445, 7580, 4206, 2590, 5113, 4050, 7838, 303...","[7600.5, 6822.0, 3785.4, 2331.0, 4601.7, 3645....",147678,0.1,0,0.00,210366.335940,"[1.0, 1.0, 1.0, 0.0, 1.0, 0.0, 1.0, 0.0, 0.0, ...",982.800000,"[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...",0.016741
1,s000.kp,50,"[8445, 7580, 4206, 2590, 5113, 4050, 7838, 303...","[7600.5, 6822.0, 3785.4, 2331.0, 4601.7, 3645....",147678,0.1,2,0.05,208415.935940,"[1.0, 1.0, 1.0, 0.0, 1.0, 0.0, 1.0, 0.0, 0.0, ...",967.600000,"[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...",0.010971
2,s000.kp,50,"[8445, 7580, 4206, 2590, 5113, 4050, 7838, 303...","[7600.5, 6822.0, 3785.4, 2331.0, 4601.7, 3645....",147678,0.1,5,0.10,205627.902401,"[1.0, 1.0, 1.0, 0.0, 1.0, 0.0, 1.0, 0.0, 0.0, ...",908.200000,"[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...",0.008818
3,s000.kp,50,"[8445, 7580, 4206, 2590, 5113, 4050, 7838, 303...","[7600.5, 6822.0, 3785.4, 2331.0, 4601.7, 3645....",147678,0.1,12,0.25,199594.626041,"[1.0, 1.0, 1.0, 0.0, 1.0, 0.0, 1.0, 0.0, 0.0, ...",805.100000,"[39.39999999999998, 0.0, 0.0, 0.0, 0.0, 0.0, 0...",0.010046
4,s000.kp,50,"[8445, 7580, 4206, 2590, 5113, 4050, 7838, 303...","[7600.5, 6822.0, 3785.4, 2331.0, 4601.7, 3645....",147678,0.1,25,0.50,191178.462605,"[1.0, 1.0, 1.0, 0.0, 1.0, 0.0, 1.0, 0.0, 0.0, ...",472.200000,"[372.3, 285.8, 0.0, 0.0, 39.10000000000002, 0....",0.007614
...,...,...,...,...,...,...,...,...,...,...,...,...,...
940,s014.kp,200,"[1069, 7026, 6521, 9404, 2712, 2558, 7341, 658...","[534.5, 3513.0, 3260.5, 4702.0, 1356.0, 1279.0...",496631,0.5,20,0.10,722264.868346,"[0.0, 1.0, 1.0, 0.9922373458102935, 1.0, 0.0, ...",4665.500000,"[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...",0.009526
941,s014.kp,200,"[1069, 7026, 6521, 9404, 2712, 2558, 7341, 658...","[534.5, 3513.0, 3260.5, 4702.0, 1356.0, 1279.0...",496631,0.5,50,0.25,597739.894157,"[0.0, 1.0, 1.0, 0.7495746490854955, 1.0, 0.0, ...",3524.500000,"[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 146.0, 0.0, 0.0...",0.024060
942,s014.kp,200,"[1069, 7026, 6521, 9404, 2712, 2558, 7341, 658...","[534.5, 3513.0, 3260.5, 4702.0, 1356.0, 1279.0...",496631,0.5,100,0.50,455298.789791,"[0.0, 0.5520922288642188, 1.0, 1.0, 1.0, 1.0, ...",1939.500000,"[0.0, 0.0, 1320.9999999999998, 2762.5, 0.0, 0....",0.013314
943,s014.kp,200,"[1069, 7026, 6521, 9404, 2712, 2558, 7341, 658...","[534.5, 3513.0, 3260.5, 4702.0, 1356.0, 1279.0...",496631,0.5,150,0.75,409136.251441,"[0.0, 1.0, 1.0, 1.0, 1.0, 0.05819590504360309,...",74.432563,"[0.0, 3438.567437449232, 3186.067437449232, 46...",0.013796


# analítica de resultados

## Incremento Valor Objetivo vs SP

In [None]:
# Para cada instancia única
for instancia in df["Instancia Id"].unique():
    df_filtered = df[df["Instancia Id"] == instancia]
    if (df_filtered["Gamma"] == 0).any():
        valor_ref = df_filtered.loc[df_filtered["Gamma"] == 0, "Valor objetivo"].values[0]
        df.loc[df["Instancia Id"] == instancia, "Incremento"] = (
            ((df_filtered["Valor objetivo"] - valor_ref) / valor_ref)*100
        ).values

# Agrupar resultados por desviación, gamma y número de ítems
df_agg = df.groupby(["% Desviación", "Gamma", "Número de ítems", "% de Parámetros"])["Incremento"].mean().reset_index()
df_agg = df_agg.round(2)
df_agg.to_clipboard(index=False)
display(df_agg)

Unnamed: 0,% Desviación,Gamma,Número de ítems,% de Parámetros,Incremento
0,0.1,0,50,0.00,0.000000
1,0.1,0,100,0.00,0.000000
2,0.1,0,200,0.00,0.000000
3,0.1,2,50,0.05,-0.985932
4,0.1,5,50,0.10,-2.384391
...,...,...,...,...,...
58,0.5,75,100,0.75,-49.941007
59,0.5,100,100,1.00,-50.000000
60,0.5,100,200,0.50,-43.655309
61,0.5,150,200,0.75,-49.997243


In [35]:
df_agg_100 = df_agg[df_agg["Número de ítems"]==100]
df_agg_100 = df_agg_100.round(2)
df_agg_100.to_clipboard(index=False)
display(df_agg_100)

Unnamed: 0,% Desviación,Gamma,Número de ítems,% de Parámetros,Incremento
1,0.1,0,100,0.0,0.0
5,0.1,5,100,0.05,-1.22
6,0.1,10,100,0.1,-2.37
11,0.1,25,100,0.25,-5.43
14,0.1,50,100,0.5,-9.04
16,0.1,75,100,0.75,-10.0
17,0.1,100,100,1.0,-10.0
22,0.3,0,100,0.0,0.0
26,0.3,5,100,0.05,-3.65
27,0.3,10,100,0.1,-7.1


In [51]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 945 entries, 0 to 944
Data columns (total 15 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   Archivo               945 non-null    object 
 1   Número de ítems       945 non-null    int64  
 2   Utilidades            945 non-null    object 
 3   Utilidades Desviadas  945 non-null    object 
 4   Capacidad             945 non-null    int64  
 5   % Desviación          945 non-null    float64
 6   Gamma                 945 non-null    int64  
 7   % de Parámetros       945 non-null    float64
 8   Valor objetivo        945 non-null    float64
 9   Solución Óptima       945 non-null    object 
 10  z                     945 non-null    float64
 11  p                     945 non-null    object 
 12  Tiempo (s)            945 non-null    float64
 13  Instancia Id          945 non-null    object 
 14  Incremento            945 non-null    float64
dtypes: float64(6), int64(3)

## tiempo de computación

In [55]:
df_tiempo = df.groupby(["Número de ítems", "Gamma"])["Tiempo (s)"].sum()
display(df_tiempo)

Número de ítems  Gamma
50               0        0.258282
                 2        0.217284
                 5        0.212467
                 12       0.238626
                 25       0.225088
                 38       0.226281
                 50       0.240493
100              0        0.318656
                 5        0.290272
                 10       0.324938
                 25       0.321287
                 50       0.359616
                 75       0.329286
                 100      0.343500
200              0        0.663406
                 10       0.621303
                 20       0.616605
                 50       0.661362
                 100      0.677742
                 150      0.635971
                 200      0.673237
Name: Tiempo (s), dtype: float64

## desviación del valor objetivo

In [None]:
import numpy as np
import pandas as pd

# -----------------------------------------------------------------------------
# Objetivo:
# Para cada instancia (Archivo, Número de ítems), construimos las funciones
# objetivo "desviadas" (una por cada % Desviación presente en df).
# Para CADA solución óptima (cada % de Parámetros / Gamma), evaluamos c^T x
# frente a TODAS esas funciones objetivo y medimos la desviación estándar.
# Luego, comparamos su STD con la STD del SP (Gamma=0) de ESA MISMA instancia
# y mismo nivel de % Desviación -> "Reducción STD vs SP (%)".
# -----------------------------------------------------------------------------

resultados = []

# 1) Recorremos por instancia base: mismo Archivo y mismo n -> mismos ítems
for (archivo, n_items), df_g in df.groupby(["Archivo", "Número de ítems"]):

    # 1.a) Objetivos únicos por nivel de % Desviación (evita duplicar por Gamma)
    df_obj = (
        df_g.sort_values("% Desviación")
           .drop_duplicates(subset=["% Desviación"], keep="first")
           .loc[:, ["% Desviación", "Utilidades Desviadas"]]
           .reset_index(drop=True)
    )
    # Matriz U (k x n_items): cada fila es un vector de utilidades desviadas
    U = np.vstack(df_obj["Utilidades Desviadas"].apply(np.array).to_numpy())  # p.ej., k=3
    niveles = df_obj["% Desviación"].tolist()

    # 1.b) Evaluamos CADA solución óptima del grupo con TODAS las funciones objetivo U
    for _, row in df_g.iterrows():
        x = np.array(row["Solución Óptima"], dtype=float)   # vector (n_items,)
        valores = U @ x                                     # c^T x para cada nivel en 'niveles'

        media_valor = float(np.mean(valores))
        std_valor   = float(np.std(valores, ddof=1)) if len(valores) > 1 else 0.0
        cv_valor    = (std_valor / abs(media_valor)) if media_valor != 0 else np.nan

        resultados.append({
            "Archivo": archivo,
            "Número de ítems": n_items,
            # Identidad de la solución evaluada:
            "% de Parámetros": row["% de Parámetros"],      # Gamma/n
            "Gamma": row.get("Gamma", np.nan),              # (opcional) Gamma absoluto si lo tienes
            "% Desviación (de la solución)": row["% Desviación"],  # nivel donde se obtuvo ESA solución
            # Conjunto de objetivos usados para evaluar:
            "Niveles usados": niveles,
            # Resultados:
            "Media (valor obj)": media_valor,
            "Desv (valor obj)": std_valor,
            "CV (valor obj)": cv_valor
        })

# 2) DataFrame detallado: una fila por SOLUCIÓN evaluada
df_eval = pd.DataFrame(resultados)

# 3) Baseline SP (Gamma=0) por instancia y MISMO nivel de % Desviación (no hay casos sin match)
df_sp_lvl = (
    df_eval[df_eval["% de Parámetros"] == 0]
      .loc[:, ["Archivo", "Número de ítems", "% Desviación (de la solución)", "Desv (valor obj)"]]
      .rename(columns={"Desv (valor obj)": "Desv SP (match nivel)"})
)

df_eval = df_eval.merge(
    df_sp_lvl,
    on=["Archivo", "Número de ítems", "% Desviación (de la solución)"],
    how="left"
)

# Referencia de SP (misma instancia y mismo nivel)
df_eval["Desv SP ref"] = df_eval["Desv SP (match nivel)"]

# 4) Reducción de STD vs SP por SOLUCIÓN (sin promediar)
den = df_eval["Desv SP ref"].replace(0, np.nan)
df_eval["Reducción STD vs SP (%)"] = ((df_eval["Desv SP ref"] - df_eval["Desv (valor obj)"]) / df_eval["Desv SP ref"]) * 100

# Por definición, para SP (% de Parámetros == 0) la reducción es 0
df_eval.loc[df_eval["% de Parámetros"] == 0, "Reducción STD vs SP (%)"] = 0.0

# 5) Resumen (media y mediana) por n y % de Parámetros (Gamma/n), para comparar entre Gammas
df_mejora_agg = (
    df_eval.groupby(["Número de ítems", "% de Parámetros"], as_index=False)
           .agg(
               mejora_media=("Reducción STD vs SP (%)", "mean"),
               mejora_p50  =("Reducción STD vs SP (%)", "median")
           )
)

# 6) Si quieres los datos listos para la figura de n=100:
df_mejora_n100 = df_mejora_agg[df_mejora_agg["Número de ítems"] == 100].copy()

# ------------------------ EJEMPLOS DE USO ------------------------------------
# Detalle por solución (incluye baseline y reducción):
display(df_eval[["Archivo","Número de ítems","% de Parámetros","% Desviación (de la solución)",
                  "Desv (valor obj)","Desv SP ref","Reducción STD vs SP (%)"]].head(50))

# Resumen por n y % de Parámetros:
display(df_mejora_agg.sort_values(["Número de ítems", "% de Parámetros"]))

# Datos listos para graficar (n=100):
display(df_mejora_n100.sort_values("% de Parámetros"))


Unnamed: 0,Archivo,Número de ítems,% de Parámetros,% Desviación (de la solución),Desv (valor obj),Desv SP ref,Reducción STD vs SP (%)
0,s000.kp,50,0.0,0.1,42073.267188,42073.267188,0.0
1,s000.kp,50,0.05,0.1,42073.267188,42073.267188,0.0
2,s000.kp,50,0.1,0.1,42072.60048,42073.267188,0.001584635
3,s000.kp,50,0.25,0.1,42052.705208,42073.267188,0.04887184
4,s000.kp,50,0.5,0.1,42006.492521,42073.267188,0.1587104
5,s000.kp,50,0.75,0.1,42073.267188,42073.267188,0.0
6,s000.kp,50,1.0,0.1,42073.267188,42073.267188,0.0
7,s000.kp,50,0.0,0.3,42073.267188,42073.267188,0.0
8,s000.kp,50,0.05,0.3,42073.267188,42073.267188,0.0
9,s000.kp,50,0.1,0.3,42044.311062,42073.267188,0.0688231


Unnamed: 0,Número de ítems,% de Parámetros,mejora_media,mejora_p50
0,50,0.0,0.0,0.0
1,50,0.05,0.023352,0.0
2,50,0.1,0.133688,0.021099
3,50,0.25,0.607736,0.275371
4,50,0.5,1.39888,1.063298
5,50,0.75,0.077999,0.0
6,50,1.0,0.0,0.0
7,100,0.0,0.0,0.0
8,100,0.05,0.017974,0.0
9,100,0.1,0.068631,0.002911


Unnamed: 0,Número de ítems,% de Parámetros,mejora_media,mejora_p50
7,100,0.0,0.0,0.0
8,100,0.05,0.017974,0.0
9,100,0.1,0.068631,0.002911
10,100,0.25,0.49816,0.214813
11,100,0.5,1.299481,0.778493
12,100,0.75,0.127036,0.0
13,100,1.0,0.0,0.0
