In [15]:
import zlib
import numpy as np

In [16]:
def leer_archivo(nombre_archivo):
    """Lee el archivo y devuelve los datos estructurados"""
    with open(nombre_archivo, 'r') as f:
        lineas = f.readlines()
    
    n, m = map(int, lineas[0].split())
    ids = lineas[1].strip().split()
    datos = np.array([list(map(int, linea.strip().split())) for linea in lineas[2:2+n]])
    
    return n, m, ids, datos


In [17]:
def codificar_alt1_sin_cuantizacion(datos):
    """Alternativa 1 pura sin cuantización"""
    encoded = np.zeros_like(datos)
    encoded[:, 0] = datos[:, 0]
    for i in range(1, datos.shape[1]):
        encoded[:, i] = datos[:, i] - datos[:, i-1]
    return encoded

In [18]:
def codificar_hibrido_sin_cuantizacion(datos):
    """Híbrido sin cuantización, usando floats nativos"""
    corr_matrix = np.corrcoef(datos)
    ref_index = np.argmax(np.mean(corr_matrix, axis=1))
    referencia = datos[ref_index]
    
    # Diferencias espaciales y temporales
    dif_espacial = datos - referencia
    deltas = np.diff(dif_espacial, axis=1, prepend=0)
    return deltas


In [19]:
def comprimir_justo(datos_codificados):
    """Compresión usando representación binaria nativa de floats (64 bits)"""
    return zlib.compress(datos_codificados.tobytes())

In [22]:
filename = "../procesa_archivos_2024/outputdata_m30_fulldates/archivos_articulo/m30_2024_data_fulldates_intensidad.txt"
n, m, ids, datos = leer_archivo(filename)

print("Analizando", datos)

# Codificar
alt1 = codificar_alt1_sin_cuantizacion(datos)
hibrido = codificar_hibrido_sin_cuantizacion(datos)

# Comprimir
c_alt1 = len(comprimir_justo(alt1))
c_hibrido = len(comprimir_justo(hibrido))

# Resultados
print("\n=== COMPARACIÓN JUSTA (sin cuantización) ===")
print(f"Alternativa 1: {c_alt1} bytes")
print(f"Híbrido: {c_hibrido} bytes")
print(f"Diferencia: {c_alt1 - c_hibrido} bytes ({((c_alt1 - c_hibrido)/c_alt1)*100:.1f}% mejor)")

Analizando [[ 190  156  912 ...  525  460  248]
 [ 196  205 1140 ...  740  588  356]
 [ 136  124  776 ...  572  424  260]
 ...
 [ 128  161  600 ...  268  316  212]
 [  32   36  252 ...  119  104   48]
 [  36   24  156 ...   32   64   48]]

=== COMPARACIÓN JUSTA (sin cuantización) ===
Alternativa 1: 15243347 bytes
Híbrido: 17003950 bytes
Diferencia: -1760603 bytes (-11.5% mejor)


In [23]:
filenameGroups = "../procesa_archivos_2024/outputdata_m30_fulldates/archivos_articulo/m30_2024_ids_estructura_intensidad.txt"
with open(filenameGroups, 'r') as f:
    lineas = f.readlines()
gs = list(map(int, lineas[0].split()))
p = 1
for g in gs:
    idsG = lineas[p].split()
    dataG = np.zeros((g, m))
    posG = 0
    for idG in idsG:
        indice = ids.index(idG)
        dataG[posG] = datos[indice]
    print("Analizando grupo", p, ":", idsG)
    print("Datos", dataG)
    
    # Codificar
    alt1 = codificar_alt1_sin_cuantizacion(dataG)
    hibrido = codificar_hibrido_sin_cuantizacion(dataG)
    
    # Comprimir
    c_alt1 = len(comprimir_justo(alt1))
    c_hibrido = len(comprimir_justo(hibrido))
    
    # Resultados
    print("\n=== COMPARACIÓN JUSTA (sin cuantización) ===")
    print(f"Alternativa 1: {c_alt1} bytes")
    print(f"Híbrido: {c_hibrido} bytes")
    print(f"Diferencia: {c_alt1 - c_hibrido} bytes ({((c_alt1 - c_hibrido)/c_alt1)*100:.1f}% mejor)")
    
    p += 1

IOPub data rate exceeded.
The Jupyter server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--ServerApp.iopub_data_rate_limit`.

Current values:
ServerApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
ServerApp.rate_limit_window=3.0 (secs)



TypeError: list indices must be integers or slices, not tuple