In [None]:
# Este Notebook permite ajustar el archivo origen de OpenSky y adaptarlo a los distintos componentes del TFM

# Para utilizarlo, ubicar en su mismo directorio el archivo json descargado desde OpenSky, ajustar en las líneas inferiores
#   el nombre de archivo y se realizarán las operaciones para obtener tres archivos que representan
#   - reducido: número de aeronaves detectadas en cada intervalo = 500
#   - medio: número de aeronaves detectadas en cada intervalo = 1500
#   - completo: número de aeronaves detectadas en cada intervalo < 7000

In [None]:
# Importa librerias 
import random
import json
from collections import defaultdict

In [None]:
# Cargar el archivo 
#   Agrupar mensajes por bloques de tiempo
#     aquellos mensaje con el mismo valor del atributo 'time' se incluirán en un mismo grupo

# Archivo original
input_file = "states_2022-06-27-12_UE.json"        

with open(input_file, 'r') as file:
    data = json.load(file)

# Crea un diccionario con listas como valores
datos_agrupados_completos = defaultdict(list)   


# Itera sobre cada aeronave en los datos para agrupar por el campo "time"
for aeronave in data:                                              
    if "time" in aeronave:
        datos_agrupados_completos[int(aeronave["time"])].append(aeronave)     

# Truncamos los valores de callsign a los dos primeros caracteres para asegurar cumplimiento GRPD
for clave, lista in datos_agrupados_completos.items():
    for dic in lista:
        callsign = dic.get('callsign')
        if isinstance(callsign, str):
            dic['callsign'] = callsign[:2]
        else:
            dic['callsign'] = ''  # O cualquier valor por defecto

# Ordena los grupos por 'time'
datos_agrupados_ordenados=sorted(datos_agrupados_completos.items())

In [None]:
# REDUCIDO
# Agrupar mensajes por bloques de tiempo
#   aquellos mensaje con el mismo valor del atributo 'time' se incluirán en un mismo grupo
#   de cada grupo se selecciona una muestra aleatoria de hasta n mensajes para test

n=500

# Crea un diccionario con listas como valores
datos_agrupados_n = defaultdict(list)                                 

# itera sobre cada bloque de tiempo y toma la muestra de n aeronaves
for time, mensaje in datos_agrupados_ordenados:
    if len (mensaje)>n:
        seleccion=random.sample(mensaje,n)
    else:
        seleccion=mensaje
    datos_agrupados_n[time] = seleccion
    
# Guardar en un nuevo archivo plano
salida = []
for mensajes in datos_agrupados_n.values():
    salida.extend(mensajes)

with open('states_2022-06-27-12_UE_reducido.json', 'w') as f_out:
    json.dump(salida, f_out)

In [None]:
# MEDIO
# Agrupar mensajes por bloques de tiempo
#   aquellos mensaje con el mismo valor del atributo 'time' se incluirán en un mismo grupo
#   de cada grupo se selecciona una muestra aleatoria de hasta n mensajes para test


n=1500


# Crea un diccionario con listas como valores
datos_agrupados_n = defaultdict(list)                                 

# itera sobre cada bloque de tiempo y toma la muestra de n aeronaves
for time, mensaje in datos_agrupados_ordenados:
    if len (mensaje)>n:
        seleccion=random.sample(mensaje,n)
    else:
        seleccion=mensaje
    datos_agrupados_n[time] = seleccion
    
# Guardar en un nuevo archivo plano
salida = []
for mensajes in datos_agrupados_n.values():
    salida.extend(mensajes)



with open('states_2022-06-27-12_UE_medio.json', 'w') as f_out:
    json.dump(salida, f_out)


In [None]:
# COMPLETO
# Agrupar mensajes por bloques de tiempo
#   aquellos mensaje con el mismo valor del atributo 'time' se incluirán en un mismo grupo
#   de cada grupo se selecciona una muestra aleatoria de hasta n mensajes para test


n=7000

# Crea un diccionario con listas como valores
datos_agrupados_n = defaultdict(list)                                 

# itera sobre cada bloque de tiempo y toma la muestra de n aeronaves
for time, mensaje in datos_agrupados_ordenados:
    if len (mensaje)>n:
        seleccion=random.sample(mensaje,n)
    else:
        seleccion=mensaje
    datos_agrupados_n[time] = seleccion
    
# Guardar en un nuevo archivo plano
salida = []
for mensajes in datos_agrupados_n.values():
    salida.extend(mensajes)

with open('states_2022-06-27-12_UE_completo.json', 'w') as f_out:
    json.dump(salida, f_out)