# Social Graph Analyzer

## Importar librerias

In [1]:
import zipfile  # Librería para manejar archivos ZIP (comprimir y descomprimir)
import os       # Librería para interactuar con el sistema de archivos (rutas, directorios, etc.)
import requests # Librería para hacer solicitudes HTTP (descargar archivos desde internet)
import unicodedata  # Librería para normalizar texto y eliminar tildes/caracteres especiales
import csv # Librería para manejar archivos CSV
import random # Librería para generar números aleatorios
from itertools import cycle #

## Definir variables globales

Ruta de las carpetas de almacenamiento de la información

In [2]:
CARPETA_DATASET = "datasets"
CARPETA_SQL = "sql"

Nombre de archivos a usar

In [3]:
ARCHIVO_NOMBRES_PERU = "firstnames_peru.csv" # Nombres de personas (Perú)
ARCHIVO_APELLIDOS_PERU = "lastnames_peru.csv" # Apellidos de personas (Perú)
ARCHIVO_HOBBIES = "hobbies.csv"

Definir el log (mensaje de lote de impresión)

In [4]:
LOG_PROCESAMIENTO = 1000

Usuarios a procesar (máximos)

In [5]:
USUARIOS_MAXIMOS = 1000 # Probamos

## Obtener CSV nombres frecuentes (Perú)

Fuente:
- Rob Hoare. (2019). *Frequency and Rank of First Names in Peru (1.0.0)* [Data set]. Zenodo. https://doi.org/10.5281/zenodo.3371747

In [6]:
URL_NOMBRES_PERU = "https://zenodo.org/record/3371747/files/firstnames_peru.csv?download=1"

In [7]:
response_nombres_peru = requests.get(URL_NOMBRES_PERU, stream=True)
response_nombres_peru.raise_for_status()

In [8]:
ruta_archivo_nombres = os.path.join(CARPETA_DATASET, ARCHIVO_NOMBRES_PERU)
os.makedirs(CARPETA_DATASET, exist_ok=True)
with open(ruta_archivo_nombres, 'wb') as f:
    f.write(response_nombres_peru.content)
print(f"Archivo {ARCHIVO_NOMBRES_PERU} guardado en {CARPETA_DATASET}")

Archivo firstnames_peru.csv guardado en datasets


In [9]:
ARCHIVO_NOMBRES_PERU_LOWERCASE_TXT="firstnames_peru.txt"

In [10]:
def quitar_tildes(texto):
    return ''.join(
        c for c in unicodedata.normalize('NFD', texto)
        if unicodedata.category(c) != 'Mn'
    )

def convertir_csv_nombres_a_txt(
    carpeta_dataset=CARPETA_DATASET,
    archivo_nombres_csv=ARCHIVO_NOMBRES_PERU,
    archivo_nombres_txt=ARCHIVO_NOMBRES_PERU_LOWERCASE_TXT
):
    ruta_archivo_nombres_csv = os.path.join(carpeta_dataset, archivo_nombres_csv)
    ruta_archivo_nombres_txt = os.path.join(carpeta_dataset, archivo_nombres_txt)
    try:
        with open(ruta_archivo_nombres_csv, 'r', encoding='utf-8') as f_entrada, \
             open(ruta_archivo_nombres_txt, 'w', encoding='utf-8') as f_salida:
            f_entrada.readline()  # saltar encabezado
            for linea in f_entrada:
                partes = linea.strip().split(',')
                if len(partes) >= 4:
                    nombre = partes[3].strip().replace('"', '')
                    nombre = quitar_tildes(nombre)
                    nombre = nombre.lower()  # convertir a minúsculas
                    f_salida.write(nombre + '\n')
        print(f"Nombres procesados y guardados en '{ruta_archivo_nombres_txt}'")
        with open(ruta_archivo_nombres_txt, 'r', encoding='utf-8') as f_verificar:
            print("\nPrimeras 5 líneas del archivo generado:")
            for i, linea in enumerate(f_verificar):
                if i >= 5:
                    break
                print(linea.strip())
    except FileNotFoundError:
        print(f"Error: El archivo '{ruta_archivo_nombres_csv}' no fue encontrado.")
    except Exception as e:
        print(f"Ocurrió un error al procesar el archivo: {e}")

In [11]:
convertir_csv_nombres_a_txt()

Nombres procesados y guardados en 'datasets/firstnames_peru.txt'

Primeras 5 líneas del archivo generado:
maria
jose
luis
juan
carlos


In [12]:
ruta_csv_a_eliminar = os.path.join(CARPETA_DATASET, ARCHIVO_NOMBRES_PERU)
if os.path.exists(ruta_csv_a_eliminar):
    os.remove(ruta_csv_a_eliminar)
    print(f"Archivo {ARCHIVO_NOMBRES_PERU} eliminado de {CARPETA_DATASET}.")
else:
    print(f"Archivo {ARCHIVO_NOMBRES_PERU} no encontrado en {CARPETA_DATASET}.")

Archivo firstnames_peru.csv eliminado de datasets.


## Obtener apellidos frecuentes (Perú)

Fuente:
- Rob Hoare. (2019). *Frequency and Rank of First Names in Peru (1.0.0)* [Data set]. Zenodo. https://doi.org/10.5281/zenodo.3371747

In [13]:
URL_APELLIDOS_PERU = "https://zenodo.org/record/3376814/files/lastnames_peru.csv?download=1"

In [14]:
response_apellidos_peru = requests.get(URL_APELLIDOS_PERU, stream=True)
response_apellidos_peru.raise_for_status()

In [15]:
ruta_archivo_apellidos = os.path.join(CARPETA_DATASET, ARCHIVO_APELLIDOS_PERU)
os.makedirs(CARPETA_DATASET, exist_ok=True)
with open(ruta_archivo_apellidos, 'wb') as f:
    f.write(response_apellidos_peru.content)
print(f"Archivo {ARCHIVO_APELLIDOS_PERU} guardado en {CARPETA_DATASET}")

Archivo lastnames_peru.csv guardado en datasets


In [16]:
ARCHIVO_APELLIDOS_PERU_LOWERCASE_TXT="lastnames_peru.txt"

In [17]:
def convertir_csv_apellidos_a_txt(
    carpeta_dataset=CARPETA_DATASET,
    archivo_apellidos_csv=ARCHIVO_APELLIDOS_PERU,
    archivo_apellidos_txt=ARCHIVO_APELLIDOS_PERU_LOWERCASE_TXT
):
    ruta_archivo_apellidos_csv = os.path.join(carpeta_dataset, archivo_apellidos_csv)
    ruta_archivo_apellidos_txt = os.path.join(carpeta_dataset, archivo_apellidos_txt)
    try:
        with open(ruta_archivo_apellidos_csv, 'r', encoding='utf-8') as f_entrada, \
             open(ruta_archivo_apellidos_txt, 'w', encoding='utf-8') as f_salida:
            f_entrada.readline()  # saltar encabezado
            for linea in f_entrada:
                partes = linea.strip().split(',')
                if len(partes) >= 4:
                    apellido = partes[3].strip().replace('"', '')
                    apellido = quitar_tildes(apellido)
                    apellido = apellido.lower()  # convertir a minúsculas
                    f_salida.write(apellido + '\n')
        print(f"Apellidos procesados y guardados en '{ruta_archivo_apellidos_txt}'")
        with open(ruta_archivo_apellidos_txt, 'r', encoding='utf-8') as f_verificar:
            print("\nPrimeras 5 líneas del archivo generado:")
            for i, linea in enumerate(f_verificar):
                if i >= 5:
                    break
                print(linea.strip())
    except FileNotFoundError:
        print(f"Error: El archivo '{ruta_archivo_apellidos_csv}' no fue encontrado.")
    except Exception as e:
        print(f"Ocurrió un error al procesar el archivo: {e}")

In [18]:
convertir_csv_apellidos_a_txt()

Apellidos procesados y guardados en 'datasets/lastnames_peru.txt'

Primeras 5 líneas del archivo generado:
quispe
flores
sanchez
garcia
rodriguez


In [19]:
ruta_csv_a_eliminar_2 = os.path.join(CARPETA_DATASET, ARCHIVO_APELLIDOS_PERU)
if os.path.exists(ruta_csv_a_eliminar_2):
    os.remove(ruta_csv_a_eliminar_2)
    print(f"Archivo {ARCHIVO_NOMBRES_PERU} eliminado de {CARPETA_DATASET}.")
else:
    print(f"Archivo {ARCHIVO_NOMBRES_PERU} no encontrado en {CARPETA_DATASET}.")

Archivo firstnames_peru.csv eliminado de datasets.


## Obtener pasatiempos y tipos de pasatiempos

In [20]:
!gdown --id 1BoqwVCD8AJ-mlSMbNL_xVFLKP6jxfri9 -O datasets/

Downloading...
From: https://drive.google.com/uc?id=1BoqwVCD8AJ-mlSMbNL_xVFLKP6jxfri9
To: /content/datasets/hobbies.csv
100% 960/960 [00:00<00:00, 4.52MB/s]


In [21]:
def generar_diccionarios_hobbies(
    carpeta_dataset=CARPETA_DATASET,
    archivo_hobbies_csv=ARCHIVO_HOBBIES
):
    ruta_archivo_hobbies = os.path.join(carpeta_dataset, archivo_hobbies_csv)
    diccionario_hobbies = {}
    diccionario_categorias = {}
    id_hobby = 1
    id_categoria = 1
    mapa_categorias = {}
    try:
        with open(ruta_archivo_hobbies, 'r', encoding='utf-8') as f:
            reader = csv.reader(f)
            next(reader)  # saltar encabezado
            for row in reader:
                if len(row) >= 2:
                    hobby = row[0].strip()
                    tipo = row[1].strip()
                    hobby_sin_tilde = quitar_tildes(hobby).lower()  # todo en minúsculas
                    tipo_sin_tilde = quitar_tildes(tipo).lower()    # todo en minúsculas
                    if tipo_sin_tilde not in mapa_categorias:
                        mapa_categorias[tipo_sin_tilde] = id_categoria
                        diccionario_categorias[id_categoria] = {
                            "id_categoria_hobby": id_categoria,
                            "nombre": tipo_sin_tilde
                        }
                        id_categoria += 1
                    id_cat = mapa_categorias[tipo_sin_tilde]
                    diccionario_hobbies[id_hobby] = {
                        "id_hobby": id_hobby,
                        "id_categoria_hobby": id_cat,
                        "nombre": hobby_sin_tilde
                    }
                    id_hobby += 1
                else:
                    print(
                        f"Advertencia: fila ignorada por formato incorrecto "
                        f"en '{ruta_archivo_hobbies}': {row}"
                    )
    except FileNotFoundError:
        print(f"Error: El archivo '{ruta_archivo_hobbies}' no fue encontrado.")
    except Exception as e:
        print(f"Ocurrió un error al procesar el archivo de hobbies: {e}")
    return diccionario_hobbies, diccionario_categorias

In [22]:
hobbies, categoria_hobbies = generar_diccionarios_hobbies()

In [23]:
hobbies

{1: {'id_hobby': 1, 'id_categoria_hobby': 1, 'nombre': 'correr'},
 2: {'id_hobby': 2, 'id_categoria_hobby': 1, 'nombre': 'natacion'},
 3: {'id_hobby': 3, 'id_categoria_hobby': 1, 'nombre': 'ciclismo'},
 4: {'id_hobby': 4, 'id_categoria_hobby': 1, 'nombre': 'futbol'},
 5: {'id_hobby': 5, 'id_categoria_hobby': 1, 'nombre': 'baloncesto'},
 6: {'id_hobby': 6, 'id_categoria_hobby': 1, 'nombre': 'voley'},
 7: {'id_hobby': 7, 'id_categoria_hobby': 1, 'nombre': 'gimnasia'},
 8: {'id_hobby': 8, 'id_categoria_hobby': 2, 'nombre': 'senderismo'},
 9: {'id_hobby': 9, 'id_categoria_hobby': 2, 'nombre': 'acampar'},
 10: {'id_hobby': 10, 'id_categoria_hobby': 2, 'nombre': 'pescar'},
 11: {'id_hobby': 11, 'id_categoria_hobby': 2, 'nombre': 'jardineria'},
 12: {'id_hobby': 12, 'id_categoria_hobby': 2, 'nombre': 'escalar'},
 13: {'id_hobby': 13, 'id_categoria_hobby': 3, 'nombre': 'leer'},
 14: {'id_hobby': 14, 'id_categoria_hobby': 3, 'nombre': 'escribir'},
 15: {'id_hobby': 15, 'id_categoria_hobby': 4, 

In [24]:
categoria_hobbies

{1: {'id_categoria_hobby': 1, 'nombre': 'deportes'},
 2: {'id_categoria_hobby': 2, 'nombre': 'actividades al aire libre'},
 3: {'id_categoria_hobby': 3, 'nombre': 'actividades culturales'},
 4: {'id_categoria_hobby': 4, 'nombre': 'artes'},
 5: {'id_categoria_hobby': 5, 'nombre': 'manualidades'},
 6: {'id_categoria_hobby': 6, 'nombre': 'coleccionismo'},
 7: {'id_categoria_hobby': 7, 'nombre': 'juegos recreativos'},
 8: {'id_categoria_hobby': 8, 'nombre': 'actividades del hogar'},
 9: {'id_categoria_hobby': 9, 'nombre': 'actividad social'},
 10: {'id_categoria_hobby': 10, 'nombre': 'educativo'}}

## Procesar red social

In [25]:
MAXIMO_CONEXIONES_POR_USUARIO = 5
PORCENTAJE_BIDIRECCIONAL = 0.60
PORCENTAJE_DIRECCIONAL = 0.40

In [26]:
def cargar_datos_completos(
    diccionario_hobbies=hobbies,
    archivo_nombres=ARCHIVO_NOMBRES_PERU_LOWERCASE_TXT,
    archivo_apellidos=ARCHIVO_APELLIDOS_PERU_LOWERCASE_TXT,
    limite_usuarios=USUARIOS_MAXIMOS,

    # Ubicación aleatoria
    rango_latitud=(-60, 60),
    rango_longitud=(-180, 180),

    # Conexiones generadas internamente
    max_conexiones_por_usuario=MAXIMO_CONEXIONES_POR_USUARIO,
    porcentaje_bidireccional=PORCENTAJE_BIDIRECCIONAL,
    porcentaje_direccional=PORCENTAJE_DIRECCIONAL,

    progress_interval=LOG_PROCESAMIENTO
):
    """
    Genera usuarios completos + conexiones generadas internamente.
    NO USA archivo de conexiones.
    """

    archivo_nombres=os.path.join(CARPETA_DATASET, archivo_nombres)
    archivo_apellidos=os.path.join(CARPETA_DATASET, archivo_apellidos)

    # ------------------------------
    # VALIDACIÓN DE PORCENTAJES
    # ------------------------------
    if porcentaje_bidireccional + porcentaje_direccional != 1:
        raise ValueError("La suma de porcentaje_bidireccional + porcentaje_direccional debe ser 1.0")

    # ------------------------------
    # CARGA DE NOMBRES
    # ------------------------------
    if not os.path.exists(archivo_nombres):
        raise FileNotFoundError(f"No se encuentra el archivo: {archivo_nombres}")

    with open(archivo_nombres, "r", encoding="utf-8") as f:
        nombres_lista = [x.strip() for x in f.readlines() if x.strip()]

    nombres_lista = [n for n in nombres_lista if len(n) >= 4]
    random.shuffle(nombres_lista)
    iter_nombres = cycle(nombres_lista)

    # ------------------------------
    # CARGA DE APELLIDOS
    # ------------------------------
    if not os.path.exists(archivo_apellidos):
        raise FileNotFoundError(f"No se encuentra el archivo: {archivo_apellidos}")

    with open(archivo_apellidos, "r", encoding="utf-8") as f:
        apellidos_lista = [x.strip() for x in f.readlines() if x.strip()]

    random.shuffle(apellidos_lista)
    iter_apellidos = cycle(apellidos_lista)

    # ------------------------------
    # IDs de hobbies
    # ------------------------------
    ids_hobbies = list(diccionario_hobbies.keys())

    # ------------------------------
    # RESULTADO FINAL
    # ------------------------------
    diccionario_final = {}

    # ------------------------------
    # GENERACIÓN DE USUARIOS
    # ------------------------------
    for id_usuario in range(1, limite_usuarios + 1):

        # Ubicación aleatoria
        latitud = random.uniform(*rango_latitud)
        longitud = random.uniform(*rango_longitud)

        # Nombre y apellidos
        nombre = next(iter_nombres)
        a1 = next(iter_apellidos)
        a2 = next(iter_apellidos)
        while a1 == a2:
            a2 = next(iter_apellidos)

        apellidos = f"{a1} {a2}"

        # Datos base
        diccionario_final[id_usuario] = {
            "id_usuario": id_usuario,
            "id_hobby": random.choice(ids_hobbies),
            "nombre": nombre,
            "apellidos": apellidos,
            "edad": random.randint(12, 80),
            "latitud": latitud,
            "longitud": longitud,
            "conexiones": []
        }

        if id_usuario % progress_interval == 0:
            print(f"Usuarios generados: {id_usuario}")

    # ------------------------------
    # GENERACIÓN DE CONEXIONES
    # ------------------------------
    for id_usuario in range(1, limite_usuarios + 1):

        cantidad = random.randint(0, max_conexiones_por_usuario)

        posibles = list(range(1, limite_usuarios + 1))
        posibles.remove(id_usuario)

        seleccion = random.sample(posibles, cantidad)

        for destino in seleccion:
            if random.random() < porcentaje_bidireccional:
                # Conexión bidireccional
                diccionario_final[id_usuario]["conexiones"].append(destino)
                diccionario_final[destino]["conexiones"].append(id_usuario)
            else:
                # Solo una dirección
                diccionario_final[id_usuario]["conexiones"].append(destino)

    # Eliminar duplicados
    for uid in diccionario_final:
        diccionario_final[uid]["conexiones"] = sorted(
            set(diccionario_final[uid]["conexiones"])
        )

    print(f"Usuarios cargados: {len(diccionario_final)}")
    print("Conexiones generadas")

    return diccionario_final

In [27]:
usuarios = cargar_datos_completos()

Usuarios generados: 1000
Usuarios cargados: 1000
Conexiones generadas


## Vizualización diccionario

In [28]:
VIZUALIZACION_MAXIMA = 10

In [29]:
for id_usuario in range(1, VIZUALIZACION_MAXIMA + 1):
    if id_usuario in usuarios:
        data = usuarios[id_usuario]
        print(
            f"Usuario {id_usuario} -> "
            f"Nombre: {data['nombre']}, "
            f"Apellidos: {data['apellidos']}, "
            f"Edad: {data['edad']}, "
            f"IdCategoria: {data['id_hobby']}, "
            f"Latitud: {data['latitud']}, Longitud: {data['longitud']}, "
            f"Conexiones: {data['conexiones']}"
        )
    else:
        print(f"Usuario {id_usuario} no existe en el diccionario.")

Usuario 1 -> Nombre: efrain, Apellidos: charqui redondez, Edad: 37, IdCategoria: 38, Latitud: 26.91541189437625, Longitud: -136.17415737437233, Conexiones: [104, 285, 341, 387, 576, 933]
Usuario 2 -> Nombre: malvina, Apellidos: anjis de carlos, Edad: 14, IdCategoria: 14, Latitud: -26.44903803913588, Longitud: 129.44350189826628, Conexiones: [8, 346, 537, 602]
Usuario 3 -> Nombre: marcelino, Apellidos: curmayari loje, Edad: 77, IdCategoria: 28, Latitud: 52.160043200094734, Longitud: 154.7355595826001, Conexiones: [556, 935, 953]
Usuario 4 -> Nombre: santamaria, Apellidos: piminchumo verdi, Edad: 75, IdCategoria: 8, Latitud: 45.37121353825509, Longitud: -111.72076371672415, Conexiones: [19, 215, 645, 938]
Usuario 5 -> Nombre: idelfonsa, Apellidos: tacza badajos, Edad: 34, IdCategoria: 16, Latitud: -1.6420922231309802, Longitud: -33.218293600092665, Conexiones: [191, 354, 444, 497, 620]
Usuario 6 -> Nombre: emersson, Apellidos: garnica puraca, Edad: 20, IdCategoria: 30, Latitud: -17.80733

### Apache AGE SQL

In [30]:
def generar_sql_apache_age(usuarios, hobbies, categoria_hobbies, archivo_salida=os.path.join(CARPETA_SQL, '02-load-data-age.sql'), cantidad_de_filas=5000):
    output_dir = os.path.dirname(archivo_salida)
    if output_dir and not os.path.exists(output_dir):
        os.makedirs(output_dir)
    with open(archivo_salida, 'w', encoding='utf-8') as sql:
        # Setup Apache AGE
        sql.write("SELECT * FROM ag_catalog.create_graph('red_usuarios');\n\n")
        # CATEGORÍAS DE HOBBIES
        sql.write("-- CATEGORÍAS DE HOBBIES (NODOS)\n")
        ids_categorias = sorted(categoria_hobbies.keys())
        for i in range(0, len(ids_categorias), cantidad_de_filas):
            batch = ids_categorias[i:i + cantidad_de_filas]
            categorias_data = []
            for id_cat in batch:
                nombre = categoria_hobbies[id_cat]['nombre'].replace("'", "\\'")
                categorias_data.append(f"{{id_categoria_hobby: {id_cat}, nombre: '{nombre}'}}")
            sql.write("SELECT * FROM cypher('red_usuarios', $$\n")
            sql.write(f"    UNWIND [{', '.join(categorias_data)}] AS cat_data\n")
            sql.write("    CREATE (c:CategoriaHobby)\n")
            sql.write("    SET c = cat_data\n")
            sql.write("$$) AS (result agtype);\n\n")
        # HOBBIES - Solo crear nodos
        sql.write("-- HOBBIES (NODOS) - Solo creación de nodos\n")
        ids_hobbies = sorted(hobbies.keys())
        for i in range(0, len(ids_hobbies), cantidad_de_filas):
            batch = ids_hobbies[i:i + cantidad_de_filas]
            hobbies_data = []
            for id_h in batch:
                nombre = hobbies[id_h]['nombre'].replace("'", "\\'")
                hobbies_data.append(f"{{id_hobby: {id_h}, nombre: '{nombre}'}}")
            sql.write("SELECT * FROM cypher('red_usuarios', $$\n")
            sql.write(f"    UNWIND [{', '.join(hobbies_data)}] AS hobby_data\n")
            sql.write("    CREATE (h:Hobby)\n")
            sql.write("    SET h = hobby_data\n")
            sql.write("$$) AS (result agtype);\n\n")
        # RELACIONES HOBBY -> CATEGORIA (separado)
        sql.write("-- RELACIONES HOBBY -> CATEGORIA\n")
        for i in range(0, len(ids_hobbies), cantidad_de_filas):
            batch = ids_hobbies[i:i + cantidad_de_filas]
            relaciones_data = []
            for id_h in batch:
                id_cat = hobbies[id_h]['id_categoria_hobby']
                relaciones_data.append(f"{{id_hobby: {id_h}, id_categoria: {id_cat}}}")
            sql.write("SELECT * FROM cypher('red_usuarios', $$\n")
            sql.write(f"    UNWIND [{', '.join(relaciones_data)}] AS rel_data\n")
            sql.write("    MATCH (h:Hobby {id_hobby: rel_data.id_hobby})\n")
            sql.write("    MATCH (c:CategoriaHobby {id_categoria_hobby: rel_data.id_categoria})\n")
            sql.write("    CREATE (h)-[:PERTENECE_A]->(c)\n")
            sql.write("$$) AS (result agtype);\n\n")
        # USUARIOS - Solo crear nodos
        sql.write("-- USUARIOS (NODOS) - Solo creación de nodos\n")
        ids_usuarios = sorted(usuarios.keys())
        for i in range(0, len(ids_usuarios), cantidad_de_filas):
            batch = ids_usuarios[i:i + cantidad_de_filas]
            usuarios_data = []
            for id_u in batch:
                u = usuarios[id_u]
                nombre = u['nombre'].replace("'", "\\'")
                apellidos = u['apellidos'].replace("'", "\\'")
                edad = u['edad']
                lat = u.get('latitud')
                lon = u.get('longitud')
                data_str = f"{{id_usuario: {id_u}, nombre: '{nombre}', apellidos: '{apellidos}', edad: {edad}"
                if lat is not None and lon is not None:
                    data_str += f", latitud: {lat}, longitud: {lon}"
                data_str += "}"
                usuarios_data.append(data_str)
            sql.write("SELECT * FROM cypher('red_usuarios', $$\n")
            sql.write(f"    UNWIND [{', '.join(usuarios_data)}] AS usuario_data\n")
            sql.write("    CREATE (u:Usuario)\n")
            sql.write("    SET u = usuario_data\n")
            sql.write("$$) AS (result agtype);\n\n")
        # RELACIONES USUARIO -> HOBBY (separado)
        sql.write("-- RELACIONES USUARIO -> HOBBY\n")
        for i in range(0, len(ids_usuarios), cantidad_de_filas):
            batch = ids_usuarios[i:i + cantidad_de_filas]
            relaciones_data = []
            for id_u in batch:
                id_hobby = usuarios[id_u]['id_hobby']
                relaciones_data.append(f"{{id_usuario: {id_u}, id_hobby: {id_hobby}}}")
            sql.write("SELECT * FROM cypher('red_usuarios', $$\n")
            sql.write(f"    UNWIND [{', '.join(relaciones_data)}] AS rel_data\n")
            sql.write("    MATCH (u:Usuario {id_usuario: rel_data.id_usuario})\n")
            sql.write("    MATCH (h:Hobby {id_hobby: rel_data.id_hobby})\n")
            sql.write("    CREATE (u)-[:TIENE_HOBBY]->(h)\n")
            sql.write("$$) AS (result agtype);\n\n")
        # CONEXIONES entre usuarios
        sql.write("-- CONEXIONES (RELACIONES) entre usuarios\n")
        conexiones_set = set()
        for id_u in ids_usuarios:
            for id_c in usuarios[id_u].get('conexiones', []):
                if id_c in usuarios:
                    conexiones_set.add((id_u, id_c))
        conexiones_list = list(conexiones_set)
        for i in range(0, len(conexiones_list), cantidad_de_filas):
            batch = conexiones_list[i:i + cantidad_de_filas]
            conexiones_data = [f"{{desde: {d}, hacia: {h}}}" for d, h in batch]
            sql.write("SELECT * FROM cypher('red_usuarios', $$\n")
            sql.write(f"    UNWIND [{', '.join(conexiones_data)}] AS conn\n")
            sql.write("    MATCH (u1:Usuario {id_usuario: conn.desde})\n")
            sql.write("    MATCH (u2:Usuario {id_usuario: conn.hacia})\n")
            sql.write("    CREATE (u1)-[:CONECTADO]->(u2)\n")
            sql.write("$$) AS (result agtype);\n\n")
    print(f"{archivo_salida} generado correctamente para Apache AGE")

In [31]:
generar_sql_apache_age(usuarios, hobbies, categoria_hobbies)

sql/02-load-data-age.sql generado correctamente para Apache AGE
