---
<h1 align="center"><strong>C√°lculo de dependencia cruzada para todos los pa√≠ses</strong></h1>
<h4 align="center"><strong>Manuel Alejandro Hidalgo y Jorge D√≠az Lanchas</strong></h4>
<h4 align="center"><strong>Fundaci√≥n Real Instituto Elcano</strong></h4>

---

# Esquema para √çndice de Seguridad Econ√≥mica - Real Instituto Elcano

## 1. Introducci√≥n y Marco Conceptual

- **Objetivo**: Desarrollar un √≠ndice que cuantifique la seguridad econ√≥mica de los pa√≠ses
- **Definici√≥n**: La seguridad econ√≥mica como la capacidad de un pa√≠s para resistir disrupciones en sus cadenas de suministro y comercio internacional
- **Relevancia**: Contexto actual de fragmentaci√≥n geoecon√≥mica y tensiones comerciales

## 2. Metodolog√≠a

### 2.1 Fuentes de Datos
- Base de datos International Trade and Production Database (ITP)
- Datos comerciales bilaterales por industria (a√±o 2019)
- Otros indicadores macroecon√≥micos complementarios

### 2.2 Procesamiento de Datos
```python
# Procesamiento y carga de datos ITP
itp2019, codigos_countries = procesar_datos_itp()
```

### 2.3 Creaci√≥n de Matrices de Comercio
```python
# Generaci√≥n de matrices bilaterales por industria
matrices_comercio = crear_matriz_comercio(data.groupby('industry_descr'), codigos_paises)
```

### 2.4 Limpieza y Filtrado
```python
# Eliminar relaciones comerciales insignificantes
mat_clean = eliminar_filas_columnas_cero(mat, threshold_pct=0.05)
```

### 2.5 C√°lculo de Dependencias Econ√≥micas
```python
# C√°lculo de dependencias directas e indirectas
results = analyze_dependencies(X, country_names)
```

## 3. Componentes del √çndice

### 3.1 Dependencia Directa
- Medici√≥n de la dependencia inmediata entre pa√≠ses
- F√≥rmula: $D_{ij} = \frac{X_{ji}}{‚àë_k X_{ki}}$, donde $X_{ji}$ es el comercio del pa√≠s j al pa√≠s i

### 3.2 Dependencia Indirecta
- Medici√≥n de dependencias a trav√©s de cadenas de suministro
- Incorporaci√≥n de pa√≠ses intermediarios en las relaciones comerciales
- An√°lisis de caminos hasta longitud 5

In [1]:
# MEJOR - con validaci√≥n y logging
import os as _os
_threading_envs = {
    "OPENBLAS_NUM_THREADS": "1",
    "MKL_NUM_THREADS": "1", 
    "OMP_NUM_THREADS": "1",
    "NUMEXPR_NUM_THREADS": "1"
}
for env_var, value in _threading_envs.items():
    _os.environ.setdefault(env_var, value)
    print(f"‚úì {env_var} = {value}")
    
import os
import gzip
import pandas as pd
import numpy as np
from numpy.linalg import inv
from tqdm import tqdm
import matplotlib.pyplot as plt
from pathlib import Path
from itertools import combinations
import torch

# A√±adimos soporte esparso para futuros c√°lculos eficientes
from scipy import sparse  # <- nuevo

import dask.dataframe as dd
from concurrent.futures import ThreadPoolExecutor
from typing import List, Dict
import multiprocessing
from joblib import Parallel, delayed

import warnings
warnings.filterwarnings("ignore", category=UserWarning, module="joblib")


# (Opcional) detecci√≥n segura de CuPy sin importarlo directamente (evita aviso del linter)
import importlib.util as _importlib_util
_cp_spec = _importlib_util.find_spec("cupy")
cp = None  # placeholder para evitar NameError si luego lo referenciamos
if _cp_spec is not None:
    # Solo importamos si realmente est√° instalado
    import importlib as _importlib
    cp = _importlib.import_module("cupy")



‚úì OPENBLAS_NUM_THREADS = 1
‚úì MKL_NUM_THREADS = 1
‚úì OMP_NUM_THREADS = 1
‚úì NUMEXPR_NUM_THREADS = 1


***No ejecutar este c√≥digo a menos que se quiera comprimir***

In [None]:
def comprimir_dividir_archivo(archivo_original, tamano_maximo=100, directorio_salida=None):
    # Aseg√∫rate de que el archivo original existe
    archivo_original = Path(archivo_original)
    if not archivo_original.exists():
        raise FileNotFoundError(f"No se encuentra el archivo: {archivo_original}")
    
    # Si no se especifica directorio de salida, usar src/data/raw/ITP/
    if directorio_salida is None:
        # Obtener el directorio ra√≠z del proyecto (donde est√° src/)
        proyecto_root = Path.cwd().parent.parent
        directorio_salida = proyecto_root /'data' / 'raw' / 'ITP' / 'ITPD_E_R03'
    else:
        directorio_salida = Path(directorio_salida)
    
    # Crear el directorio de salida si no existe
    directorio_salida.mkdir(parents=True, exist_ok=True)
    
    # Abre el archivo original en modo de lectura binaria
    with open(archivo_original, 'rb') as f_in:
        # Lee el contenido del archivo original
        contenido = f_in.read()
        
        # Determina el n√∫mero de partes necesarias
        num_partes = (len(contenido) + tamano_maximo - 1) // tamano_maximo
        
        # Divide el contenido en partes y escribe cada parte comprimida
        for i in range(num_partes):
            parte = contenido[i * tamano_maximo: (i + 1) * tamano_maximo]
            archivo_salida = directorio_salida / f'ITPD_E_R03.csv.parte{i}.gz'
            with gzip.open(archivo_salida, 'wb') as f_out:
                f_out.write(parte)
            print(f"Parte {i} creada en: {archivo_salida}")

# Tama√±o m√°ximo por parte (1GB)
tamano_maximo = 810 * 1024 * 1024

try:
    # Ruta al archivo original
    archivo_original = Path(r"C:\Users\Usuario\Downloads\ITPDE_R03\ITPDE_R03.csv")
    
    # Comprimir y dividir el archivo original
    comprimir_dividir_archivo(archivo_original, tamano_maximo)
    print("Proceso completado con √©xito")
except Exception as e:
    print(f"Error durante el proceso: {e}")

### ***Descomprimir, carga de datos y borrado de archivo***

La compresi√≥n se hace para poder trabajar con git sin porblemas de tama√±o de ficheros.
Se descomprime, se importa y luego se borra el fichero descomprimido


# DEFINO EL A√ëO

In [2]:
anio = 2022

In [3]:
"""
FASE 1: PREPARACI√ìN Y CARGA DE DATOS
Este script procesa la base de datos International Trade and Production Database (ITP)
que viene dividida en m√∫ltiples archivos comprimidos, utilizando aceleraci√≥n GPU
cuando est√° disponible.
"""

def procesar_datos_itp(year: int = anio):
    try:
        # Verificar si GPU est√° disponible (solo informativo en esta fase)
        gpu_disponible = torch.cuda.is_available()
        if gpu_disponible:
            print(f"GPU disponible: {torch.cuda.get_device_name(0)}")
        else:
            print("GPU no disponible, se usar√° CPU")

        # Definici√≥n de rutas usando Path y la estructura de tu proyecto
        try:
            base_path = Path(__file__).parent
        except NameError:  # Estamos en un notebook
            base_path = Path.cwd().parent.parent  # Asumiendo que el notebook est√° en /notebooks/

        source_directory = base_path / "data" / "raw" / "ITP" / "ITPD_E_R03"
        target_directory = base_path / "data" / "processed"
        target_filename = 'ITPD_E_R03.csv'

        # Imprimir las rutas para verificaci√≥n
        print(f"Directorio fuente: {source_directory}")
        print(f"Directorio destino: {target_directory}")

        # Asegurar que los directorios existen
        target_directory.mkdir(parents=True, exist_ok=True)

        # Verificar que el directorio fuente existe
        if not source_directory.exists():
            raise FileNotFoundError(f"No se encuentra el directorio fuente: {source_directory}")

        # Listar archivos comprimidos
        chunk_filenames = sorted([
            f for f in os.listdir(source_directory)
            if f.startswith('ITPD_E_R03.csv.parte') and f.endswith('.gz')
        ])

        # Control de errores: verificar que existen archivos para procesar
        if not chunk_filenames:
            raise FileNotFoundError(f"No se encontraron archivos .gz en {source_directory}")

        # Construir la ruta completa para el archivo combinado
        target_filepath = target_directory / target_filename

        # Funci√≥n para descomprimir un archivo en paralelo
        def descomprimir_archivo(chunk_filename):
            chunk_filepath = source_directory / chunk_filename
            with gzip.open(chunk_filepath, 'rb') as chunk_file:
                return chunk_file.read()

        print("Combinando archivos comprimidos...")
        with open(target_filepath, 'wb') as target_file:
            # Usar ThreadPoolExecutor para paralelizar la descompresi√≥n (I/O + gzip)
            with ThreadPoolExecutor(max_workers=os.cpu_count()) as executor:
                for data in tqdm(
                    executor.map(descomprimir_archivo, chunk_filenames),
                    total=len(chunk_filenames),
                    desc="Procesando archivos"
                ):
                    target_file.write(data)

                print("Leyendo archivo CSV...")

                # === columnas exactas que necesitas ===
                USECOLS = [
                    "exporter_iso3",
                    "importer_iso3",
                    "year",
                    "trade",
                    "industry_id",
                    "industry_descr",
                    "importer_name",
                    "exporter_name",
                ]
                DTYPES = {
                    "exporter_iso3": "string",
                    "importer_iso3": "string",
                    "year": "int32",
                    "trade": "float32",        # reduce memoria sin perder precisi√≥n pr√°ctica
                    "industry_id": "int32",
                    "industry_descr": "string",
                    "importer_name": "string",
                    "exporter_name": "string",
                }

                # Dask: lectura lazy del CSV combinado
                print("Usando Dask para procesamiento en paralelo (lectura filtrada)")
                dask_df = dd.read_csv(
                    target_filepath,
                    sep=",",
                    usecols=USECOLS,
                    dtype=DTYPES,
                    blocksize="128MB",
                    assume_missing=True,  # tolerante a nulos espor√°dicos
                )
                dask_df['year'].unique()
                print(f"Filtrando datos del a√±o {year}...")
                dask_df = dask_df[dask_df["year"] == year]

                # Ejecutar el plan y materializar en pandas
                itp_year = dask_df.compute()

                # Tipos finales (por si Dask promovi√≥ algo)
                itp_year = itp_year.astype(DTYPES)

                # (Opcional) comprime memoria de las cadenas con 'category' si vas a agrupar mucho despu√©s
                # itp_year["exporter_iso3"]  = itp_year["exporter_iso3"].astype("category")
                # itp_year["importer_iso3"]  = itp_year["importer_iso3"].astype("category")
                # itp_year["industry_descr"] = itp_year["industry_descr"].astype("category")
                # itp_year["importer_name"]  = itp_year["importer_name"].astype("category")
                # itp_year["exporter_name"]  = itp_year["exporter_name"].astype("category")


        # Limpieza del temporal grande
        try:
            os.remove(target_filepath)
            print("Archivo temporal eliminado")
        except Exception as _e:
            print(f"Advertencia: no se pudo eliminar el temporal ({_e})")

        # 4) Pa√≠ses √∫nicos importadores (GPU no aporta aqu√≠; unique de pandas es muy r√°pido)
        #    Convertimos a category para memoria/velocidad y extraemos categor√≠as ordenadas
        itp_year["importer_iso3"] = itp_year["importer_iso3"].astype("category")
        codigos_countries = list(itp_year["importer_iso3"].cat.categories)

        print(f"Total de pa√≠ses √∫nicos encontrados: {len(codigos_countries)}")
        return itp_year, codigos_countries

    except Exception as e:
        print(f"Error durante el procesamiento: {e}")
        raise

if __name__ == "__main__":
    try:
        data, countries = procesar_datos_itp(year=anio)
        print("Procesamiento completado con √©xito")
    except Exception as e:
        print(f"Error en la ejecuci√≥n principal: {e}")


GPU disponible: NVIDIA GeForce RTX 4060 Laptop GPU
Directorio fuente: c:\Users\Usuario\Documents\Github\Seguridad Economica\data\raw\ITP\ITPD_E_R03
Directorio destino: c:\Users\Usuario\Documents\Github\Seguridad Economica\data\processed
Combinando archivos comprimidos...


Procesando archivos: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10/10 [00:17<00:00,  1.72s/it]


Leyendo archivo CSV...
Usando Dask para procesamiento en paralelo (lectura filtrada)
Filtrando datos del a√±o 2022...
Archivo temporal eliminado
Total de pa√≠ses √∫nicos encontrados: 236
Procesamiento completado con √©xito


In [4]:
import pandas as pd
from pathlib import Path

# Posibles alias de columnas en ITP (ajusta si conoces los exactos)
CAND_ID = ["industry_id", "industry_code", "industry", "sector_id", "sector_code", "isic", "isic4"]
CAND_NAME = ["industry_descr", "industry_name", "industry_label", "sector_name", "sector_descr"]

def _pick_col(candidates, cols):
    cols_lower = {c.lower(): c for c in cols}
    for cand in candidates:
        if cand.lower() in cols_lower:
            return cols_lower[cand.lower()]
    return None

id_col = _pick_col(CAND_ID, data.columns)
name_col = _pick_col(CAND_NAME, data.columns)

if not id_col or not name_col:
    print("‚ö†Ô∏è No se encontraron columnas de industria en 'data'.")
    print(f"Columnas disponibles: {list(data.columns)}")
    print(
        "Sugerencia: en la celda de carga (procesar_datos_itp), a√±ade las columnas de industria "
        "a USECOLS/DTYPES, por ejemplo: 'industry_id' y 'industry_descr' (o sus equivalentes)."
    )
else:
    # Cat√°logo √∫nico, limpio y ordenado
    industrias = (
        data[[id_col, name_col]]
        .dropna()
        .drop_duplicates()
        .sort_values([id_col, name_col])
        .reset_index(drop=True)
        .rename(columns={id_col: "industry_id", name_col: "industry_descr"})
    )

    # Tipos compactos
    industrias["industry_id"] = industrias["industry_id"].astype("string")
    industrias["industry_descr"] = industrias["industry_descr"].astype("string")

    # Rutas (evitamos espacios en nombres de carpetas)
    base_path = Path.cwd().parent.parent
    target_directory = base_path / "data" / "processed" / "Dependencias_consolidadas"
    target_directory.mkdir(parents=True, exist_ok=True)

    # Salidas
    csv_path = target_directory / "industrias_id_nombre.csv"
    pq_path  = target_directory / "industrias_id_nombre.parquet"

    industrias.to_csv(csv_path, sep=";", index=False)
    industrias.to_parquet(pq_path, index=False)

    print(f"‚úÖ Cat√°logo de industrias generado: {len(industrias)} filas")
    print(f"- CSV: {csv_path}")
    print(f"- Parquet: {pq_path}")




‚úÖ Cat√°logo de industrias generado: 170 filas
- CSV: c:\Users\Usuario\Documents\Github\Seguridad Economica\data\processed\Dependencias_consolidadas\industrias_id_nombre.csv
- Parquet: c:\Users\Usuario\Documents\Github\Seguridad Economica\data\processed\Dependencias_consolidadas\industrias_id_nombre.parquet


### üìä Creaci√≥n de Matrices de Comercio Bilateral Optimizada

Esta funci√≥n transforma los datos comerciales brutos en un conjunto de **matrices cuadradas alineadas**, 
una por cada industria.

#### üéØ Qu√© hace

1. **Valida** que las entradas sean correctas (GroupBy object, pa√≠ses v√°lidos)
2. **Extrae columnas** de exportador, importador y valor de comercio
3. **Para cada industria:**
   - Filtra a solo pa√≠ses en nuestra lista de an√°lisis
   - Crea matriz bilateral: filas=exportadores, columnas=importadores
   - Asegura que todas las matrices sean cuadradas (236√ó236) y alineadas
4. **Calcula y guarda** totales de importaci√≥n por pa√≠s-industria (para auditor√≠a)

#### üìê Estructura de output
```python
matrices_comercio = {
    "Machinery": DataFrame(236√ó236),
    "Chemicals": DataFrame(236√ó236),
    "Electronics": DataFrame(236√ó236),
    ...
}
```

Donde cada matriz cumple:
- **√çndice** = c√≥digos ISO3 de exportadores
- **Columnas** = c√≥digos ISO3 de importadores  
- **Valor [i,j]** = flujo comercial del pa√≠s i al pa√≠s j en esa industria
- **Todos los ceros garantizados** = pares no observados = comercio nulo

#### üîß Mejoras en esta versi√≥n

- ‚úÖ Validaci√≥n robusta de entrada
- ‚úÖ Mensajes de error claros y accionables
- ‚úÖ Resoluci√≥n autom√°tica de directorios
- ‚úÖ Logging opcional para debugging
- ‚úÖ Comentarios en el c√≥digo explicando cada paso
- ‚úÖ CSV de referencia para auditor√≠a post-c√°lculo

#### ‚ö†Ô∏è Notas importantes

- Las matrices se guardan en memoria como **float32** para eficiencia (suficiente para valores de comercio)
- Los totales se guardan como referencia, pero se **recalculan** en la siguiente etapa de an√°lisis
- Las matrices resultantes son la **base para todos los c√°lculos de dependencia posteriores**

In [5]:
def crear_matriz_comercio_optimizado(
    grouped_data, 
    codigos_paises: List[str],
    target_directory: Path | None = None,
    verbose: bool = False
) -> Dict[str, pd.DataFrame]:
    """
    Crea matrices de comercio bilateral (exportador √ó importador) para cada industria.
    
    Esta funci√≥n transforma datos comerciales desagregados en matrices cuadradas alineadas,
    donde cada elemento [i,j] representa el flujo comercial del pa√≠s i al pa√≠s j.
    
    Args:
        grouped_data: Resultado de df.groupby('industry_descr'). Debe ser un GroupBy object.
        codigos_paises: Lista de c√≥digos ISO3 a usar como √≠ndices de las matrices.
        target_directory: Carpeta donde guardar CSV de totales. Si None, usa path relativa al proyecto.
        verbose: Si True, imprime mensajes de progreso y validaci√≥n.
    
    Returns:
        dict: {nombre_industria -> DataFrame(index=exportadores, columns=importadores)}
        
    Side effect:
        Guarda CSV comprimido con totales de importaci√≥n por pa√≠s-industria para referencia.
    """
    
    # ==================== VALIDACIONES ====================
    
    # Validar que grouped_data sea un GroupBy object
    if not hasattr(grouped_data, '__iter__') or not hasattr(grouped_data, 'obj'):
        raise TypeError(
            "‚ùå grouped_data debe ser resultado de df.groupby()\n"
            "   Ejemplo: data.groupby('industry_descr')"
        )
    
    # Validar que codigos_paises no est√© vac√≠o
    if not codigos_paises or len(codigos_paises) < 2:
        raise ValueError(
            f"‚ùå codigos_paises debe tener al menos 2 pa√≠ses. Recibido: {len(codigos_paises)}"
        )
    
    if verbose:
        print(f"‚úì Entrada validada: {len(codigos_paises)} pa√≠ses")
    
    # ==================== RESOLUCI√ìN DE DIRECTORIOS ====================
    
    if target_directory is None:
        try:
            # Si se ejecuta como script
            base_path = Path(__file__).parent
        except NameError:
            # Si se ejecuta en notebook
            base_path = Path.cwd().parent.parent
        
        target_directory = base_path / "data" / "processed" / "totales_comercio_por_pais_ind"
    
    target_directory = Path(target_directory)
    target_directory.mkdir(parents=True, exist_ok=True)
    
    if verbose:
        print(f"‚úì Directorio de salida: {target_directory}")
    
    # ==================== B√öSQUEDA DE COLUMNAS REQUERIDAS ====================
    
    cols = grouped_data.obj.columns
    
    # Validar que existan columnas de exportador/importador
    required = {"exporter_iso3", "importer_iso3"}
    missing = required - set(cols)
    if missing:
        raise ValueError(
            f"‚ùå Faltan columnas requeridas: {missing}\n"
            f"   Disponibles: {list(cols)}"
        )
    
    # Buscar columna de valores de comercio (con prioridad)
    trade_col = None
    for cand in ("trade", "value", "trade_value"):
        if cand in cols:
            trade_col = cand
            break
    
    if trade_col is None:
        # Sugerir alternativas si las hay
        available_value_cols = [c for c in cols if 'trade' in c.lower() or 'value' in c.lower()]
        raise ValueError(
            f"‚ùå No encontr√© columna de valores de comercio (buscaba: 'trade', 'value', 'trade_value')\n"
            f"   Candidatos similares: {available_value_cols}\n"
            f"   Todas las columnas: {list(cols)}"
        )
    
    if verbose:
        print(f"‚úì Columna de comercio detectada: '{trade_col}'")
    
    # ==================== INICIALIZACI√ìN ====================
    
    matrices: Dict[str, pd.DataFrame] = {}
    totales_registros = []
    
    # Pre-calcular template: matriz vac√≠a con √≠ndices alineados
    # Todos los pa√≠ses en todas las combinaciones, rellenados con ceros
    template = pd.DataFrame(
        0.0, 
        index=codigos_paises, 
        columns=codigos_paises, 
        dtype=np.float32
    )
    
    # ==================== PROCESAMIENTO POR INDUSTRIA ====================
    
    for industry, group in grouped_data:
        # PASO 1: Filtrar a solo los pa√≠ses en nuestra lista
        # Esto evita que haya pa√≠ses fuera de scope en las matrices
        g = group[
            group["exporter_iso3"].isin(codigos_paises) &
            group["importer_iso3"].isin(codigos_paises)
        ]
        
        # CASO: Industria sin datos v√°lidos
        if g.empty:
            # Guardar matriz vac√≠a (todos ceros) para consistencia
            matrices[industry] = template.copy()
            
            # Registrar totales como cero para todos los pa√≠ses en esta industria
            totales_registros.extend(
                {
                    "pais": p, 
                    "industria": industry, 
                    "valor_importado": 0.0
                }
                for p in codigos_paises
            )
            continue
        
        # CASO: Industria con datos
        # PASO 2: Crear matriz bilateral mediante pivot
        # - index: exportadores (origen)
        # - columns: importadores (destino)
        # - values: suma de comercio (en caso de m√∫ltiples registros por par)
        mat = (
            g.pivot_table(
                index="exporter_iso3",
                columns="importer_iso3",
                values=trade_col,
                aggfunc="sum",              # Si hay duplicados, sumarlos
                fill_value=0.0,             # Pares no observados ‚Üí 0
                observed=False              # Incluir todas las combinaciones
            )
            # PASO 3: Alinear a matriz cuadrada completa
            # Asegura que todos los pa√≠ses est√©n presentes, aunque no tengan comercio
            .reindex(index=codigos_paises, columns=codigos_paises, fill_value=0.0)
            .astype(np.float32)             # Reducir memoria: float32 suficiente
        )
        
        matrices[industry] = mat
        
        # PASO 4: Calcular totales de importaci√≥n por pa√≠s en esta industria
        # .sum(axis=0) suma por columna = suma de todos los exportadores hacia cada importador
        totales = mat.sum(axis=0)
        totales_registros.extend(
            {
                "pais": pais, 
                "industria": industry, 
                "valor_importado": float(totales[pais])
            }
            for pais in codigos_paises
        )
    
    # ==================== GUARDADO DE REFERENCIA ====================
    
    # Convertir a DataFrame y guardar como referencia
    # (se recalcula en calculate_all_dependencies, pero √∫til para validaci√≥n/auditor√≠a)
    df_totales = pd.DataFrame(totales_registros)
    df_path = target_directory / f"totales_comercio_por_pais_industria{anio}.csv"
    df_totales.to_csv(df_path, index=False, sep=";")
    
    if verbose:
        print(f"‚úì Totales guardados en: {df_path}")
        print(f"‚úì Matrices creadas: {len(matrices)} industrias")
    
    return matrices



# Define la lista de c√≥digos de pa√≠ses
codigos_paises = sorted(data['importer_iso3'].unique().tolist())

# Llama a la funci√≥n optimizada (mismo API esperado)
matrices_comercio = crear_matriz_comercio_optimizado(
    data.groupby('industry_descr'),
    codigos_paises=codigos_paises,
    # target_directory=Path("...")  # opcional
)

def eliminar_filas_columnas_cero(df: pd.DataFrame, threshold_pct: float = 0.005) -> pd.DataFrame:
    """Filtra una matriz aplicando umbral relativo por pa√≠s importador (columna)."""
    # Umbral por columna: total_col * pct
    col_totals = df.sum(axis=0)
    thresholds = col_totals * float(threshold_pct)

    # Aplicar m√°scara vectorizada (alineaci√≥n por columnas)
    df_filtered = df.where(df >= thresholds, 0.0)

    # Pa√≠ses con filas y columnas a cero tras umbral
    zero_rows = df_filtered.index[df_filtered.sum(axis=1) == 0.0]
    zero_cols = df_filtered.columns[df_filtered.sum(axis=0) == 0.0]
    to_drop = list(set(zero_rows) & set(zero_cols))

    return df_filtered.drop(index=to_drop, columns=to_drop)

# üîó C√°lculo de Dependencias Comerciales: Directas e Indirectas

Esta celda implementa el **n√∫cleo de la metodolog√≠a PIVI**: calcula c√≥mo cada pa√≠s depende de otros para cada par bilateral (importador ‚Üí exportador), considerando no solo el comercio directo sino tambi√©n las **cadenas de intermediarios** que canalizan el flujo comercial.

#### üéØ Qu√© hace

Transforma una matriz de comercio bilateral en un conjunto completo de **m√©tricas de dependencia**:
- **Dependencia directa (L=1):** flujo directo importador ‚Üê exportador
- **Dependencia indirecta (L‚â•2):** flujo canalizado a trav√©s de intermediarios
- **Caminos significativos:** rutas concretas que contribuyen a la dependencia
- **Intermediarios cr√≠ticos:** pa√≠ses que act√∫an como "hubs" en el comercio

#### üèóÔ∏è Estructura de funciones

**process_country_pair()** - Calcula dependencia para UN par (importador i, exportador j):
- Dependencia directa: X[j,i] / importaciones_totales[i]
- Crea matriz de transici√≥n T: normaliza flujos por importador
- L=2 (vectorizado): suma de todos los intermediarios con una operaci√≥n matricial
- L‚â•3 (combinations): enumeraci√≥n de caminos m√°s largos con poda por threshold
- Retorna: dependencias_por_longitud + caminos_significativos

**calculate_all_dependencies_parallel()** - Paraleliza process_country_pair() para TODOS los pares:
- GPU (opcional): prepara aceleraci√≥n si est√° disponible
- Joblib: distribuye c√°lculo en m√∫ltiples n√∫cleos
- Agrega resultados por importador
- Calcula centralidad de intermediarios
- Retorna: estructura consolidada de resultados

**calculate_all_dependencies()** - Wrapper que decide si usar paralelizaci√≥n:
- Valida tama√±o del problema
- Llama a calculate_all_dependencies_parallel() con par√°metros √≥ptimos

#### üìä Output principal
```python
results = {
    'dependencies': [  # Lista de dicts con cada relaci√≥n bilateral
        {
            'importador': 'ESP',
            'exportador': 'CHN',
            'dependencia_total': 0.794,
            'dependencia_directa': 0.598,
            'dependencia_indirecta': 0.196,
            'longitud_optima': 3,
            'dependencias_por_longitud': {1: 0.598, 2: 0.162, 3: 0.034},
            'trade_value': 1912.42
        },
        ...  # uno por cada par i‚â†j (236¬≤ - 236 = 54,756 pares)
    ],
    
    'top_dependencies': [  # Top 90 pares m√°s dependientes
        (importador, exportador, DD, DI, DT, longitud), ...
    ],
    
    'critical_paths': [  # Rutas espec√≠ficas con fuerza > threshold
        {
            'exportador': 'CHN',
            'importador': 'ESP',
            'intermediarios': ['DEU', 'HUN'],
            'fuerza': 0.0039,
            'longitud': 3
        }, ...
    ],
    
    'intermediary_centrality': [  # Pa√≠ses rankeados como intermediarios
        ('DEU', freq=145, strength=23.4, score=0.87),
        ('CHN', freq=132, strength=18.2, score=0.81),
        ...
    ],
    
    'critical_intermediaries': {  # Rutas por cada par bilateral
        'CHN->ESP': [path_dict, path_dict, ...],
        ...
    }
}
```

#### ‚öôÔ∏è Par√°metros clave

| Par√°metro | Default | Significado |
|-----------|---------|-------------|
| `max_possible_length` | 3 | Longitud m√°xima de cadenas a considerar (L_max) |
| `convergence_threshold` | 0.01 | Umbral para detener si incremento < 1% |
| `path_strength_threshold` | 0.001 | Fuerza m√≠nima de un camino para registrarlo |
| `n_jobs` | CPU_count | N√∫mero de cores para paralelizaci√≥n |
| `use_gpu` | True | Intenta usar GPU si disponible |

#### üî¢ Complejidad computacional

- **Pares evaluados:** n(n-1) donde n=236 pa√≠ses ‚Üí ~55k pares
- **Caminos L=2:** O(n) combinaciones por par (r√°pido, vectorizado)
- **Caminos L‚â•3:** O(C(n,L-1)) combinaciones ‚Üí exponencial pero poda por `path_strength_threshold`
- **Tiempo t√≠pico:** ~10-30 min para 170 industrias en CPU con paralelizaci√≥n

#### üìà Matriz de Transici√≥n T

Punto crucial del algoritmo:
```
T[exportador, importador] = Comercio(exp‚Üíimp) / Importaciones_totales(imp)
```

**Interpretaci√≥n:** $$T[j,i]$$ representa la "probabilidad" de que una unidad importada por pa√≠s i provenga del pa√≠s j, considerando la composici√≥n actual del mercado de i. Esto permite calcular cadenas: si j abastece a k y k abastece a i, entonces la cadena es $$T[j,k] √ó T[k,i]$$.

#### üßÆ F√≥rmulas de dependencia

**Dependencia Directa (L=1):**
$$DD_{i \leftarrow j} = \frac{X_{j \to i}}{\sum_k X_{k \to i}}$$

**Dependencia Indirecta (L=2):**
$$DI^{(2)}_{i \leftarrow j} = \sum_k T_{j,k} \cdot T_{k,i}$$ 

donde 
$$k ‚â† i, j$$

**Dependencia Indirecta (L=3+):**
$$DI^{(L)}_{i \leftarrow j} = \sum_{\text{caminos}} T_{j,c_1} \cdot T_{c_1,c_2} \cdot \ldots \cdot T_{c_{L-2},i}$$

**Dependencia Total:**
$$DT_{i \leftarrow j} = DD_{i \leftarrow j} + \sum_{L=2}^{L_{max}} DI^{(L)}_{i \leftarrow j}$$

#### üéØ Intermediarios cr√≠ticos

Para cada pa√≠s, se calcula:
- **Frecuencia:** cu√°ntas cadenas lo incluyen
- **Fuerza:** suma ponderada de las fuerzas de esas cadenas
- **Score de centralidad:** 0.4 √ó freq_normalizada + 0.6 √ó fuerza_normalizada

Un pa√≠s con alta centralidad es un "cuello de botella" clave en el comercio global.

#### ‚ö†Ô∏è Notas importantes

- El algoritmo es **exhaustivo pero poda intelligentemente**: solo explora caminos con fuerza > `path_strength_threshold`
- La convergencia t√≠picamente se alcanza en L=2 o L=3, rara vez necesita L=4+
- Los resultados son **determin√≠sticos** y **reproducibles**
- Est√° paralelizado para m√°ximo rendimiento, pero puede ejecutarse secuencial si se necesita debugging



In [6]:
def calculate_path_dependency(X_clean, path, denominators):
    """Calcula la dependencia de un camino espec√≠fico."""
    fuerza_camino = 1.0
    for k in range(len(path) - 1):
        if denominators[path[k+1]] > 0:
            fuerza_camino *= X_clean[path[k], path[k+1]] / denominators[path[k+1]]
        else:
            fuerza_camino = 0  # Si el denominador es cero, la fuerza del camino es cero
    return fuerza_camino

def calculate_intermediary_centrality(intermediary_frequency, intermediary_strength, country_names):
    """
    Calcula m√©tricas de centralidad para intermediarios.
    
    Esta funci√≥n es la misma que la original.
    """
    # Implementaci√≥n existente
    centrality = []
    
    # Normalizar
    max_freq = max(intermediary_frequency.values()) if intermediary_frequency.values() else 1
    max_strength = max(intermediary_strength.values()) if intermediary_strength.values() else 1
    
    for country in country_names:
        norm_freq = intermediary_frequency[country] / max_freq if max_freq > 0 else 0
        norm_strength = intermediary_strength[country] / max_strength if max_strength > 0 else 0
        
        combined_score = 0.4 * norm_freq + 0.6 * norm_strength
        
        centrality.append((country, intermediary_frequency[country], 
                          intermediary_strength[country], combined_score))
    
    centrality.sort(key=lambda x: x[3], reverse=True)
    return centrality


from itertools import combinations
import numpy as np

def process_country_pair(i, j, X_clean, denominators, country_names,
                         max_possible_length, convergence_threshold,
                         path_strength_threshold, T):
    """
    Exactamente la misma definici√≥n que antes (combinations), pero:
    - Usa T (matriz de transici√≥n) precalculada.
    - Vectoriza la longitud 2.
    - Mantiene mismos retornos y campos.
    """
    n = X_clean.shape[0]

    # Dependencia directa (igual que antes)
    trade_value = X_clean[j, i]
    direct_dependency = (X_clean[j, i] / denominators[i]) if denominators[i] > 0 else 0.0

    dependencies_by_length = {1: direct_dependency}
    significant_paths = []
    current_total = direct_dependency
    indirect_total = 0.0
    length = 1

    # Candidatos de intermediarios (igual que antes)
    middle = [k for k in range(n) if k != i and k != j]

    # ---- L = 2 (vectorizado, EXACTO) ----
    if max_possible_length >= 2 and middle:
        row_j = T[j, :]
        col_i = T[:, i]
        mask = np.ones(n, dtype=bool)
        mask[[i, j]] = False

        # suma exacta: sum_k T[j,k]*T[k,i], k!=i,j
        di2 = np.dot(row_j[mask], col_i[mask])
        dependencies_by_length[2] = float(di2)
        indirect_total += float(di2)
        current_total = direct_dependency + indirect_total
        length = 2

        # caminos significativos para L=2 (mismo umbral)
        if path_strength_threshold > 0:
            ks = np.nonzero(row_j * col_i > path_strength_threshold)[0]
            ks = [k for k in ks if k != i and k != j]
            if ks:
                for k in ks:
                    significant_paths.append({
                        'exportador': country_names[j],
                        'importador': country_names[i],
                        'intermediarios': [country_names[k]],
                        'fuerza': float(row_j[k] * col_i[k]),
                        'longitud': 2
                    })

        # criterio de convergencia
        if abs(current_total - direct_dependency) < convergence_threshold or max_possible_length == 2:
            # ordenar y devolver
            significant_paths.sort(key=lambda x: x['fuerza'], reverse=True)
            pair_key = f"{country_names[j]}->{country_names[i]}"
            result = {
                'importador': country_names[i],
                'exportador': country_names[j],
                'trade_value': trade_value,
                'dependencia_directa': direct_dependency,
                'dependencia_indirecta': indirect_total,
                'dependencia_total': direct_dependency + indirect_total,
                'longitud_optima': 2,
                'dependencias_por_longitud': dependencies_by_length
            }
            return {
                'pair_key': pair_key,
                'result': result,
                'top_dependency': (country_names[i], country_names[j],
                                   direct_dependency, indirect_total,
                                   direct_dependency + indirect_total, 2),
                'significant_paths': significant_paths,
                'length_converged': 2
            }

    # ---- L >= 3 (exacto con combinations, pero usando T) ----
    for L in range(3, max_possible_length + 1):
        DI_ij_L = 0.0
        for interms in combinations(middle, L - 1):
            path = (j,) + interms + (i,)
            # producto exacto de T a lo largo del camino
            prod = 1.0
            for a, b in zip(path[:-1], path[1:]):
                w = T[a, b]
                if w == 0.0:
                    prod = 0.0
                    break
                prod *= w

            DI_ij_L += prod

            if prod > path_strength_threshold:
                significant_paths.append({
                    'exportador': country_names[j],
                    'importador': country_names[i],
                    'intermediarios': [country_names[x] for x in interms],
                    'fuerza': float(prod),
                    'longitud': L
                })

        dependencies_by_length[L] = float(DI_ij_L)
        indirect_total += float(DI_ij_L)

        prev_total = current_total
        current_total = direct_dependency + indirect_total
        length = L

        if L > 1 and abs(current_total - prev_total) < convergence_threshold:
            break

    # Final
    significant_paths.sort(key=lambda x: x['fuerza'], reverse=True)
    total_dependency = direct_dependency + indirect_total
    pair_key = f"{country_names[j]}->{country_names[i]}"
    result = {
        'importador': country_names[i],
        'exportador': country_names[j],
        'trade_value': trade_value,
        'dependencia_directa': direct_dependency,
        'dependencia_indirecta': indirect_total,
        'dependencia_total': total_dependency,
        'longitud_optima': length,
        'dependencias_por_longitud': dependencies_by_length
    }
    return {
        'pair_key': pair_key,
        'result': result,
        'top_dependency': (country_names[i], country_names[j],
                           direct_dependency, indirect_total, total_dependency, length),
        'significant_paths': significant_paths,
        'length_converged': length if length > 1 else 0
    }




def calculate_all_dependencies_parallel(X, country_names=None, convergence_threshold=0.01, 
                                       max_possible_length=3, 
                                       path_strength_threshold=0.001, n_jobs=None, use_gpu=True, 
                                       debug_mode=False):
    """
    Versi√≥n paralelizada del c√°lculo de dependencias que mantiene EXACTAMENTE
    la misma salida que la versi√≥n original.
    
    El par√°metro debug_mode permite verificar que el n√∫mero de dependencias
    coincida con la versi√≥n original.
    """
    """
    Versi√≥n paralelizada del c√°lculo de dependencias.
    
    Parameters adicionales:
    -----------------------
    n_jobs : int, opcional
        N√∫mero de trabajos paralelos. Si es None, usa todos los n√∫cleos disponibles.
    use_gpu : bool, default=True
        Si se debe intentar usar GPU para acelerar algunos c√°lculos.
    """
    n = X.shape[0]

    if country_names is None:
        country_names = [f"Pa√≠s {i}" for i in range(n)]

    if len(country_names) != n:
        raise ValueError(f"La longitud de country_names ({len(country_names)}) no coincide con la dimensi√≥n de X ({n})")

    # Configurar paralelizaci√≥n
    if n_jobs is None:
        n_jobs = multiprocessing.cpu_count()
    
    # Verificar disponibilidad de GPU
    gpu_available = torch.cuda.is_available() and use_gpu
    X_clean = X

    denom = X_clean.sum(axis=0, dtype=np.float64)
    denom[denom == 0.0] = np.inf
    T = (X_clean / denom).astype(np.float64, copy=False)

    denominators = np.sum(X, axis=0)

    # Acelerar c√°lculos directos con GPU si est√° disponible
    if gpu_available:
        # Transferir datos a GPU
        X_gpu = torch.tensor(X_clean, device='cuda', dtype=torch.float32)
        denom_gpu = torch.tensor(denominators, device='cuda', dtype=torch.float32)
        
        # Calcular dependencias directas en forma vectorizada
        direct_deps = torch.zeros_like(X_gpu)
        for i in range(n):
            # Evitar divisi√≥n por cero
            if denom_gpu[i] > 0:
                direct_deps[:, i] = X_gpu[:, i] / denom_gpu[i]
        
        # Transferir resultados de vuelta a CPU
        direct_dependencies = direct_deps.cpu().numpy()
        
        # Usar estas dependencias directas precalculadas en el procesamiento posterior
        # (Aunque en esta implementaci√≥n seguimos calcul√°ndolas en process_country_pair para
        # mantener cambios m√≠nimos en el c√≥digo)

    # Estructura de resultados extendida
    results = {
        'dependencies': [],
        'top_dependencies': [],
        'avg_dependencies': {},
        'length_distribution': np.zeros(max_possible_length),
        'critical_intermediaries': {},     # Intermediarios cr√≠ticos por relaci√≥n
        'intermediary_frequency': {},      # Frecuencia de pa√≠ses como intermediarios
        'critical_paths': [],              # Rutas cr√≠ticas completas
        'intermediary_strength': {}        # Fuerza de cada pa√≠s como intermediario
    }
    
    # Inicializar contadores para intermediarios
    for country in country_names:
        results['intermediary_frequency'][country] = 0
        results['intermediary_strength'][country] = 0.0

    # Preparar pares de pa√≠ses para procesamiento paralelo 
    # Mantenemos la misma estructura de iteraci√≥n del c√≥digo original
    # Primero por importador (i) y luego por exportador (j)
        # Preparar pares de pa√≠ses (sin tqdm)
    country_pairs = [(i, j) for i in range(n) for j in range(n) if i != j]

    # Procesar pares de pa√≠ses en paralelo (sin barra de progreso)
    with Parallel(n_jobs=n_jobs) as parallel:
        pair_results = parallel(
            delayed(process_country_pair)(
                i, j, X_clean, denom, country_names, 
                max_possible_length, convergence_threshold, path_strength_threshold,
                T  # <-- NUEVO ARGUMENTO
            )
            for i, j in country_pairs
        )


        
    # Agrupar resultados por pa√≠s importador
    results_by_importer = {}
    for res in pair_results:
        importer = res['result']['importador']
        if importer not in results_by_importer:
            results_by_importer[importer] = []
        results_by_importer[importer].append(res)
    
    # Recolectar critical paths de todos los pares para ordenarlos despu√©s
    all_critical_paths = []
    
    # Procesar los resultados manteniendo el mismo orden que el c√≥digo original
    for i in range(n):
        importer = country_names[i]
        total_dep = 0.0
        num_deps = 0
        
        if importer in results_by_importer:
            for res in results_by_importer[importer]:
                # Agregar a dependencies
                results['dependencies'].append(res['result'])
                
                # Agregar a top_dependencies
                results['top_dependencies'].append(res['top_dependency'])
                
                # Actualizar critical_intermediaries
                results['critical_intermediaries'][res['pair_key']] = res['significant_paths']
                
                # Recolectar critical paths
                all_critical_paths.extend(res['significant_paths'])
                
                # Actualizar length_distribution si convergi√≥
                if res['length_converged'] > 1:
                    results['length_distribution'][res['length_converged'] - 1] += 1
                
                # Actualizar dependencia promedio
                total_dep += res['result']['dependencia_total']
                num_deps += 1
                
                # Actualizar estad√≠sticas de intermediarios
                for path in res['significant_paths']:
                    for idx, interm in enumerate(path['intermediarios']):
                        # Incrementar frecuencia
                        results['intermediary_frequency'][interm] += 1
                        
                        # Incrementar fuerza ponderada
                        weight_factor = 1.0 / (idx + 1)
                        results['intermediary_strength'][interm] += path['fuerza'] * weight_factor
        
        # Guardar dependencia promedio para este importador
        results['avg_dependencies'][importer] = total_dep / num_deps if num_deps > 0 else 0
    
    # A√±adir y ordenar los critical paths (igual que el original)
    results['critical_paths'] = all_critical_paths
    
    # Ordenar top dependencies
    results['top_dependencies'].sort(key=lambda x: x[4], reverse=True)
    results['top_dependencies'] = results['top_dependencies'][:90]
    
    # Ordenar critical_paths por fuerza
    results['critical_paths'].sort(key=lambda x: x['fuerza'], reverse=True)
    
    # Calcular m√©tricas de centralidad para intermediarios
    results['intermediary_centrality'] = calculate_intermediary_centrality(
        results['intermediary_frequency'], 
        results['intermediary_strength'],
        country_names
    )
    
    return results

# Para mantener compatibilidad, redefinimos la funci√≥n original
# para que utilice la versi√≥n paralelizada
def calculate_all_dependencies(X, country_names=None, convergence_threshold=0.01, 
                              max_possible_length=3, threshold_pct=0.01, 
                              path_strength_threshold=0.001):
    """
    Calcula todas las dependencias entre pa√≠ses con an√°lisis de intermediarios cr√≠ticos.
    
    Esta funci√≥n mantiene EXACTAMENTE la misma firma y resultados que la original,
    pero utiliza internamente paralelizaci√≥n y GPU para acelerar los c√°lculos.
    
    Parameters:
    -----------
    X : numpy.ndarray
        Matriz de comercio
    country_names : list, opcional
        Nombres de los pa√≠ses
    convergence_threshold : float, default=0.01
        Umbral para determinar la convergencia
    max_possible_length : int, default=5
        Longitud m√°xima de caminos a considerar
    threshold_pct : float, default=0.01
        Umbral para filtrar valores de comercio insignificantes (porcentaje)
    path_strength_threshold : float, default=0.001
        Umbral m√≠nimo para considerar una ruta como significativa
        
    Returns:
    --------
    dict
        Diccionario con todos los resultados del an√°lisis
    """
    # Determinar si usar paralelizaci√≥n basado en el tama√±o del problema
    use_parallel = X.shape[0] > 5  # Para matrices muy peque√±as no vale la pena paralelizar
    
    # Verificar disponibilidad de GPU
    use_gpu = torch.cuda.is_available()
    
    # Aqu√≠ agregas el segundo log
    #print(f"Usando paralelizaci√≥n: {use_parallel}, GPU disponible: {use_gpu}")
    #if use_gpu:
    #    print(f"GPU en uso: {torch.cuda.get_device_name(0)}")
    
    # Configurar n√∫mero de trabajos para paralelizaci√≥n
    n_countries = X.shape[0]
    n_jobs = min(multiprocessing.cpu_count(), n_countries)  # Limitar al n√∫mero de pa√≠ses
    
    
    if use_parallel:
        # Usar la versi√≥n paralelizada
        return calculate_all_dependencies_parallel(
            X, country_names, convergence_threshold, 
            max_possible_length, path_strength_threshold,
            n_jobs=n_jobs, use_gpu=use_gpu, debug_mode=False
        )
    else:
        # Para matrices muy peque√±as, usar un solo proceso
        return calculate_all_dependencies_parallel(
            X, country_names, convergence_threshold, 
            max_possible_length, path_strength_threshold,
            n_jobs=1, use_gpu=use_gpu, debug_mode=False
        )


## Generar y guardar resultados de dependencias

In [28]:
# Filtrar para obtener solo las primeras 5 industrias
matrices_comercio = {k: matrices_comercio[k] for k in list(matrices_comercio.keys())[:50]}

# Verificaci√≥n: imprime las primeras 5 claves
print("Primeras 5 industrias en matrices_comercio:", list(matrices_comercio.keys()))


Primeras 5 industrias en matrices_comercio: ['154 Manufacturing services on physical inputs', '155 Maintenance and repair services n.i.e.', '156 Transport', '157 Travel', '158 Construction', '159 Insurance and pension services', '160 Financial services', '161 Charges for use of intellectual property', '162 Telecom, computer, information services', '163 Other business services', '164 Heritage and recreational services', '165 Health services', '166 Education services', '167 Government goods and services n.i.e.', '168 Services not allocated', '169 Trade-related services', '170 Other personal services', 'Accumulators primary cells and batteries', 'Agricultural and forestry machinery', 'Aircraft and spacecraft', 'Animal feed ingredients and pet foods', 'Articles of concrete cement and plaster', 'Automobile bodies trailers & semi-trailers', 'Bakery products', 'Basic chemicals except fertilizers', 'Basic iron and steel', 'Basic precious and non-ferrous metals', 'Bearings gears gearing & drivi

In [7]:
# Diccionario para guardar todos los resultados
all_results = {}

# Validaci√≥n inicial
if not matrices_comercio:
    raise ValueError("‚ùå matrices_comercio est√° vac√≠o. Verifica crear_matriz_comercio_optimizado()")

total_industrias = len(matrices_comercio)
completadas = 0
saltadas = []
print(f"Procesando {total_industrias} industrias...")

# Procesar cada industria
for industry, mat in matrices_comercio.items():
    try:
        # Limpiar matriz
        mat_clean = eliminar_filas_columnas_cero(mat)
        
        # Si la matriz limpia est√° vac√≠a o es muy peque√±a, continuamos con la siguiente
        if mat_clean.shape[0] < 2:
            saltadas.append(industry)
            continue
        
        # Convertir a numpy array y obtener nombres de pa√≠ses
        X = mat_clean.values
        country_names = mat_clean.columns.tolist()

        # Calcular dependencias
        results = calculate_all_dependencies(X, country_names)
        
        # Guardar resultados
        all_results[industry] = {
            'results': results,
            'country_names': country_names,
            'matrix_shape': mat_clean.shape
        }

        # Actualizar contador y mostrarlo en la misma l√≠nea
        completadas += 1
        print(f"‚úì Completadas: {completadas}/{total_industrias}", end="\r", flush=True)
    
    except Exception as e:
        print(f"\n‚ö†Ô∏è Error en industria '{industry}': {str(e)}")
        continue

# Resumen final
print(f"\n{'='*80}")
print(f"‚úÖ Procesamiento completado: {completadas}/{total_industrias} industrias")
if saltadas:
    print(f"‚ö†Ô∏è Industrias saltadas ({len(saltadas)}): {', '.join(saltadas[:5])}{'...' if len(saltadas) > 5 else ''}")
print(f"{'='*80}\n")


Procesando 170 industrias...
‚úì Completadas: 170/170
‚úÖ Procesamiento completado: 170/170 industrias



## Generar y guadar datos de intermediarios Cr√≠ticos

In [8]:
def get_top_intermediaries(results, top_n=10):
    """
    Obtiene los pa√≠ses m√°s importantes como intermediarios.
    
    Parameters:
    -----------
    results : dict
        Resultados del an√°lisis con intermediarios
    top_n : int
        N√∫mero de pa√≠ses a mostrar
        
    Returns:
    --------
    list
        Lista de tuplas (pa√≠s, score, frecuencia, fuerza) ordenadas por importancia
    """
    # La estructura de intermediary_centrality ha cambiado en la nueva implementaci√≥n
    # Ahora es una lista de tuplas (pa√≠s, frecuencia, fuerza, score_combinado)
    if isinstance(results['intermediary_centrality'], list):
        # Nueva implementaci√≥n: ya est√° ordenada por score combinado
        return results['intermediary_centrality'][:top_n]
    else:
        # Implementaci√≥n anterior (por compatibilidad)
        centrality_scores = [(country, metrics) 
                            for country, metrics in results['intermediary_centrality'].items()]
        centrality_scores.sort(key=lambda x: x[1]['centrality_score'], reverse=True)
        return centrality_scores[:top_n]

def analyze_country_intermediary_role(results, country):
    """
    Analiza el papel de un pa√≠s espec√≠fico como intermediario.
    
    Parameters:
    -----------
    results : dict
        Resultados del an√°lisis con intermediarios
    country : str
        Pa√≠s a analizar
        
    Returns:
    --------
    dict
        Informaci√≥n detallada sobre el rol del pa√≠s como intermediario
    """
    # Verificar si el pa√≠s existe en los resultados
    if isinstance(results['intermediary_centrality'], list):
        # Nueva implementaci√≥n - lista de tuplas
        country_entry = next((entry for entry in results['intermediary_centrality'] 
                             if entry[0] == country), None)
        
        if country_entry is None:
            return {"error": f"El pa√≠s {country} no est√° en los resultados"}
            
        # Extraer m√©tricas
        centrality = {
            "frequency": country_entry[1],
            "strength": country_entry[2],
            "centrality_score": country_entry[3]
        }
    else:
        # Implementaci√≥n anterior
        if country not in results['intermediary_centrality']:
            return {"error": f"El pa√≠s {country} no est√° en los resultados"}
        centrality = results['intermediary_centrality'][country]
    
    # Encontrar las rutas m√°s importantes donde este pa√≠s act√∫a como intermediario
    top_paths = []
    for path in results['critical_paths']:
        if country in path['intermediarios']:
            top_paths.append(path)
    
    # Ordenar por fuerza del camino
    top_paths.sort(key=lambda x: x['fuerza'], reverse=True)
    
    # Filtrar los 10 caminos m√°s importantes
    top_paths = top_paths[:10]
    
    return {
        "metrics": centrality,
        "top_paths": top_paths,
        "role_summary": {
            "total_paths": len(top_paths),
            "average_path_strength": sum(p['fuerza'] for p in top_paths) / len(top_paths) if top_paths else 0,
            "max_path_strength": max(p['fuerza'] for p in top_paths) if top_paths else 0,
            "unique_exporters": len(set(p['exportador'] for p in top_paths)),
            "unique_importers": len(set(p['importador'] for p in top_paths))
        }
    }

def summarize_country_dependencies(results, country, top_n=5):
    """
    Genera un resumen de las dependencias comerciales de un pa√≠s espec√≠fico.
    
    Parameters:
    -----------
    results : dict
        Resultados del an√°lisis de dependencias
    country : str
        Pa√≠s a analizar
    top_n : int
        N√∫mero de dependencias principales a mostrar
        
    Returns:
    --------
    dict
        Resumen de dependencias del pa√≠s
    """
    # Dependencias como importador (otros pa√≠ses exportan a este pa√≠s)
    import_dependencies = []
    for dep in results['dependencies']:
        if dep['importador'] == country:
            import_dependencies.append(dep)
    
    # Ordenar por dependencia total
    import_dependencies.sort(key=lambda x: x['dependencia_total'], reverse=True)
    
    # Dependencias como exportador (este pa√≠s exporta a otros)
    export_dependencies = []
    for dep in results['dependencies']:
        if dep['exportador'] == country:
            export_dependencies.append(dep)
    
    # Ordenar por dependencia total
    export_dependencies.sort(key=lambda x: x['dependencia_total'], reverse=True)
    
    # Calcular dependencia promedio
    avg_dependency = results['avg_dependencies'].get(country, 0)
    
    # Analizar el papel como intermediario
    intermediary_role = None
    if isinstance(results['intermediary_centrality'], list):
        # Nueva implementaci√≥n
        intermediary_info = next((x for x in results['intermediary_centrality'] if x[0] == country), None)
        if intermediary_info:
            intermediary_role = {
                "frequency": intermediary_info[1],
                "strength": intermediary_info[2],
                "centrality_score": intermediary_info[3],
                "rank": next((i+1 for i, x in enumerate(results['intermediary_centrality']) 
                             if x[0] == country), None)
            }
    else:
        # Implementaci√≥n anterior
        if country in results['intermediary_centrality']:
            intermediary_role = results['intermediary_centrality'][country]
            # Calcular rango
            countries_sorted = sorted(results['intermediary_centrality'].keys(), 
                                     key=lambda x: results['intermediary_centrality'][x]['centrality_score'],
                                     reverse=True)
            intermediary_role["rank"] = countries_sorted.index(country) + 1
    
    return {
        "country": country,
        "avg_dependency": avg_dependency,
        "top_import_dependencies": import_dependencies[:top_n],
        "top_export_dependencies": export_dependencies[:top_n],
        "total_import_dependencies": len(import_dependencies),
        "total_export_dependencies": len(export_dependencies),
        "intermediary_role": intermediary_role
    }

def identify_critical_trade_relationships(results, threshold=0.7, min_paths=3):
    """
    Identifica relaciones comerciales cr√≠ticas con alta dependencia.
    
    Parameters:
    -----------
    results : dict
        Resultados del an√°lisis de dependencias
    threshold : float
        Umbral de dependencia para considerar una relaci√≥n como cr√≠tica
    min_paths : int
        N√∫mero m√≠nimo de caminos alternativos para evitar criticidad
        
    Returns:
    --------
    list
        Lista de relaciones cr√≠ticas
    """
    critical_relationships = []
    
    # Analizar cada dependencia
    for dep in results['dependencies']:
        if dep['dependencia_total'] >= threshold:
            # Buscar caminos alternativos
            pair_key = f"{dep['exportador']}->{dep['importador']}"
            alternative_paths = []
            
            if pair_key in results['critical_intermediaries']:
                alternative_paths = results['critical_intermediaries'][pair_key]
            
            # Si hay pocos caminos alternativos, es una relaci√≥n cr√≠tica
            if len(alternative_paths) < min_paths:
                critical_relationships.append({
                    "exportador": dep['exportador'],
                    "importador": dep['importador'],
                    "dependencia_total": dep['dependencia_total'],
                    "dependencia_directa": dep['dependencia_directa'],
                    "caminos_alternativos": len(alternative_paths),
                    "criticidad": 1.0 - (len(alternative_paths) / min_paths) 
                                     if min_paths > 0 else 1.0
                })
    
    # Ordenar por criticidad
    critical_relationships.sort(key=lambda x: x['criticidad'], reverse=True)
    
    return critical_relationships

## Creo Dataframes para guardar resultados

In [9]:
import pandas as pd

def create_dependencies_dataframe(all_results):
    """
    Crea un DataFrame con los resultados de dependencias para todas las industrias.
    
    Parameters:
    -----------
    all_results : dict
        Diccionario con los resultados por industria
        
    Returns:
    --------
    pandas.DataFrame
        DataFrame con las columnas: industria, importador, exportador, 
        dependencia_total, dependencia_directa, dependencia_indirecta, longitud_optima
    """
    # Lista para almacenar los datos de todas las industrias
    all_data = []
    
    # Procesar cada industria
    for industry, data in all_results.items():
        # Obtener los resultados de esta industria
        industry_results = data['results']['dependencies']
        
        # A√±adir cada fila de resultados
        for result in industry_results:
            row = {
                'industria': industry,
                'importador': result['importador'],
                'exportador': result['exportador'],
                'dependencia_total': result['dependencia_total'],
                'dependencia_directa': result['dependencia_directa'],
                'dependencia_indirecta': result['dependencia_indirecta'],
                'trade_value': result['trade_value'],
                'longitud_optima': result['longitud_optima']
            }
            all_data.append(row)
    
    # Crear el DataFrame
    df = pd.DataFrame(all_data)
    
    # Ordenar el DataFrame
    df = df.sort_values(['industria', 'dependencia_total'], ascending=[True, False])
    
    return df

# Ejemplo de uso:
df = create_dependencies_dataframe(all_results)

# Definir el nuevo mapeo de nombres de columnas
nuevo_nombres = {
    'industria': 'industry',
    'importador': 'dependent_country',
    'exportador': 'supplier_country',
    'dependencia_total': 'dependency_value',
    'dependencia_directa': 'direct_dependency',
    'dependencia_indirecta': 'indirect_dependency',
    'trade_value': 'trade_value',
    'longitud_optima': 'longitud_optima'
}

# Renombrar las columnas
df = df.rename(columns=nuevo_nombres)

# Rutas (evitamos espacios en nombres de carpetas)
base_path = Path.cwd().parent.parent
target_directory = base_path / "data" / "processed" / "dependencias_consolidadas"

ruta_archivo = target_directory / f"dependencias{anio}_borrar.csv.gz"


# Guardar como gzip
with gzip.open(ruta_archivo, 'wt', encoding='utf-8') as f:
    df.to_csv(f, sep=";", index=False)

print(f"DataFrame guardado correctamente en: {ruta_archivo}")

DataFrame guardado correctamente en: c:\Users\Usuario\Documents\Github\Seguridad Economica\data\processed\dependencias_consolidadas\dependencias2022_borrar.csv.gz


# AN√ÅLISIS

In [10]:
def analizar_dependencia_trazable(
    matrices_comercio, 
    industry: str,
    exportador_iso3: str,
    importador_iso3: str,
    country_names=None,
    convergence_threshold=0.01,
    max_possible_length=3,
    path_strength_threshold=0.001,
    apply_cleanup=True,  # ‚Üê NUEVO
    verbose=True
):
    """
    Calcula la dependencia de un par exportador-importador en una industria espec√≠fica,
    mostrando el RASTRO COMPLETO de cada c√°lculo paso a paso.
    
    AHORA TAMBI√âN MUESTRA de d√≥nde salen las FUERZAS en dependencias indirectas:
    - Valores brutos de comercio X
    - Denominadores (importaciones totales)
    - C√°lculo de cada transici√≥n T
    - Producto final
    
    Parameters:
    -----------
    matrices_comercio : dict
        Diccionario de matrices por industria (salida de crear_matriz_comercio_optimizado)
    industry : str
        Nombre de la industria a analizar
    exportador_iso3 : str
        C√≥digo ISO3 del pa√≠s exportador
    importador_iso3 : str
        C√≥digo ISO3 del pa√≠s importador
    country_names : list, opcional
        Lista de nombres de pa√≠ses (si None, usa los √≠ndices de la matriz)
    convergence_threshold : float
        Umbral de convergencia
    max_possible_length : int
        Longitud m√°xima de caminos
    path_strength_threshold : float
        Umbral m√≠nimo de fuerza de camino
    verbose : bool
        Si imprimir el an√°lisis detallado
        
    Returns:
    --------
    dict con toda la informaci√≥n y rastro de c√°lculos
    """
    
    # VALIDACIONES
    if industry not in matrices_comercio:
        raise ValueError(f"Industria '{industry}' no encontrada. Disponibles: {list(matrices_comercio.keys())[:5]}...")
    
    mat = matrices_comercio[industry]
    
    if apply_cleanup:
        mat = eliminar_filas_columnas_cero(mat)
    
    # Obtener √≠ndices de pa√≠ses
    try:
        j_idx = list(mat.index).index(exportador_iso3)
    except ValueError:
        raise ValueError(f"Exportador '{exportador_iso3}' no en industria '{industry}'")
    
    try:
        i_idx = list(mat.columns).index(importador_iso3)
    except ValueError:
        raise ValueError(f"Importador '{importador_iso3}' no en industria '{industry}'")
    
    # Convertir a numpy
    X = mat.values.astype(np.float64)
    pais_names = list(mat.columns)
    n = X.shape[0]
    
    if country_names is None:
        country_names = pais_names
    
    # =====================================================
    # RASTRO DE C√ÅLCULOS
    # =====================================================
    trace = {
        'industry': industry,
        'exportador': exportador_iso3,
        'importador': importador_iso3,
        'pasos': []
    }
    
    # PASO 1: MATRIZ DE TRANSICI√ìN
    # ============================
    denom = X.sum(axis=0, dtype=np.float64)
    denom_safe = denom.copy()
    denom_safe[denom_safe == 0.0] = np.inf
    T = (X / denom_safe).astype(np.float64)
    
    trace['pasos'].append({
        'fase': '1. MATRIZ DE TRANSICI√ìN',
        'descripcion': f'T[a,b] = X[a,b] / (suma de importaciones de b)',
        'denominadores': {pais_names[k]: float(denom[k]) for k in range(n)},
        'matriz_T_forma': T.shape
    })
    
    # PASO 2: DEPENDENCIA DIRECTA (L=1)
    # ==================================
    trade_value = X[j_idx, i_idx]
    denom_i = denom[i_idx]
    direct_dependency = (X[j_idx, i_idx] / denom_i) if denom_i > 0 else 0.0
    
    trace['pasos'].append({
        'fase': '2. DEPENDENCIA DIRECTA (L=1)',
        'calculo': f'{exportador_iso3} ‚Üí {importador_iso3}',
        'valor_comercio': float(trade_value),
        'formula': f'X[{j_idx},{i_idx}] / denom[{i_idx}]',
        'valor_numerador': float(X[j_idx, i_idx]),
        'denominador': float(denom_i),
        'resultado': float(direct_dependency)
    })
    
    total_dependency = direct_dependency
    dependencies_by_length = {1: direct_dependency}
    all_paths = []
    
    # PASO 3: DEPENDENCIA INDIRECTA L=2
    # ==================================
    if max_possible_length >= 2:
        trace_l2 = {
            'fase': '3. DEPENDENCIA INDIRECTA (L=2)',
            'formula': f'sum_k [ T[{j_idx},k] * T[k,{i_idx}] ] para k != {j_idx}, {i_idx}',
            'intermediarios_evaluados': [],
            'suma_total': 0.0
        }
        
        di_l2 = 0.0
        row_j = T[j_idx, :]
        col_i = T[:, i_idx]
        
        for k in range(n):
            if k != j_idx and k != i_idx:
                # PASO A: {exportador} ‚Üí {intermediario}
                x_jk = X[j_idx, k]
                denom_k = denom[k]
                t_jk = row_j[k]
                
                # PASO B: {intermediario} ‚Üí {importador}
                x_ki = X[k, i_idx]
                denom_i_paso2 = denom[i_idx]
                t_ki = col_i[k]
                
                # Producto
                producto = t_jk * t_ki
                
                trace_l2['intermediarios_evaluados'].append({
                    'intermediario': pais_names[k],
                    'paso_1_exportador_a_intermediario': {
                        'transicion': f'{exportador_iso3} ‚Üí {pais_names[k]}',
                        'valor_comercio_X': float(x_jk),
                        'importaciones_totales_de': f'{pais_names[k]}',
                        'denominador': float(denom_k),
                        'T_valor': float(t_jk),
                        'formula': f'X[{j_idx},{k}] / denom[{k}] = {x_jk:.10f} / {denom_k:.10f} = {t_jk:.10f}'
                    },
                    'paso_2_intermediario_a_importador': {
                        'transicion': f'{pais_names[k]} ‚Üí {importador_iso3}',
                        'valor_comercio_X': float(x_ki),
                        'importaciones_totales_de': f'{importador_iso3}',
                        'denominador': float(denom_i_paso2),
                        'T_valor': float(t_ki),
                        'formula': f'X[{k},{i_idx}] / denom[{i_idx}] = {x_ki:.10f} / {denom_i_paso2:.10f} = {t_ki:.10f}'
                    },
                    'producto_fuerza': {
                        'formula': f'T[{j_idx},{k}] √ó T[{k},{i_idx}] = {t_jk:.10f} √ó {t_ki:.10f}',
                        'resultado': float(producto)
                    },
                    'pasa_threshold': producto > path_strength_threshold
                })
                
                di_l2 += producto
                
                if producto > path_strength_threshold:
                    all_paths.append({
                        'camino': f"{exportador_iso3} ‚Üí {pais_names[k]} ‚Üí {importador_iso3}",
                        'longitud': 2,
                        'intermediarios': [pais_names[k]],
                        'fuerza': float(producto),
                        'desglose_pasos': [
                            {
                                'de': exportador_iso3,
                                'a': pais_names[k],
                                'valor_X': float(x_jk),
                                'importaciones_totales': float(denom_k),
                                'T_valor': float(t_jk),
                                'formula': f'{x_jk:.10f} / {denom_k:.10f} = {t_jk:.10f}'
                            },
                            {
                                'de': pais_names[k],
                                'a': importador_iso3,
                                'valor_X': float(x_ki),
                                'importaciones_totales': float(denom_i_paso2),
                                'T_valor': float(t_ki),
                                'formula': f'{x_ki:.10f} / {denom_i_paso2:.10f} = {t_ki:.10f}'
                            }
                        ],
                        'pasos_transicion': [
                            (exportador_iso3, pais_names[k], float(t_jk)),
                            (pais_names[k], importador_iso3, float(t_ki))
                        ]
                    })
        
        trace_l2['suma_total'] = float(di_l2)
        trace['pasos'].append(trace_l2)
        
        dependencies_by_length[2] = float(di_l2)
        total_dependency += di_l2
    
    # PASO 4+: DEPENDENCIA INDIRECTA L>=3
    # ====================================
    if max_possible_length >= 3:
        middle = [k for k in range(n) if k != j_idx and k != i_idx]
        
        for L in range(3, max_possible_length + 1):
            trace_lx = {
                'fase': f'4.{L-2}. DEPENDENCIA INDIRECTA (L={L})',
                'longitud': L,
                'num_combinaciones': len(list(combinations(middle, L-1))),
                'caminos_significativos': [],
                'suma_total': 0.0
            }
            
            di_lx = 0.0
            
            for interms in combinations(middle, L-1):
                path_seq = (j_idx,) + interms + (i_idx,)
                
                # Calcular producto a lo largo del camino CON DESGLOSE
                prod = 1.0
                pasos_camino = []
                desglose_pasos = []
                
                for a, b in zip(path_seq[:-1], path_seq[1:]):
                    x_ab = X[a, b]
                    denom_b = denom[b]
                    w = T[a, b]
                    
                    desglose_pasos.append({
                        'de': pais_names[a],
                        'a': pais_names[b],
                        'valor_X': float(x_ab),
                        'importaciones_totales': float(denom_b),
                        'T_valor': float(w),
                        'formula': f'{x_ab:.10f} / {denom_b:.10f} = {w:.10f}'
                    })
                    
                    pasos_camino.append((pais_names[a], pais_names[b], float(w)))
                    if w == 0.0:
                        prod = 0.0
                        break
                    prod *= w
                
                di_lx += prod
                
                if prod > path_strength_threshold:
                    # Construir f√≥rmula del producto
                    formula_prod = ' √ó '.join([f'{paso["T_valor"]:.10f}' for paso in desglose_pasos])
                    
                    trace_lx['caminos_significativos'].append({
                        'camino': ' ‚Üí '.join([pais_names[idx] for idx in path_seq]),
                        'intermediarios': [pais_names[idx] for idx in interms],
                        'pasos_desglose': desglose_pasos,
                        'formula_producto': formula_prod,
                        'producto': float(prod)
                    })
                    
                    all_paths.append({
                        'camino': ' ‚Üí '.join([pais_names[idx] for idx in path_seq]),
                        'longitud': L,
                        'intermediarios': [pais_names[idx] for idx in interms],
                        'fuerza': float(prod),
                        'desglose_pasos': desglose_pasos,
                        'pasos_transicion': pasos_camino
                    })
            
            trace_lx['suma_total'] = float(di_lx)
            trace['pasos'].append(trace_lx)
            
            dependencies_by_length[L] = float(di_lx)
            total_dependency += di_lx
            
            # Criterio de convergencia
            if L > 1 and di_lx < convergence_threshold:
                trace['pasos'].append({
                    'fase': 'CONVERGENCIA',
                    'mensaje': f'L={L}: contribuci√≥n ({di_lx}) < threshold ({convergence_threshold})',
                    'detenido_en': L
                })
                break
    
    # RESUMEN FINAL
    # =============
    trace['resumen'] = {
        'dependencia_directa': float(direct_dependency),
        'dependencia_indirecta_total': float(total_dependency - direct_dependency),
        'dependencia_total': float(total_dependency),
        'desglose_por_longitud': {k: float(v) for k, v in dependencies_by_length.items()},
        'num_caminos_significativos': len(all_paths),
        'valor_comercio': float(trade_value)
    }
    
    trace['caminos'] = sorted(all_paths, key=lambda x: x['fuerza'], reverse=True)
    
    # IMPRESI√ìN FORMATEADA
    # ====================
    if verbose:
        print("\n" + "="*100)
        print(f"AN√ÅLISIS TRAZABLE DE DEPENDENCIA COMERCIAL CON DESGLOSE DE FUERZAS")
        print("="*100)
        print(f"\nüìä CONTEXTO:")
        print(f"   Industria:       {industry}")
        print(f"   Exportador:      {exportador_iso3}")
        print(f"   Importador:      {importador_iso3}")
        print(f"   Valor comercio:  {trade_value:,.2f}")
        
        print(f"\n{'‚îÄ'*100}")
        print(f"MATRIZ DE TRANSICI√ìN T")
        print(f"{'‚îÄ'*100}")
        print(f"T[a,b] = (flujo de a hacia b) / (suma total de importaciones de b)")
        print(f"Dimensiones: {T.shape[0]} pa√≠ses √ó {T.shape[1]} pa√≠ses")
        
        print(f"\n{'‚îÄ'*100}")
        print(f"C√ÅLCULO DE DEPENDENCIA")
        print(f"{'‚îÄ'*100}")
        
        print(f"\n1Ô∏è‚É£  DEPENDENCIA DIRECTA (L=1):")
        print(f"   F√≥rmula: X[{j_idx},{i_idx}] / Œ£(importaciones de {i_idx})")
        print(f"   Numerador:   {X[j_idx, i_idx]:.10f}")
        print(f"   Denominador: {denom_i:.10f}")
        print(f"   ‚ûú Resultado: {direct_dependency:.10f}")
        
        if max_possible_length >= 2:
            di_l2 = dependencies_by_length.get(2, 0)
            print(f"\n2Ô∏è‚É£  DEPENDENCIA INDIRECTA (L=2):")
            print(f"   Caminos evaluados: {n - 2} (intermediarios posibles)")
            
            # Mostrar top 5 intermediarios CON DESGLOSE
            l2_paths = [p for p in all_paths if p['longitud'] == 2]
            if l2_paths:
                l2_paths_sorted = sorted(l2_paths, key=lambda x: x['fuerza'], reverse=True)
                print(f"   Top intermediarios CON DESGLOSE DE FUERZAS:")
                for pidx, path in enumerate(l2_paths_sorted[:5], 1):
                    inter = path['intermediarios'][0]
                    print(f"\n      {pidx}. {inter} (Fuerza: {path['fuerza']:.10f})")
                    
                    # Paso 1
                    paso1 = path['desglose_pasos'][0]
                    print(f"         ‚îî‚îÄ PASO 1: {paso1['de']} ‚Üí {paso1['a']}")
                    print(f"            X = {paso1['valor_X']:.10f}")
                    print(f"            Importaciones totales de {paso1['a']} = {paso1['importaciones_totales']:.10f}")
                    print(f"            T = {paso1['valor_X']:.10f} / {paso1['importaciones_totales']:.10f} = {paso1['T_valor']:.10f}")
                    
                    # Paso 2
                    paso2 = path['desglose_pasos'][1]
                    print(f"         ‚îî‚îÄ PASO 2: {paso2['de']} ‚Üí {paso2['a']}")
                    print(f"            X = {paso2['valor_X']:.10f}")
                    print(f"            Importaciones totales de {paso2['a']} = {paso2['importaciones_totales']:.10f}")
                    print(f"            T = {paso2['valor_X']:.10f} / {paso2['importaciones_totales']:.10f} = {paso2['T_valor']:.10f}")
                    
                    # Producto
                    print(f"         ‚îî‚îÄ FUERZA = {paso1['T_valor']:.10f} √ó {paso2['T_valor']:.10f} = {path['fuerza']:.10f}")
                
                if len(l2_paths_sorted) > 5:
                    print(f"\n      ... y {len(l2_paths_sorted)-5} m√°s")
            
            print(f"\n   ‚ûú Suma L=2: {di_l2:.10f}")
        
        if max_possible_length >= 3:
            for L in range(3, max_possible_length + 1):
                di_lx = dependencies_by_length.get(L, 0)
                lx_paths = [p for p in all_paths if p['longitud'] == L]
                print(f"\n{L}Ô∏è‚É£  DEPENDENCIA INDIRECTA (L={L}):")
                print(f"   Combinaciones evaluadas: {len(list(combinations(middle, L-1)))}")
                print(f"   Caminos significativos encontrados: {len(lx_paths)}")
                
                if lx_paths:
                    lx_paths_sorted = sorted(lx_paths, key=lambda x: x['fuerza'], reverse=True)
                    print(f"   Top caminos CON DESGLOSE:")
                    for pidx, path in enumerate(lx_paths_sorted[:3], 1):
                        print(f"\n      {pidx}. {path['camino']}")
                        print(f"         Fuerza: {path['fuerza']:.10f}")
                        
                        for step_idx, paso in enumerate(path['desglose_pasos'], 1):
                            print(f"         Paso {step_idx}: {paso['de']} ‚Üí {paso['a']}")
                            print(f"            X={paso['valor_X']:.10f}, Importaciones={paso['importaciones_totales']:.10f}")
                            print(f"            T = {paso['valor_X']:.10f} / {paso['importaciones_totales']:.10f} = {paso['T_valor']:.10f}")
                        
                        # Producto final
                        formula_prod = ' √ó '.join([f'{p["T_valor"]:.10f}' for p in path['desglose_pasos']])
                        print(f"         PRODUCTO = {formula_prod} = {path['fuerza']:.10f}")
                    
                    if len(lx_paths_sorted) > 3:
                        print(f"\n      ... y {len(lx_paths_sorted)-3} m√°s")
                
                print(f"\n   ‚ûú Suma L={L}: {di_lx:.10f}")
        
        print(f"\n{'‚îÄ'*100}")
        print(f"RESUMEN FINAL")
        print(f"{'‚îÄ'*100}")
        indirect = total_dependency - direct_dependency
        print(f"   Dependencia DIRECTA:        {direct_dependency:.10f} ({100*direct_dependency/total_dependency if total_dependency > 0 else 0:.1f}%)")
        print(f"   Dependencia INDIRECTA:      {indirect:.10f} ({100*indirect/total_dependency if total_dependency > 0 else 0:.1f}%)")
        print(f"   ‚ïî‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïó")
        print(f"   ‚ïë DEPENDENCIA TOTAL:  {total_dependency:.10f} ‚ïë")
        print(f"   ‚ïö‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïù")
        
        print(f"\nDesglose por longitud de camino:")
        for L, dep in sorted(dependencies_by_length.items()):
            pct = 100*dep/total_dependency if total_dependency > 0 else 0
            print(f"   L={L}: {dep:.10f} ({pct:.1f}%)")
        
        print(f"\n" + "="*100 + "\n")
    
    return trace

In [16]:
# Analizar una dependencia espec√≠fica
trace = analizar_dependencia_trazable(
    matrices_comercio,
    industry="Accumulators primary cells and batteries",           # Nombre de la industria
    exportador_iso3="CHN",            # C√≥digo ISO3 del exportador
    importador_iso3="ESP",            # C√≥digo ISO3 del importador
    max_possible_length=3,
    path_strength_threshold=0.001,
    apply_cleanup=True,  # ‚Üê Ahora limpia igual que el original
    verbose=True                      # Imprime an√°lisis detallado
)


AN√ÅLISIS TRAZABLE DE DEPENDENCIA COMERCIAL CON DESGLOSE DE FUERZAS

üìä CONTEXTO:
   Industria:       Accumulators primary cells and batteries
   Exportador:      CHN
   Importador:      ESP
   Valor comercio:  1,912.42

‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
MATRIZ DE TRANSICI√ìN T
‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
T[a,b] = (flujo de a hacia b) / (suma total de importaciones de b)
Dimensiones: 232 pa√≠ses √ó 232 pa√≠ses

‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ

# Creamos intermediarios_globales.parquet

In [11]:
# Crear un DataFrame vac√≠o para almacenar los resultados
intermediarios_globales = []

# Recorrer los resultados de cada industria
for industry, data in all_results.items():
    # Obtener los resultados de intermediarios para esta industria
    for country, freq, strength, score in data['results']['intermediary_centrality']:
        intermediarios_globales.append({
            'industry': industry,
            'country': country,
            'frequency_total': freq,
            'strength_total': strength,
            'global_score': score
        })

# Crear el DataFrame
df_intermediarios = pd.DataFrame(intermediarios_globales)

# Guardar el DataFrame como Parquet
output_path = Path.cwd().parent.parent / "data" / "processed" / "dependencias_consolidadas" / "intermediarios_globales.parquet"
df_intermediarios.to_parquet(output_path, index=False)
print(f"‚úÖ intermediarios_globales guardado en: {output_path}")


‚úÖ intermediarios_globales guardado en: c:\Users\Usuario\Documents\Github\Seguridad Economica\data\processed\dependencias_consolidadas\intermediarios_globales.parquet


country_profiles.parquet

In [12]:
# Crear una lista para almacenar los perfiles de los pa√≠ses
country_profiles = []

# Recorrer los resultados de cada industria
for industry, data in all_results.items():
    # Obtener los resultados de dependencias por pa√≠s
    for country in data['results']['dependencies']:
        # Agregar el perfil del pa√≠s
        country_profiles.append({
            'industry': industry,
            'country': country['importador'],
            'vulnerability': country.get('dependencia_total', 0),
            'importance': country.get('dependencia_total', 0),
            'num_suppliers': country.get('num_suppliers', 0)
        })

# Crear el DataFrame
df_country_profiles = pd.DataFrame(country_profiles)

# Guardar como Parquet
output_path = Path.cwd().parent.parent / "data" / "processed" / "dependencias_consolidadas" / "country_profiles.parquet"
df_country_profiles.to_parquet(output_path, index=False)
print(f"‚úÖ country_profiles guardado en: {output_path}")


‚úÖ country_profiles guardado en: c:\Users\Usuario\Documents\Github\Seguridad Economica\data\processed\dependencias_consolidadas\country_profiles.parquet


relaciones_criticas.parquet

In [13]:
# Lista para almacenar las relaciones cr√≠ticas
relaciones_criticas = []

# Recorrer los resultados de cada industria
for industry, data in all_results.items():
    # Obtener las relaciones cr√≠ticas de esta industria
    crits = identify_critical_trade_relationships(data['results'], threshold=0.7, min_paths=3)
    for c in crits:
        c['industry'] = industry
        relaciones_criticas.append(c)

# Crear el DataFrame
df_relaciones_criticas = pd.DataFrame(relaciones_criticas)

# Guardar como Parquet
output_path = Path.cwd().parent.parent / "data" / "processed" / "dependencias_consolidadas" / "relaciones_criticas.parquet"
df_relaciones_criticas.to_parquet(output_path, index=False)
print(f"‚úÖ relaciones_criticas guardado en: {output_path}")


‚úÖ relaciones_criticas guardado en: c:\Users\Usuario\Documents\Github\Seguridad Economica\data\processed\dependencias_consolidadas\relaciones_criticas.parquet


caminos_significativos.parquet

In [14]:
# Lista para almacenar los caminos significativos
caminos_significativos = []

# Recorrer los resultados de cada industria
for industry, data in all_results.items():
    # Obtener los caminos significativos de esta industria
    for path in data['results']['critical_paths']:
        caminos_significativos.append({
            'industry': industry,
            'exportador': path['exportador'],
            'importador': path['importador'],
            'intermediarios': path['intermediarios'],
            'fuerza': path['fuerza'],
            'longitud': path['longitud']
        })

# Crear el DataFrame
df_caminos_significativos = pd.DataFrame(caminos_significativos)

# Guardar como Parquet
output_path = Path.cwd().parent.parent / "data" / "processed" / "dependencias_consolidadas" / "caminos_significativos.parquet"
df_caminos_significativos.to_parquet(output_path, index=False)
print(f"‚úÖ caminos_significativos guardado en: {output_path}")


‚úÖ caminos_significativos guardado en: c:\Users\Usuario\Documents\Github\Seguridad Economica\data\processed\dependencias_consolidadas\caminos_significativos.parquet


Verificar que all_results est√© disponible:

In [15]:
# Guardar all_results como archivo .pkl
import pickle

# Aseg√∫rate de que 'all_results' se haya creado antes de esta celda
pkl_path = Path.cwd().parent.parent / "data" / "processed" / "dependencias_consolidadas" / "all_results.pkl"
with open(pkl_path, "wb") as f:
    pickle.dump(all_results, f)

print(f"‚úÖ all_results guardado en: {pkl_path}")


‚úÖ all_results guardado en: c:\Users\Usuario\Documents\Github\Seguridad Economica\data\processed\dependencias_consolidadas\all_results.pkl
