# Procesamiento de Datos de Dependencias Econ√≥micas
## Real Instituto Elcano - √çndice de Seguridad Econ√≥mica

Este notebook procesa los archivos CSV de dependencias econ√≥micas y los convierte a formato Parquet para an√°lisis eficiente.

## 1. Instalaci√≥n y Configuraci√≥n

In [1]:
import pandas as pd
import pyarrow as pa
import pyarrow.parquet as pq
from pathlib import Path
import re
import gzip
from typing import List, Dict
import warnings
warnings.filterwarnings('ignore')

## 2. Configuraci√≥n de Rutas y Par√°metros

In [2]:

# ============================================
# CONFIGURACI√ìN - Ajusta estas rutas
# ============================================

base_path = Path.cwd().parent
INPUT_DIR = base_path / "data" / "processed" / "dependencias_consolidadas"

OUTPUT_DIR = base_path / "data" / "processed" / "parquet_files"
OUTPUT_FILE = OUTPUT_DIR / "dependencies_full.parquet"

# Configuraci√≥n de redondeo
ROUNDING_CONFIG = {
    'dependency_value': 4,
    'direct_dependency': 4,
    'indirect_dependency': 4,
    'trade_value': 2,
    'longitud_optima': 0  # Convertir a entero
}

print(f"üìÇ Directorio de entrada: {INPUT_DIR.absolute()}")
print(f"üìÇ Directorio de salida: {OUTPUT_DIR.absolute()}")

üìÇ Directorio de entrada: c:\Users\Usuario\Documents\Github\Seguridad Economica\data\processed\dependencias_consolidadas
üìÇ Directorio de salida: c:\Users\Usuario\Documents\Github\Seguridad Economica\data\processed\parquet_files


## 3. Detecci√≥n de Archivos

In [3]:
def find_dependency_files(directory: Path) -> List[tuple]:
    """
    Encuentra todos los archivos dependencias{a√±o}.csv.gz
    Retorna lista de tuplas (a√±o, path_completo)
    """
    pattern = re.compile(r'dependencias(\d{4})\.csv\.gz')
    files = []
    
    for file_path in directory.glob("dependencias*.csv.gz"):
        match = pattern.match(file_path.name)
        if match:
            year = int(match.group(1))
            files.append((year, file_path))
    
    return sorted(files, key=lambda x: x[0])

# Buscar archivos
files = find_dependency_files(INPUT_DIR)

print(f"‚úÖ Archivos encontrados: {len(files)}\n")
for year, file_path in files:
    file_size = file_path.stat().st_size / 1024  # KB
    print(f"  üìÑ {file_path.name} - {file_size:,.1f} KB - A√±o {year}")

‚úÖ Archivos encontrados: 22

  üìÑ dependencias2001.csv.gz - 40,891.1 KB - A√±o 2001
  üìÑ dependencias2002.csv.gz - 41,853.4 KB - A√±o 2002
  üìÑ dependencias2003.csv.gz - 42,215.3 KB - A√±o 2003
  üìÑ dependencias2004.csv.gz - 42,825.4 KB - A√±o 2004
  üìÑ dependencias2005.csv.gz - 43,570.1 KB - A√±o 2005
  üìÑ dependencias2006.csv.gz - 43,865.7 KB - A√±o 2006
  üìÑ dependencias2007.csv.gz - 44,631.4 KB - A√±o 2007
  üìÑ dependencias2008.csv.gz - 44,894.6 KB - A√±o 2008
  üìÑ dependencias2009.csv.gz - 44,911.0 KB - A√±o 2009
  üìÑ dependencias2010.csv.gz - 44,563.1 KB - A√±o 2010
  üìÑ dependencias2011.csv.gz - 44,995.7 KB - A√±o 2011
  üìÑ dependencias2012.csv.gz - 45,293.8 KB - A√±o 2012
  üìÑ dependencias2013.csv.gz - 45,774.8 KB - A√±o 2013
  üìÑ dependencias2014.csv.gz - 46,006.0 KB - A√±o 2014
  üìÑ dependencias2015.csv.gz - 46,006.0 KB - A√±o 2015
  üìÑ dependencias2016.csv.gz - 46,037.1 KB - A√±o 2016
  üìÑ dependencias2017.csv.gz - 46,385.9 KB - A√±o 2017
 

## 4. Lectura y Procesamiento de Datos

In [4]:
def read_and_process_file(file_path: Path, year: int) -> pd.DataFrame:
    """
    Lee un archivo CSV.gz, procesa los datos y a√±ade el a√±o
    """
    print(f"‚è≥ Procesando {file_path.name}...")
    
    # Leer CSV comprimido
    with gzip.open(file_path, 'rt', encoding='utf-8') as f:
        df = pd.read_csv(f, sep=';')
    
    # A√±adir columna de a√±o
    df['year'] = year
    
    # Redondear columnas num√©ricas
    for column, decimals in ROUNDING_CONFIG.items():
        if column in df.columns:
            if decimals == 0:
                df[column] = df[column].round(decimals).astype('Int64')  # Int64 permite NaN
            else:
                df[column] = df[column].round(decimals)
    
    print(f"  ‚úì {len(df):,} registros cargados")
    
    return df

# Procesar cada archivo
dataframes = []
for year, file_path in files:
    df = read_and_process_file(file_path, year)
    dataframes.append(df)

print("\n‚úÖ Todos los archivos procesados")

‚è≥ Procesando dependencias2001.csv.gz...
  ‚úì 6,795,998 registros cargados
‚è≥ Procesando dependencias2002.csv.gz...
  ‚úì 6,921,142 registros cargados
‚è≥ Procesando dependencias2003.csv.gz...
  ‚úì 6,980,132 registros cargados
‚è≥ Procesando dependencias2004.csv.gz...
  ‚úì 7,053,498 registros cargados
‚è≥ Procesando dependencias2005.csv.gz...
  ‚úì 7,158,420 registros cargados
‚è≥ Procesando dependencias2006.csv.gz...
  ‚úì 7,241,250 registros cargados
‚è≥ Procesando dependencias2007.csv.gz...
  ‚úì 7,293,002 registros cargados
‚è≥ Procesando dependencias2008.csv.gz...
  ‚úì 7,293,870 registros cargados
‚è≥ Procesando dependencias2009.csv.gz...
  ‚úì 7,297,698 registros cargados
‚è≥ Procesando dependencias2010.csv.gz...
  ‚úì 7,277,098 registros cargados
‚è≥ Procesando dependencias2011.csv.gz...
  ‚úì 7,380,706 registros cargados
‚è≥ Procesando dependencias2012.csv.gz...
  ‚úì 7,408,278 registros cargados
‚è≥ Procesando dependencias2013.csv.gz...
  ‚úì 7,470,004 registros cargados

## 5. Consolidaci√≥n de Datos y compactaci√≥n en memoria

In [5]:
# Consolidar todos los dataframes
print("üîÑ Consolidando datos...")
df_full = pd.concat(dataframes, ignore_index=True)
print(f"‚úÖ Dataset consolidado con {len(df_full):,} registros")

# %%
# --- OPTIMIZACI√ìN DE MEMORIA ---

print("üìä ESTADO DE MEMORIA (ANTES):")
# deep=True es crucial para medir el tama√±o real de las columnas 'object'
memoria_antes = df_full.memory_usage(deep=True).sum()
print(f"{memoria_antes / (1024**3):.2f} GiB") # Memoria en Gigabytes

# 1. Convertir 'object' a 'category'
df_full['industry'] = df_full['industry'].astype('category')
df_full['dependent_country'] = df_full['dependent_country'].astype('category')
df_full['supplier_country'] = df_full['supplier_country'].astype('category')

# 2. Convertir 'float64' a 'float32'
df_full['dependency_value'] = df_full['dependency_value'].astype('float32')
df_full['direct_dependency'] = df_full['direct_dependency'].astype('float32')
df_full['indirect_dependency'] = df_full['indirect_dependency'].astype('float32')
df_full['trade_value'] = df_full['trade_value'].astype('float32')

# 3. Convertir 'int64' a 'int16'
df_full['year'] = df_full['year'].astype('int16')

print("\nüìä ESTADO DE MEMORIA (DESPU√âS):")
memoria_despues = df_full.memory_usage(deep=True).sum()
print(f"{memoria_despues / (1024**3):.2f} GiB")

print("\nüìà NUEVOS TIPOS DE DATOS:")
print(df_full.dtypes)

print(f"\n‚úÖ Memoria reducida en un {((memoria_antes - memoria_despues) / memoria_antes) * 100:.1f}%")



üîÑ Consolidando datos...
‚úÖ Dataset consolidado con 159,672,930 registros
üìä ESTADO DE MEMORIA (ANTES):
34.29 GiB

üìä ESTADO DE MEMORIA (DESPU√âS):
4.91 GiB

üìà NUEVOS TIPOS DE DATOS:
industry               category
dependent_country      category
supplier_country       category
dependency_value        float32
direct_dependency       float32
indirect_dependency     float32
trade_value             float32
longitud_optima           Int64
year                      int16
dtype: object

‚úÖ Memoria reducida en un 85.7%


## 6. Exploraci√≥n del Dataset

In [6]:
# Informaci√≥n general
print("üìä INFORMACI√ìN DEL DATASET\n")
print(f"Total de registros: {len(df_full):,}")
print(f"Columnas: {list(df_full.columns)}")
print(f"\nTipos de datos:")
print(df_full.dtypes)

# %%
# Estad√≠sticas por a√±o
print("\nüìà DISTRIBUCI√ìN POR A√ëO\n")
year_stats = df_full.groupby('year').size()
print(year_stats)

# %%
# Estad√≠sticas descriptivas
print("\nüìä ESTAD√çSTICAS DESCRIPTIVAS\n")
print(df_full.describe())

# %%
# Informaci√≥n de dimensiones
print("\nüåç DIMENSIONES DEL DATASET\n")
print(f"A√±os: {sorted(df_full['year'].unique())}")
print(f"Pa√≠ses dependientes √∫nicos: {df_full['dependent_country'].nunique()}")
print(f"Pa√≠ses proveedores √∫nicos: {df_full['supplier_country'].nunique()}")
print(f"Industrias √∫nicas: {df_full['industry'].nunique()}")

# %%
# Muestra de datos
print("\nüëÄ PRIMERAS FILAS DEL DATASET\n")
df_full.head(10)

üìä INFORMACI√ìN DEL DATASET

Total de registros: 159,672,930
Columnas: ['industry', 'dependent_country', 'supplier_country', 'dependency_value', 'direct_dependency', 'indirect_dependency', 'trade_value', 'longitud_optima', 'year']

Tipos de datos:
industry               category
dependent_country      category
supplier_country       category
dependency_value        float32
direct_dependency       float32
indirect_dependency     float32
trade_value             float32
longitud_optima           Int64
year                      int16
dtype: object

üìà DISTRIBUCI√ìN POR A√ëO

year
2001    6795998
2002    6921142
2003    6980132
2004    7053498
2005    7158420
2006    7241250
2007    7293002
2008    7293870
2009    7297698
2010    7277098
2011    7380706
2012    7408278
2013    7470004
2014    7470140
2015    7470140
2016    7316528
2017    7354630
2018    7365314
2019    7344572
2020    7279508
2021    7302038
2022    7198964
dtype: int64

üìä ESTAD√çSTICAS DESCRIPTIVAS

       depende

Unnamed: 0,industry,dependent_country,supplier_country,dependency_value,direct_dependency,indirect_dependency,trade_value,longitud_optima,year
0,156 Transport,ARE,AZE,1.0,1.0,0.0,12.88,2,2001
1,156 Transport,BMU,USA,1.0,1.0,0.0,123.0,2,2001
2,156 Transport,BRN,AUS,1.0,1.0,0.0,9.84,2,2001
3,156 Transport,DZA,TUN,1.0,1.0,0.0,7.23,2,2001
4,156 Transport,FJI,AUS,1.0,1.0,0.0,15.01,2,2001
5,156 Transport,GEO,AZE,1.0,1.0,0.0,7.65,2,2001
6,156 Transport,KAZ,AZE,1.0,1.0,0.0,5.51,2,2001
7,156 Transport,KGZ,AZE,1.0,1.0,0.0,0.04,2,2001
8,156 Transport,LBY,TUN,1.0,1.0,0.0,10.85,2,2001
9,156 Transport,MDA,AZE,1.0,1.0,0.0,0.01,2,2001


## 7. Verificaci√≥n de Redondeo

In [7]:

# Verificar que el redondeo funcion√≥ correctamente
print("üîç VERIFICACI√ìN DE DECIMALES\n")
for col in ['dependency_value', 'direct_dependency', 'indirect_dependency']:
    if col in df_full.columns:
        sample = df_full[col].dropna().head(5)
        print(f"{col}:")
        for val in sample:
            print(f"  {val}")
        print()

# %% [markdown]

üîç VERIFICACI√ìN DE DECIMALES

dependency_value:
  1.0
  1.0
  1.0
  1.0
  1.0

direct_dependency:
  1.0
  1.0
  1.0
  1.0
  1.0

indirect_dependency:
  0.0
  0.0
  0.0
  0.0
  0.0



## 8. Guardado en Formato Parquet

In [8]:
OUTPUT_FILE

WindowsPath('c:/Users/Usuario/Documents/Github/Seguridad Economica/data/processed/parquet_files/dependencies_full.parquet')

In [9]:

# Crear directorio de salida
OUTPUT_DIR.mkdir(parents=True, exist_ok=True)

# Guardar a Parquet
print(f"üíæ Guardando archivo Parquet en: {OUTPUT_FILE}\n")

df_full.to_parquet(
    OUTPUT_FILE,
    engine='pyarrow',
    compression='snappy',
    index=False
)

# Calcular tama√±os
parquet_size = OUTPUT_FILE.stat().st_size / 1024**2  # MB
original_size = sum(f.stat().st_size for _, f in files) / 1024**2  # MB
compression_ratio = (1 - parquet_size/original_size) * 100

print(f"‚úÖ Archivo generado exitosamente")
print(f"\nüìä COMPARACI√ìN DE TAMA√ëOS:")
print(f"  CSV.gz originales: {original_size:.2f} MB")
print(f"  Parquet generado: {parquet_size:.2f} MB")
print(f"  Compresi√≥n adicional: {compression_ratio:.1f}%")

üíæ Guardando archivo Parquet en: c:\Users\Usuario\Documents\Github\Seguridad Economica\data\processed\parquet_files\dependencies_full.parquet

‚úÖ Archivo generado exitosamente

üìä COMPARACI√ìN DE TAMA√ëOS:
  CSV.gz originales: 966.55 MB
  Parquet generado: 168.85 MB
  Compresi√≥n adicional: 82.5%


## 9. Verificaci√≥n de Lectura

In [10]:
# Verificar que el archivo Parquet se puede leer correctamente
print("üîç Verificando archivo Parquet...\n")

df_test = pd.read_parquet(OUTPUT_FILE)
print(f"‚úÖ Archivo le√≠do correctamente")
print(f"Registros: {len(df_test):,}")
print(f"Columnas: {list(df_test.columns)}")
print(f"\nPrimeras filas:")
df_test.head()

üîç Verificando archivo Parquet...

‚úÖ Archivo le√≠do correctamente
Registros: 159,672,930
Columnas: ['industry', 'dependent_country', 'supplier_country', 'dependency_value', 'direct_dependency', 'indirect_dependency', 'trade_value', 'longitud_optima', 'year']

Primeras filas:


Unnamed: 0,industry,dependent_country,supplier_country,dependency_value,direct_dependency,indirect_dependency,trade_value,longitud_optima,year
0,156 Transport,ARE,AZE,1.0,1.0,0.0,12.88,2,2001
1,156 Transport,BMU,USA,1.0,1.0,0.0,123.0,2,2001
2,156 Transport,BRN,AUS,1.0,1.0,0.0,9.84,2,2001
3,156 Transport,DZA,TUN,1.0,1.0,0.0,7.23,2,2001
4,156 Transport,FJI,AUS,1.0,1.0,0.0,15.01,2,2001


## 10. Resumen Final

In [11]:

print("="*60)
print("‚úÖ PROCESAMIENTO COMPLETADO")
print("="*60)
print(f"\nüìÅ Archivo generado: {OUTPUT_FILE}")
print(f"üìä Total de registros: {len(df_full):,}")
print(f"üìÖ A√±os incluidos: {sorted(df_full['year'].unique())}")
print(f"üíæ Tama√±o: {parquet_size:.2f} MB")
print("\nüéØ Siguiente paso: An√°lisis y visualizaci√≥n de datos")

‚úÖ PROCESAMIENTO COMPLETADO

üìÅ Archivo generado: c:\Users\Usuario\Documents\Github\Seguridad Economica\data\processed\parquet_files\dependencies_full.parquet
üìä Total de registros: 159,672,930
üìÖ A√±os incluidos: [2001, 2002, 2003, 2004, 2005, 2006, 2007, 2008, 2009, 2010, 2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021, 2022]
üíæ Tama√±o: 168.85 MB

üéØ Siguiente paso: An√°lisis y visualizaci√≥n de datos
