In [1]:
import sys
sys.path.append('..')
from utils.paths import get_file_path

import polars as pl
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go

In [2]:
def estilo(fig):
    fig.update_layout(
        title_font=dict(size=24, family="Arial", color="black"),
        xaxis_tickangle=-45,
        xaxis_tickfont=dict(size=12),
        yaxis_tickfont=dict(size=12),
        plot_bgcolor="white",
        paper_bgcolor="white",
        showlegend=False,
        margin=dict(t=80, l=40, r=20, b=120),
    )
    return fig

In [3]:
df = pl.scan_csv(
    get_file_path('cleaned', 'exportaciones'),
    low_memory=True
).collect()

### Concentración de mercados: Cálculo del Índice Herfindahl por país

In [4]:
fob_pais = (
    df.group_by("PAIS")
    .agg(pl.col("FOBDOL").sum().alias("FOBDOL"))
)

total_fob = fob_pais.select(pl.col("FOBDOL").sum()).item()

fob_pais = (
    fob_pais.with_columns(
        (pl.col("FOBDOL") / total_fob).alias("participacion")
    )
    .with_columns(
        (pl.col("participacion") ** 2).alias("participacion_cuadrada")
    )
)

hhi_paises = fob_pais.select(pl.col("participacion_cuadrada").sum()).item()
print(f"Índice HHI por país: {hhi_paises:.4f}")

fob_pais_pd = fob_pais.to_pandas()

fob_pais_pd = fob_pais_pd[fob_pais_pd["participacion"] > 0.01]

Índice HHI por país: 0.1190


### Participación de países con más del 1% en las exportaciones totales

In [5]:
fig = px.bar(
    fob_pais_pd.sort_values("participacion", ascending=True),
    x="participacion",
    y="PAIS",
    orientation="h",
    title="Participación de países con más del 1% en las exportaciones totales",
    labels={"participacion": "Participación", "PAIS": "País"},
)
fig = estilo(fig)
fig.update_layout(xaxis_tickformat=".2%", margin=dict(t=60, l=100, r=40, b=40))
fig.show()

> ###### __Finalidad:__ Visualizar los países que representan al menos el 1% del total de las exportaciones, permitiendo identificar los principales destinos y evaluar el grado de diversificación geográfica del comercio exterior.

__Conclusión:__ Las exportaciones están altamente concentradas en Estados Unidos, que supera el 30% de participación, seguido por China y Panamá con niveles notablemente menores. Aunque hay otros países relevantes, la distribución no es equitativa, lo que sugiere una dependencia significativa de unos pocos mercados internacionales.

### Top 10 países con mayor impacto en el índice HHI

In [6]:
top_hhi = fob_pais_pd.sort_values("participacion_cuadrada", ascending=False).head(10)

fig = px.bar(
    top_hhi,
    x="participacion_cuadrada",
    y="PAIS",
    orientation="h",
    title="Top 10 países con mayor impacto en el índice HHI",
    labels={"participacion_cuadrada": "Participación²", "PAIS": "País"},
)
fig = estilo(fig)
fig.update_layout(xaxis_tickformat=".4f")
fig.show()


> ###### __Finalidad:__ Mostrar qué países tienen mayor peso en el índice Herfindahl-Hirschman, es decir, cuáles contribuyen más a la concentración del mercado exportador.

__Conclusión:__ Estados Unidos domina por completo la contribución al HHI, con una participación² que sobrepasa a cualquier otro país por amplio margen. Esto confirma que la concentración del comercio exterior está altamente influenciada por un solo destino, lo que aumenta el riesgo comercial ante cambios en la demanda o políticas de ese país.

### Conclusión general del análisis HHI

El valor del índice HHI y los gráficos asociados indican una concentración moderada-alta en los mercados de exportación. Aunque hay múltiples países con participaciones superiores al 1%, el peso desproporcionado de Estados Unidos compromete la diversificación y puede afectar la resiliencia económica ante choques externos.

### Matriz de origen-destino: principales 10 países destino por exportaciones

In [7]:
# Filtros
top_paises = df.group_by("PAIS").agg(pl.col("FOBDOL").sum()).sort("FOBDOL", descending=True).head(10)
top_departamentos = df.group_by("DEPTO").agg(pl.col("FOBDOL").sum()).sort("FOBDOL", descending=True).head(10)

# Listas
lista_paises = top_paises.get_column("PAIS").to_list()
lista_deptos = top_departamentos.get_column("DEPTO").to_list()

# Dataframe (Filtrado)
df_filtrado = df.filter(
    pl.col("PAIS").is_in(lista_paises) & pl.col("DEPTO").is_in(lista_deptos)
)

In [8]:
matriz_od = df_filtrado.group_by(["DEPTO", "PAIS"]).agg(pl.col("FOBDOL").sum())
matriz_od = matriz_od.to_pandas()
pivot_table = matriz_od.pivot(index="DEPTO", columns="PAIS", values="FOBDOL")

In [9]:
pivot_table.head(10)

PAIS,Brasil,China,Ecuador,España,Estados Unidos,México,Panamá,Países Bajos,Perú,Venezuela
DEPTO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Antioquia,1620856000.0,1146093000.0,7083376000.0,1083469000.0,37862320000.0,4038426000.0,1174586000.0,1224897000.0,3736686000.0,5862226000.0
Atlántico,2215753000.0,1423387000.0,1529182000.0,355672100.0,7591262000.0,1552447000.0,810305200.0,493043000.0,815926200.0,2687114000.0
Bolívar,6550403000.0,483313400.0,2631948000.0,632431400.0,8101758000.0,2098922000.0,744329400.0,206617400.0,2563960000.0,1736384000.0
Cesar,2603179000.0,943307700.0,2089606.0,2352470000.0,7028595000.0,3055482000.0,459898200.0,8759409000.0,184140800.0,1063615000.0
Cundinamarca,2356222000.0,886793600.0,4049349000.0,504129800.0,13516360000.0,1958416000.0,501619900.0,936232100.0,2173870000.0,2915098000.0
Departamentos Varios,165141700.0,27802700000.0,211601100.0,8081762000.0,69199030000.0,164827100.0,19081710000.0,2348256000.0,1012177000.0,64449640.0
La Guajira,1106700000.0,1169537000.0,235731.5,2364059000.0,2894774000.0,158568500.0,58455630.0,9108059000.0,96563400.0,2179442000.0
Petróleo y Derivados,330170900.0,2159004000.0,251764000.0,811366800.0,50649350000.0,287503000.0,1307803000.0,272457300.0,575429900.0,14409830.0
Santafé de Bogotá,1047425000.0,659959200.0,7766527000.0,872581300.0,18066120000.0,2982073000.0,2067763000.0,832000600.0,3189457000.0,7768538000.0
Valle del Cauca,1349826000.0,528465900.0,6670203000.0,411266800.0,7734950000.0,1863497000.0,1219084000.0,337348900.0,4597932000.0,4670298000.0


In [10]:
fig = go.Figure(data=go.Heatmap(
    z=pivot_table.values,
    x=pivot_table.columns,
    y=pivot_table.index,
    colorscale="YlGnBu",
    colorbar=dict(title="FOB Dólares")
))

fig.update_layout(
    title="Matriz de origen-destino",
    xaxis_title="País",
    yaxis_title="Departamento",
    xaxis_tickfont=dict(size=12),
    yaxis_tickfont=dict(size=12),
    xaxis=dict(type="category"),
    yaxis=dict(type="category"),
    title_font=dict(size=24, family="Arial", color="black"),
    xaxis_tickangle=-45,
    plot_bgcolor="white",
    paper_bgcolor="white"
)

fig.show()

>###### __Finalidad__:Visualizar la concentración del comercio exterior colombiano desde distintos departamentos hacia los 10 países que concentran el mayor valor exportado en dólares FOB, permitiendo identificar patrones geográficos de exportación y relaciones bilaterales destacada

__Conclusiones__:

+ Estados Unidos sobresale como principal socio comercial en múltiples departamentos, destacándose especialmente en Departamentos Varios, Petróleo y Derivados y Atlántico.

+ Algunos países como Países Bajos o Panamá tienen relaciones relevantes con departamentos específicos, sugiriendo rutas comerciales o productos estratégicos.

+ A pesar de la reducción a solo 10 países, se observa una alta dispersión regional, lo que indica diversidad en los orígenes internos de las exportaciones colombianas.

+ Esta selección permite enfocar el análisis sin perder de vista los actores más relevantes en términos de valor exportado.

###  ¿Qué productos exportan estos países?

In [37]:
# Filtros
grupo = (
    df_filtrado.group_by(["PAIS", "DEPTO", "POSARA"])
    .agg(pl.col("FOBDOL").sum().alias("TOTAL_FOB"))
)

producto_top = (
    grupo.sort(["PAIS", "DEPTO", "TOTAL_FOB"], descending=[False, False, True])
    .group_by(["PAIS", "DEPTO"])
    .agg(pl.col("POSARA").first().alias("POSARA_TOP"), pl.col("TOTAL_FOB").max())
)
# Conversión
producto_top = producto_top.to_pandas()

# Ruta
productos = get_file_path('mappings', 'productos_top')

# Mapping
df_productos = pd.read_csv(productos)
dict_productos = pd.Series(df_productos.PRODUCT.values, index=df_productos.POSARA).to_dict()
producto_top["POSARA_TOP"] = producto_top["POSARA_TOP"].map(dict_productos)
producto_top = producto_top.rename(columns={"POSARA_TOP":"PRODUCTOS"})

In [45]:
def filtro_pais(pais: str):
    if not isinstance(pais, str):
        raise ValueError("El parámetro 'pais' debe ser una cadena de texto.")
    
    pais = pais.strip().upper()
    return producto_top[producto_top["PAIS"].str.strip().str.upper() == pais]

In [46]:
filtro_pais("Estados unidos")

Unnamed: 0,PAIS,DEPTO,PRODUCTOS,TOTAL_FOB
9,Estados Unidos,Departamentos Varios,Petróleos crudos,59814880000.0
38,Estados Unidos,Cesar,"Hulla bituminosa, incluso pulverizada, sin agl...",6805814000.0
52,Estados Unidos,Valle del Cauca,Gemas y metales preciosos,1229241000.0
57,Estados Unidos,Cundinamarca,Flores y capullos cortados frescos (otras vari...,2644424000.0
65,Estados Unidos,Antioquia,Gemas y metales preciosos,18267880000.0
67,Estados Unidos,La Guajira,"Hulla bituminosa, incluso pulverizada, sin agl...",2862320000.0
69,Estados Unidos,Santafé de Bogotá,Flores y capullos cortados frescos (otras vari...,3170017000.0
74,Estados Unidos,Bolívar,Petróleos crudos,2418854000.0
87,Estados Unidos,Atlántico,Polvos de aluminio,3142712000.0
95,Estados Unidos,Petróleo y Derivados,Petróleos crudos,43089950000.0


### Evolución de diversificación - Número de países activos por año

In [None]:
diversificacion = df.group_by("AÑO").agg(pl.col("PAIS").n_unique().alias("num_paises")).sort("AÑO")

In [51]:
diversificacion

AÑO,num_paises
i64,u32
2004,189
2005,185
2006,196
2007,195
2008,204
…,…
2020,212
2021,205
2022,206
2023,205


In [52]:
fig = px.line(diversificacion,
              x='AÑO',
              y='num_paises',
              title='Número de países activos por año',
              labels={"AÑO": "Año", "num_paises": "Numero de paises"}
              )
fig = estilo(fig)
fig.show()

>###### __Finalidad:__ Analizar si el país ha ampliado o reducido sus mercados internacionales a lo largo del tiempo, evaluando la apertura o concentración geográfica del comercio exterior.

### Dependencia de mercados (Top 5 países y su participación)

In [53]:
top5_paises = fob_pais.sort("FOBDOL", descending=True).head(5)
top5_participacion = top5_paises.with_columns(
    (pl.col("FOBDOL") / total_fob * 100).alias("pct_participacion")
)

In [55]:
print(top5_participacion)

shape: (5, 5)
┌────────────────┬───────────┬───────────────┬────────────────────────┬───────────────────┐
│ PAIS           ┆ FOBDOL    ┆ participacion ┆ participacion_cuadrada ┆ pct_participacion │
│ ---            ┆ ---       ┆ ---           ┆ ---                    ┆ ---               │
│ str            ┆ f64       ┆ f64           ┆ f64                    ┆ f64               │
╞════════════════╪═══════════╪═══════════════╪════════════════════════╪═══════════════════╡
│ Estados Unidos ┆ 2.7012e11 ┆ 0.318327      ┆ 0.101332               ┆ 31.832701         │
│ China          ┆ 4.8965e10 ┆ 0.057703      ┆ 0.00333                ┆ 5.770312          │
│ Panamá         ┆ 4.5006e10 ┆ 0.053038      ┆ 0.002813               ┆ 5.303781          │
│ Venezuela      ┆ 3.7167e10 ┆ 0.0438        ┆ 0.001918               ┆ 4.380031          │
│ Ecuador        ┆ 3.4099e10 ┆ 0.040185      ┆ 0.001615               ┆ 4.018463          │
└────────────────┴───────────┴───────────────┴────────────────────

>###### __Finalidad:__ Identificar qué países representan la mayor proporción de las exportaciones, evaluando el grado de exposición a mercados específicos.