# INTRODUCCIÓN

**CIFRAS DE COMERCIO EXTERIOR BOLIVIANO**

El objetivo de este cuaderno es procesar los datos del comercio exterior de Bolivia para 2022, donde se busca construir indicadores clave que nos pueda indicar la relación del comercio internacional de Bolivia con el resto del mundo.

La idea no es de mi autoria, ya que el **Instituto Boliviano de Comercio Exterior** se encarga de procesar los datos del INE y presentarlos de forma compacta y sencilla para la población boliviana. Es así, que, como forma de aprender el manejo de grandes volumenes de datos mi persona se planteo replicar la información estadistica proporcionada, pero con el aliciente de usar Python. Para ello se usará las librerias de Numpy y Pandas para tratar con estos datos.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

pd.set_option("display.float_format", lambda x: "%.2f" % x) #Evitar notacion cientifica (3 decimales como máximo

In [None]:
#Cargamos la base de datos a trabajar
from google.colab import files
from google.colab import drive
drive.mount('/content/drive')
#!git clone https://github.com/JohnCordero1/Cifras-De-Comercio-Internacional-para-Bolivia '/content/drive/MyDrive/Proyecto_X_IM'

Mounted at /content/drive


In [None]:
#Nos dirigimos a la carpeta drive de google colab y copiamos la ruta de interes
x = pd.read_excel("/content/drive/MyDrive/EXPORTACIONES 2022p.xlsx")
#im = pd.read_excel("/content/drive/MyDrive/IMPORTACIONES_2022p.xlsx")

In [None]:
x.head(5)

Unnamed: 0,ADUDES,DESADU,GESTION,MES,FLUJO,NANDINA,DESNAN,CAP,DESCAP,SECC,...,CLACT,CODACT2,DESACT2,TNT,DESTNT,CLTNT,KILBRU,KILNET,FINO,VALOR
0,211,Aeropuerto El Alto,2022,1,1 EXPORTACIONES,901119000,LOS DEMAS CAFES SIN TOSTAR SIN DESCAFEINAR,9,"CAFE, TE, HIERBA MATE Y ESPECIAS.",2,...,"1AGRICULTURA,GANADERIA,CAZA SILVICULTURA Y PESCA",A2,Cafe sin Tostar,10,CAFÉ,3NO TRADICIONALES,261.0,240.0,0.0,12501.6
1,211,Aeropuerto El Alto,2022,1,1 EXPORTACIONES,901119000,LOS DEMAS CAFES SIN TOSTAR SIN DESCAFEINAR,9,"CAFE, TE, HIERBA MATE Y ESPECIAS.",2,...,"1AGRICULTURA,GANADERIA,CAZA SILVICULTURA Y PESCA",A2,Cafe sin Tostar,10,CAFÉ,3NO TRADICIONALES,431.0,414.13,0.0,11094.96
2,211,Aeropuerto El Alto,2022,1,1 EXPORTACIONES,901119000,LOS DEMAS CAFES SIN TOSTAR SIN DESCAFEINAR,9,"CAFE, TE, HIERBA MATE Y ESPECIAS.",2,...,"1AGRICULTURA,GANADERIA,CAZA SILVICULTURA Y PESCA",A2,Cafe sin Tostar,10,CAFÉ,3NO TRADICIONALES,1342.25,1300.0,0.0,12767.79
3,211,Aeropuerto El Alto,2022,1,1 EXPORTACIONES,1211909090,LAS DEMAS PLANTAS PARTES DE PLANTAS SEMILLAS Y...,12,SEMILLAS Y FRUTOS OLEAGINOSOS; SEMILLAS Y FRUT...,2,...,"1AGRICULTURA,GANADERIA,CAZA SILVICULTURA Y PESCA",A11,Otros Productos Agropecuarios,34,OTROS PRODUCTOS,3NO TRADICIONALES,667.8,256.52,0.0,4566.41
4,211,Aeropuerto El Alto,2022,1,1 EXPORTACIONES,1806320000,LOS DEMAS CHOCOLATES Y PREPARACIONES ALIMENTIC...,18,CACAO Y SUS PREPARADOS,4,...,4INDUSTRIA MANUFACTURERA,D1,Cacao,11,CACAO,3NO TRADICIONALES,368.0,310.0,0.0,5396.96


Primeramente podemos limpiar el set de datos que tenemos, para un mejor procesamiento de estos. Empezaremos creando un nuevo data frame donde se excluya las reexportaciones y efectos personales, la razón de la exclusión de estos valores radica en que no suelen representar un gran peso sobre las exportaciones, esta idea se la puede corroborar en la siguiente tabla.

In [None]:
x.columns

Index(['ADUDES', 'DESADU', 'GESTION', 'MES', 'FLUJO', 'NANDINA', 'DESNAN',
       'CAP', 'DESCAP', 'SECC', 'DESSEC', 'PAIS', 'DESPAIS', 'AREA', 'DESAREA',
       'OTROS', 'MEDI', 'DESMEDI', 'VIASAL', 'DESVIA', 'DEPART', 'DESDEP',
       'CUCI3', 'DESCUCI3', 'GCE3', 'DESGCE3', 'CIIUR3', 'DESCIIU3', 'CLACT',
       'CODACT2', 'DESACT2', 'TNT', 'DESTNT', 'CLTNT', 'KILBRU', 'KILNET',
       'FINO', 'VALOR'],
      dtype='object')

In [None]:
x["FLUJO"].value_counts()

1 EXPORTACIONES         12301
2 REEXPORTACIONES        3273
3 EFECTOS PRESONALES      220
Name: FLUJO, dtype: int64

In [None]:
# Agrupar por la columna "FLUJO" y sumar los valores
df_flujo_suma = x[["FLUJO","VALOR"]].groupby(by=["FLUJO"]).sum().reset_index() #filtramos en una variable

# Calcular el total y el porcentaje
total_valor = df_flujo_suma['VALOR'].sum() #obtenemos el total
df_flujo_suma['Porcentaje'] = df_flujo_suma['VALOR'] / total_valor * 100 #creamos columna de porcentaje

# Creamos la fila de total a partir de un diccionario
total_fila = {'FLUJO': 'Total',
             'VALOR': total_valor,
             'Porcentaje': 100}
df_flujo_suma = df_flujo_suma.append(total_fila, ignore_index=True)

df_flujo_suma

  df_flujo_suma = df_flujo_suma.append(total_fila, ignore_index=True)


Unnamed: 0,FLUJO,VALOR,Porcentaje
0,Exportaciones,13603746248.6,100.0
1,Total,13603746248.6,100.0


Como se puede observar las "Reexportaciones" y "Efectos personales" solo representan en su conjunto cerca del 0.5% del total del Flujo de exportaciones. Por lo que es factible eliminarlo por razones técnicas y estadisticas.

In [None]:
x = x[x["FLUJO"] == "1 EXPORTACIONES"].reset_index(drop=True) #Renombramos la base de datos de exportaciones "x" y reseteamos el indice
x.shape #12301 igual que observamos antes

(12301, 38)

Lo que se hará a continuación es estructurar un poco mejor el data frame que tenemos, con el objetivo de que sea mucho mas legible.

In [None]:
x.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12301 entries, 0 to 12300
Data columns (total 38 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   ADUDES    12301 non-null  int64  
 1   DESADU    12301 non-null  object 
 2   GESTION   12301 non-null  int64  
 3   MES       12301 non-null  int64  
 4   FLUJO     12301 non-null  object 
 5   NANDINA   12301 non-null  int64  
 6   DESNAN    12301 non-null  object 
 7   CAP       12301 non-null  int64  
 8   DESCAP    12301 non-null  object 
 9   SECC      12301 non-null  int64  
 10  DESSEC    12301 non-null  object 
 11  PAIS      12301 non-null  int64  
 12  DESPAIS   12301 non-null  object 
 13  AREA      12301 non-null  int64  
 14  DESAREA   12301 non-null  object 
 15  OTROS     5775 non-null   object 
 16  MEDI      12301 non-null  int64  
 17  DESMEDI   12301 non-null  object 
 18  VIASAL    12301 non-null  int64  
 19  DESVIA    12301 non-null  object 
 20  DEPART    12301 non-null  in

In [None]:
x.describe()

Unnamed: 0,ADUDES,GESTION,MES,NANDINA,CAP,SECC,PAIS,AREA,MEDI,VIASAL,DEPART,TNT,KILBRU,KILNET,FINO,VALOR
count,12301.0,12301.0,12301.0,12301.0,12301.0,12301.0,12301.0,12301.0,12301.0,12301.0,12301.0,12301.0,12301.0,12301.0,12301.0,12301.0
mean,460.5,2022.0,6.52,3817147965.62,38.08,7.39,317.79,27.79,8.14,7.28,4.68,24.55,1214877.19,1175773.47,939455.1,1105905.72
std,178.24,0.0,3.4,2311863610.65,23.12,4.45,205.49,18.98,1.68,4.93,2.29,11.45,10751143.98,10722584.22,13891443.35,6737328.52
min,211.0,2022.0,1.0,201300090.0,2.0,1.0,23.0,10.0,3.0,1.0,1.0,2.0,0.01,0.01,0.0,0.8
25%,421.0,2022.0,4.0,2008910000.0,20.0,4.0,196.0,10.0,9.0,3.0,2.0,16.0,869.0,751.94,0.0,6500.0
50%,422.0,2022.0,6.0,3102101000.0,31.0,6.0,245.0,30.0,9.0,5.0,5.0,34.0,22832.0,22000.0,0.0,46430.84
75%,621.0,2022.0,9.0,6110191090.0,61.0,11.0,493.0,40.0,9.0,10.0,7.0,34.0,114912.05,109825.0,0.0,230340.0
max,999.0,2022.0,12.0,9703900000.0,97.0,21.0,888.0,70.0,10.0,20.0,9.0,34.0,276236784.18,276236784.18,369700000.19,192545238.95


In [None]:
#Antes de continuar convertiremos los datos de tipo objeto o str en palabras que empiecen por mayuscula
#Para ello usaremos la funcion select_dtypes(include='object') que seleccionara columnas de tipo objeto, para luego a esas mismas columnas aplicar
#la funcion apply() junto a la funcion lambda para aplicar str.title() a cada columna. Con esto lograremos nuestro objetivo
x[x.select_dtypes(include='object').columns] = x.select_dtypes(include='object').apply(lambda x: x.str.title())
x.head(5)

Unnamed: 0,ADUDES,DESADU,GESTION,MES,FLUJO,NANDINA,DESNAN,CAP,DESCAP,SECC,...,CLACT,CODACT2,DESACT2,TNT,DESTNT,CLTNT,KILBRU,KILNET,FINO,VALOR
0,211,Aeropuerto El Alto,2022,1,1 Exportaciones,901119000,Los Demas Cafes Sin Tostar Sin Descafeinar,9,"Cafe, Te, Hierba Mate Y Especias.",2,...,"1Agricultura,Ganaderia,Caza Silvicultura Y Pesca",A2,Cafe Sin Tostar,10,Café,3No Tradicionales,261.0,240.0,0.0,12501.6
1,211,Aeropuerto El Alto,2022,1,1 Exportaciones,901119000,Los Demas Cafes Sin Tostar Sin Descafeinar,9,"Cafe, Te, Hierba Mate Y Especias.",2,...,"1Agricultura,Ganaderia,Caza Silvicultura Y Pesca",A2,Cafe Sin Tostar,10,Café,3No Tradicionales,431.0,414.13,0.0,11094.96
2,211,Aeropuerto El Alto,2022,1,1 Exportaciones,901119000,Los Demas Cafes Sin Tostar Sin Descafeinar,9,"Cafe, Te, Hierba Mate Y Especias.",2,...,"1Agricultura,Ganaderia,Caza Silvicultura Y Pesca",A2,Cafe Sin Tostar,10,Café,3No Tradicionales,1342.25,1300.0,0.0,12767.79
3,211,Aeropuerto El Alto,2022,1,1 Exportaciones,1211909090,Las Demas Plantas Partes De Plantas Semillas Y...,12,Semillas Y Frutos Oleaginosos; Semillas Y Frut...,2,...,"1Agricultura,Ganaderia,Caza Silvicultura Y Pesca",A11,Otros Productos Agropecuarios,34,Otros Productos,3No Tradicionales,667.8,256.52,0.0,4566.41
4,211,Aeropuerto El Alto,2022,1,1 Exportaciones,1806320000,Los Demas Chocolates Y Preparaciones Alimentic...,18,Cacao Y Sus Preparados,4,...,4Industria Manufacturera,D1,Cacao,11,Cacao,3No Tradicionales,368.0,310.0,0.0,5396.96


In [None]:
#Siguiendo con la limpieza de datos. Eliminaremos esos molestos numeros delante de valores de tipo str

# Creamos una lista dcon las columnas que deseamos realizar la operacion
columnas_a_modificar = ['FLUJO', 'CLACT', 'CLTNT']

# eliminamos el número y el espacio al principio en cada columna
for columna in columnas_a_modificar:
    x[columna] = x[columna].str.replace(r'^\d+\s*', '')

  x[columna] = x[columna].str.replace(r'^\d+\s*', '')


In [None]:
x.head(5)

Unnamed: 0,ADUDES,DESADU,GESTION,MES,FLUJO,NANDINA,DESNAN,CAP,DESCAP,SECC,...,CLACT,CODACT2,DESACT2,TNT,DESTNT,CLTNT,KILBRU,KILNET,FINO,VALOR
0,211,Aeropuerto El Alto,2022,1,Exportaciones,901119000,Los Demas Cafes Sin Tostar Sin Descafeinar,9,"Cafe, Te, Hierba Mate Y Especias.",2,...,"Agricultura,Ganaderia,Caza Silvicultura Y Pesca",A2,Cafe Sin Tostar,10,Café,No Tradicionales,261.0,240.0,0.0,12501.6
1,211,Aeropuerto El Alto,2022,1,Exportaciones,901119000,Los Demas Cafes Sin Tostar Sin Descafeinar,9,"Cafe, Te, Hierba Mate Y Especias.",2,...,"Agricultura,Ganaderia,Caza Silvicultura Y Pesca",A2,Cafe Sin Tostar,10,Café,No Tradicionales,431.0,414.13,0.0,11094.96
2,211,Aeropuerto El Alto,2022,1,Exportaciones,901119000,Los Demas Cafes Sin Tostar Sin Descafeinar,9,"Cafe, Te, Hierba Mate Y Especias.",2,...,"Agricultura,Ganaderia,Caza Silvicultura Y Pesca",A2,Cafe Sin Tostar,10,Café,No Tradicionales,1342.25,1300.0,0.0,12767.79
3,211,Aeropuerto El Alto,2022,1,Exportaciones,1211909090,Las Demas Plantas Partes De Plantas Semillas Y...,12,Semillas Y Frutos Oleaginosos; Semillas Y Frut...,2,...,"Agricultura,Ganaderia,Caza Silvicultura Y Pesca",A11,Otros Productos Agropecuarios,34,Otros Productos,No Tradicionales,667.8,256.52,0.0,4566.41
4,211,Aeropuerto El Alto,2022,1,Exportaciones,1806320000,Los Demas Chocolates Y Preparaciones Alimentic...,18,Cacao Y Sus Preparados,4,...,Industria Manufacturera,D1,Cacao,11,Cacao,No Tradicionales,368.0,310.0,0.0,5396.96


¡PERFECTO TENEMOS UNA DATA FRAME LIMPIO PARA SER PROCESADO!

# Exportaciones según estructura

In [None]:
x["CLACT"].value_counts()

Industria Manufacturera                            8534
Extracciën De Minerales                            1886
Agricultura,Ganaderia,Caza Silvicultura Y Pesca    1748
Extracciën De Hidrocarburos                         133
Name: CLACT, dtype: int64

In [None]:
# Agrupar por la columna "CLACT" y sumar los valores
df_clact_suma = x[["CLACT","VALOR"]].groupby(by=["CLACT"]).sum().reset_index().sort_values("VALOR", ascending=False) #filtramos en una variable

# Calcular el total y el porcentaje
total_valor_clact = df_clact_suma['VALOR'].sum() #obtenemos el total
df_clact_suma['Porcentaje'] = df_clact_suma['VALOR'] / total_valor_clact * 100 #creamos columna de porcentaje

# Creamos la fila de total a partir de un diccionario
total_fila_clact = {'CLACT': 'Total',
             'VALOR': total_valor_clact,
             'Porcentaje': 100}
df_clact_suma = df_clact_suma.append(total_fila_clact, ignore_index=True)

df_clact_suma

  df_clact_suma = df_clact_suma.append(total_fila_clact, ignore_index=True)


Unnamed: 0,CLACT,VALOR,Porcentaje
0,Industria Manufacturera,6931534282.69,50.95
1,Extracciën De Hidrocarburos,2973819991.21,21.86
2,Extracciën De Minerales,2949397034.93,21.68
3,"Agricultura,Ganaderia,Caza Silvicultura Y Pesca",748994939.77,5.51
4,Total,13603746248.6,100.0


# Exportaciones Tradicionales y no Tradicionales

In [None]:
x["CLTNT"].value_counts()

No Tradicionales    9396
Minerales           2525
Hidrocarburos        380
Name: CLTNT, dtype: int64

In [None]:
# Agrupar por la columna "CLTNT" y sumamos los valores
df_cltnt_suma = x[["CLTNT","VALOR"]].groupby(by=["CLTNT"]).sum().reset_index()

# Como queremos agrupar el resto en "Tradicionales", excluimos primero "No Tradicionales"
df_agrupamiento_cltnt = df_cltnt_suma[df_cltnt_suma["CLTNT"] == "No Tradicionales"]

# Creamos una nueva fila para el "resto" y la añadimos       #~=not
df_agrupamiento_cltnt = df_agrupamiento_cltnt.append({'CLTNT': 'Tradicionales',
                          'VALOR': df_cltnt_suma.loc[~df_cltnt_suma['CLTNT'].isin(df_agrupamiento_cltnt['CLTNT']),'VALOR'].sum()}, ignore_index=True).sort_values("VALOR", ascending=False)

# Calcular la columna de porcentaje
total_valor_cltnt = df_cltnt_suma['VALOR'].sum()
df_agrupamiento_cltnt['Porcentaje'] = (df_agrupamiento_cltnt['VALOR'] / total_valor_cltnt) * 100

# Creamos la fila de total
total_fila_cltnt = {'CLTNT': 'Total',
             'VALOR': total_valor_cltnt,
             'Porcentaje': 100}
df_agrupamiento_cltnt = df_agrupamiento_cltnt.append(total_fila_cltnt, ignore_index=True) #añadimos la fila

# Colocamos de mayor a menor
df_agrupamiento_cltnt

  df_agrupamiento_cltnt = df_agrupamiento_cltnt.append({'CLTNT': 'Tradicionales',
  df_agrupamiento_cltnt = df_agrupamiento_cltnt.append(total_fila_cltnt, ignore_index=True) #añadimos la fila


Unnamed: 0,CLTNT,VALOR,Porcentaje
0,Tradicionales,9721593121.32,71.46
1,No Tradicionales,3882153127.28,28.54
2,Total,13603746248.6,100.0


# Exportaciones según principales paises de destino

In [None]:
x["DESPAIS"].value_counts()

Chile                           1451
Peru                            1306
Estados Unidos                  1276
China                            812
Brasil                           784
                                ... 
Barbados                           1
Nigeria                            1
Camerun, Republica Unida Del       1
Liberia                            1
Malta                              1
Name: DESPAIS, Length: 110, dtype: int64

In [None]:
# Agrupar por la columna "DESPAIS" y sumamos los valores
df_despais_suma = x[["DESPAIS","VALOR"]].groupby(by=["DESPAIS"]).sum().reset_index()

# Realizamos un ordenamiento de los paises y sacamos el "top 10"
df_top10_despais = df_despais_suma.sort_values(by='VALOR', ascending=False).head(10)

# Creamos una nueva fila para el "resto" y la añadimos
df_top10_despais = df_top10_despais.append({'DESPAIS': 'Otros Paises',
                          'VALOR': df_despais_suma.loc[~df_despais_suma['DESPAIS'].isin(df_top10_despais['DESPAIS']),'VALOR'].sum()}, ignore_index=True) #~=not

# Calcular la columna de porcentaje
total_valor_despais = df_despais_suma['VALOR'].sum()
df_top10_despais['Porcentaje'] = (df_top10_despais['VALOR'] / total_valor_despais) * 100

# Creamos la fila de total
total_fila_despais = {'DESPAIS': 'Total',
             'VALOR': total_valor_despais,
             'Porcentaje': df_top10_despais["Porcentaje"].sum()}
df_top10_despais = df_top10_despais.append(total_fila_despais, ignore_index=True) #añadimos la fila

# Colocamos de mayor a menor
df_top10_despais

  df_top10_despais = df_top10_despais.append({'DESPAIS': 'Otros Paises',
  df_top10_despais = df_top10_despais.append(total_fila_despais, ignore_index=True) #añadimos la fila


Unnamed: 0,DESPAIS,VALOR,Porcentaje
0,India,2258607832.42,16.6
1,Brasil,1893080620.4,13.92
2,Argentina,1744375709.88,12.82
3,Japon,967812549.9,7.11
4,Colombia,944562521.58,6.94
5,Peru,894759719.29,6.58
6,China,787536828.39,5.79
7,Corea (Sur). Republica De,537727845.89,3.95
8,Emiratos Arabes Unidos,506703198.96,3.72
9,Ecuador,424977922.51,3.12


# Exportaciones según modo de transporte por Volumen

In [None]:
x["DESMEDI"].value_counts()

Carretera      9311
Aerea          2413
Ferroviaria     320
Fluvial         130
Ductos          127
Name: DESMEDI, dtype: int64

In [None]:
# Agrupar por la columna "DESMEDI" y sumar el volumen "KILBRU"
df_desmedi_suma = x[["DESMEDI","KILBRU"]].groupby(by=["DESMEDI"]).sum().reset_index().sort_values("KILBRU", ascending=False) #filtramos en una variable

# Calcular el total y el porcentaje
total_valor_desmedi = df_desmedi_suma["KILBRU"].sum() #obtenemos el total
df_desmedi_suma['Porcentaje'] = df_desmedi_suma["KILBRU"] / total_valor_desmedi * 100 #creamos columna de porcentaje

# Creamos la fila de total a partir de un diccionario
total_fila_desmedi = {'DESMEDI': 'Total',
             "KILBRU": total_valor_desmedi,
             'Porcentaje': df_desmedi_suma["Porcentaje"].sum()}
df_desmedi_suma = df_desmedi_suma.append(total_fila_desmedi, ignore_index=True)

df_desmedi_suma

  df_desmedi_suma = df_desmedi_suma.append(total_fila_desmedi, ignore_index=True)


Unnamed: 0,DESMEDI,KILBRU,Porcentaje
0,Ductos,7630947891.1,51.06
1,Carretera,4807166465.21,32.17
2,Fluvial,1529430716.0,10.23
3,Ferroviaria,948222631.02,6.35
4,Aerea,28436640.3,0.19
5,Total,14944204343.63,100.0


# Exportaciones según el departamento del exportador

In [None]:
# Agrupar por la columna "DESDEP"; "VALOR" y "KILBRU"
df_desdep_suma = x[["DESDEP","VALOR",]].groupby(by=["DESDEP"]).sum().reset_index().sort_values("VALOR", ascending=False) #filtramos en una variable

# Calcular el total y el porcentaje
total_valor_desdep = df_desdep_suma['VALOR'].sum() #obtenemos el total
df_desdep_suma['Porcentaje'] = df_desdep_suma['VALOR'] / total_valor_desdep * 100 #creamos columna de porcentaje

# Creamos la fila de total a partir de un diccionario
total_fila_desdep = {'DESDEP': 'Total',
             'VALOR': total_valor_desdep,
             'Porcentaje': df_desdep_suma["Porcentaje"].sum()}
df_desdep_suma = df_desdep_suma.append(total_fila_desdep, ignore_index=True)

df_desdep_suma

  df_desdep_suma = df_desdep_suma.append(total_fila_desdep, ignore_index=True)


Unnamed: 0,DESDEP,VALOR,Porcentaje
0,Santa Cruz,4511292610.71,33.16
1,Potosi,2818359985.25,20.72
2,La Paz,2775593582.9,20.4
3,Tarija,1651740571.26,12.14
4,Beni,626324231.07,4.6
5,Cochabamba,540995161.09,3.98
6,Oruro,494997237.33,3.64
7,Chuquisaca,113427739.72,0.83
8,Pando,71015129.27,0.52
9,Total,13603746248.6,100.0


# Top 10 de las exportaciones bolivianas no tradicionales, por país de destino

In [None]:
#Creamos un nuevo DF solo con las exportaciones no tradicionales
x_no_tradicionales = x[x["CLTNT"] == "No Tradicionales"]
x_no_tradicionales.head(5)

Unnamed: 0,ADUDES,DESADU,GESTION,MES,FLUJO,NANDINA,DESNAN,CAP,DESCAP,SECC,...,CLACT,CODACT2,DESACT2,TNT,DESTNT,CLTNT,KILBRU,KILNET,FINO,VALOR
0,211,Aeropuerto El Alto,2022,1,Exportaciones,901119000,Los Demas Cafes Sin Tostar Sin Descafeinar,9,"Cafe, Te, Hierba Mate Y Especias.",2,...,"Agricultura,Ganaderia,Caza Silvicultura Y Pesca",A2,Cafe Sin Tostar,10,Café,No Tradicionales,261.0,240.0,0.0,12501.6
1,211,Aeropuerto El Alto,2022,1,Exportaciones,901119000,Los Demas Cafes Sin Tostar Sin Descafeinar,9,"Cafe, Te, Hierba Mate Y Especias.",2,...,"Agricultura,Ganaderia,Caza Silvicultura Y Pesca",A2,Cafe Sin Tostar,10,Café,No Tradicionales,431.0,414.13,0.0,11094.96
2,211,Aeropuerto El Alto,2022,1,Exportaciones,901119000,Los Demas Cafes Sin Tostar Sin Descafeinar,9,"Cafe, Te, Hierba Mate Y Especias.",2,...,"Agricultura,Ganaderia,Caza Silvicultura Y Pesca",A2,Cafe Sin Tostar,10,Café,No Tradicionales,1342.25,1300.0,0.0,12767.79
3,211,Aeropuerto El Alto,2022,1,Exportaciones,1211909090,Las Demas Plantas Partes De Plantas Semillas Y...,12,Semillas Y Frutos Oleaginosos; Semillas Y Frut...,2,...,"Agricultura,Ganaderia,Caza Silvicultura Y Pesca",A11,Otros Productos Agropecuarios,34,Otros Productos,No Tradicionales,667.8,256.52,0.0,4566.41
4,211,Aeropuerto El Alto,2022,1,Exportaciones,1806320000,Los Demas Chocolates Y Preparaciones Alimentic...,18,Cacao Y Sus Preparados,4,...,Industria Manufacturera,D1,Cacao,11,Cacao,No Tradicionales,368.0,310.0,0.0,5396.96


In [None]:
# 1. Obtenemos el top 10 de Exportaciones no tradicionales
top_productos_x_no_tradicionales = x_no_tradicionales.groupby('DESNAN')['VALOR'].sum().nlargest(10).index.tolist()

# 2. Inicializar una lista para almacenar los resultados finales
resultados = []

# 3. Iterar sobre cada producto en el top 10
for producto in top_productos_x_no_tradicionales:
    df_producto = x_no_tradicionales[x_no_tradicionales['DESNAN'] == producto]

    # Obtener el top 5 de País de Exportación según Valor
    top_paises_x_no_tradicionales = df_producto.groupby('DESPAIS').agg({'VALOR': 'sum', 'KILBRU': 'sum'}).nlargest(5, 'VALOR').reset_index()

    # Agregar una fila adicional para otros países
    otros_paises_valor_tr = df_producto[~df_producto['DESPAIS'].isin(top_paises_x_no_tradicionales['DESPAIS'])]['VALOR'].sum()
    otros_paises_volumen_tr = df_producto[~df_producto['DESPAIS'].isin(top_paises_x_no_tradicionales['DESPAIS'])]['KILBRU'].sum()

    otros_paises_tr = pd.DataFrame({
        'DESPAIS': ['Otros Paises'],
        'VALOR': [otros_paises_valor_tr],
        'KILBRU': [otros_paises_volumen_tr]
    })

    #Concatenamos la fila de otros paises
    top_paises_x_no_tradicionales = pd.concat([top_paises_x_no_tradicionales, otros_paises_tr], ignore_index=True)

    # Calcular el porcentaje del Valor
    top_paises_x_no_tradicionales['Porcentaje_Valor'] = (top_paises_x_no_tradicionales['VALOR'] / df_producto['VALOR'].sum()) * 100

    # Agregar una fila de total para cada producto
    total_producto = df_producto.groupby('DESNAN').agg({'VALOR': 'sum', 'KILBRU': 'sum'}).reset_index()
    total_producto['DESPAIS'] = 'Total'
    total_producto['Porcentaje_Valor'] = 100  # 100% para la fila total
    top_paises_x_no_tradicionales = pd.concat([top_paises_x_no_tradicionales, total_producto], ignore_index=True)

    # Agregar el Producto al DataFrame final
    top_paises_x_no_tradicionales['DESNAN'] = producto

    # Agregar los resultados al listado final
    resultados.append(top_paises_x_no_tradicionales)

# Concatenar los resultados en un solo DataFrame
df_x_no_tradicionales_final = pd.concat(resultados, ignore_index=True)

# Cambiamos de lugar algunas columnas
df_x_no_tradicionales_final = df_x_no_tradicionales_final[["DESNAN", "DESPAIS", "KILBRU", "VALOR", "Porcentaje_Valor"]]
#Imprimimos el resultado final
df_x_no_tradicionales_final.head(14)

Unnamed: 0,DESNAN,DESPAIS,KILBRU,VALOR,Porcentaje_Valor
0,Torta Y Demas Residuos Solidos De La Extraccio...,Colombia,1121024875.94,493845699.72,50.15
1,Torta Y Demas Residuos Solidos De La Extraccio...,Peru,692477413.37,304507499.46,30.92
2,Torta Y Demas Residuos Solidos De La Extraccio...,Chile,282037625.48,120955547.26,12.28
3,Torta Y Demas Residuos Solidos De La Extraccio...,Turquia,55336930.0,23404806.56,2.38
4,Torta Y Demas Residuos Solidos De La Extraccio...,Myanmar,36315115.76,14190549.0,1.44
5,Torta Y Demas Residuos Solidos De La Extraccio...,Otros Paises,65269242.0,27873340.57,2.83
6,Torta Y Demas Residuos Solidos De La Extraccio...,Total,2252461202.55,984777442.57,100.0
7,"Aceite De Soya En Bruto Y Sus Fracciones,Inclu...",Ecuador,182743770.0,291426104.52,41.21
8,"Aceite De Soya En Bruto Y Sus Fracciones,Inclu...",Colombia,210705156.0,279926895.23,39.59
9,"Aceite De Soya En Bruto Y Sus Fracciones,Inclu...",Peru,87783235.0,129433220.31,18.3


# Exportaciones según zonas geográficas

Realizar una lista, para aquellos que no haya una agregacion

# Exportaciones segun principales paises de destino

In [None]:
# 1. Obtenemos el top 5 de los paises a los que mas se exporta
top_x_paises_destino = x.groupby('DESPAIS')['VALOR'].sum().nlargest(5).index.tolist()

# 2. Inicializar una lista para almacenar los resultados finales
resultados_x_destino = []

# 3. Iterar sobre cada pais en el top 5
for pais in top_x_paises_destino:
    df_pais = x[x['DESPAIS'] == pais]

    # Obtener el top 10 de de productos exportados segun pais
    top_productos_x_destino = df_pais.groupby('DESNAN').agg({'VALOR': 'sum', 'KILBRU': 'sum'}).nlargest(10, 'VALOR').reset_index()

    # Agregar una fila adicional para otros productos
    otros_productos_valor_dt = df_pais[~df_pais['DESNAN'].isin(top_productos_x_destino['DESNAN'])]['VALOR'].sum()
    otros_productos_volumen_dt = df_pais[~df_pais['DESNAN'].isin(top_productos_x_destino['DESNAN'])]['KILBRU'].sum()

    otros_productos_dt = pd.DataFrame({
        'DESNAN': ['Resto de Productos'],
        'VALOR': [otros_productos_valor_dt],
        'KILBRU': [otros_productos_volumen_dt]
    })

    #Concatenamos la fila de otros productos
    top_productos_x_destino = pd.concat([top_productos_x_destino, otros_productos_dt], ignore_index=True)

    # Calcular el porcentaje del Valor
    top_productos_x_destino['Porcentaje_Valor'] = (top_productos_x_destino['VALOR'] / df_pais['VALOR'].sum()) * 100

    # Agregar una fila de total para cada pais
    total_pais = df_pais.groupby('DESPAIS').agg({'VALOR': 'sum', 'KILBRU': 'sum'}).reset_index()
    total_pais['DESNAN'] = f'Total exportado ({len(df_pais["DESNAN"].unique())} productos)'
    total_pais['Porcentaje_Valor'] = 100  # 100% para la fila total
    top_productos_x_destino = pd.concat([top_productos_x_destino, total_pais], ignore_index=True)

    # Agregar el PAIS al DataFrame final
    top_productos_x_destino['DESPAIS'] = pais

    # Agregar los resultados al listado final
    resultados_x_destino.append(top_productos_x_destino)

# Concatenar los resultados en un solo DataFrame
df_x_destino_final = pd.concat(resultados_x_destino, ignore_index=True)

# Cambiamos de lugar algunas columnas
df_x_destino_final = df_x_destino_final[["DESPAIS", "DESNAN", "KILBRU", "VALOR", "Porcentaje_Valor"]]
#Imprimimos el resultado final
df_x_destino_final.head(12)

Unnamed: 0,DESPAIS,DESNAN,KILBRU,VALOR,Porcentaje_Valor
0,India,Las Demas Formas En Bruto De Oro,52805.62,2256912668.24,99.92
1,India,Minerales De Antimonio Y Sus Concentrados,708265.0,907952.26,0.04
2,India,"Ametrino (Bolivianita), Trabajada De Otro Modo",396.64,169784.68,0.01
3,India,"Desperdicios Y Desechos,De Aluminio",464590.0,133752.28,0.01
4,India,"Desperdicios Y Desechos, De Hierro O Acero Est...",1242000.0,124200.0,0.01
5,India,Las Demas Hojas Para Chapado O Contrachapado (...,19500.0,109200.0,0.0
6,India,"Cueros Y Pieles Curtidos O ""Crust"", De Bovino ...",22830.0,67333.25,0.0
7,India,Madera Aserrada O Desbastada Longitudinalmente...,113600.0,61941.96,0.0
8,India,"Desperdicios Y Desechos,De Niquel",164670.0,38745.75,0.0
9,India,Desperdicios Y Desechos De Aceros Aleados Inox...,63830.0,23089.8,0.0


# Exportaciones según departamentos

In [None]:
# 1. Obtenemos los departamentos y la cantidad de exportaciones
top_x_departamentos = x.groupby('DESDEP')['VALOR'].sum().nlargest(9).index.tolist()

# 2. Inicializar una lista para almacenar los resultados finales
resultados_x_departamento = []

# 3. Iterar sobre cada departamento (usamos el DF original)
for departamento in top_x_departamentos:
    df_departamento = x[x['DESDEP'] == departamento]

    # Obtener el top 10 de de productos exportados segun departamento
    top_productos_x_departamento = df_departamento.groupby('DESNAN').agg({'VALOR': 'sum', 'KILBRU': 'sum'}).nlargest(10, 'VALOR').reset_index()

    # Agregar una fila adicional para otros productos
    otros_productos_valor_dp = df_departamento[~df_departamento['DESNAN'].isin(top_productos_x_departamento['DESNAN'])]['VALOR'].sum()
    otros_productos_volumen_dp = df_departamento[~df_departamento['DESNAN'].isin(top_productos_x_departamento['DESNAN'])]['KILBRU'].sum()

    otros_productos_dp = pd.DataFrame({
        'DESNAN': ['Resto de Productos'],
        'VALOR': [otros_productos_valor_dp],
        'KILBRU': [otros_productos_volumen_dp]
    })

    #Concatenamos la fila de otros productos
    top_productos_x_departamento = pd.concat([top_productos_x_departamento, otros_productos_dp], ignore_index=True)

    # Calcular el porcentaje del Valor
    top_productos_x_departamento['Porcentaje_Valor'] = (top_productos_x_departamento['VALOR'] / df_departamento['VALOR'].sum()) * 100

    # Agregar una fila de total para cada departamento
    total_departamento = df_departamento.groupby('DESDEP').agg({'VALOR': 'sum', 'KILBRU': 'sum'}).reset_index()
    total_departamento['DESNAN'] = f'Total exportado ({len(df_departamento["DESNAN"].unique())} productos)'
    total_departamento['Porcentaje_Valor'] = 100  # 100% para la fila total
    top_productos_x_departamento = pd.concat([top_productos_x_departamento, total_departamento], ignore_index=True)

    # Agregar el departamento al DataFrame final
    top_productos_x_departamento['DESDEP'] = departamento

    # Agregar los resultados al listado final
    resultados_x_departamento.append(top_productos_x_departamento)

# Concatenar los resultados en un solo DataFrame
df_x_departamento_final = pd.concat(resultados_x_departamento, ignore_index=True)

# Cambiamos de lugar algunas columnas
df_x_departamento_final = df_x_departamento_final[["DESDEP", "DESNAN", "KILBRU", "VALOR", "Porcentaje_Valor"]]
#Imprimimos el resultado final
df_x_departamento_final.head(12)

Unnamed: 0,DESDEP,DESNAN,KILBRU,VALOR,Porcentaje_Valor
0,Santa Cruz,Gas Natural En Estado Gaseoso,3088788580.35,1245611742.24,27.61
1,Santa Cruz,Torta Y Demas Residuos Solidos De La Extraccio...,2250970702.55,984265457.57,21.82
2,Santa Cruz,"Aceite De Soya En Bruto Y Sus Fracciones,Inclu...",483613836.0,704422198.3,15.61
3,Santa Cruz,"Las Demas Habas (Porotos, Frijoles, Frejoles) ...",588650180.0,328408240.35,7.28
4,Santa Cruz,Las Demas Formas En Bruto De Oro,6458.23,200985307.57,4.46
5,Santa Cruz,Los Demas Aceites Desoja (Soya) Y Sus Fraccion...,85467884.7,122641125.4,2.72
6,Santa Cruz,Aceites En Bruto: De Girasol,83580410.0,122224858.65,2.71
7,Santa Cruz,Las Demas Carne Deshuesada De Animales De La E...,16725756.77,105710468.07,2.34
8,Santa Cruz,Los Demas Alcohol Etilico Sin Desnaturalizar C...,85605325.88,68322256.11,1.51
9,Santa Cruz,La Demas Azucar En Bruto Sin Adicion De Aroma...,102147473.26,53522160.07,1.19


# Exportaciones según vias de salida

In [None]:
# 1. Obtenemos las 13 vias de salida
top_x_via_salida = x.groupby('DESVIA')['VALOR'].sum().nlargest(13).index.tolist()

# 2. Inicializar una lista para almacenar los resultados finales
resultados_x_via_salida = []

# 3. Iterar sobre cada via salida (usamos el DF original)
for via_salida in top_x_via_salida:
    df_via_salida = x[x['DESVIA'] == via_salida]

    # Obtener el top 5 de productos exportados segun via de salida
    top_productos_x_via_salida = df_via_salida.groupby('DESNAN').agg({'VALOR': 'sum', 'KILBRU': 'sum'}).nlargest(5, 'VALOR').reset_index()

    # Agregar una fila adicional para otros productos
    otros_productos_valor_vs = df_via_salida[~df_via_salida['DESNAN'].isin(top_productos_x_via_salida['DESNAN'])]['VALOR'].sum()
    otros_productos_volumen_vs = df_via_salida[~df_via_salida['DESNAN'].isin(top_productos_x_via_salida['DESNAN'])]['KILBRU'].sum()

    otros_productos_vs = pd.DataFrame({
        'DESNAN': ['Resto de Productos'],
        'VALOR': [otros_productos_valor_vs],
        'KILBRU': [otros_productos_volumen_vs]
    })

    #Concatenamos la fila de otros productos
    top_productos_x_via_salida = pd.concat([top_productos_x_via_salida, otros_productos_vs], ignore_index=True)

    # Calcular el porcentaje del Valor
    top_productos_x_via_salida['Porcentaje_Valor'] = (top_productos_x_via_salida['VALOR'] / df_via_salida['VALOR'].sum()) * 100

    # Agregar una fila de total para cada via de salida
    total_via_salida = df_via_salida.groupby('DESVIA').agg({'VALOR': 'sum', 'KILBRU': 'sum'}).reset_index()
    total_via_salida['DESNAN'] = f'Total exportado ({len(df_via_salida["DESNAN"].unique())} productos)'
    total_via_salida['Porcentaje_Valor'] = 100  # 100% para la fila total
    top_productos_x_via_salida = pd.concat([top_productos_x_via_salida, total_via_salida], ignore_index=True)

    # Agregar la via de salida al DataFrame final
    top_productos_x_via_salida['DESVIA'] = via_salida

    # Agregar los resultados al listado final
    resultados_x_via_salida.append(top_productos_x_via_salida)

# Concatenar los resultados en un solo DataFrame
df_x_via_salida_final = pd.concat(resultados_x_via_salida, ignore_index=True)

# Cambiamos de lugar algunas columnas
df_x_via_salida_final = df_x_via_salida_final[['DESVIA', "DESNAN", "KILBRU", "VALOR", "Porcentaje_Valor"]]
#Imprimimos el resultado final
df_x_via_salida_final.head(7)

Unnamed: 0,DESVIA,DESNAN,KILBRU,VALOR,Porcentaje_Valor
0,Aerea,Las Demas Formas En Bruto De Oro,69320.03,3003218538.81,91.36
1,Aerea,Plata (Incluida La Plata Dorada Y La Platinada...,159212.11,105416867.8,3.21
2,Aerea,Articulos De Joyeria De Los Demas Metales Prec...,2350.39,87509598.78,2.66
3,Aerea,Fueloils (Fuel),26557520.84,37722288.52,1.15
4,Aerea,"Cascos Sin Forma Ni Acabado,Platos (Discos) Y ...",500737.27,21396771.1,0.65
5,Aerea,Resto de Productos,1147499.66,31849108.75,0.97
6,Aerea,Total exportado (374 productos),28436640.3,3287113173.76,100.0


# 100 principales productos exportados

In [None]:
#Creamos el top 100
#top100_x = x[["DESNAN", "VALOR"]].groupby(by=["DESNAN"]).sum().nlargest(100, "VALOR").reset_index()

# Agrupar por la columna "DESNAN" y sumamos los valores
df_desnan_suma = x[["DESNAN","VALOR"]].groupby(by=["DESNAN"]).sum().reset_index()

# Realizamos un ordenamiento de los paises y sacamos el "top 100"
df_top100_x = df_desnan_suma.nlargest(100, "VALOR")

# Creamos una nueva fila para el "resto" y la añadimos
df_top100_x = df_top100_x.append({"DESNAN": 'Otros Paises',
                          'VALOR': df_desnan_suma.loc[~df_desnan_suma["DESNAN"].isin(df_top100_x["DESNAN"]),'VALOR'].sum()}, ignore_index=True)

# Calcular la columna de porcentaje
total_valor_x = df_desnan_suma['VALOR'].sum()
df_top100_x['Porcentaje'] = (df_top100_x['VALOR'] / total_valor_x) * 100

# Creamos la fila de total
total_fila_x = {"DESNAN": 'Total',
             'VALOR': total_valor_x,
             'Porcentaje': df_top100_x["Porcentaje"].sum()}
df_top100_x = df_top100_x.append(total_fila_x, ignore_index=True) #añadimos la fila

# Colocamos de mayor a menor
df_top100_x

  df_top100_x = df_top100_x.append({"DESNAN": 'Otros Paises',
  df_top100_x = df_top100_x.append(total_fila_x, ignore_index=True) #añadimos la fila


Unnamed: 0,DESNAN,VALOR,Porcentaje
0,Las Demas Formas En Bruto De Oro,3003218538.81,22.08
1,Gas Natural En Estado Gaseoso,2973424189.86,21.86
2,Mineral De Cinc Y Sus Concentrados,1821087616.26,13.39
3,Torta Y Demas Residuos Solidos De La Extraccio...,984777442.57,7.24
4,Minerales De Plata Y Sus Concentrados,753533616.93,5.54
...,...,...,...
97,"Ventanas, Puertas Vidriera, Y Sus Marcos Y Con...",2673384.70,0.02
98,Los Demas Muebles De Madera,2664372.26,0.02
99,"Los Demas Puertas Y Sus Marcos, Contramarcos Y...",2571709.36,0.02
100,Otros Paises,120340559.27,0.88
