In [1]:
import numpy as np
import pandas as pd
import glob

## Datos de Comercio

* En el paper original se usan productos desagregados según la SITC revisión 4 a nivel de cuatro dígitos, de la base de datos de UNCOMTRADE. 

* En este caso se utilizarán datos de WITS provenientes de UNComtrade correspondientes al sistema armonizado (HS) a 4 dígitos para los años 1997 a 1999, 2007 a 2009 y 2017 a 2019. 

* La idea es calcular los grafos/redes para 3 momentos del tiempo distintos: comparar el comportamiento promedio (para cada grupo de 3 años) de cada país en los distintos momentos del tiempo. 

### Descargo datos de WITS y leo los archivos

* Se descargaron por partes los datos porque la consulta no puede exceder de 100 mil filas. 

* Fecha de descarga: 15 de enero 2021. http://wits.worldbank.org/

* Año por año se descargaron las exportaciones al Mundo a 4 dígitos del SA en dos grupos de países: con nombres de A a L (A_L) y M a Z (M_Z).

* Detalles de la consulta (query name: 4digproductspace) => ALL2 -- Heading (all 4-digit HS codes) HS 1996 (Selected Classification),  Trade Flow Exports y Partners World -- WLD

In [29]:
# leo todos los archivos descargados y los agrupo en un mismo dataframe
# fuente del código: <https://stackoverflow.com/questions/20906474/import-multiple-csv-files-into-pandas-and-concatenate-into-one-dataframe>
path = r'./'
# tomo el nombre de todos los archivos con terminación .csv
all_files = glob.glob(path + "/*.csv")
# genero un loop para leer cada elemento de la lista de archivos
li = []
for filename in all_files:
    df = pd.read_csv(filename, index_col=None, header=0)
    # agrego a la lista todos los dataframe individuales
    li.append(df)
# concateno todos los df de la lista
df = pd.concat(li, axis=0, ignore_index=True)

In [30]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1018163 entries, 0 to 1018162
Data columns (total 10 columns):
 #   Column                  Non-Null Count    Dtype  
---  ------                  --------------    -----  
 0   Nomenclature            1018163 non-null  object 
 1   ReporterISO3            1018163 non-null  object 
 2   ProductCode             1018163 non-null  int64  
 3   ReporterName            1018163 non-null  object 
 4   PartnerISO3             1018163 non-null  object 
 5   PartnerName             1018163 non-null  object 
 6   Year                    1018163 non-null  int64  
 7   TradeFlowName           1018163 non-null  object 
 8   TradeFlowCode           1018163 non-null  int64  
 9   TradeValue in 1000 USD  1018163 non-null  float64
dtypes: float64(1), int64(3), object(6)
memory usage: 77.7+ MB


In [31]:
df.groupby(by = 'Year').count()

Unnamed: 0_level_0,Nomenclature,ReporterISO3,ProductCode,ReporterName,PartnerISO3,PartnerName,TradeFlowName,TradeFlowCode,TradeValue in 1000 USD
Year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1997,72901,72901,72901,72901,72901,72901,72901,72901,72901
1998,84720,84720,84720,84720,84720,84720,84720,84720,84720
1999,96132,96132,96132,96132,96132,96132,96132,96132,96132
2007,128697,128697,128697,128697,128697,128697,128697,128697,128697
2008,129378,129378,129378,129378,129378,129378,129378,129378,129378
2009,132133,132133,132133,132133,132133,132133,132133,132133,132133
2017,133220,133220,133220,133220,133220,133220,133220,133220,133220
2018,127526,127526,127526,127526,127526,127526,127526,127526,127526
2019,113456,113456,113456,113456,113456,113456,113456,113456,113456


In [32]:
df.groupby(by = ['ReporterISO3', 'Year']).count()

Unnamed: 0_level_0,Unnamed: 1_level_0,Nomenclature,ProductCode,ReporterName,PartnerISO3,PartnerName,TradeFlowName,TradeFlowCode,TradeValue in 1000 USD
ReporterISO3,Year,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
ABW,2007,212,212,212,212,212,212,212,212
ABW,2008,205,205,205,205,205,205,205,205
ABW,2009,540,540,540,540,540,540,540,540
ABW,2017,516,516,516,516,516,516,516,516
ABW,2018,511,511,511,511,511,511,511,511
...,...,...,...,...,...,...,...,...,...
ZWE,2008,702,702,702,702,702,702,702,702
ZWE,2009,673,673,673,673,673,673,673,673
ZWE,2017,645,645,645,645,645,645,645,645
ZWE,2018,643,643,643,643,643,643,643,643


In [40]:
print(df.Year.unique())
print(df.ProductCode.unique().sort())
len(df.ProductCode.unique()) # 1224 productos a 4 dígitos del SA

[1997 1998 1999 2007 2008 2009 2017 2018 2019]
None


1242