# Metodología para obtener base de datos de importaciones desde la página web de la DIAN

In [1]:
#Importar librerías
import urllib3
from zipfile import ZipFile
import os
import pandas as pd
import time
import numpy as np

### Descarga archivos .zip desde la página web de la DIAN para los años y meses seleccionados

In [2]:
http = urllib3.PoolManager()
st = time.time()

months = ['Enero', 'Febrero', 'Marzo', 'Abril', 'Mayo', 'Junio', 'Julio', 'Agosto', 'Septiembre', 'Octubre', 'Noviembre', 'Diciembre']
years = ['2020']
for year in years:
    for i,_ in list(enumerate(months)):
        try:
            url = "https://www.dian.gov.co/sites/cifras/RegMDeclaraciones/500%20Mensual%20{}%20{}.zip".format(months[i], year)
            r = http.request('GET',url)
            name = str(i+1).rjust(2, '0') + '_' + year
            with open(name + ".zip", "wb") as fcont:
                            fcont.write(r.data)
        except:
            print("Archivo para {} de {} no encontrado".format(months[i].lower(), year))
            os.remove(name + ".zip") 
print(time.time() - st)

436.87403321266174


### Descomprime los archivos .zip y renombra los archivos .xlsx de acuerdo al número de mes y de año correspondientes

In [3]:
st = time.time()
filelist =  os.listdir()
for file in filelist:
    if file.endswith(".zip"):
        try:
            with ZipFile(file, 'r') as zipObj:
                filename =  zipObj.namelist()[0]
                zipObj.extractall()
                os.rename(filename,file[:-4] + ".xlsx")
        except:
            print("Archivo zip {} no se pudo leer".format(file))
print(time.time() - st)

Archivo zip 12_2020.zip no se pudo leer
Archivo zip 10_2020.zip no se pudo leer
Archivo zip 11_2020.zip no se pudo leer
44.14404535293579


### Convierte los archivos .xlsx en .csv para hacer más rápida la carga de la información

In [4]:
#!pip install xlsx2csv
st = time.time()
from xlsx2csv import Xlsx2csv
xlsxfiles =  [file for file in os.listdir() if file.endswith('.xlsx')]
for file in xlsxfiles:
    Xlsx2csv(file, outputencoding="utf-8").convert(file[:-5] + ".csv")
print(time.time() - st)

1081.3486878871918


### Imprime las columnas encontradas en los archivos de importación para seleccionar los campos de interés para la propuesta

In [5]:
enero_df = pd.read_csv("01_2020.csv")
print(*enero_df.columns, sep = ", ")
del enero_df

  has_raised = await self.run_ast_nodes(code_ast.body, cell_name,


AÑO_C1, NUMERO DE FORMULARIO_C4, NUMERO DE IDENTIFICACIÓN TRIBUTARIA (NIT)_C5, DV_C6, RAZÓN SOCIAL_C11, DIRECCIÓN_C13, TELÉFONO_C15, CÓDIGO ADMINISTRACIÓN_C12, CÓDIGO DEPARTAMENTO_C16, CÓDIGO MUNICIPIO_C17, NUMERO DE IDENTIFICACIÓN TRIBUTARIA (NIT) _C24 , DV_C25, RAZÓN SOCIAL DEL DECLARANTE AUTORIZADO_C26, NUMERO DE  DOCUMENTO DE IDENTIFICACIÓN_C29, APELLIDOS Y NOMBRES_C30, CLASE IMPORTADOR_C31, TIPO DECLARACIÓN_C32, CODIGO_C33, NUMERO DE FORMULARIO ANTERIOR_C34, AÑO_MES_DIA_C35, CODIGO ADMINISTRACIÓN_C36, DECLARACIÓN DE EXPORTACIÓN_C37, AÑO_MES_DIA_C38, CODIGO ADMINISTRACIÓN_C39, CODIGO LUGAR INGRESO DE LA MERCANCIA_C40, CODIGO DEPOSITO_C41, MANIFIESTO DE CARGA_C42, AÑO_MES_DIA_C43, DOCUMENTO DE TRANSPORTE_C44, AÑO_MES_DIA_C45, NOMBRE EXPORTADOR O PROVEEDOR EN EL EXTERIOR_C46, CIUDAD_C47, PAIS EXPORTADOR_48, DIRECCIÓN EXPORTADOR O PROVEEDOR EN EL EXTERIOR_C49, E-MAIL_C50, NUMERO DE FACTURA_C51, AÑO_MES_DIA_C52, PAIS PROCEDENCIA_C53, CODIGO MODO TRANSPORTE_C54, CODIGO DE BANDERA_C55, C

### Concatena la información de las columnas seleccionadas de todos los archivos en un solo DataFrame

In [5]:
st = time.time()
csvfiles =  [file for file in os.listdir() if file.endswith('.csv')]
cols = ['NUMERO DE FORMULARIO_C4','FECHA EFECTIVA DE LA TRANSACCION_C997','NOMBRE EXPORTADOR O PROVEEDOR EN EL EXTERIOR_C46',
        'NUMERO DE IDENTIFICACIÓN TRIBUTARIA (NIT) _C24 ','RAZÓN SOCIAL_C11','SUBPARTIDAS_C75','SUBPARTIDA ARANCELARIA_C59',
        'VALOR FOB USD_C78','SUMATORIA DE FLETES, SEGUROS Y OTROS GASTOS USD__C82','% ARANCEL_C92']
imports_Colombia = pd.DataFrame(columns = cols)

for file in csvfiles:
    tmp = pd.read_csv(file)
    imports_Colombia = imports_Colombia.append(tmp[cols])
    
    
print(time.time() - st)
imports_Colombia.head()

  has_raised = await self.run_ast_nodes(code_ast.body, cell_name,
  has_raised = await self.run_ast_nodes(code_ast.body, cell_name,


28.80130934715271


Unnamed: 0,NUMERO DE FORMULARIO_C4,FECHA EFECTIVA DE LA TRANSACCION_C997,NOMBRE EXPORTADOR O PROVEEDOR EN EL EXTERIOR_C46,NUMERO DE IDENTIFICACIÓN TRIBUTARIA (NIT) _C24,RAZÓN SOCIAL_C11,SUBPARTIDAS_C75,SUBPARTIDA ARANCELARIA_C59,VALOR FOB USD_C78,"SUMATORIA DE FLETES, SEGUROS Y OTROS GASTOS USD__C82",% ARANCEL_C92
0,5007301688488,20200722,CHONGQING GOLD MECHANICAL & ELECTRICAL EQUIPME...,900536415,CI HIDRO GEO S.A.S,0,9015801000,4390.0,500.0,0.0
1,3720200000103670,20200721,NOVOPAN DEL ECUADOR S.A.,800143377,MADECENTRO COLOMBIA S.A.S,1,4410190000,49898.94,1050.7,0.0
2,3720200000103540,20200721,NOVOPAN DEL ECUADOR S.A.,800143377,MADECENTRO COLOMBIA S.A.S,1,4410190000,59910.44,1572.91,0.0
3,3720200000094960,20200711,NOVOPAN DEL ECUADOR S.A.,800143377,MADECENTRO COLOMBIA S.A.S,1,4410190000,50024.39,1570.83,0.0
4,3720200000095140,20200711,NOVOPAN DEL ECUADOR S.A.,800143377,MADECENTRO COLOMBIA S.A.S,2,4410110000,14934.16,412.1,0.0


### Elimina valores nulos

In [6]:
print("Cantidad de valores nulos:", imports_Colombia.isnull().sum().sum())
imports_Colombia.dropna(inplace=True)

Cantidad de valores nulos: 4565


### Calcula el factor de importacion como la suma de fletes, seguros y otros gastos sobre el valor FOB de la mercancía

In [7]:
imports_Colombia['Factor Importacion'] = imports_Colombia['SUMATORIA DE FLETES, SEGUROS Y OTROS GASTOS USD__C82']/imports_Colombia['VALOR FOB USD_C78']

In [4]:
#reemplaza valores infinitos generados por la división
imports_Colombia.Factor_Importacion.replace(np.inf, np.nan, inplace=True)
imports_Colombia.Factor_Importacion.value_counts()

0.000000    2119
0.025000     474
0.050000     434
0.022381     406
0.100000     398
            ... 
0.064576       1
0.023331       1
0.027438       1
0.024852       1
0.037365       1
Name: Factor_Importacion, Length: 1722990, dtype: int64

### Renombra las columnas del DataFrame de importaciones

In [8]:
imports_Colombia.columns = ['Num_Formulario', 'Fecha_Transaccion', 'Proveedor_Extranjero', 'NIT_Importador', 'Importador', 'Subpartidas', 'Subpartida_Arancelaria', 'FOB(USD)', 'Gastos', 'Arancel(%)', 'Factor_Importacion']

### Elimina espacios multiples en la información de proveedor extranjero y el importador para evitar errorer al realizar consultas, y convierte el campo Fecha_Transaccion a tipo datetime

In [9]:
print("Cantidad de proveedores extranjeros con multiples espacios:", "\n",  imports_Colombia['Proveedor_Extranjero'].str.contains('  .').value_counts())
print("Cantidad de importardores con multiples espacios:", "\n",  imports_Colombia['Importador'].str.contains('  .').value_counts())
imports_Colombia['Proveedor_Extranjero'] = imports_Colombia['Proveedor_Extranjero'].str.replace('  +', ' ')
imports_Colombia['Importador'] = imports_Colombia['Importador'].str.replace('  +', ' ')
imports_Colombia['Fecha_Transaccion'] = pd.to_datetime(imports_Colombia['Fecha_Transaccion'], format='%Y%m%d')

Cantidad de proveedores extranjeros con multiples espacios: 
 False    2070821
True       30419
Name: Proveedor_Extranjero, dtype: int64
Cantidad de importardores con multiples espacios: 
 False    1920920
True      180320
Name: Importador, dtype: int64


In [10]:
imports_Colombia.shape

(2101240, 11)

In [38]:
#ordenar por fecha
imports_Colombia.sort_values(['Fecha_Transaccion'], ignore_index=True, inplace=True)
imports_Colombia.head()

Unnamed: 0,Num_Formulario,Fecha_Transaccion,Proveedor_Extranjero,NIT_Importador,Importador,Subpartidas,Subpartida_Arancelaria,FOB(USD),Gastos,Arancel(%),Factor_Importacion
0,4820200000000180,2020-01-01,INDUXTRA DE SUMINISTROS LLORELLA S.A.,890902266,GESTION CARGO ZONA FRANCA S.A.S.,1,402212000.0,414720.0,14746.31,0.0,0.035557
1,9020200000000030,2020-01-01,AVIANCA INC,800251957,AEROVIAS DEL CONTINENTE AMERICANO S.A. AVIANCA,2,7616100000.0,387.68,44.04,5.0,0.113599
2,3520200000000210,2020-01-01,"DAIRY FARMERS OF AMERICA, INC.",800251957,NESTLE DE COLOMBIA SA,1,402212000.0,255759.93,12881.54,0.0,0.050366
3,3520200000000190,2020-01-01,"DAIRY FARMERS OF AMERICA, INC.",800251957,NESTLE DE COLOMBIA SA,1,402212000.0,63208.2,3212.75,0.0,0.050828
4,3520200000000180,2020-01-01,"DAIRY FARMERS OF AMERICA, INC.",800251957,NESTLE DE COLOMBIA SA,1,402212000.0,636148.25,32158.36,0.0,0.050552


In [39]:
imports_Colombia.tail()

Unnamed: 0,Num_Formulario,Fecha_Transaccion,Proveedor_Extranjero,NIT_Importador,Importador,Subpartidas,Subpartida_Arancelaria,FOB(USD),Gastos,Arancel(%),Factor_Importacion
2101235,8720200002428350,2020-09-30,PANAMERICAN SERVICE CORPORATION,802000764,RELIANZ MINING SOLUTIONS S.A.S,2,7318220000,30.26,0.55,5.0,0.018176
2101236,320200011077315,2020-09-30,JIN HONG LIAN INTERNATIONAL TRADE LTD,830122083,IMPRESISTEM S A S,1,8517120000,168000.0,781.79,0.0,0.004654
2101237,4820200004870920,2020-09-30,COLOROBBIA ESPA¿A S.A.,900081359,SUMINISTROS DE COLOMBIA S.A.S,5,3824999900,9629.49,664.48,2.7,0.069005
2101238,8720200002428100,2020-09-30,PANAMERICAN SERVICE CORPORATION,802000764,GENERAL DE EQUIPOS DE COLOMBIA S A GECOLSA,2,8708940090,66.35,0.23,5.0,0.003466
2101239,320200011082530,2020-09-30,CHONGQING CUMMINS ENGINE PARTS CO; LTD,900027528,ROJAS VARGAS LIBIA MARLENY,8,3926904000,97.06,4.07,10.0,0.041933


## Ejemplos de consultas

In [12]:
#Consulta las importaciones de la compañía NEXSYS
query = imports_Colombia.loc[imports_Colombia['Importador'].str.contains('NEXSYS')]
print("Compañías encontradas:", query['Importador'].unique())
query.head()

Compañías encontradas: ['NEXSYS DE COLOMBIA S.A.S.']


Unnamed: 0,Num_Formulario,Fecha_Transaccion,Proveedor_Extranjero,NIT_Importador,Importador,Subpartidas,Subpartida_Arancelaria,FOB(USD),Gastos,Arancel(%),Factor_Importacion
6816,320200007690061,2020-07-06,SCHNEIDER ELECTRIC IT CORPORATION,830122083,NEXSYS DE COLOMBIA S.A.S.,6,7326909000,315.53,38.61,5.0,0.122366
6817,320200007867850,2020-07-10,KINGSTON TECHNOLOGY COMPANY,830122083,NEXSYS DE COLOMBIA S.A.S.,7,8473300000,3540.32,45.98,0.0,0.012988
6831,320200007613598,2020-07-03,HEWLETT PACKARD ENTERPRISE,830122083,NEXSYS DE COLOMBIA S.A.S.,13,8517622000,6510.41,63.01,0.0,0.009678
6836,320200007613914,2020-07-03,HEWLETT PACKARD ENTERPRISE,830122083,NEXSYS DE COLOMBIA S.A.S.,13,8504409090,544.69,5.27,0.0,0.009675
6861,320200007613541,2020-07-03,"ZEBRA TECHNOLOGIES INTERNATIONAL, LLC",830122083,NEXSYS DE COLOMBIA S.A.S.,13,4821900000,4563.22,44.16,0.0,0.009677


In [13]:
#Total de monto importado para cada proveedor extranjero ordenado de mayor a menor
query.groupby('Proveedor_Extranjero', as_index=False)['FOB(USD)'].sum().sort_values(by='FOB(USD)', ascending=False)

Unnamed: 0,Proveedor_Extranjero,FOB(USD)
8,ASUS GLOBAL PTE LTD,9939473.36
24,HP COLOMBIA SAS,9354055.00
33,LENOVO (ASIA PACIFIC) LIMITED SUCURSAL COLOMBIA,2472779.15
54,TECNO MOBILE LIMITED,2438177.78
23,HP COLOMBIA S.A.S.,2176520.01
...,...,...
48,SOPHOS INC C/O PREMIO,546.33
17,HONEWELL/INTERMEC TECHNOLOGIES (S) PTE LTD.,294.53
25,INTERMEC TECHNOLOGIES (S) PTE LDA,79.55
26,"JABIL CIRCUIT, INC.",73.83


In [31]:
#consulta de importadores de proveedores que empiecen por DELL y ordena el menor factor de importación promedio en orden ascendente
query = imports_Colombia.loc[imports_Colombia['Proveedor_Extranjero'].str.startswith('DELL')]
query.groupby(['Proveedor_Extranjero', 'Importador'], as_index=False)['Factor_Importacion'].mean().sort_values(by='Factor_Importacion').head(10)

Unnamed: 0,Proveedor_Extranjero,Importador,Factor_Importacion
33,DELL WORLD TRADE L.P.,MPS MAYORISTA DE COLOMBIA S.A.,0.003813
10,DELL MARKETING LP,INGRAM MICRO S.A.S.,0.004092
24,DELL PRODUCTS L.P.,M.P.S. MAYORISTA DE COLOMBIA S.A.,0.006344
13,DELL MARKETING LP 1 DELL WAY,MPS MAYORISTA DE COLOMBIA S.A.,0.007061
47,DELLNER INDUSTRIAL INC.,MINEROS ALUVIAL S.A.S.,0.010406
26,DELL PRODUCTS L.P. C/O DECISION ONE,IMPRESISTEM S A S,0.010655
15,DELL PRODUCT L.P,INGRAM MICRO S.A.S.,0.011966
31,DELL PRODUCTS LP,SED INTERNATIONAL DE COLOMBIA S A S,0.013676
22,DELL PRODUCTS L.P.,COLSOF S.A.,0.013964
16,DELL PRODUCTS,SED INTERNATIONAL DE COLOMBIA S A S,0.014362


In [32]:
query['Proveedor_Extranjero'].unique()

array(['DELL PRODUCT L.P', 'DELL PRODUCTS LP',
       'DELL PRODUCTS L.P C/O CTS', 'DELL PRODUCTS L.P C/O GENCO',
       'DELL EMC', 'DELLY KOSMETIC COMERCIO E INDUSTRIA LTDA',
       'DELL PRODUCTS L.P.', 'DELL PRODUCTS L.P', 'DELL PRODUCTS',
       'DELLTEX INDUSTRIAL S.A.', 'DELL MARKETING L.P',
       'DELL WORLD TRADE L.P.', 'DELL MARKETING LP 1 DELL WAY',
       'DELL WORLD TRADE LP', 'DELLNER INDUSTRIAL INC.',
       'DELLA PERUTA VINCENZO SPA', 'DELLA TOFFOLA MEXICO SA DE CV',
       'DELL EMC INFORMATION SYSTEMS INTERNATIONAL',
       'DELL WORLD TRADE L.P', 'DELL MARKETING LP',
       'DELLTEX INDUSTRIAL S.A', 'DELLNER BRAKES',
       'DELL EQUIPMENT TRADING MIDDLE EAST AND AFRICA',
       'DELLAROCCA RESTAURI PANAMA S.A.', 'DELL MARKETING L.P.',
       'DELLAS S.P.A', 'DELL PRODUCTS L.P. C/O DECISION ONE',
       'DELL PANAMA', 'DELLEPIANE SAN LUIS S.A.',
       'DELLAROCCA RESTAURI PANAMA, S.A', 'DELLA PERUTA VINCENZO S.P.A.',
       'DELLA VITA INC', 'DELL ADC PG PS3',
   

In [15]:
#como la consulta anterior arrojó multiples proveedores del exterior se vuelve a hacer para DELL PRODUCTS reduciendo los resultados obtenidos
query = imports_Colombia.loc[imports_Colombia['Proveedor_Extranjero'].str.startswith('DELL PRODUCTS')]
query.groupby(['Proveedor_Extranjero', 'Importador'], as_index=False)['Factor_Importacion'].mean().sort_values(by='Factor_Importacion').head(10)

Unnamed: 0,Proveedor_Extranjero,Importador,Factor_Importacion
8,DELL PRODUCTS L.P.,M.P.S. MAYORISTA DE COLOMBIA S.A.,0.006344
10,DELL PRODUCTS L.P. C/O DECISION ONE,IMPRESISTEM S A S,0.010655
15,DELL PRODUCTS LP,SED INTERNATIONAL DE COLOMBIA S A S,0.013676
6,DELL PRODUCTS L.P.,COLSOF S.A.,0.013964
0,DELL PRODUCTS,SED INTERNATIONAL DE COLOMBIA S A S,0.014362
2,DELL PRODUCTS L.P,SED INTERNATIONAL DE COLOMBIA S A S,0.015275
13,DELL PRODUCTS LP,IMPRESISTEM S A S,0.015757
7,DELL PRODUCTS L.P.,IMPRESISTEM S A S,0.015968
1,DELL PRODUCTS L.P,MPS MAYORISTA DE COLOMBIA S.A.,0.019904
14,DELL PRODUCTS LP,INGRAM MICRO S.A.S.,0.020738


In [3]:
#Convierte valores sobre los que no se realizan operaciones en string
imports_Colombia['Num_Formulario'] = imports_Colombia['Num_Formulario'].apply(str)
imports_Colombia['Subpartidas'] = imports_Colombia['Subpartidas'].apply(str)
imports_Colombia['Subpartida_Arancelaria'] = imports_Colombia['Subpartida_Arancelaria'].apply(str)
imports_Colombia['NIT_Importador'] = imports_Colombia['NIT_Importador'].apply(str)
print('Longest Proveedor_Extranjero', imports_Colombia['Proveedor_Extranjero'].str.len().max())
print('Longest Subpartida', imports_Colombia['Subpartidas'].str.len().max())
print('Longest Subpartida_Arancelaria', imports_Colombia['Subpartida_Arancelaria'].str.len().max())
print('Longest Num_Formulario', imports_Colombia['Num_Formulario'].str.len().max())
print('Longest NIT_Importador', imports_Colombia['NIT_Importador'].str.len().max())


Longest Proveedor_Extranjero 60
Longest Subpartida 6
Longest Subpartida_Arancelaria 12
Longest Num_Formulario 16
Longest NIT_Importador 10


### Exporta el DataFrame de importaciones a un archivo .csv

In [1]:
import pandas as pd
imports_Colombia = pd.read_csv('imports_Colombia_string.csv')
imports_Colombia.columns

Index(['Num_Formulario', 'Fecha_Transaccion', 'Proveedor_Extranjero',
       'NIT_Importador', 'Importador', 'Subpartidas', 'Subpartida_Arancelaria',
       'FOB(USD)', 'Gastos', 'Arancel(%)', 'Factor_Importacion'],
      dtype='object')

### Exporta el DataFrame a una base de datos de MySql

In [6]:
imports_Colombia.to_csv('imports_Colombia_string.csv', index=False)

In [2]:
from sqlalchemy import create_engine
#!pip install pymysql
import pymysql

In [7]:
tableName   = "colombia_imports"

sqlEngine       = create_engine('mysql+pymysql://edgar:123456@127.0.0.1/imports', pool_recycle=3600)


dbConnection    = sqlEngine.connect() 

try:

    frame           = imports_Colombia[imports_Colombia['Fecha_Transaccion']>'2020-06-30'].to_sql(
        tableName, dbConnection, if_exists='replace', index=False);

except ValueError as vx:

    print(vx)

except Exception as ex:   

    print(ex)

else:

    print("Table %s created successfully."%tableName);   

finally:

    dbConnection.close()

Table colombia_imports created successfully.
