# Importação e tratamento dos dados Siscori

Os dados importados no Siscore vêm em arquivos do tipo CSV no formato <b>CAPINNAAMM</b>, onde NN é o número do capítulo extraído, AA é o ano com dois dígitos e MM é o mês com dois dígitos, formando o período de refência dos dados extraídos. O arquivo CSV obtido vem configurado com o separador "<b>@</b>" e descrição da coluna com excesso de espaços, o que precisa de uma camada de tratamento para correta importação dos dados.

### Importação das Bibliotecas

In [1]:
import pandas as pd
import numpy as np
import os

### Definindo dados gerais

Cria lista de arquivos CSV contidos na pasta atual

In [2]:
arqsCSV = []
for arquivo in os.listdir("./"):
    if arquivo[-3:].upper()=="CSV" and arquivo[:4]=='CAPI':
        arqsCSV.append(arquivo)
print(arqsCSV)

['CAPI872001.CSV', 'CAPI872002.CSV', 'CAPI872003.CSV', 'CAPI872004.CSV', 'CAPI872005.CSV', 'CAPI872006.CSV', 'CAPI872007.CSV', 'CAPI872008.CSV', 'CAPI872009.CSV', 'CAPI872010.CSV', 'CAPI872011.CSV', 'CAPI872012.CSV', 'CAPI872101.CSV', 'CAPI872102.CSV', 'CAPI872103.CSV', 'CAPI872104.CSV', 'CAPI872105.CSV', 'CAPI872106.CSV']


Cria variáveis com nomes das colunas e seus tipos

In [3]:
tipos = {'NUMERO DE ORDEM': str,
         'ANOMES': str,
         'COD.NCM': str,
         'DESCRICAO DO CODIGO NCM': object,
         'PAIS.OR': int,
         'PAIS DE ORIGEM': object,
         'PAIS.AQ': int,
         'PAIS DE AQUISICAO': object,
         'UND.ESTAT.': int,
         'UNIDADE DE MEDIDA': object,
         'UNIDADE COMERC.': object,
         'DESCRICAO DO PRODUTO': object,
         'QTDE ESTATISTICA': float,
         'PESO LIQUIDO': float,
         'VMLE DOLAR': float,
         'VL FRETE DOLAR': float,
         'VL SEGURO DOLAR': float,
         'VALOR UN.PROD.DOLAR': float,
         'QTD COMERCIAL.': float,
         'TOT.UN.PROD.DOLAR': float,
         'UNIDADE DESEMBARQUE': object,
         'UNIDADE DESEMBARACO': object,
         'INCOTERM': object,
         'NAT.INFORMACAO': object,
         'SITUACAO DO DESPACHO': object}
colunas = list(tipos.keys())

Inicializa a variável que conterá o tamanho total do dataset original

In [4]:
tamanhoDataset=0

Inicializa um dataframe vazio que conterá os dados finais

In [5]:
df = pd.DataFrame(columns = colunas)
df.head()

Unnamed: 0,NUMERO DE ORDEM,ANOMES,COD.NCM,DESCRICAO DO CODIGO NCM,PAIS.OR,PAIS DE ORIGEM,PAIS.AQ,PAIS DE AQUISICAO,UND.ESTAT.,UNIDADE DE MEDIDA,...,VL FRETE DOLAR,VL SEGURO DOLAR,VALOR UN.PROD.DOLAR,QTD COMERCIAL.,TOT.UN.PROD.DOLAR,UNIDADE DESEMBARQUE,UNIDADE DESEMBARACO,INCOTERM,NAT.INFORMACAO,SITUACAO DO DESPACHO


### Importa cada CSV, trata e concatena no DataFrame final

In [6]:
# Executa para cada CSV na lista
for arqCSV in arqsCSV:
    print('Iniciando ' + arqCSV + '.')
    dftemp = pd.read_csv(arqCSV,
                         sep='@', 
                         decimal=r',', 
                         engine='python', 
                         encoding = "ISO-8859-1",
                         header = 0,
                         names = colunas,
                         dtype = tipos, 
                         quotechar="'", 
                         error_bad_lines=False)
    print('DataFrame carregado...\nAplicando filtros...')
    # Elimina os registros sem valores ou nulos
    dftemp = dftemp.dropna()
    # Incrementa o tamanho do Dataset
    tamanhoDataset += dftemp[dftemp.columns[0]].count()
    print('Quantidade de registros válidos: ' + str(tamanhoDataset))
    # Filtra o DataFrame somente com os registros de interesse
    # Filtro 1: NCM de interesse: 87141000
    indiceNCM = dftemp['COD.NCM'] == '87141000'
    dftemp = dftemp[indiceNCM]
    # Filtro 2: Descrição contendo palavras da lista
    listafiltro = ["kit", "transm", "corrente", "coroa", "pinhao|pinhão"] # A barra vertical (|) faz o "ou".
    for termo in listafiltro:
        dftemp=dftemp[dftemp['DESCRICAO DO PRODUTO'].str.contains(termo, case=False)]
    # Concatena com o DataFrame final
    df = pd.concat([df,dftemp])
    print(arqCSV + ' finalizado.\n')

Iniciando CAPI872001.CSV.


Skipping line 390699: field larger than field limit (131072)


DataFrame carregado...
Aplicando filtros...
Quantidade de registros válidos: 491150
CAPI872001.CSV finalizado.

Iniciando CAPI872002.CSV.
DataFrame carregado...
Aplicando filtros...
Quantidade de registros válidos: 867647
CAPI872002.CSV finalizado.

Iniciando CAPI872003.CSV.
DataFrame carregado...
Aplicando filtros...
Quantidade de registros válidos: 1303525
CAPI872003.CSV finalizado.

Iniciando CAPI872004.CSV.
DataFrame carregado...
Aplicando filtros...
Quantidade de registros válidos: 1633743
CAPI872004.CSV finalizado.

Iniciando CAPI872005.CSV.
DataFrame carregado...
Aplicando filtros...
Quantidade de registros válidos: 1881276
CAPI872005.CSV finalizado.

Iniciando CAPI872006.CSV.
DataFrame carregado...
Aplicando filtros...
Quantidade de registros válidos: 2111936
CAPI872006.CSV finalizado.

Iniciando CAPI872007.CSV.
DataFrame carregado...
Aplicando filtros...
Quantidade de registros válidos: 2417409
CAPI872007.CSV finalizado.

Iniciando CAPI872008.CSV.
DataFrame carregado...
Aplica

Skipping line 205695: '@' expected after '''
Skipping line 205941: field larger than field limit (131072)
Skipping line 328937: '@' expected after '''
Skipping line 333250: '@' expected after '''
Skipping line 333251: '@' expected after '''


DataFrame carregado...
Aplicando filtros...
Quantidade de registros válidos: 3092950
CAPI872009.CSV finalizado.

Iniciando CAPI872010.CSV.


Skipping line 297842: '@' expected after '''
Skipping line 366276: '@' expected after '''


DataFrame carregado...
Aplicando filtros...
Quantidade de registros válidos: 3524548
CAPI872010.CSV finalizado.

Iniciando CAPI872011.CSV.


Skipping line 145469: field larger than field limit (131072)
Skipping line 271952: '@' expected after '''
Skipping line 276774: '@' expected after '''
Skipping line 277830: '@' expected after '''
Skipping line 305333: field larger than field limit (131072)


DataFrame carregado...
Aplicando filtros...
Quantidade de registros válidos: 3959784
CAPI872011.CSV finalizado.

Iniciando CAPI872012.CSV.


Skipping line 302465: field larger than field limit (131072)
Skipping line 312506: field larger than field limit (131072)
Skipping line 383935: field larger than field limit (131072)


DataFrame carregado...
Aplicando filtros...
Quantidade de registros válidos: 4423973
CAPI872012.CSV finalizado.

Iniciando CAPI872101.CSV.


Skipping line 294809: field larger than field limit (131072)
Skipping line 295442: field larger than field limit (131072)
Skipping line 295721: field larger than field limit (131072)
Skipping line 299080: field larger than field limit (131072)
Skipping line 368381: '@' expected after '''


DataFrame carregado...
Aplicando filtros...
Quantidade de registros válidos: 4887783
CAPI872101.CSV finalizado.

Iniciando CAPI872102.CSV.


Skipping line 245262: '@' expected after '''
Skipping line 248256: field larger than field limit (131072)
Skipping line 249603: field larger than field limit (131072)
Skipping line 253297: field larger than field limit (131072)


DataFrame carregado...
Aplicando filtros...
Quantidade de registros válidos: 5295448
CAPI872102.CSV finalizado.

Iniciando CAPI872103.CSV.


Skipping line 351927: field larger than field limit (131072)
Skipping line 519061: field larger than field limit (131072)


DataFrame carregado...
Aplicando filtros...
Quantidade de registros válidos: 5845327
CAPI872103.CSV finalizado.

Iniciando CAPI872104.CSV.


Skipping line 3530: '@' expected after '''
Skipping line 5314: field larger than field limit (131072)
Skipping line 427103: '@' expected after '''
Skipping line 435136: field larger than field limit (131072)
Skipping line 435246: field larger than field limit (131072)


DataFrame carregado...
Aplicando filtros...
Quantidade de registros válidos: 6481393
CAPI872104.CSV finalizado.

Iniciando CAPI872105.CSV.


Skipping line 1432: '@' expected after '''
Skipping line 1433: field larger than field limit (131072)
Skipping line 6175: '@' expected after '''
Skipping line 277564: '@' expected after '''
Skipping line 278426: field larger than field limit (131072)
Skipping line 280731: '@' expected after '''
Skipping line 281441: field larger than field limit (131072)
Skipping line 282315: '@' expected after '''
Skipping line 282700: field larger than field limit (131072)
Skipping line 333245: '@' expected after '''
Skipping line 386253: field larger than field limit (131072)


DataFrame carregado...
Aplicando filtros...
Quantidade de registros válidos: 6963712
CAPI872105.CSV finalizado.

Iniciando CAPI872106.CSV.


Skipping line 8619: field larger than field limit (131072)
Skipping line 9337: field larger than field limit (131072)
Skipping line 10237: field larger than field limit (131072)


DataFrame carregado...
Aplicando filtros...
Quantidade de registros válidos: 7693634
CAPI872106.CSV finalizado.



### Resetando o índice do DataFrame final

In [7]:
df.reset_index(inplace=True, drop=True)

### Verificando o DataFrame final

In [8]:
df.head()

Unnamed: 0,NUMERO DE ORDEM,ANOMES,COD.NCM,DESCRICAO DO CODIGO NCM,PAIS.OR,PAIS DE ORIGEM,PAIS.AQ,PAIS DE AQUISICAO,UND.ESTAT.,UNIDADE DE MEDIDA,...,VL FRETE DOLAR,VL SEGURO DOLAR,VALOR UN.PROD.DOLAR,QTD COMERCIAL.,TOT.UN.PROD.DOLAR,UNIDADE DESEMBARQUE,UNIDADE DESEMBARACO,INCOTERM,NAT.INFORMACAO,SITUACAO DO DESPACHO
0,1137910000100001,202001,87141000,PARTES ACESSÓRIOS P/MOTOCICLET,160,"CHINA, REPUBLICA POP",160,"CHINA, REPUBLICA POP",10,QUILOGRAMA LIQUIDO,...,5000.0,0.0,3.728,23400.0,87235.2,N/INFORMADO,ITAJAI,FOB,EFETIVA,DI DESEMBARAÇADA ...
1,1137910000100002,202001,87141000,PARTES ACESSÓRIOS P/MOTOCICLET,160,"CHINA, REPUBLICA POP",160,"CHINA, REPUBLICA POP",10,QUILOGRAMA LIQUIDO,...,5000.0,0.0,3.7,22000.0,81400.0,N/INFORMADO,ITAJAI,FOB,EFETIVA,DI DESEMBARAÇADA ...
2,1137910000100003,202001,87141000,PARTES ACESSÓRIOS P/MOTOCICLET,160,"CHINA, REPUBLICA POP",160,"CHINA, REPUBLICA POP",10,QUILOGRAMA LIQUIDO,...,5000.0,0.0,3.686,2500.0,9215.0,N/INFORMADO,ITAJAI,FOB,EFETIVA,DI DESEMBARAÇADA ...
3,443430000100001,202001,87141000,PARTES ACESSÓRIOS P/MOTOCICLET,160,"CHINA, REPUBLICA POP",160,"CHINA, REPUBLICA POP",10,QUILOGRAMA LIQUIDO,...,10250.0,0.0,3.343258,1500.0,5014.8867,N/INFORMADO,PORTO DE VITORIA,FOB,EFETIVA,DI DESEMBARAÇADA ...
4,443430000100002,202001,87141000,PARTES ACESSÓRIOS P/MOTOCICLET,160,"CHINA, REPUBLICA POP",160,"CHINA, REPUBLICA POP",10,QUILOGRAMA LIQUIDO,...,10250.0,0.0,3.826396,400.0,1530.55836,N/INFORMADO,PORTO DE VITORIA,FOB,EFETIVA,DI DESEMBARAÇADA ...


In [9]:
df.tail()

Unnamed: 0,NUMERO DE ORDEM,ANOMES,COD.NCM,DESCRICAO DO CODIGO NCM,PAIS.OR,PAIS DE ORIGEM,PAIS.AQ,PAIS DE AQUISICAO,UND.ESTAT.,UNIDADE DE MEDIDA,...,VL FRETE DOLAR,VL SEGURO DOLAR,VALOR UN.PROD.DOLAR,QTD COMERCIAL.,TOT.UN.PROD.DOLAR,UNIDADE DESEMBARQUE,UNIDADE DESEMBARACO,INCOTERM,NAT.INFORMACAO,SITUACAO DO DESPACHO
19087,1834950000100008,202106,87141000,PARTES ACESSÓRIOS P/MOTOCICLET,160,"CHINA, REPUBLICA POP",160,"CHINA, REPUBLICA POP",10,QUILOGRAMA LIQUIDO,...,13689.44,128.81,3.747,600.0,2248.2,N/INFORMADO,ALF - FORTALEZA,FOB,EFETIVA,DI DESEMBARAÇADA
19088,1834950000100009,202106,87141000,PARTES ACESSÓRIOS P/MOTOCICLET,160,"CHINA, REPUBLICA POP",160,"CHINA, REPUBLICA POP",10,QUILOGRAMA LIQUIDO,...,13689.44,128.81,3.62,2500.0,9050.0,N/INFORMADO,ALF - FORTALEZA,FOB,EFETIVA,DI DESEMBARAÇADA
19089,1834950000100010,202106,87141000,PARTES ACESSÓRIOS P/MOTOCICLET,160,"CHINA, REPUBLICA POP",160,"CHINA, REPUBLICA POP",10,QUILOGRAMA LIQUIDO,...,13689.44,128.81,3.581,1000.0,3581.0,N/INFORMADO,ALF - FORTALEZA,FOB,EFETIVA,DI DESEMBARAÇADA
19090,1834950000100011,202106,87141000,PARTES ACESSÓRIOS P/MOTOCICLET,160,"CHINA, REPUBLICA POP",160,"CHINA, REPUBLICA POP",10,QUILOGRAMA LIQUIDO,...,13689.44,128.81,3.45,100.0,345.0,N/INFORMADO,ALF - FORTALEZA,FOB,EFETIVA,DI DESEMBARAÇADA
19091,1834950000100012,202106,87141000,PARTES ACESSÓRIOS P/MOTOCICLET,160,"CHINA, REPUBLICA POP",160,"CHINA, REPUBLICA POP",10,QUILOGRAMA LIQUIDO,...,13689.44,128.81,3.503,300.0,1050.9,N/INFORMADO,ALF - FORTALEZA,FOB,EFETIVA,DI DESEMBARAÇADA


In [10]:
df['DESCRICAO DO PRODUTO']

0        007293# KIT TRANSMISSAO STANDARD TEMPERADO COM...
1        007295# KIT TRANSMISSAO STANDARD TEMPERADO COM...
2        007296# KIT TRANSMISSAO STANDARD TEMPERADO COM...
3        80341 KIT DE TRANSMISSÃO, COMPOSTO DE CORRENTE...
4        80364 KIT DE TRANSMISSÃO, COMPOSTO DE CORRENTE...
5        80348 KIT DE TRANSMISSÃO, COMPOSTO DE CORRENTE...
6        80350 KIT DE TRANSMISSÃO, COMPOSTO DE CORRENTE...
7        80373 KIT DE TRANSMISSÃO, COMPOSTO DE CORRENTE...
8        80371 KIT DE TRANSMISSÃO, COMPOSTO DE CORRENTE...
9        80370 KIT DE TRANSMISSÃO, COMPOSTO DE CORRENTE...
10       80344 KIT DE TRANSMISSÃO, COMPOSTO DE CORRENTE...
11       80360 KIT DE TRANSMISSÃO, COMPOSTO DE CORRENTE...
12       80342 KIT DE TRANSMISSÃO, COMPOSTO DE CORRENTE...
13       80385 KIT DE TRANSMISSÃO, COMPOSTO DE CORRENTE...
14       80345 KIT DE TRANSMISSÃO, COMPOSTO DE CORRENTE...
15       80372 KIT DE TRANSMISSÃO, COMPOSTO DE CORRENTE...
16       80392 KIT DE TRANSMISSÃO, COMPOSTO DE CORRENTE.

In [1]:
df.shape

NameError: name 'df' is not defined

### Exportando o DataFrame

Exportando para um arquivo CSV

In [12]:
df.to_csv(r'dataframe.csv', index = False, header = True)

Exportando para um arquivo de planilha do Excel

In [13]:
df.to_excel(r'dataframe.xlsx', index = False, header = True)

Compara o tamanho total do Dataset inicial e final

In [14]:
print('Qtd de registros Dataset original: ' + str(tamanhoDataset))
print('Qtd de registros Dataset final:    ' + str(df[df.columns[0]].count()))

Qtd de registros Dataset original: 7693634
Qtd de registros Dataset final:    19092
