In [2]:
import numpy as np
import pandas as pd

In [3]:
base2019original = pd.read_csv("IMP_2019.csv", sep=';')

In [4]:
base2019original.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1904413 entries, 0 to 1904412
Data columns (total 11 columns):
 #   Column      Dtype 
---  ------      ----- 
 0   CO_ANO      int64 
 1   CO_MES      int64 
 2   CO_NCM      int64 
 3   CO_UNID     int64 
 4   CO_PAIS     int64 
 5   SG_UF_NCM   object
 6   CO_VIA      int64 
 7   CO_URF      int64 
 8   QT_ESTAT    int64 
 9   KG_LIQUIDO  int64 
 10  VL_FOB      int64 
dtypes: int64(10), object(1)
memory usage: 159.8+ MB


In [5]:
#conta valores não nulos nas colunas
print(base2019original.count())

CO_ANO        1904413
CO_MES        1904413
CO_NCM        1904413
CO_UNID       1904413
CO_PAIS       1904413
SG_UF_NCM     1904413
CO_VIA        1904413
CO_URF        1904413
QT_ESTAT      1904413
KG_LIQUIDO    1904413
VL_FOB        1904413
dtype: int64


In [6]:
#conta valores nulos nas colunas
print(base2019original.isna().sum())

CO_ANO        0
CO_MES        0
CO_NCM        0
CO_UNID       0
CO_PAIS       0
SG_UF_NCM     0
CO_VIA        0
CO_URF        0
QT_ESTAT      0
KG_LIQUIDO    0
VL_FOB        0
dtype: int64


In [7]:
base2019original.head(30)

Unnamed: 0,CO_ANO,CO_MES,CO_NCM,CO_UNID,CO_PAIS,SG_UF_NCM,CO_VIA,CO_URF,QT_ESTAT,KG_LIQUIDO,VL_FOB
0,2019,12,85044021,11,249,SP,4,817700,53,44,8263
1,2019,12,85183000,11,160,GO,4,817600,23734,1621,6987
2,2019,12,39263000,10,23,SP,1,817800,3951,3951,88311
3,2019,12,38249929,10,493,SP,1,817800,19540,19540,65812
4,2019,12,34021300,10,493,BA,1,517800,34400,34400,119356
5,2019,12,85389090,10,386,SC,1,817800,101,101,879
6,2019,12,85042100,11,764,SP,1,817800,3,2370,19651
7,2019,12,85030010,10,386,SP,4,817600,835,835,3567
8,2019,12,73181500,10,23,SP,4,817700,1851,1851,70952
9,2019,12,84719012,11,858,SP,4,817600,1,0,670


# Checando registros em que o valor FOB (USD) foi zero ou negativo.

In [8]:
#eventual valor negativo provavelmente seria um erro e deveria ter o respectivo registro excluído da base
#os registros com VL_FOB igual a zero podem ter causas diversas, p. ex. o valor ser inferior a um dólar, ou a importação ter se dado sem combertura cambial (doação, mercadoria para teste, etc.). Independentemente dos casos, entretanto, os registros serão excluídos, tendo em vista que o que se busca por meio do modelo de ML é justamente uma estimativa do VL_FOB por Kg (ou quantidade*) de mercadoria importada.
vlFOBzerado=base2019original[base2019original["VL_FOB"]<=0]
vlFOBzerado

Unnamed: 0,CO_ANO,CO_MES,CO_NCM,CO_UNID,CO_PAIS,SG_UF_NCM,CO_VIA,CO_URF,QT_ESTAT,KG_LIQUIDO,VL_FOB
290,2019,1,73182200,10,72,PE,4,417901,0,0,0
1528,2019,12,35069190,10,764,SP,4,817600,0,0,0
1925,2019,12,73181600,10,72,PR,4,917900,1,1,0
3231,2019,11,85234110,11,160,AM,4,227700,5,0,0
4758,2019,1,84149020,10,764,SP,4,817600,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...
1899512,2019,7,73072200,10,23,RS,4,1017801,0,0,0
1902000,2019,8,33012912,10,275,RJ,4,717700,0,0,0
1904105,2019,8,84099117,11,249,SP,4,817600,1,0,0
1904237,2019,8,74153300,10,69,MG,4,617700,0,0,0


In [9]:
(vlFOBzerado.count()/base2019original.count())*100

CO_ANO        0.16446
CO_MES        0.16446
CO_NCM        0.16446
CO_UNID       0.16446
CO_PAIS       0.16446
SG_UF_NCM     0.16446
CO_VIA        0.16446
CO_URF        0.16446
QT_ESTAT      0.16446
KG_LIQUIDO    0.16446
VL_FOB        0.16446
dtype: float64

#Considerando a baixa relevância do VL_FOB zerado em relação ao total (0,16%), não será feita análise detalhada dessa fração da base, optando pela simples exclusão de tais registros.
#Atribuiremos a df1 a base2019original descontados os registros de vlFOBzerado.

In [10]:
df1=base2019original.drop(base2019original[base2019original["VL_FOB"]<=0].index)

In [11]:
df1.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1901281 entries, 0 to 1904412
Data columns (total 11 columns):
 #   Column      Dtype 
---  ------      ----- 
 0   CO_ANO      int64 
 1   CO_MES      int64 
 2   CO_NCM      int64 
 3   CO_UNID     int64 
 4   CO_PAIS     int64 
 5   SG_UF_NCM   object
 6   CO_VIA      int64 
 7   CO_URF      int64 
 8   QT_ESTAT    int64 
 9   KG_LIQUIDO  int64 
 10  VL_FOB      int64 
dtypes: int64(10), object(1)
memory usage: 174.1+ MB


# Teoricamente, para todo CO_UNID =10, as colunas QT_ESTAT e KG_LIQUIDO deveriam coincidir. A seguir, será feita essa verificação:

In [12]:
teste = df1[df1["CO_UNID"]==10]
teste.head()

Unnamed: 0,CO_ANO,CO_MES,CO_NCM,CO_UNID,CO_PAIS,SG_UF_NCM,CO_VIA,CO_URF,QT_ESTAT,KG_LIQUIDO,VL_FOB
2,2019,12,39263000,10,23,SP,1,817800,3951,3951,88311
3,2019,12,38249929,10,493,SP,1,817800,19540,19540,65812
4,2019,12,34021300,10,493,BA,1,517800,34400,34400,119356
5,2019,12,85389090,10,386,SC,1,817800,101,101,879
7,2019,12,85030010,10,386,SP,4,817600,835,835,3567


In [13]:
teste[teste["QT_ESTAT"]!=teste["KG_LIQUIDO"]]

Unnamed: 0,CO_ANO,CO_MES,CO_NCM,CO_UNID,CO_PAIS,SG_UF_NCM,CO_VIA,CO_URF,QT_ESTAT,KG_LIQUIDO,VL_FOB
10592,2019,1,38140020,10,399,SP,4,817700,1,0,44
832159,2019,8,93059900,10,249,ZN,4,817600,1,18,239
1067837,2019,7,93063000,10,249,ZN,4,817600,17500,88,2895
1223889,2019,4,93063000,10,628,ZN,4,817600,14000,50,2800
1292178,2019,11,21069030,10,455,SP,4,817700,80,10,906
1427916,2019,1,93059900,10,249,MG,4,817600,162,7,3484
1596983,2019,4,93059900,10,249,ZN,4,817600,1,30,229
1862356,2019,9,88033000,10,275,RJ,0,0,1993,115,106657


Em relação aos registros 10592, 1427916 e 1596983 (NCM 9305.99.00), a unidade estatística realmente é o KG. 

O mesmo ocorre em relação à NCM 93063000 (outros cartuchos e suas partes). Ou seja, a unidade estatística realmente é o KG e, portanto, a QT ESTAT mão deveria ser, por exemplo, 17500 unidades, mas sim, 88Kg.

Idem em relação a 38140020, 	21069030 e 88033000.

Diante de todo o exposto, para os casos acima, substituirei o conteúdo da coluna QT_ESTAT pelo da KG_LIQUIDO.


Futuramente, POR OCASIÃO DA APLICAÇÃO DO MODELO DE ML, poderemos eventualmente excluir a coluna KG_LIQUIDO e adotar unicamente a coluna QT_ESTAT, pois, nos casos em que a unidade estatística for o KG, tal coluna representará o KG_LIQUIDO.

Atribuiremos a df2 o novo dataframe (exclusão VL_FOB zerado e substituição de QT_ESTAT por KG_LIQUIDO) nos registros listados acima.

In [14]:
df2=df1

In [15]:
df2.loc[[10592,832159, 1067837, 1223889, 1292178, 1427916,1596983, 1862356]]["KG_LIQUIDO"]


10592        0
832159      18
1067837     88
1223889     50
1292178     10
1427916      7
1596983     30
1862356    115
Name: KG_LIQUIDO, dtype: int64

In [16]:
df2.loc[[10592,832159, 1067837, 1223889, 1292178, 1427916,1596983, 1862356],"QT_ESTAT"]=df2.loc[[10592,832159, 1067837, 1223889, 1292178, 1427916,1596983, 1862356]]["KG_LIQUIDO"]


In [17]:
df2.loc[[10592,832159, 1067837, 1223889, 1292178, 1427916,1596983, 1862356]]["QT_ESTAT"]

10592        0
832159      18
1067837     88
1223889     50
1292178     10
1427916      7
1596983     30
1862356    115
Name: QT_ESTAT, dtype: int64

In [214]:
df2.loc[[10592,832159, 1067837, 1223889, 1292178, 1427916,1596983, 1862356]]

Unnamed: 0,CO_ANO,CO_MES,CO_NCM,CO_UNID,CO_PAIS,SG_UF_NCM,CO_VIA,CO_URF,QT_ESTAT,KG_LIQUIDO,VL_FOB
10592,2019,1,38140020,10,399,SP,4,817700,0,0,44
832159,2019,8,93059900,10,249,ZN,4,817600,18,18,239
1067837,2019,7,93063000,10,249,ZN,4,817600,88,88,2895
1223889,2019,4,93063000,10,628,ZN,4,817600,50,50,2800
1292178,2019,11,21069030,10,455,SP,4,817700,10,10,906
1427916,2019,1,93059900,10,249,MG,4,817600,7,7,3484
1596983,2019,4,93059900,10,249,ZN,4,817600,30,30,229
1862356,2019,9,88033000,10,275,RJ,0,0,115,115,106657


# Checando registros em que o valor QT_ESTAT foi zero:

In [18]:
#checar os casos de valor zerado em QT_ESTAT e, se for o caso, excluir
df2[df2["QT_ESTAT"]==0]

Unnamed: 0,CO_ANO,CO_MES,CO_NCM,CO_UNID,CO_PAIS,SG_UF_NCM,CO_VIA,CO_URF,QT_ESTAT,KG_LIQUIDO,VL_FOB
16,2019,12,82089000,10,72,SP,1,817800,0,0,363
17,2019,12,82090019,10,72,SP,1,817800,0,0,2709
52,2019,1,84819090,10,399,SC,4,817600,0,0,2
94,2019,11,40103900,10,375,PR,4,917900,0,0,31
122,2019,1,84829130,10,23,SP,4,817700,0,0,6
...,...,...,...,...,...,...,...,...,...,...,...
1904370,2019,8,9102000,10,245,SP,1,817800,0,0,1248
1904384,2019,8,48232099,10,628,SP,4,817700,0,0,498
1904389,2019,8,39235000,10,249,PR,4,817600,0,0,8
1904390,2019,8,40081100,10,190,PR,1,917800,0,0,43


Nos casos em que QT_ESTAT é igual a zero não há o que ser feito para sanar a ausência do valor. Destaque-se que o KG_LIQUIDO também está zerado. Portanto, os dados não representam a importação de nenhuma quantidade, constando apenas o valor da suposta importação. Tais dados não agregam em nada na análise que se pretende realizar e - não havendo forma de saná-los- serão excluídos:

In [19]:
df2=df2.drop(df2[df2["QT_ESTAT"]==0].index)

#checar se existem registros em que a unidade de medida estatística é o KG (código 10) e o valor KG_LIQUIDO está zerado. Caso exista, deverão ser excluídos os respectivos registros.

In [20]:
df2[(df2["CO_UNID"]==10) & (df2["KG_LIQUIDO"]==0)]

Unnamed: 0,CO_ANO,CO_MES,CO_NCM,CO_UNID,CO_PAIS,SG_UF_NCM,CO_VIA,CO_URF,QT_ESTAT,KG_LIQUIDO,VL_FOB


In [21]:
# "prova real" do teste acima (não deve aparecer CO_UNID igual a 10 no resultado)
df2[df2["KG_LIQUIDO"]==0]["CO_UNID"].value_counts()

11    83263
13      576
19      147
15       67
17       16
12       16
16       14
21       11
22        5
18        5
14        1
Name: CO_UNID, dtype: int64

In [22]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1764433 entries, 0 to 1904412
Data columns (total 11 columns):
 #   Column      Dtype 
---  ------      ----- 
 0   CO_ANO      int64 
 1   CO_MES      int64 
 2   CO_NCM      int64 
 3   CO_UNID     int64 
 4   CO_PAIS     int64 
 5   SG_UF_NCM   object
 6   CO_VIA      int64 
 7   CO_URF      int64 
 8   QT_ESTAT    int64 
 9   KG_LIQUIDO  int64 
 10  VL_FOB      int64 
dtypes: int64(10), object(1)
memory usage: 161.5+ MB


# Checando, um a um, eventuais valores indefinidos em cada uma das colunas:

### CO_ANO

In [23]:
df2["CO_ANO"].value_counts()

2019    1764433
Name: CO_ANO, dtype: int64

### CO_MES

In [24]:
df2["CO_MES"].value_counts()

10    156457
8     155100
7     154303
5     150735
9     149648
11    147156
1     146082
4     144981
3     141133
6     140705
2     139231
12    138902
Name: CO_MES, dtype: int64

### CO_NCM

In [25]:
df2["CO_NCM"].value_counts()

39269090    11504
73181500     9334
85365090     8873
73269090     8381
40169300     8064
            ...  
60041014        1
69059000        1
22043000        1
30019020        1
58012100        1
Name: CO_NCM, Length: 8413, dtype: int64

### CO_UNID

In [26]:
df2["CO_UNID"].value_counts()

10    978971
11    760161
13      8616
15      5962
17      5704
16      2221
21      1671
19       457
12       297
22       170
20       149
14        35
18        19
Name: CO_UNID, dtype: int64

### CO_PAIS

In [27]:
df2["CO_PAIS"].value_counts()

160    344306
249    208699
23     149028
386    104273
399     75619
        ...  
828         1
875         1
499         1
760         1
292         1
Name: CO_PAIS, Length: 227, dtype: int64

#por meio da tabela auxiliar, tem-se que os códigos de país 000 (não definido), 998 (sem informação), 999 (não declarado) e 994 (a designar) não agregariam na análise. Checar a ocorrência desses valores.

In [28]:
df2[df2["CO_PAIS"] == 000]

Unnamed: 0,CO_ANO,CO_MES,CO_NCM,CO_UNID,CO_PAIS,SG_UF_NCM,CO_VIA,CO_URF,QT_ESTAT,KG_LIQUIDO,VL_FOB


In [29]:
df2[df2["CO_PAIS"] == 998]

Unnamed: 0,CO_ANO,CO_MES,CO_NCM,CO_UNID,CO_PAIS,SG_UF_NCM,CO_VIA,CO_URF,QT_ESTAT,KG_LIQUIDO,VL_FOB


In [31]:
df2[df2["CO_PAIS"] == 999]

Unnamed: 0,CO_ANO,CO_MES,CO_NCM,CO_UNID,CO_PAIS,SG_UF_NCM,CO_VIA,CO_URF,QT_ESTAT,KG_LIQUIDO,VL_FOB


In [33]:
df2[df2["CO_PAIS"] == 994]

Unnamed: 0,CO_ANO,CO_MES,CO_NCM,CO_UNID,CO_PAIS,SG_UF_NCM,CO_VIA,CO_URF,QT_ESTAT,KG_LIQUIDO,VL_FOB
264762,2019,3,96086000,11,994,SP,4,817700,2161,3,640
1128268,2019,5,39269090,10,994,SP,1,817800,753,753,1726


Considerando tratar-se de informação não relacionada diretamente ao cálculo VL_FOB por QT_ESTAT, tais registros serão mantidos.

### SG_UF_NCM

In [228]:
df2["SG_UF_NCM"].value_counts()

SP    688958
SC    199812
PR    146708
RJ    132544
MG    130547
RS    112519
AM     87944
BA     48202
ES     41008
GO     30773
PE     25627
CE     22919
RO     20089
AL     17849
PA     13879
MS      8730
DF      7513
PB      5215
RN      5005
MT      4289
SE      3749
ZN      2508
MA      2347
TO      1952
PI      1645
AP      1540
RR       444
AC       118
Name: SG_UF_NCM, dtype: int64

In [229]:
#Conforme listagem acima, no tocante ao campo da unidade federativa identifica-se a presença do valor "ZN" (zona não declarada)
df2[df2["SG_UF_NCM"]=="ZN"]

Unnamed: 0,CO_ANO,CO_MES,CO_NCM,CO_UNID,CO_PAIS,SG_UF_NCM,CO_VIA,CO_URF,QT_ESTAT,KG_LIQUIDO,VL_FOB
18,2019,12,87087090,11,249,ZN,1,927700,5,50,1050
172,2019,11,87149100,10,756,ZN,4,817600,6,6,4211
557,2019,11,87032410,11,23,ZN,1,927700,2,2903,57318
660,2019,11,84842000,10,249,ZN,4,717700,4,4,353
1156,2019,11,42029200,11,249,ZN,4,717700,1,2,245
4788,2019,11,84099112,11,249,ZN,1,927700,2,80,114
4994,2019,11,85443000,10,249,ZN,1,927700,1,1,13
6949,2019,11,93020000,11,791,ZN,4,117600,2,4,791
8634,2019,11,94054010,10,386,ZN,4,817600,78,78,13262
9530,2019,12,6029021,11,573,ZN,4,817600,553394,5674,476251


Diante dos registros ZN para o campo SG_UF_NCM, uma possível alternativa é atribuir a sigla da UF em que está localizada a Unidade da Receita Federal do Brasil em que se deu o registro da DI (campo CO_URF) 

In [230]:
df2[df2["SG_UF_NCM"]=="ZN"]["CO_URF"].value_counts()

817800     499
927700     496
817600     447
817700     324
717700     127
1017700     76
917800      75
717600      57
927800      56
117600      51
1017801     46
917900      41
617700      37
517801      25
727600      24
227700      20
917500      18
260100      13
317900      11
1010253     10
1017500      9
417901       8
317901       8
417902       5
420154       4
240100       4
1010252      4
517800       4
1017701      3
260151       2
1017900      1
240152       1
817900       1
927900       1
Name: CO_URF, dtype: int64

#### UF SP

In [231]:
#Atribuindo SG_UF_NCM igual a SP para as unidades (CO_URF) da 8ª Região Fiscal (início com 08):
df2[(df2["SG_UF_NCM"]=="ZN") & ((df2["CO_URF"]==817800) | (df2["CO_URF"]==817600) | (df2["CO_URF"]==817700) | (df2["CO_URF"]==817900))].info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1271 entries, 172 to 1902479
Data columns (total 11 columns):
CO_ANO        1271 non-null int64
CO_MES        1271 non-null int64
CO_NCM        1271 non-null int64
CO_UNID       1271 non-null int64
CO_PAIS       1271 non-null int64
SG_UF_NCM     1271 non-null object
CO_VIA        1271 non-null int64
CO_URF        1271 non-null int64
QT_ESTAT      1271 non-null int64
KG_LIQUIDO    1271 non-null int64
VL_FOB        1271 non-null int64
dtypes: int64(10), object(1)
memory usage: 119.2+ KB


In [232]:
setSPin8RF=df2[(df2["SG_UF_NCM"]=="ZN") & ((df2["CO_URF"]==817800) | (df2["CO_URF"]==817600) | (df2["CO_URF"]==817700) | (df2["CO_URF"]==817900))]["SG_UF_NCM"].index
setSPin8RF.astype(list)

Index([    172,    8634,    9530,    9648,   10674,   15001,   16518,   18845,
         19971,   20497,
       ...
       1885675, 1889314, 1892366, 1898056, 1900149, 1901126, 1901137, 1901297,
       1902425, 1902479],
      dtype='object', length=1271)

In [233]:
df2.loc[(setSPin8RF), "SG_UF_NCM"]="SP"

#### UF SC

In [234]:
#Atribuindo SG_UF_NCM igual a SC para as unidades (CO_URF) 927700, 927800 e 927900:
df2[(df2["SG_UF_NCM"]=="ZN") & ((df2["CO_URF"]==927700) | (df2["CO_URF"]==927800) | (df2["CO_URF"]==927900))].info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 553 entries, 18 to 1900850
Data columns (total 11 columns):
CO_ANO        553 non-null int64
CO_MES        553 non-null int64
CO_NCM        553 non-null int64
CO_UNID       553 non-null int64
CO_PAIS       553 non-null int64
SG_UF_NCM     553 non-null object
CO_VIA        553 non-null int64
CO_URF        553 non-null int64
QT_ESTAT      553 non-null int64
KG_LIQUIDO    553 non-null int64
VL_FOB        553 non-null int64
dtypes: int64(10), object(1)
memory usage: 51.8+ KB


In [235]:
setSC=df2[(df2["SG_UF_NCM"]=="ZN") & ((df2["CO_URF"]==927700) | (df2["CO_URF"]==927800) | (df2["CO_URF"]==927900))]["SG_UF_NCM"].index

In [236]:
df2.loc[(setSC), "SG_UF_NCM"]="SC"

#### UF PR

In [237]:
#Atribuindo SG_UF_NCM igual a PR para as unidades (CO_URF) 917800, 917900 e 917500:
df2[(df2["SG_UF_NCM"]=="ZN") & ((df2["CO_URF"]==917800) | (df2["CO_URF"]==917900) | (df2["CO_URF"]==917500))].info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 134 entries, 20476 to 1899317
Data columns (total 11 columns):
CO_ANO        134 non-null int64
CO_MES        134 non-null int64
CO_NCM        134 non-null int64
CO_UNID       134 non-null int64
CO_PAIS       134 non-null int64
SG_UF_NCM     134 non-null object
CO_VIA        134 non-null int64
CO_URF        134 non-null int64
QT_ESTAT      134 non-null int64
KG_LIQUIDO    134 non-null int64
VL_FOB        134 non-null int64
dtypes: int64(10), object(1)
memory usage: 12.6+ KB


In [238]:
setPR=df2[(df2["SG_UF_NCM"]=="ZN") & ((df2["CO_URF"]==917800) | (df2["CO_URF"]==917900) | (df2["CO_URF"]==917500))]["SG_UF_NCM"].index

In [239]:
df2.loc[(setPR), "SG_UF_NCM"]="PR"

#### UF RJ

In [240]:
#Atribuindo SG_UF_NCM igual a RJ para as unidades (CO_URF) 717600 e 717700:
df2[(df2["SG_UF_NCM"]=="ZN") & ((df2["CO_URF"]==717600) | (df2["CO_URF"]==717700))].info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 184 entries, 660 to 1904333
Data columns (total 11 columns):
CO_ANO        184 non-null int64
CO_MES        184 non-null int64
CO_NCM        184 non-null int64
CO_UNID       184 non-null int64
CO_PAIS       184 non-null int64
SG_UF_NCM     184 non-null object
CO_VIA        184 non-null int64
CO_URF        184 non-null int64
QT_ESTAT      184 non-null int64
KG_LIQUIDO    184 non-null int64
VL_FOB        184 non-null int64
dtypes: int64(10), object(1)
memory usage: 17.2+ KB


In [241]:
setRJ=df2[(df2["SG_UF_NCM"]=="ZN") & ((df2["CO_URF"]==717600) | (df2["CO_URF"]==717700))]["SG_UF_NCM"].index

In [242]:
df2.loc[(setRJ), "SG_UF_NCM"]="RJ"

#### UF ES

In [243]:
#Atribuindo SG_UF_NCM igual a ES para a unidade (CO_URF) 727600:
df2[(df2["SG_UF_NCM"]=="ZN") & ((df2["CO_URF"]==727600) )].info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 24 entries, 124193 to 1888979
Data columns (total 11 columns):
CO_ANO        24 non-null int64
CO_MES        24 non-null int64
CO_NCM        24 non-null int64
CO_UNID       24 non-null int64
CO_PAIS       24 non-null int64
SG_UF_NCM     24 non-null object
CO_VIA        24 non-null int64
CO_URF        24 non-null int64
QT_ESTAT      24 non-null int64
KG_LIQUIDO    24 non-null int64
VL_FOB        24 non-null int64
dtypes: int64(10), object(1)
memory usage: 2.2+ KB


In [244]:
setES=df2[(df2["SG_UF_NCM"]=="ZN") & ((df2["CO_URF"]==727600))]["SG_UF_NCM"].index

In [245]:
df2.loc[(setES), "SG_UF_NCM"]="ES"

#### UF RS

In [246]:
#Atribuindo SG_UF_NCM igual a RS para as unidades (CO_URF) da 10ª Região Fiscal (início com 10):
df2[(df2["SG_UF_NCM"]=="ZN") & ((df2["CO_URF"]==1017700) | (df2["CO_URF"]==1017801) | (df2["CO_URF"]==1010253) | (df2["CO_URF"]==1017500) | (df2["CO_URF"]==1010252) | (df2["CO_URF"]==1017701) | (df2["CO_URF"]==1017900) )].info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 149 entries, 12745 to 1897715
Data columns (total 11 columns):
CO_ANO        149 non-null int64
CO_MES        149 non-null int64
CO_NCM        149 non-null int64
CO_UNID       149 non-null int64
CO_PAIS       149 non-null int64
SG_UF_NCM     149 non-null object
CO_VIA        149 non-null int64
CO_URF        149 non-null int64
QT_ESTAT      149 non-null int64
KG_LIQUIDO    149 non-null int64
VL_FOB        149 non-null int64
dtypes: int64(10), object(1)
memory usage: 14.0+ KB


In [247]:
setRS=df2[(df2["SG_UF_NCM"]=="ZN") & ((df2["CO_URF"]==1017700) | (df2["CO_URF"]==1017801) | (df2["CO_URF"]==1010253) | (df2["CO_URF"]==1017500) | (df2["CO_URF"]==1010252) | (df2["CO_URF"]==1017701) | (df2["CO_URF"]==1017900) )]["SG_UF_NCM"].index

In [248]:
df2.loc[(setRS), "SG_UF_NCM"]="RS"

#### UF DF

In [249]:
#Atribuindo SG_UF_NCM igual a DF para a unidade (CO_URF) 117600:
df2[(df2["SG_UF_NCM"]=="ZN") & ((df2["CO_URF"]==117600) )].info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 51 entries, 6949 to 1731482
Data columns (total 11 columns):
CO_ANO        51 non-null int64
CO_MES        51 non-null int64
CO_NCM        51 non-null int64
CO_UNID       51 non-null int64
CO_PAIS       51 non-null int64
SG_UF_NCM     51 non-null object
CO_VIA        51 non-null int64
CO_URF        51 non-null int64
QT_ESTAT      51 non-null int64
KG_LIQUIDO    51 non-null int64
VL_FOB        51 non-null int64
dtypes: int64(10), object(1)
memory usage: 4.8+ KB


In [250]:
setDF=df2[(df2["SG_UF_NCM"]=="ZN") & ((df2["CO_URF"]==117600) )]["SG_UF_NCM"].index

In [251]:
df2.loc[(setDF), "SG_UF_NCM"]="DF"

#### UF MG

In [252]:
#Atribuindo SG_UF_NCM igual a MG para a unidade (CO_URF) 617700:
df2[(df2["SG_UF_NCM"]=="ZN") & ((df2["CO_URF"]==617700) )].info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 37 entries, 69472 to 1828198
Data columns (total 11 columns):
CO_ANO        37 non-null int64
CO_MES        37 non-null int64
CO_NCM        37 non-null int64
CO_UNID       37 non-null int64
CO_PAIS       37 non-null int64
SG_UF_NCM     37 non-null object
CO_VIA        37 non-null int64
CO_URF        37 non-null int64
QT_ESTAT      37 non-null int64
KG_LIQUIDO    37 non-null int64
VL_FOB        37 non-null int64
dtypes: int64(10), object(1)
memory usage: 3.5+ KB


In [253]:
setMG=df2[(df2["SG_UF_NCM"]=="ZN") & ((df2["CO_URF"]==617700))]["SG_UF_NCM"].index

In [254]:
df2.loc[(setMG), "SG_UF_NCM"]="MG"

#### UF BA

In [255]:
#Atribuindo SG_UF_NCM igual a BA para as unidades (CO_URF) 517800 e 517801:
df2[(df2["SG_UF_NCM"]=="ZN") & ((df2["CO_URF"]==517800) | (df2["CO_URF"]==517801))].info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 29 entries, 109470 to 1722336
Data columns (total 11 columns):
CO_ANO        29 non-null int64
CO_MES        29 non-null int64
CO_NCM        29 non-null int64
CO_UNID       29 non-null int64
CO_PAIS       29 non-null int64
SG_UF_NCM     29 non-null object
CO_VIA        29 non-null int64
CO_URF        29 non-null int64
QT_ESTAT      29 non-null int64
KG_LIQUIDO    29 non-null int64
VL_FOB        29 non-null int64
dtypes: int64(10), object(1)
memory usage: 2.7+ KB


In [256]:
setBA=df2[(df2["SG_UF_NCM"]=="ZN") & ((df2["CO_URF"]==517800) | (df2["CO_URF"]==517801))]["SG_UF_NCM"].index

In [257]:
df2.loc[(setBA), "SG_UF_NCM"]="BA"

#### UF RR

In [258]:
#Atribuindo SG_UF_NCM igual a RR para as unidades (CO_URF) 260100 e 260151:
df2[(df2["SG_UF_NCM"]=="ZN") & ((df2["CO_URF"]==260100) | (df2["CO_URF"]==260151))].info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 15 entries, 61262 to 1868338
Data columns (total 11 columns):
CO_ANO        15 non-null int64
CO_MES        15 non-null int64
CO_NCM        15 non-null int64
CO_UNID       15 non-null int64
CO_PAIS       15 non-null int64
SG_UF_NCM     15 non-null object
CO_VIA        15 non-null int64
CO_URF        15 non-null int64
QT_ESTAT      15 non-null int64
KG_LIQUIDO    15 non-null int64
VL_FOB        15 non-null int64
dtypes: int64(10), object(1)
memory usage: 1.4+ KB


In [259]:
setRR=df2[(df2["SG_UF_NCM"]=="ZN") & ((df2["CO_URF"]==260100) | (df2["CO_URF"]==260151))]["SG_UF_NCM"].index

In [260]:
df2.loc[(setRR), "SG_UF_NCM"]="RR"

#### UF AP

In [261]:
#Atribuindo SG_UF_NCM igual a AP para as unidades (CO_URF) 240100 e 240152:
df2[(df2["SG_UF_NCM"]=="ZN") & ((df2["CO_URF"]==240100) | (df2["CO_URF"]==240152))].info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 5 entries, 103612 to 1545259
Data columns (total 11 columns):
CO_ANO        5 non-null int64
CO_MES        5 non-null int64
CO_NCM        5 non-null int64
CO_UNID       5 non-null int64
CO_PAIS       5 non-null int64
SG_UF_NCM     5 non-null object
CO_VIA        5 non-null int64
CO_URF        5 non-null int64
QT_ESTAT      5 non-null int64
KG_LIQUIDO    5 non-null int64
VL_FOB        5 non-null int64
dtypes: int64(10), object(1)
memory usage: 480.0+ bytes


In [262]:
setAP=df2[(df2["SG_UF_NCM"]=="ZN") & ((df2["CO_URF"]==240100) | (df2["CO_URF"]==240152))]["SG_UF_NCM"].index

In [263]:
df2.loc[(setAP), "SG_UF_NCM"]="AP"

#### UF AM

In [264]:
#Atribuindo SG_UF_NCM igual a AM para a unidade (CO_URF) 227700:
df2[(df2["SG_UF_NCM"]=="ZN") & ((df2["CO_URF"]==227700) )].info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 20 entries, 65287 to 1732310
Data columns (total 11 columns):
CO_ANO        20 non-null int64
CO_MES        20 non-null int64
CO_NCM        20 non-null int64
CO_UNID       20 non-null int64
CO_PAIS       20 non-null int64
SG_UF_NCM     20 non-null object
CO_VIA        20 non-null int64
CO_URF        20 non-null int64
QT_ESTAT      20 non-null int64
KG_LIQUIDO    20 non-null int64
VL_FOB        20 non-null int64
dtypes: int64(10), object(1)
memory usage: 1.9+ KB


In [265]:
setAM=df2[(df2["SG_UF_NCM"]=="ZN") & ((df2["CO_URF"]==227700))]["SG_UF_NCM"].index

In [266]:
df2.loc[(setAM), "SG_UF_NCM"]="AM"

#### UF CE

In [267]:
#Atribuindo SG_UF_NCM igual a CE para as unidades (CO_URF) 317900 e 317901:
df2[(df2["SG_UF_NCM"]=="ZN") & ((df2["CO_URF"]==317900) | (df2["CO_URF"]==317901))].info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 19 entries, 57870 to 1721583
Data columns (total 11 columns):
CO_ANO        19 non-null int64
CO_MES        19 non-null int64
CO_NCM        19 non-null int64
CO_UNID       19 non-null int64
CO_PAIS       19 non-null int64
SG_UF_NCM     19 non-null object
CO_VIA        19 non-null int64
CO_URF        19 non-null int64
QT_ESTAT      19 non-null int64
KG_LIQUIDO    19 non-null int64
VL_FOB        19 non-null int64
dtypes: int64(10), object(1)
memory usage: 1.8+ KB


In [268]:
setCE=df2[(df2["SG_UF_NCM"]=="ZN") & ((df2["CO_URF"]==317900) | (df2["CO_URF"]==317901))]["SG_UF_NCM"].index

In [269]:
df2.loc[(setCE), "SG_UF_NCM"]="CE"

#### UF PE

In [270]:
#Atribuindo SG_UF_NCM igual a PE para as unidades (CO_URF) 417901 e 417902:
df2[(df2["SG_UF_NCM"]=="ZN") & ((df2["CO_URF"]==417901) | (df2["CO_URF"]==417902))].info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 13 entries, 12244 to 1655281
Data columns (total 11 columns):
CO_ANO        13 non-null int64
CO_MES        13 non-null int64
CO_NCM        13 non-null int64
CO_UNID       13 non-null int64
CO_PAIS       13 non-null int64
SG_UF_NCM     13 non-null object
CO_VIA        13 non-null int64
CO_URF        13 non-null int64
QT_ESTAT      13 non-null int64
KG_LIQUIDO    13 non-null int64
VL_FOB        13 non-null int64
dtypes: int64(10), object(1)
memory usage: 1.2+ KB


In [271]:
setPE=df2[(df2["SG_UF_NCM"]=="ZN") & ((df2["CO_URF"]==417901) | (df2["CO_URF"]==417902))]["SG_UF_NCM"].index

In [272]:
df2.loc[(setPE), "SG_UF_NCM"]="PE"

#### UF RN

In [273]:
#Atribuindo SG_UF_NCM igual a RN para a unidade (CO_URF) 420154:
df2[(df2["SG_UF_NCM"]=="ZN") & ((df2["CO_URF"]==420154) )].info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 4 entries, 98586 to 1767909
Data columns (total 11 columns):
CO_ANO        4 non-null int64
CO_MES        4 non-null int64
CO_NCM        4 non-null int64
CO_UNID       4 non-null int64
CO_PAIS       4 non-null int64
SG_UF_NCM     4 non-null object
CO_VIA        4 non-null int64
CO_URF        4 non-null int64
QT_ESTAT      4 non-null int64
KG_LIQUIDO    4 non-null int64
VL_FOB        4 non-null int64
dtypes: int64(10), object(1)
memory usage: 384.0+ bytes


In [274]:
setRN=df2[(df2["SG_UF_NCM"]=="ZN") & ((df2["CO_URF"]==420154) )]["SG_UF_NCM"].index

In [275]:
df2.loc[(setRN), "SG_UF_NCM"]="RN"

In [276]:
#Teste do tratamento do campo SG_UF_NCM igual a "ZN"
df2[df2["SG_UF_NCM"]=="ZN"]

Unnamed: 0,CO_ANO,CO_MES,CO_NCM,CO_UNID,CO_PAIS,SG_UF_NCM,CO_VIA,CO_URF,QT_ESTAT,KG_LIQUIDO,VL_FOB


### CO_VIA

In [277]:
df2["CO_VIA"].value_counts()

1     885619
4     808863
7      37852
0      30359
10      1189
5        231
9        229
8         39
6         37
2         15
Name: CO_VIA, dtype: int64

In [278]:
#Conforme listagem acima, no tocante ao campo CO_VIA identifica-se a presença do valor "0" (via não declarada)
df2[df2["CO_VIA"]==0]

Unnamed: 0,CO_ANO,CO_MES,CO_NCM,CO_UNID,CO_PAIS,SG_UF_NCM,CO_VIA,CO_URF,QT_ESTAT,KG_LIQUIDO,VL_FOB
139,2019,1,85371090,10,603,SP,0,0,36,36,3770
296,2019,1,84141000,11,375,SP,0,0,3,1,363
553,2019,1,84821010,11,386,SP,0,0,1,0,36
764,2019,1,84139190,10,249,SP,0,0,1401,1401,101985
807,2019,1,84716052,11,190,SP,0,0,2,3,188
808,2019,1,84716053,11,160,SP,0,0,25,78,582
869,2019,1,90181210,11,160,SP,0,0,11,79,8768
1039,2019,1,83022000,10,23,SP,0,0,7,7,305
1048,2019,1,85011019,11,232,SP,0,0,1,3,350
1295,2019,1,84149010,10,603,SP,0,0,9,9,236


Uma alternativa possível para sanar a ausência do código da via de transporte (CO_VIA) é checar a URF de zona primária. Por exemplo, caso se trate de um aeroporto, a via seria aérea, se for porto, via marítma, e assim por diante. Para isso será preciso verificar, dentre os regsitros listados acima, quais deles contêm a informação CO_URF:

In [279]:

df2[(df2["CO_VIA"]==0) & (df2["CO_URF"]!=0)]["CO_URF"].value_counts()


817600    2173
817700     390
817900      26
717700      11
617700       5
Name: CO_URF, dtype: int64

Por meio da tabela auxiliar (a informação sobre o código das URF também encontra-se facilmente disponível na internet), tem-se que os códigos acima são referentes às seguintes URF:
#817600    2173 ocorrências - AEROPORTO INTERNACIONAL DE SAO PAULO/GUARULHOS
#817700     390 ocorrências - AEROPORTO INTERNACIONAL DE VIRACOPOS
#817900      26 ocorrências - ALFÂNDEGA DE SÃO PAULO
#717700      11 ocorrências - AEROPORTO INTERNACIONAL DO RIO DE JANEIRO
#617700       5 ocorrências - ALFÂNDEGA DE BELO HORIZONTE

Checando as vias (modal) de transporte mais comuns em cada uma das URF listadas acima: 

In [280]:
df2[df2["CO_URF"]==817600]["CO_VIA"].value_counts()

4     314912
0       2173
10        16
9          2
7          1
Name: CO_VIA, dtype: int64

In [281]:
df2[df2["CO_URF"]==817700]["CO_VIA"].value_counts()

4     212996
0        390
7         65
10        56
9          7
5          1
Name: CO_VIA, dtype: int64

In [282]:
df2[df2["CO_URF"]==817900]["CO_VIA"].value_counts()

5    138
0     26
Name: CO_VIA, dtype: int64

In [283]:
df2[df2["CO_URF"]==717700]["CO_VIA"].value_counts()

4     74100
5        89
10       83
9        24
0        11
1         4
Name: CO_VIA, dtype: int64

In [284]:
df2[df2["CO_URF"]==617700]["CO_VIA"].value_counts()

4     36740
7       213
10       26
0         5
9         3
Name: CO_VIA, dtype: int64

In [285]:
df3=df2

In [286]:
#Início da atribuição de CO_VIA = 4 para os casos em que a CO_VIA está zerada e a URF é 817600:
df3[(df3["CO_VIA"]==0) & (df3["CO_URF"]==817600)]

Unnamed: 0,CO_ANO,CO_MES,CO_NCM,CO_UNID,CO_PAIS,SG_UF_NCM,CO_VIA,CO_URF,QT_ESTAT,KG_LIQUIDO,VL_FOB
1461,2019,1,85444200,10,791,SP,0,817600,6,6,88
1474,2019,1,90229019,11,160,SP,0,817600,2,7,7448
5195,2019,1,73121090,10,361,SP,0,817600,3,3,22
5449,2019,1,84213990,11,399,SP,0,817600,11,170,10934
6028,2019,1,39173290,10,249,SP,0,817600,85,85,1110
6136,2019,1,85044090,11,160,SP,0,817600,4,38,7413
6614,2019,1,85044021,11,161,SP,0,817600,1,17,377
8151,2019,1,85371090,10,249,SP,0,817600,23,23,3998
10676,2019,1,90318099,11,628,SP,0,817600,1,1,751
17690,2019,2,84213990,11,249,SP,0,817600,12,30,321


In [287]:
setGRUvia4=df3[(df3["CO_VIA"]==0) & (df3["CO_URF"]==817600)].index
setGRUvia4.astype(list)

Index([   1461,    1474,    5195,    5449,    6028,    6136,    6614,    8151,
         10676,   17690,
       ...
       1895430, 1897349, 1899065, 1899459, 1899603, 1899648, 1899762, 1899953,
       1901542, 1901906],
      dtype='object', length=2173)

In [288]:
df3.loc[(setGRUvia4), "CO_VIA"]=4

In [289]:
#Checando para ver se a operação foi bem sucedida (comparar com o mesmo comando dado a algumas linhas acima. Em suma: a qtd de  CO_VIA 4 atual corresponde a soma das qtd das vias 4 e 0 anteriormente)
df3[df3["CO_URF"]==817600]["CO_VIA"].value_counts()

4     317085
10        16
9          2
7          1
Name: CO_VIA, dtype: int64

In [290]:
#Início da atribuição de CO_VIA = 4 para os casos em que a CO_VIA está zerada e a URF é 817700:
df3[(df3["CO_VIA"]==0) & (df3["CO_URF"]==817700)]

Unnamed: 0,CO_ANO,CO_MES,CO_NCM,CO_UNID,CO_PAIS,SG_UF_NCM,CO_VIA,CO_URF,QT_ESTAT,KG_LIQUIDO,VL_FOB
4272,2019,1,90229090,10,160,SP,0,817700,13,13,74636
16642,2019,2,85014019,11,23,SP,0,817700,1,4,6037
20557,2019,2,39269090,10,249,SP,0,817700,2,2,6151
29230,2019,3,85446000,10,23,SP,0,817700,5,5,3748
30311,2019,3,90181300,11,249,SP,0,817700,7,48,39331
31082,2019,3,85446000,10,249,SP,0,817700,1,1,4362
42019,2019,4,90229090,10,251,SP,0,817700,9,9,986
47014,2019,11,85442000,10,249,SP,0,817700,1,1,2185
67262,2019,11,90181300,11,23,SP,0,817700,40,121,129259
68941,2019,11,90181210,11,23,SP,0,817700,1,1,1855


In [291]:
setVCPvia4=df3[(df3["CO_VIA"]==0) & (df3["CO_URF"]==817700)].index
setVCPvia4.astype(list)

Index([   4272,   16642,   20557,   29230,   30311,   31082,   42019,   47014,
         67262,   68941,
       ...
       1858273, 1858561, 1859981, 1870634, 1870635, 1875144, 1886721, 1893457,
       1894013, 1902579],
      dtype='object', length=390)

In [292]:
df3.loc[(setVCPvia4), "CO_VIA"]=4

In [293]:
#Checando para ver se a operação foi bem sucedida (comparar com o mesmo comando dado a algumas linhas acima. Em suma: a qtd de  CO_VIA 4 atual corresponde a soma das qtd das vias 4 e 0 anteriormente)
df3[df3["CO_URF"]==817700]["CO_VIA"].value_counts()

4     213386
7         65
10        56
9          7
5          1
Name: CO_VIA, dtype: int64

In [294]:
#Início da atribuição de CO_VIA = 5 para os casos em que a CO_VIA está zerada e a URF é 817900:
df3[(df3["CO_VIA"]==0) & (df3["CO_URF"]==817900)]

Unnamed: 0,CO_ANO,CO_MES,CO_NCM,CO_UNID,CO_PAIS,SG_UF_NCM,CO_VIA,CO_URF,QT_ESTAT,KG_LIQUIDO,VL_FOB
41508,2019,4,39199090,10,628,SP,0,817900,1,1,472
54872,2019,5,85442000,10,160,SP,0,817900,13,13,207
87376,2019,7,90229090,10,628,SP,0,817900,2,2,6161
171941,2019,5,90181990,11,249,SP,0,817900,4,41,14161
324466,2019,7,85285920,11,249,SP,0,817900,1,3,3353
408374,2019,5,85442000,10,249,SP,0,817900,2,2,2164
412450,2019,5,90229090,10,160,SP,0,817900,76,76,125375
413948,2019,5,90181990,11,383,SP,0,817900,2,26,3389
448090,2019,7,39199090,10,628,SP,0,817900,1,1,413
650291,2019,5,85444200,10,160,SP,0,817900,8,8,2882


In [295]:
setALFSPOvia5=df3[(df3["CO_VIA"]==0) & (df3["CO_URF"]==817900)].index
setALFSPOvia5.astype(list)

Index([  41508,   54872,   87376,  171941,  324466,  408374,  412450,  413948,
        448090,  650291,  786104,  888606,  906247, 1029790, 1126774, 1127434,
       1359949, 1382049, 1400976, 1486835, 1515395, 1634725, 1830292, 1841571,
       1850415, 1880036],
      dtype='object')

In [296]:
df3.loc[(setALFSPOvia5), "CO_VIA"]=5

In [297]:
#Checando para ver se a operação foi bem sucedida (comparar com o mesmo comando dado a algumas linhas acima. Em suma: a qtd de  CO_VIA 5 atual corresponde a soma das qtd das vias 5 e 0 anteriormente)
df3[df3["CO_URF"]==817900]["CO_VIA"].value_counts()

5    164
Name: CO_VIA, dtype: int64

In [298]:
#Início da atribuição de CO_VIA = 4 para os casos em que a CO_VIA está zerada e a URF é 717700:
df3[(df3["CO_VIA"]==0) & (df3["CO_URF"]==817900)]

Unnamed: 0,CO_ANO,CO_MES,CO_NCM,CO_UNID,CO_PAIS,SG_UF_NCM,CO_VIA,CO_URF,QT_ESTAT,KG_LIQUIDO,VL_FOB


In [299]:
setRJOvia4=df3[(df3["CO_VIA"]==0) & (df3["CO_URF"]==717700)].index
setRJOvia4.astype(list)

Index([ 247490,  463121,  607920,  696574,  728130,  997959, 1478348, 1534327,
       1590917, 1850185, 1892257],
      dtype='object')

In [300]:
df3.loc[(setRJOvia4), "CO_VIA"]=4

In [301]:
#Checando para ver se a operação foi bem sucedida (comparar com o mesmo comando dado a algumas linhas acima. Em suma: a qtd de  CO_VIA 4 atual corresponde a soma das qtd das vias 4 e 0 anteriormente)
df3[df3["CO_URF"]==717700]["CO_VIA"].value_counts()

4     74111
5        89
10       83
9        24
1         4
Name: CO_VIA, dtype: int64

In [302]:
#Início da atribuição de CO_VIA = 4 para os casos em que a CO_VIA está zerada e a URF é 617700:
df3[(df3["CO_VIA"]==0) & (df3["CO_URF"]==617700)]

Unnamed: 0,CO_ANO,CO_MES,CO_NCM,CO_UNID,CO_PAIS,SG_UF_NCM,CO_VIA,CO_URF,QT_ESTAT,KG_LIQUIDO,VL_FOB
764460,2019,9,83021000,10,249,MG,0,617700,5,5,6922
952850,2019,8,83021000,10,249,MG,0,617700,1,1,2156
1112881,2019,3,81089000,10,249,MG,0,617700,3,3,650
1148315,2019,10,83021000,10,249,MG,0,617700,7,7,13327
1553433,2019,1,83021000,10,249,MG,0,617700,1,1,3838


In [303]:
setBHEvia4=df3[(df3["CO_VIA"]==0) & (df3["CO_URF"]==617700)].index
setBHEvia4.astype(list)

Index([764460, 952850, 1112881, 1148315, 1553433], dtype='object')

In [304]:
df3.loc[(setBHEvia4), "CO_VIA"]=4

In [305]:
#Checando para ver se a operação foi bem sucedida (comparar com o mesmo comando dado a algumas linhas acima. Em suma: a qtd de  CO_VIA 4 atual corresponde a soma das qtd das vias 4 e 0 anteriormente)
df3[df3["CO_URF"]==617700]["CO_VIA"].value_counts()

4     36745
7       213
10       26
9         3
Name: CO_VIA, dtype: int64

Ao término da atribuição dos CO_VIA naqueles casos em que consta CO_URF (diferente de zero), checar a qtde de CO_VIA igual a 0 no df de trabalho (o valor esperado é 30359 (mapeado anteriormente) menos 2605 (valores atribuidos), resultando em 27.754):


In [306]:
df3[df3["CO_VIA"]==0]

Unnamed: 0,CO_ANO,CO_MES,CO_NCM,CO_UNID,CO_PAIS,SG_UF_NCM,CO_VIA,CO_URF,QT_ESTAT,KG_LIQUIDO,VL_FOB
139,2019,1,85371090,10,603,SP,0,0,36,36,3770
296,2019,1,84141000,11,375,SP,0,0,3,1,363
553,2019,1,84821010,11,386,SP,0,0,1,0,36
764,2019,1,84139190,10,249,SP,0,0,1401,1401,101985
807,2019,1,84716052,11,190,SP,0,0,2,3,188
808,2019,1,84716053,11,160,SP,0,0,25,78,582
869,2019,1,90181210,11,160,SP,0,0,11,79,8768
1039,2019,1,83022000,10,23,SP,0,0,7,7,305
1048,2019,1,85011019,11,232,SP,0,0,1,3,350
1295,2019,1,84149010,10,603,SP,0,0,9,9,236


Destaque-se que, mesmo após tratar as informações ausentes de CO_VIA, não vislumbro como sanar os valores CO_VIA=0 listados acima (pois não consta CO_URF).
Portanto, esses valores permanecerão na base, pois não estamos a tratar de variáveis "protagonistas" como quantidade/peso e valor. Por ocasião da implementação do modelo de ML, será analisada a pertinência de se manter, ou não, tais registros.

### CO_URF

In [307]:
df3["CO_URF"].value_counts()

817800     422530
817600     317104
817700     213515
927800      88154
917800      84232
717700      74311
717600      68550
927700      61961
917900      44671
1017700     42662
717800      37218
617700      36987
227700      36695
227600      33993
0           30087
1017801     28768
517800      23878
417902      15775
517801      14334
727600      12021
1017500     11547
417901       9654
317901       8675
917500       7970
1017503      7813
317900       4402
1017701      3505
117600       3482
217800       3091
1010252      2621
            ...  
1017502        46
417800         27
130100         25
130151         25
240152         14
517600          8
510552          7
927600          7
420152          6
230155          5
250151          3
317800          3
327600          3
140100          3
1017551         2
320100          2
510100          2
147852          2
260152          1
710300          1
1015400         1
147851          1
927500          1
210100          1
510551    

In [308]:
df3[df3["CO_URF"]==0]

Unnamed: 0,CO_ANO,CO_MES,CO_NCM,CO_UNID,CO_PAIS,SG_UF_NCM,CO_VIA,CO_URF,QT_ESTAT,KG_LIQUIDO,VL_FOB
139,2019,1,85371090,10,603,SP,0,0,36,36,3770
296,2019,1,84141000,11,375,SP,0,0,3,1,363
553,2019,1,84821010,11,386,SP,0,0,1,0,36
764,2019,1,84139190,10,249,SP,0,0,1401,1401,101985
807,2019,1,84716052,11,190,SP,0,0,2,3,188
808,2019,1,84716053,11,160,SP,0,0,25,78,582
869,2019,1,90181210,11,160,SP,0,0,11,79,8768
1039,2019,1,83022000,10,23,SP,0,0,7,7,305
1048,2019,1,85011019,11,232,SP,0,0,1,3,350
1295,2019,1,84149010,10,603,SP,0,0,9,9,236


Conforme verificado acima, em se tratando do campo CO_URF, constam 30.087 registros com esse valor zerado (ou seja, falta o dado CO_URF). Considerando que não se trata de informação relacionada diretamente à análise que se pretende (contemplando quantidade/peso e valor), optarei por manter tais registros na base e, por ocasião da implementação do modelo de ML, realizo testes com e sem tais valores para ver como o modelo se comporta.

## Conclusão:
Após o tratamento inicial das bases, podem-se resumir as seguintes ações:
#1) Exclusão de 3132 registros que continham zero no campo VL_FOB.
#2) Exclusão de 136.848 registros em que a unidade estatística é o quilograma líquido (CO_UNID = 10) e tanto a coluna QT_ESTAT quanto a coluna KG_LIQUIDO estão zeradas.
#3) Em 2.508 registros, o campo SG_UF_NCM estava com a sigla ZN (zona não declarada). Por meio dos dados contidos na coluna CO_URF foi possível definir o código da UF a ser atribuído em cada um desses 2.508 registros.
#4) Em 30.359 registros, o campo CO_VIA (modal de transporte) estava zerado. Por meio dos dados contidos na coluna CO_URF foi possível definir o código o CO_VIA a ser atribuído em 2.605 desses 30.359 registros. Nos demais 27.754 registros, a coluna CO_URF também estava zerada, impossiblitando que se pudesse sanar as omissões da coluna CO_VIA. Portanto, restaram 27.754 sem informação do modal de transporte (CO_VIA) igual a zero. Tais registros foram mantidos na base e, por ocasião da implementação do modelo de ML, será verificada a pertinência da manutenção, ou não, dos mesmos.
#5) Em 30.087 registros, o campo CO_URF estava zerado. Optou-se por manter tais registros na base e, por ocasião da implementação do modelo de ML, decidir pela manutenção ou exclusão dos mesmos.
#6) Por fim, em se tratando do campo NO_PAIS, identificaram-se dois registros em que o país de origem da mercadoria não foi informado (consta "a deignar"). Assim como o relatado para outras variáveis, optou-se por manter tais registros e, posteriormente, quando da implemantação do modelo de Machine Learning, proceder-se-á à análise da viabilidade (ou não) da manutenção dos mesmos. 


In [318]:
#escrevevendo a base em um CSV, para continuar os trabalhos em um outro Jupyter Notebook:
df3.to_csv('base_tratada',index=False, sep=",")