# Info

- https://www.gov.br/produtividade-e-comercio-exterior/pt-br/assuntos/comercio-exterior/estatisticas/base-de-dados-bruta

gerar resumos dos dados (agrupamentos, estatísticas descritivas, tabelas resumo, etc)
obter insights. 
Não se esqueça de comentar as descobertas, isso é essencial para um bom portfólio. Mais do que isso até, 
tente começar com algumas hipóteses, com algumas questões que você pretende responder com a análise

- CO_ANO - Ano
- CO_MES - Mês
- CO_NCM - Código NCM - NCM (Nomenclatura Comum do Mercosul) código estabelecido para identificar as mercadorias e facilitar o comércio internacional.
- CO_UNID - código da unidade estatística 
- CO_PAIS - código de país de destino/origem do produto
- SG_UF_NCM - código da UF de origem/destino do produto
- CO_VIA - código da via de transporte
- CO_URF - código da URF de embarque/desembarque
- QT_ESTAT - quantidade estatística
- KG_LIQUIDO - quilograma líquido
- VL_FOB - valor dólar FOB (US$)

# 1.0 - Importing Libs and Loading Data

In [30]:
import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots


# custom libs
from libs.eda import *

In [41]:
data = pd.read_csv('data/EXP_2021.csv', sep=';')

data['CO_NCM'] = data['CO_NCM'].astype(str)

# 2.0 - Exploring Data

In [13]:
data.head()

Unnamed: 0,CO_ANO,CO_MES,CO_NCM,CO_UNID,CO_PAIS,SG_UF_NCM,CO_VIA,CO_URF,QT_ESTAT,KG_LIQUIDO,VL_FOB
0,2021,1,40169990,10,361,SP,1,817800,5353,5353,42235
1,2021,2,94035000,11,317,RS,1,1017700,487,49670,53961
2,2021,11,35051000,10,63,MG,7,1017500,144000,144000,99654
3,2021,4,61023000,11,249,SP,4,817600,14,5,1087
4,2021,2,82111000,11,63,RS,7,1017503,7708,1105,12488


In [42]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1480295 entries, 0 to 1480294
Data columns (total 11 columns):
 #   Column      Non-Null Count    Dtype 
---  ------      --------------    ----- 
 0   CO_ANO      1480295 non-null  int64 
 1   CO_MES      1480295 non-null  int64 
 2   CO_NCM      1480295 non-null  object
 3   CO_UNID     1480295 non-null  int64 
 4   CO_PAIS     1480295 non-null  int64 
 5   SG_UF_NCM   1480295 non-null  object
 6   CO_VIA      1480295 non-null  int64 
 7   CO_URF      1480295 non-null  int64 
 8   QT_ESTAT    1480295 non-null  int64 
 9   KG_LIQUIDO  1480295 non-null  int64 
 10  VL_FOB      1480295 non-null  int64 
dtypes: int64(9), object(2)
memory usage: 124.2+ MB


In [15]:
#checking for null values in our data
data.isnull().sum()

CO_ANO        0
CO_MES        0
CO_NCM        0
CO_UNID       0
CO_PAIS       0
SG_UF_NCM     0
CO_VIA        0
CO_URF        0
QT_ESTAT      0
KG_LIQUIDO    0
VL_FOB        0
dtype: int64

There are no values missing on this dataset

In [16]:
EDA_values(data)


  0 | CO_ANO     |  [2021]
  1 | CO_MES     |  [ 1  2 11  4  3  7 10  6  5  9  8 12]
  2 | CO_NCM     |  Min: 1012100 | Max: 97060000
  3 | CO_UNID    |  [10 11 17 13 16 21 15 12 19 20 22 14 18]
  4 | CO_PAIS    |  Min: 13 | Max: 890
  5 | SG_UF_NCM  |  Min: AC | Max: TO
  6 | CO_VIA     |  [ 1  7  4 12 15  0  9  6  2  8  3 13]
  7 | CO_URF     |  Min: 117600 | Max: 9999999
  8 | QT_ESTAT   |  Min: 0 | Max: 14300175000
  9 | KG_LIQUIDO |  Min: 0 | Max: 14300175000
 10 | VL_FOB     |  Min: 0 | Max: 2102966398


In [17]:
# Drop the CO_ANO as it has no use.
data.drop('CO_ANO', axis = 1, inplace = True)

In [37]:
data.CO_NCM.value_counts()

2071400     10195
39269090     6746
2023000      5756
40169300     5620
73181500     5479
            ...  
48026210        1
28274911        1
1063310         1
29339920        1
39045090        1
Name: CO_NCM, Length: 7831, dtype: int64

In [18]:
data.head()

Unnamed: 0,CO_MES,CO_NCM,CO_UNID,CO_PAIS,SG_UF_NCM,CO_VIA,CO_URF,QT_ESTAT,KG_LIQUIDO,VL_FOB
0,1,40169990,10,361,SP,1,817800,5353,5353,42235
1,2,94035000,11,317,RS,1,1017700,487,49670,53961
2,11,35051000,10,63,MG,7,1017500,144000,144000,99654
3,4,61023000,11,249,SP,4,817600,14,5,1087
4,2,82111000,11,63,RS,7,1017503,7708,1105,12488


In [35]:
fig = px.bar(data.groupby(by = 'CO_MES')['QT_ESTAT'].mean().reset_index(), x='CO_MES', y='QT_ESTAT')
fig.show()

In [36]:
fig = px.bar(data.groupby(by = 'CO_MES')['KG_LIQUIDO'].mean().reset_index(), x='CO_MES', y='KG_LIQUIDO')
fig.show()

In [24]:
fig = px.bar(data.groupby(by = 'CO_MES')['VL_FOB'].mean().reset_index(), x='CO_MES', y='VL_FOB')
fig.show()

In [80]:
fig = px.bar((data.groupby(by = 'CO_NCM')['KG_LIQUIDO'].mean()).reset_index().sort_values(by= 'KG_LIQUIDO', ascending= False) [:25], x='CO_NCM', y='KG_LIQUIDO')
fig.show()

In [81]:
fig = px.bar((data.groupby(by = 'CO_NCM')['VL_FOB'].mean()).reset_index().sort_values(by= 'VL_FOB', ascending= False) [:25], x='CO_NCM', y='VL_FOB')
fig.show()

In [82]:
fig = px.bar((data.groupby(by = 'CO_NCM')['QT_ESTAT'].mean()).reset_index().sort_values(by= 'QT_ESTAT', ascending= False) [:25], x='CO_NCM', y='QT_ESTAT')
fig.show()