In [159]:
#versão da Linguagem Python
from platform import python_version
print('Versão da linguagem Python usada no ambiente virtual desse projeto:', python_version())

Versão da linguagem Python usada no ambiente virtual desse projeto: 3.12.3


In [160]:
# Para atualizar um pacote, execute o comando abaixo no terminal ou prompt de comando:
# pip install -U nome_pacote

# Para instalar a versão exata de um pacote, execute o comando abaixo no terminal ou prompt de comando:
# !pip install nome_pacote==versão_desejada

# Instala o pacote watermark. 
# Esse pacote é usado para gravar as versões de outros pacotes usados neste jupyter notebook.
# !pip install -q -U watermark

In [161]:
import sys  # Módulo para interagir com o interpretador Python
import os   # Módulo para operações do sistema operacional

# os.getcwd() - obtém o diretório atual (Current Working Directory)
# os.path.join() - junta partes do caminho de forma segura
# "../.." - sobe dois níveis na hierarquia de diretórios
# os.path.abspath() - converte o caminho relativo em absoluto
projeto_dir = os.path.abspath(os.path.join(os.getcwd(), "../.."))

# Adiciona o caminho do projeto ao sys.path
# sys.path é onde o Python procura módulos para importar
sys.path.append(projeto_dir)

# Importando as Bibliotecas/Pacotes
# Evitar mensagens de erros
import warnings 
warnings.filterwarnings('ignore')

# Manipulação de dados
import pandas as pd
import numpy as np

# Importa tudo (*) do módulo limpeza_dados
from src.limpeza_dados import*


### Importação do dataset de Produtos

In [162]:
# Constante do caminho do arquivo
# Adicione o caminho absoluto do arquivo nessa constante
# Como usar: Substitua o caminho entre aspas pelo caminho completo onde seu arquivo está localizado
# Exemplo Windows: "C:/Users/SeuUsuario/Documents/Projeto/data/arquivo.csv"
# Exemplo Linux/Mac: "/home/usuario/Documentos/Projeto/data/arquivo.csv"
CAMINHO_MUNICIPIOS = "/home/manuel-finda/Documentos/HUB de IA/projetos/filtro/data/municipios.csv"
CAMINHO_IMPORTACAO = "/home/manuel-finda/Documentos/HUB de IA/projetos/filtro/data/IMP_2023_MUN.csv"
CAMINHO_EXPORTACAO = "/home/manuel-finda/Documentos/HUB de IA/projetos/filtro/data/EXP_2023_MUN.csv"


# Carregando os dados usando try/except para tratamento de erros
# Como usar: 
# 1. O bloco try tentará executar o carregamento dos dados
# 2. Se ocorrer algum erro, o bloco except capturará e exibirá a mensagem de erro
# 3. A variável df_vendas conterá o DataFrame se o carregamento for bem sucedido
try:
   df_municipios = carregar_dados(CAMINHO_MUNICIPIOS)
   df_importacao = carregar_dados(CAMINHO_IMPORTACAO)
   df_exportacao = carregar_dados(CAMINHO_EXPORTACAO)
   
except Exception as e:
   print(f"Erro: {e}")
   # Em caso de erro, verifique:
   # - Se o caminho do arquivo está correto
   # - Se o arquivo existe no local indicado
   # - Se você tem permissão para acessar o arquivo
  

Dados carregados com sucesso!
Dimensões: (5571, 5)
Dados carregados com sucesso!
Dimensões: (1633458, 8)
Dados carregados com sucesso!
Dimensões: (1121352, 8)


In [163]:
#visualizar primeiros registros dos dados da tabela
df_municipios.head()

Unnamed: 0,CÓDIGO DO MUNICÍPIO - TOM,CÓDIGO DO MUNICÍPIO - IBGE,MUNICÍPIO - TOM,MUNICÍPIO - IBGE,UF
0,1,1100106,GUAJARÁ-MIRIM,Guajará-Mirim,RO
1,2,1100379,ALTO ALEGRE DOS PARECIS,Alto Alegre dos Parecis,RO
2,3,1100205,PORTO VELHO,Porto Velho,RO
3,4,1100452,BURITIS,Buritis,RO
4,5,1100122,JI-PARANÁ,Ji-Paraná,RO


In [164]:
#renomeando colunas do DataFrame df_municipios
df_municipios = df_municipios.rename(columns={'CÓDIGO DO MUNICÍPIO - IBGE': 'CO_MUN', 'MUNICÍPIO - IBGE': 'NOME_MUN'})
#visualizar primeiros registros dos dados da tabela
df_municipios.head()

Unnamed: 0,CÓDIGO DO MUNICÍPIO - TOM,CO_MUN,MUNICÍPIO - TOM,NOME_MUN,UF
0,1,1100106,GUAJARÁ-MIRIM,Guajará-Mirim,RO
1,2,1100379,ALTO ALEGRE DOS PARECIS,Alto Alegre dos Parecis,RO
2,3,1100205,PORTO VELHO,Porto Velho,RO
3,4,1100452,BURITIS,Buritis,RO
4,5,1100122,JI-PARANÁ,Ji-Paraná,RO


In [165]:
#visualizar primeiros registros dos dados da tabela
df_importacao.head()

Unnamed: 0,CO_ANO,CO_MES,SH4,CO_PAIS,SG_UF_MUN,CO_MUN,KG_LIQUIDO,VL_FOB
0,2023,5,3104,676,GO,5305109,35717261,15254781
1,2023,12,6104,858,SP,3415004,8189,255925
2,2023,2,8543,399,SP,3419071,19,12156
3,2023,4,7326,249,SP,3413504,18,3859
4,2023,6,8542,161,SC,4209102,202,51196


In [166]:
#visualizar primeiros registros dos dados da tabela
df_exportacao.head()

Unnamed: 0,CO_ANO,CO_MES,SH4,CO_PAIS,SG_UF_MUN,CO_MUN,KG_LIQUIDO,VL_FOB
0,2023,10,2209,127,BA,2919553,36,53
1,2023,11,4009,493,SP,3456701,473,14008
2,2023,11,8536,365,SP,3438709,2,181
3,2023,8,8512,63,RJ,3304201,15627,239105
4,2023,6,1902,580,PR,4118204,287,368


In [167]:

chaves = ['CO_MUN']  #list com colunas  de chaves para fazer a junção
colunas = ['NOME_MUN', 'UF']    #Lista de colunas do df_auxiliar que devem ser incluídas
try:
   df_importacao = mesclar_datasets(
       df_importacao,
       df_municipios,
       chaves,
       colunas
   )
   
except Exception as e:
   print(f"Erro no processo: {str(e)}")

Mesclagem realizada com sucesso!
Dimensões do resultado: (1633458, 10)
Chaves utilizadas: ['CO_MUN']


In [168]:

chaves = ['CO_MUN']  #list com colunas  de chaves para fazer a junção
colunas = ['NOME_MUN', 'UF']    #Lista de colunas do df_auxiliar que devem ser incluídas
try:
   df_exportacao = mesclar_datasets(
       df_exportacao,
       df_municipios,
       chaves,
       colunas
   )
   
except Exception as e:
   print(f"Erro no processo: {str(e)}")

Mesclagem realizada com sucesso!
Dimensões do resultado: (1121352, 10)
Chaves utilizadas: ['CO_MUN']


In [169]:
df_importacao.head()


Unnamed: 0,CO_ANO,CO_MES,SH4,CO_PAIS,SG_UF_MUN,CO_MUN,KG_LIQUIDO,VL_FOB,NOME_MUN,UF
0,2023,5,3104,676,GO,5305109,35717261,15254781,,
1,2023,12,6104,858,SP,3415004,8189,255925,,
2,2023,2,8543,399,SP,3419071,19,12156,,
3,2023,4,7326,249,SP,3413504,18,3859,,
4,2023,6,8542,161,SC,4209102,202,51196,Joinville,SC


In [170]:
#estatisticas descritivas do DataFrame df_importacao
df_importacao.describe(include='all')

Unnamed: 0,CO_ANO,CO_MES,SH4,CO_PAIS,SG_UF_MUN,CO_MUN,KG_LIQUIDO,VL_FOB,NOME_MUN,UF
count,1633458.0,1633458.0,1633458.0,1633458.0,1633458,1633458.0,1633458.0,1633458.0,833811,833811
unique,,,,,28,,,,1809,23
top,,,,,SP,,,,Itajaí,SC
freq,,,,,761888,,,,44646,180250
mean,2023.0,6.557504,6785.242,313.3899,,3519048.0,103677.4,147412.9,,
std,0.0,3.421168,2314.139,222.2993,,649766.5,2710304.0,2018875.0,,
min,2023.0,1.0,101.0,13.0,,1100015.0,0.0,0.0,,
25%,2023.0,4.0,4016.0,160.0,,3304557.0,4.0,649.0,,
50%,2023.0,7.0,8215.0,249.0,,3427306.0,81.0,5069.0,,
75%,2023.0,10.0,8514.0,399.0,,4106902.0,2093.0,36297.0,,


In [171]:
#ver valores nulos
df_importacao.isnull().sum()


CO_ANO             0
CO_MES             0
SH4                0
CO_PAIS            0
SG_UF_MUN          0
CO_MUN             0
KG_LIQUIDO         0
VL_FOB             0
NOME_MUN      799647
UF            799647
dtype: int64

In [172]:
df_importacao_parana = df_importacao[df_importacao['UF'] == 'PR']

In [173]:
df_importacao_parana.head()

Unnamed: 0,CO_ANO,CO_MES,SH4,CO_PAIS,SG_UF_MUN,CO_MUN,KG_LIQUIDO,VL_FOB,NOME_MUN,UF
27,2023,8,8708,827,PR,4106902,59051,382544,Curitiba,PR
41,2023,2,3926,160,PR,4104204,4993,39253,Campo Largo,PR
136,2023,9,8431,160,PR,4118204,12085,123777,Paranaguá,PR
145,2023,8,3819,249,PR,4125506,32,587,São José dos Pinhais,PR
148,2023,9,8535,190,PR,4101804,9657,228259,Araucária,PR


In [174]:
df_importacao_parana.isnull().sum()

CO_ANO        0
CO_MES        0
SH4           0
CO_PAIS       0
SG_UF_MUN     0
CO_MUN        0
KG_LIQUIDO    0
VL_FOB        0
NOME_MUN      0
UF            0
dtype: int64

In [175]:
df_exportacao.head()

Unnamed: 0,CO_ANO,CO_MES,SH4,CO_PAIS,SG_UF_MUN,CO_MUN,KG_LIQUIDO,VL_FOB,NOME_MUN,UF
0,2023,10,2209,127,BA,2919553,36,53,Luís Eduardo Magalhães,BA
1,2023,11,4009,493,SP,3456701,473,14008,,
2,2023,11,8536,365,SP,3438709,2,181,,
3,2023,8,8512,63,RJ,3304201,15627,239105,Resende,RJ
4,2023,6,1902,580,PR,4118204,287,368,Paranaguá,PR


In [176]:
df_exportacao_parana = df_exportacao[df_exportacao['UF'] == 'PR']

In [177]:
df_exportacao_parana.isnull().sum()

CO_ANO        0
CO_MES        0
SH4           0
CO_PAIS       0
SG_UF_MUN     0
CO_MUN        0
KG_LIQUIDO    0
VL_FOB        0
NOME_MUN      0
UF            0
dtype: int64

In [178]:
#ver colunas do DataFrame df_exportacao
df_exportacao.columns

Index(['CO_ANO', 'CO_MES', 'SH4', 'CO_PAIS', 'SG_UF_MUN', 'CO_MUN',
       'KG_LIQUIDO', 'VL_FOB', 'NOME_MUN', 'UF'],
      dtype='object')

In [179]:
#ver valores nulos
df_exportacao.isnull().sum()

CO_ANO             0
CO_MES             0
SH4                0
CO_PAIS            0
SG_UF_MUN          0
CO_MUN             0
KG_LIQUIDO         0
VL_FOB             0
NOME_MUN      494525
UF            494525
dtype: int64

In [182]:
df_importacao.dtypes

CO_ANO         int64
CO_MES         int64
SH4            int64
CO_PAIS        int64
SG_UF_MUN     object
CO_MUN         int64
KG_LIQUIDO     int64
VL_FOB         int64
NOME_MUN      object
UF            object
dtype: object

In [180]:
# Salvar o DataFrame limpo em um novo arquivo CSV
df_exportacao_parana.to_csv("data/EXP_MUN_PR_2023_limpo.csv", index=False, sep=';', encoding='latin1')

In [181]:
# Salvar o DataFrame limpo em um novo arquivo CSV
df_importacao_parana.to_csv("data/IMP_MUN_PR_2023_limpo.csv", index=False, sep=';', encoding='latin1')