# Exportações Internacionais por Ano e Mês

Descrição: Esta base de dados, carregada a partir do arquivo 'exportacao_full.csv', disponível em [Kaggle](https://www.kaggle.com/datasets/hugovallejo/brazil-exports), contém informações detalhadas sobre as exportações internacionais, organizadas por ano e mês. Ela inclui dados como o país de origem, cidade de origem, códigos e descrições de produtos, blocos econômicos, valores em dólares FOB e pesos líquidos das exportações. Os nomes das colunas foram mapeados de acordo com o dicionário de mapeamento fornecido, tornando-a pronta para análise e exploração de tendências nas exportações ao longo do tempo.

Conforme conversado em sala de aula, para fins educacionais, a base de dados foi submetida a um script que apaga dados aleatóriamente o script está na pasta raíz do projeto. 

In [None]:
#DOWNLOAD DATASET
#pip install kaggle
#!kaggle datasets download -d hugovallejo/brazil-exports
#!unzip brazil-exports.zip 
#!rm -rf brazil-exports.zip 

In [2]:
#bibliotecas utilizadas

import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
import numpy as np

#criando dataset a partir do arquivo csv

data = pd.read_csv('exportacao_notfull.csv')
column_names_mapping = {
    'Year': 'Ano',
    'Month': 'Mes',
    'Country': 'Pais',
    'City': 'Cidade',
    'SH4 Code': 'CodigoSH4',
    'SH4 Description': 'DescricaoSH4',
    'SH2 Code': 'CodigoSH2',
    'SH2 Description': 'DescricaoSH2',
    'Economic Block': 'Blocoeconomico',
    'US$ FOB': 'ValorFOBUS',
    'Net Weight': 'PesoLiquido'
}

data.rename(columns=column_names_mapping, inplace=True)

data.head()


Unnamed: 0,Ano,Mes,Pais,Cidade,CodigoSH4,DescricaoSH4,CodigoSH2,DescricaoSH2,Blocoeconomico,ValorFOBUS,PesoLiquido
0,2010.0,1.0,Afghanistan,Itajaí - SC,207.0,"Meat and edible offal, of the poultry of headi...",2.0,Meat and edible meat offal,Asia (minus MIDDLE EAST),197162.0,99945.0
1,2010.0,1.0,Afghanistan,Lapa - PR,207.0,"Meat and edible offal, of the poultry of headi...",2.0,Meat and edible meat offal,Asia (minus MIDDLE EAST),114570.0,76989.0
2,2010.0,1.0,Afghanistan,Rolândia - PR,207.0,"Meat and edible offal, of the poultry of headi...",2.0,Meat and edible meat offal,Asia (minus MIDDLE EAST),72900.0,54000.0
3,2010.0,1.0,Afghanistan,São Paulo - SP,207.0,"Meat and edible offal, of the poultry of headi...",2.0,Meat and edible meat offal,Asia (minus MIDDLE EAST),153593.0,106541.0
4,2010.0,1.0,Afghanistan,Xaxim - SC,207.0,"Meat and edible offal, of the poultry of headi...",2.0,Meat and edible meat offal,Asia (minus MIDDLE EAST),26739.0,24990.0


## 1. Pré-processamento
### 1.1 Inicio do pré-processamento

O DataFrame apresentado possui um total de 13.124.813 entradas e 11 colunas, com informações relacionadas a comércio internacional. As colunas incluem dados como ano, mês, país, cidade, códigos e descrições de produtos, bloco econômico, valor FOB em dólares e peso líquido. Foram identificados valores nulos em várias colunas, variando em quantidade, sendo a coluna "PesoLiquido" a que possui mais valores nulos, com 262.541 entradas faltantes. Não foram encontradas strings vazias em nenhuma coluna. Não foram identificados valores problemáticos. Após a remoção de duplicatas, o DataFrame reduziu para 13.123.569 entradas, mantendo a mesma estrutura de colunas e tipos de dados.

In [3]:
# Verifica a quantidade de valores nulos em cada coluna
null_counts = data.isna().sum()

# Verifica a quantidade de strings vazias em cada coluna
empty_string_counts = (data == '').sum()

# Verifica a quantidade de valores problemáticos 
negative_value_counts = (data['ValorFOBUS'] < 0).sum()  

# Mostra um resumo das informações sobre o DataFrame
data_info = data.info()

# Exibe os resultados
print("Quantidade de Valores Nulos em Cada Coluna: \n")
print(null_counts)
print("\nQuantidade de Strings Vazias em Cada Coluna: \n")
print(empty_string_counts)
print("\nQuantidade de Valores Problemáticos: \n")
print(negative_value_counts)
print("\nResumo das Informações do DataFrame: \n")
print(data_info)

# Verifica linhas duplicadas com base em todas as colunas
duplicates = data[data.duplicated()]

# Remove linhas duplicadas (mantém a primeira ocorrência)
data_no_duplicates = data.drop_duplicates()

# Exibe as linhas duplicadas
print("Linhas Duplicadas: ")
print(duplicates)

# Exibe as estatísticas após a remoção de duplicatas
print("\n Estatísticas após Remoção de Duplicatas: \n")
print(data_no_duplicates.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13124813 entries, 0 to 13124812
Data columns (total 11 columns):
 #   Column          Dtype  
---  ------          -----  
 0   Ano             float64
 1   Mes             float64
 2   Pais            object 
 3   Cidade          object 
 4   CodigoSH4       float64
 5   DescricaoSH4    object 
 6   CodigoSH2       float64
 7   DescricaoSH2    object 
 8   Blocoeconomico  object 
 9   ValorFOBUS      float64
 10  PesoLiquido     float64
dtypes: float64(6), object(5)
memory usage: 1.1+ GB
Quantidade de Valores Nulos em Cada Coluna: 

Ano               262289
Mes               263059
Pais              262063
Cidade            262335
CodigoSH4         263468
DescricaoSH4      262255
CodigoSH2         262325
DescricaoSH2      263349
Blocoeconomico    262071
ValorFOBUS        262192
PesoLiquido       262541
dtype: int64

Quantidade de Strings Vazias em Cada Coluna: 

Ano               0
Mes               0
Pais              0
Cidade        

### 1.2 Verificar dados faltantes





## 

In [4]:
# Calcula o número de valores ausentes por país
dados_faltantes_por_pais = data.groupby("Pais").apply(lambda x: x.isna().sum())

# Soma o número total de valores ausentes por país
total_dados_faltantes_por_pais = dados_faltantes_por_pais.sum(axis=1)

# Classifica os países pelo total de dados faltantes em ordem decrescente
paises_com_mais_dados_faltantes = total_dados_faltantes_por_pais.sort_values(ascending=False)

# Exibe os países com mais dados faltantes e a quantidade de dados faltantes por país
print(paises_com_mais_dados_faltantes)


Pais
Argentina                    260646
Paraguay                     247256
Uruguay                      171342
Bolivia                      153404
Colombia                     136500
                              ...  
Western Sahara                    1
Christmas Island                  1
Cocos (Keeling) Islands           1
Saint Pierre and Miquelon         1
Wake Island                       0
Length: 250, dtype: int64


In [6]:
# Filtra o DataFrame para incluir apenas as linhas correspondentes à Argentina
data_argentina = data[data['Pais'] == 'Argentina']

# Calcula o número de valores ausentes em cada coluna para a Argentina
dados_faltantes_por_coluna = data_argentina.isna().sum()

# Classifica as colunas pelo total de dados faltantes em ordem decrescente
colunas_com_mais_dados_faltantes = dados_faltantes_por_coluna.sort_values(ascending=False)

# Exibe as colunas com mais dados faltantes e a quantidade de dados faltantes por coluna
print(colunas_com_mais_dados_faltantes)


# Conta o número de linhas para o país "Argentina"
numero_de_linhas_argentina = data_argentina.shape[0]

# Exibe o número de linhas para o país "Argentina"
print("Número de linhas para a Argentina:", numero_de_linhas_argentina)


CodigoSH4         26447
Mes               26350
DescricaoSH2      26216
DescricaoSH4      26086
CodigoSH2         26035
PesoLiquido       25998
Blocoeconomico    25930
ValorFOBUS        25884
Cidade            25861
Ano               25839
Pais                  0
dtype: int64
Número de linhas para a Argentina: 1299852
