# Análise exploratória dos dados de exportação do RN

## Fonte dos dados
> ![](https://lh4.googleusercontent.com/proxy/fXgKw9x3Ea2Yv-B5CtmnQnFjuRco5o10y3lZahcsz3jBaEmnVUyPKj1EcigqdJAjHz0ZVnITm2Bll7No15Ylxp3ng2EW08BKudKAkJoG)


In [2]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


## Baixando planilhas que estão salvas no github

In [3]:
# Baixa planilhas diretamente do github
!wget --header="Authorization: token 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" "https://raw.githubusercontent.com/jgoulartf/analise_exportacoes_rn/main/V_EXPORTACAO_GERAL_1997-01_2024-12_CONTINENTE_EXCEL.xlsx" -O planilha_exportacoes_rn_continente.xlsx
!wget --header="Authorization: token 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" "https://raw.githubusercontent.com/jgoulartf/analise_exportacoes_rn/main/V_EXPORTACAO_GERAL_1997-01_2024-12_BLOCOS_ECONOMICOS_EXCEL.xlsx" -O planilha_exportacoes_rn_blocos_economicos.xlsx

--2024-11-08 12:16:23--  https://raw.githubusercontent.com/jgoulartf/analise_exportacoes_rn/main/V_EXPORTACAO_GERAL_1997-01_2024-12_CONTINENTE_EXCEL.xlsx
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 8753660 (8.3M) [application/octet-stream]
Saving to: ‘planilha_exportacoes_rn_continente.xlsx’


2024-11-08 12:16:24 (77.2 MB/s) - ‘planilha_exportacoes_rn_continente.xlsx’ saved [8753660/8753660]

--2024-11-08 12:16:24--  https://raw.githubusercontent.com/jgoulartf/analise_exportacoes_rn/main/V_EXPORTACAO_GERAL_1997-01_2024-12_BLOCOS_ECONOMICOS_EXCEL.xlsx
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:

In [4]:
import pandas as pd

# Carrega excel em um dataframe
dataset_exportacoes_rn_continente = pd.read_excel('/content/planilha_exportacoes_rn_continente.xlsx')
dataset_exportacoes_rn_blocos_economicos = pd.read_excel('/content/planilha_exportacoes_rn_blocos_economicos.xlsx')

# Transformações iniciais do dataset
>1. Removendo a coluna **UF do Produto** pois todos os produtos estão relacionados ao RN
2. Removendo as colunas **Código NCM** e **Descrição NCM** porque optamos ficar com o sistema de descrição SH para codificar e descrever os produtos.
3. Removendo as colunas **Código Seção** e **Descrição Seção** porque já é possível agrupar os produtos usndo o Código SH.

In [5]:
dataset_exportacoes_rn_blocos_economicos = dataset_exportacoes_rn_blocos_economicos.drop(columns=['UF do Produto', 'Código NCM', 'Descrição NCM', 'Código Seção', 'Descrição Seção'])
dataset_exportacoes_rn_continente = dataset_exportacoes_rn_continente.drop(columns=['UF do Produto', 'Código NCM', 'Descrição NCM', 'Código Seção', 'Descrição Seção'])

## Transformando coluna mês em numérico

In [6]:
dataset_exportacoes_rn_blocos_economicos['Mês'] = dataset_exportacoes_rn_blocos_economicos['Mês'].str.extract(r'(\d+)').astype(int)
dataset_exportacoes_rn_continente['Mês'] = dataset_exportacoes_rn_continente['Mês'].str.extract(r'(\d+)').astype(int)

In [7]:
dataset_exportacoes_rn_continente.count()

Unnamed: 0,0
Ano,57135
Mês,57135
Bloco Econômico,57135
Países,57135
Via,57135
URF,57135
Código SH6,57135
Descrição SH6,57135
Código SH4,57135
Descrição SH4,57135


## Adicionando nova coluna Data utilizando Mês e Ano

In [8]:
# Renomeando temporariamente as colunas
dataset_exportacoes_rn_blocos_economicos = dataset_exportacoes_rn_blocos_economicos.rename(columns={'Ano': 'year', 'Mês': 'month'})
dataset_exportacoes_rn_continente = dataset_exportacoes_rn_continente.rename(columns={'Ano': 'year', 'Mês': 'month'})

# Criando a coluna 'Mês/Ano' como datetime
dataset_exportacoes_rn_blocos_economicos['Data'] = pd.to_datetime(dataset_exportacoes_rn_blocos_economicos[['year', 'month']].assign(day=1))
dataset_exportacoes_rn_continente['Data'] = pd.to_datetime(dataset_exportacoes_rn_continente[['year', 'month']].assign(day=1))

dataset_exportacoes_rn_blocos_economicos = dataset_exportacoes_rn_blocos_economicos.rename(columns={'year': 'Ano', 'month': 'Mês'})
dataset_exportacoes_rn_continente = dataset_exportacoes_rn_continente.rename(columns={'year': 'Ano', 'month': 'Mês'})

# Dropa colunas Mês e Ano
# Blocos economicos
dataset_exportacoes_rn_blocos_economicos = dataset_exportacoes_rn_blocos_economicos.drop("Ano", axis = 1)
dataset_exportacoes_rn_blocos_economicos = dataset_exportacoes_rn_blocos_economicos.drop("Mês", axis = 1)

# Continentes
dataset_exportacoes_rn_continente = dataset_exportacoes_rn_continente.drop("Ano", axis = 1)
dataset_exportacoes_rn_continente = dataset_exportacoes_rn_continente.drop("Mês", axis = 1)

## Substituir 0 na coluna 'Quantidade Estatística' pelo valor correspondente em 'Quilograma Líquido'

In [9]:
# Substituir 0 na coluna 'Quantidade Estatística' pelo valor correspondente em 'Quilograma Líquido'
dataset_exportacoes_rn_continente['Quantidade Estatística'] = dataset_exportacoes_rn_continente.apply(
    lambda row: row['Quilograma Líquido'] if row['Quantidade Estatística'] == 0 else row['Quantidade Estatística'],
    axis=1
)

## Estatisticas descritivas iniciais das bases de dados

In [10]:
dataset_exportacoes_rn_blocos_economicos.describe()

Unnamed: 0,Código SH6,Código SH4,Código SH2,Valor US$ FOB,Quilograma Líquido,Quantidade Estatística,Data
count,31889.0,31889.0,31889.0,31889.0,31889.0,31889.0,31889
mean,285978.747687,2859.466713,28.512622,135288.6,205593.4,77764.5,2012-09-14 23:04:51.824767232
min,10190.0,101.0,1.0,0.0,0.0,0.0,1997-01-01 00:00:00
25%,80711.0,807.0,8.0,3727.0,1200.0,0.0,2006-07-01 00:00:00
50%,152110.0,1521.0,15.0,18494.0,11305.0,1363.0,2013-11-01 00:00:00
75%,520932.0,5209.0,52.0,67789.0,43340.0,17349.0,2019-03-01 00:00:00
max,999802.0,9998.0,99.0,115429100.0,202151500.0,33833000.0,2024-09-01 00:00:00
std,255214.860098,2552.131605,25.486074,1351684.0,2315952.0,519447.1,


In [11]:
dataset_exportacoes_rn_continente.describe()

Unnamed: 0,Código SH6,Código SH4,Código SH2,Valor US$ FOB,Quilograma Líquido,Quantidade Estatística,Data
count,57135.0,57135.0,57135.0,57135.0,57135.0,57135.0,57135
mean,275182.027251,2751.457723,27.439415,163396.7,589761.7,447542.7,2012-10-17 06:59:20.115515648
min,10190.0,101.0,1.0,0.0,0.0,0.0,1997-01-01 00:00:00
25%,80450.0,804.0,8.0,5100.0,1493.5,917.0,2006-07-01 00:00:00
50%,170410.0,1704.0,17.0,23645.0,12944.0,9039.0,2014-01-01 00:00:00
75%,520929.0,5209.0,52.0,86374.5,44543.0,33177.5,2019-04-01 00:00:00
max,999802.0,9998.0,99.0,115429100.0,611645000.0,634100000.0,2024-09-01 00:00:00
std,250604.27974,2506.041211,25.028828,1271327.0,6669498.0,6143353.0,


## Conferindo os tipos de dados do dataset

In [12]:
#Conferindo os tipos de dados do dataset
print("------------------------------------------------")
print("Tipos presentes no dataset por blocos econômicos")
print("------------------------------------------------")
print(dataset_exportacoes_rn_blocos_economicos.dtypes)
print("------------------------------------------------")
print("Tipos presentes no dataset por continente")
print("------------------------------------------------")
print(dataset_exportacoes_rn_continente.dtypes)

------------------------------------------------
Tipos presentes no dataset por blocos econômicos
------------------------------------------------
Bloco Econômico                   object
Países                            object
Via                               object
URF                               object
Código SH6                         int64
Descrição SH6                     object
Código SH4                         int64
Descrição SH4                     object
Código SH2                         int64
Descrição SH2                     object
Unidade estatística               object
Valor US$ FOB                      int64
Quilograma Líquido                 int64
Quantidade Estatística             int64
Data                      datetime64[ns]
dtype: object
------------------------------------------------
Tipos presentes no dataset por continente
------------------------------------------------
Bloco Econômico                   object
Países                            object
Vi

In [13]:
# Dataset por blocos economicos - Mudando o tipo de dados das colunas Código SH6, Código SH4 e Código SH2 de inteiro para String
dataset_exportacoes_rn_blocos_economicos['Código SH6'] = dataset_exportacoes_rn_blocos_economicos['Código SH6'].astype(str)
dataset_exportacoes_rn_blocos_economicos['Código SH4'] = dataset_exportacoes_rn_blocos_economicos['Código SH4'].astype(str)
dataset_exportacoes_rn_blocos_economicos['Código SH2'] = dataset_exportacoes_rn_blocos_economicos['Código SH2'].astype(str)
# Dataset por continente - Mudando o tipo de dados das colunas Código SH6, Código SH4 e Código SH2 de inteiro para String
dataset_exportacoes_rn_continente['Código SH6'] = dataset_exportacoes_rn_continente['Código SH6'].astype(str)
dataset_exportacoes_rn_continente['Código SH4'] = dataset_exportacoes_rn_continente['Código SH4'].astype(str)
dataset_exportacoes_rn_continente['Código SH2'] = dataset_exportacoes_rn_continente['Código SH2'].astype(str)

In [14]:
#Conferindo os tipos de dados do dataset
print("------------------------------------------------")
print("Tipos presentes no dataset por blocos econômicos")
print("------------------------------------------------")
print(dataset_exportacoes_rn_blocos_economicos.dtypes)
print("------------------------------------------------")
print("Tipos presentes no dataset por continente")
print("------------------------------------------------")
print(dataset_exportacoes_rn_continente.dtypes)

------------------------------------------------
Tipos presentes no dataset por blocos econômicos
------------------------------------------------
Bloco Econômico                   object
Países                            object
Via                               object
URF                               object
Código SH6                        object
Descrição SH6                     object
Código SH4                        object
Descrição SH4                     object
Código SH2                        object
Descrição SH2                     object
Unidade estatística               object
Valor US$ FOB                      int64
Quilograma Líquido                 int64
Quantidade Estatística             int64
Data                      datetime64[ns]
dtype: object
------------------------------------------------
Tipos presentes no dataset por continente
------------------------------------------------
Bloco Econômico                   object
Países                            object
Vi

In [15]:
#Verificando se existem dados vazios
dados_vazios_dataset_blocos_economicos = dataset_exportacoes_rn_blocos_economicos.isnull().any().any()
dados_vazios_dataset_continentes = dataset_exportacoes_rn_blocos_economicos.isnull().any().any()
print(f"Existem dados vazios no dataset por blocos economicos? {dados_vazios_dataset_blocos_economicos}")
print(f"Existem dados vazios no dataset por continente? {dados_vazios_dataset_continentes}")

Existem dados vazios no dataset por blocos economicos? False
Existem dados vazios no dataset por continente? False


---

# Separando bases por ano

---

In [16]:
def separar_por_ano(df):
    # Dicionário para armazenar dataframes por ano
    dfs_por_ano = {}

    # Filtra o dataframe por cada ano e armazena no dicionário
    for ano in df['Ano'].unique():
        dfs_por_ano[ano] = df[df['Ano'] == ano]

    return dfs_por_ano

In [17]:
dfs_por_ano_continentes = separar_por_ano(dataset_exportacoes_rn_continente)
dfs_por_ano_blocos_economicos = separar_por_ano(dataset_exportacoes_rn_blocos_economicos)

KeyError: 'Ano'

In [None]:
print(f"Quantidade de datasets obtidos na base por continentes: {len(dfs_por_ano_continentes)}")
print(f"Quantidade de datasets obtidos na base por blocos econômicos: {len(dfs_por_ano_blocos_economicos)}")


In [None]:
dfs_por_ano_continentes[2020].describe()

In [None]:
# Agrupando por Categoria e Subcategoria e somando os valores
prod_agrupados = dataset_exportacoes_rn_blocos_economicos.groupby(['Código SH6', 'Descrição SH6'])['Valor US$ FOB'].sum().reset_index()

# Exibindo o DataFrame agrupado
prod_agrupados

# Série temporal das exportações por valor US$ FOB

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

# Verificando se há dados faltantes no dataset 'Resultado'
missing_values = dataset_exportacoes_rn_continente.isnull().sum()

# Convertendo a coluna 'Data' para o tipo datetime (se ainda não estiver no formato de data)
dataset_exportacoes_rn_continente['Data'] = pd.to_datetime(dataset_exportacoes_rn_continente['Data'], errors='coerce')

# Agrupando os dados por ano e somando o valor FOB para cada ano
exportacoes_por_ano = dataset_exportacoes_rn_continente.groupby(dataset_exportacoes_rn_continente['Data'].dt.year)['Valor US$ FOB'].sum().reset_index()

# Plotando o gráfico de série temporal (exportações ao longo dos anos)
plt.figure(figsize=(15, 8))
sns.lineplot(data=exportacoes_por_ano, x='Data', y='Valor US$ FOB', marker="")

# Ajustando para exibir o valor do eixo y de forma completa, sem notação científica
plt.ticklabel_format(style='plain', axis='y')
plt.title('Série Temporal: Valor FOB das Exportações do RN (1997-2024)')
plt.xlabel('Ano')
plt.ylabel('Valor US$ FOB')
plt.grid(True)
plt.show()


---

# Série temporal interativa do valor FOB das exportações

---

In [None]:
import plotly.express as px

# Certifique-se de que a coluna 'Data' esteja em formato datetime e inclui o mês/ano
dataset_exportacoes_rn_continente['Data'] = pd.to_datetime(dataset_exportacoes_rn_continente['Data'], errors='coerce')

# Agrupando os dados por mês/ano e somando o valor FOB
exportacoes_por_mes = dataset_exportacoes_rn_continente.groupby(dataset_exportacoes_rn_continente['Data'].dt.to_period('M'))['Valor US$ FOB'].sum().reset_index()
exportacoes_por_mes['Data'] = exportacoes_por_mes['Data'].dt.to_timestamp()  # Convertendo de Period para Timestamp

# Criando o gráfico de linha interativo com Plotly, exibindo mensalmente
fig = px.line(exportacoes_por_mes,
              x='Data',
              y='Valor US$ FOB',
              title='Série Temporal: Valor US$ FOB das Exportações do RN (Mensal)',
              labels={'Data': 'Mês/Ano', 'Valor US$ FOB': 'Valor US$ FOB'},
              markers=False)

# Personalizando o layout para permitir o zoom e uma visualização interativa mensal
fig.update_layout(
    xaxis_title='Mês/Ano',
    yaxis_title='Valor US$ FOB',
    hovermode='x unified',  # Exibir valores ao passar o cursor
    xaxis=dict(
        rangeselector=dict(  # Seletor de intervalo para facilitar o zoom em períodos específicos
            buttons=list([
                dict(count=6, label="Últimos 6 meses", step="month", stepmode="backward"),
                dict(count=1, label="Último ano", step="year", stepmode="backward"),
                dict(step="all", label="Mostrar Tudo")
            ])
        ),
        rangeslider=dict(visible=True),  # Habilitar slider no eixo X
        type="date"
    )
)

# Exibindo o gráfico interativo
fig.show()


# Cálculo de relevância dos produtos ao longo dos anos

In [None]:
import numpy as np
import pandas as pd

# Pesos das listas
peso_lista_1 = 0.25
peso_lista_2 = 0.25
peso_lista_3 = 0.25
peso_lista_4 = 0.25
pesos_lista = [peso_lista_1, peso_lista_2, peso_lista_3, peso_lista_4]

# Função para calcular o peso de cada produto com base em seu índice
def peso_produto_lista(indice_produto):
    return 25 - indice_produto

# Função para calcular a métrica de relevância e gerar o DataFrame
def calculo_metrica_relevancia(listas):
    dados = {
        "Produto": [],
        "Lista": [],
        "Índice do Produto": [],
        "Peso do Produto": [],
        "Relevância do Produto": []
    }

    for n, lista in enumerate(listas):
        for indice_produto, produto in enumerate(lista):
            peso_produto = peso_produto_lista(indice_produto)
            relevancia_produto = sum(peso_produto * peso for peso in pesos_lista)

            # Armazena os dados no dicionário
            dados["Produto"].append(produto)
            dados["Lista"].append(n + 1)
            dados["Índice do Produto"].append(indice_produto)
            dados["Peso do Produto"].append(peso_produto)
            dados["Relevância do Produto"].append(relevancia_produto)

            # Exibe informações de cálculo
            print(f"\nProduto: {produto}, Lista: {n+1}, Índice do produto: {indice_produto}, "
                  f"Peso: {peso_produto}, Relevância do produto: {relevancia_produto}")

    # Cria o DataFrame com os dados coletados
    df = pd.DataFrame(dados)
    return df

# Listas de produtos
lista_1 = ["prod1", "prod2", "prod3"]
lista_2 = ["prod4", "prod5", "prod6"]
lista_3 = ["prod7", "prod8", "prod9"]
lista_4 = ["prod10", "prod11", "prod12"]

# Combine as listas em uma lista de listas
listas = [lista_1, lista_2, lista_3, lista_4]

# Calcula a métrica de relevância e cria o DataFrame
df_relevancia = calculo_metrica_relevancia(listas)
print("\nDataFrame com as relevâncias dos produtos:")
df_relevancia


# Série temporal de cada um dos 25 produtos mais relevantes

---

---

---

---

---

# Série temporal interativa do quilograma líquido das exportações

---



In [None]:
import plotly.express as px

# Certifique-se de que a coluna 'Data' esteja em formato datetime e inclui o mês/ano
dataset_exportacoes_rn_continente['Data'] = pd.to_datetime(dataset_exportacoes_rn_continente['Data'], errors='coerce')

# Agrupando os dados por mês/ano e somando o valor FOB
exportacoes_por_mes = dataset_exportacoes_rn_continente.groupby(dataset_exportacoes_rn_continente['Data'].dt.to_period('M'))['Quilograma Líquido'].sum().reset_index()
exportacoes_por_mes['Data'] = exportacoes_por_mes['Data'].dt.to_timestamp()  # Convertendo de Period para Timestamp

# Criando o gráfico de linha interativo com Plotly, exibindo mensalmente
fig = px.line(exportacoes_por_mes,
              x='Data',
              y='Quilograma Líquido',
              title='Série Temporal: Quilograma Líquido (Mensal)',
              labels={'Data': 'Mês/Ano', 'Quilograma Líquido': 'Quilograma Líquido'},
              markers=False)

# Personalizando o layout para incluir o slider com formatação correta de mês/ano
fig.update_layout(
    xaxis_title='Mês/Ano',
    yaxis_title='Quilograma Líquido',
    hovermode='x unified',  # Exibir valores ao passar o cursor
    xaxis=dict(
        rangeselector=dict(  # Seletor de intervalo para facilitar o zoom em períodos específicos
            buttons=list([
                dict(count=6, label="Últimos 6 meses", step="month", stepmode="backward"),
                dict(count=1, label="Último ano", step="year", stepmode="backward"),
                dict(step="all", label="Mostrar Tudo")
            ])
        ),
        rangeslider=dict(  # Habilitando o slider no eixo x
            visible=True,
            thickness=0.1,  # Ajusta a espessura do slider
            bgcolor="lightgray"  # Cor do fundo do slider
        ),
        type="date",
        tickformat="%b\n%Y"  # Formato de exibição no eixo x (Mês/Ano)
    )
)

# Exibindo o gráfico interativo
fig.show()


---

# Série temporal interativa da quantidade estatística das exportações

---



In [None]:
import plotly.express as px

# Certifique-se de que a coluna 'Data' esteja em formato datetime e inclui o mês/ano
dataset_exportacoes_rn_continente['Data'] = pd.to_datetime(dataset_exportacoes_rn_continente['Data'], errors='coerce')

# Agrupando os dados por mês/ano e somando o valor FOB
exportacoes_por_mes = dataset_exportacoes_rn_continente.groupby(dataset_exportacoes_rn_continente['Data'].dt.to_period('M'))['Quantidade Estatística'].sum().reset_index()
exportacoes_por_mes['Data'] = exportacoes_por_mes['Data'].dt.to_timestamp()  # Convertendo de Period para Timestamp

# Criando o gráfico de linha interativo com Plotly, exibindo mensalmente
fig = px.line(exportacoes_por_mes,
              x='Data',
              y='Quantidade Estatística',
              title='Série Temporal: Quantidade Estatística (Mensal)',
              labels={'Data': 'Mês/Ano', 'Quantidade Estatística': 'Quantidade Estatística'},
              markers=False)

# Personalizando o layout para incluir o slider com formatação correta de mês/ano
fig.update_layout(
    xaxis_title='Mês/Ano',
    yaxis_title='Quantidade Estatística',
    hovermode='x unified',  # Exibir valores ao passar o cursor
    xaxis=dict(
        rangeselector=dict(  # Seletor de intervalo para facilitar o zoom em períodos específicos
            buttons=list([
                dict(count=6, label="Últimos 6 meses", step="month", stepmode="backward"),
                dict(count=1, label="Último ano", step="year", stepmode="backward"),
                dict(step="all", label="Mostrar Tudo")
            ])
        ),
        rangeslider=dict(  # Habilitando o slider no eixo x
            visible=True,
            thickness=0.1,  # Ajusta a espessura do slider
            bgcolor="lightgray"  # Cor do fundo do slider
        ),
        type="date",
        tickformat="%b\n%Y"  # Formato de exibição no eixo x (Mês/Ano)
    )
)

# Exibindo o gráfico interativo
fig.show()


---

# Série temporal interativa do valor por quilo

---



In [None]:
import plotly.express as px

# Certifique-se de que a coluna 'Data' esteja em formato datetime e inclui o mês/ano
dataset_exportacoes_rn_continente['Data'] = pd.to_datetime(dataset_exportacoes_rn_continente['Data'], errors='coerce')

# Agrupando os dados por mês/ano e somando o valor FOB
exportacoes_por_mes = dataset_exportacoes_rn_continente.groupby(dataset_exportacoes_rn_continente['Data'].dt.to_period('M'))['Valor FOB por Quilograma'].sum().reset_index()
exportacoes_por_mes['Data'] = exportacoes_por_mes['Data'].dt.to_timestamp()  # Convertendo de Period para Timestamp

# Criando o gráfico de linha interativo com Plotly, exibindo mensalmente
fig = px.line(exportacoes_por_mes,
              x='Data',
              y='Valor FOB por Quilograma',
              title='Série Temporal: Valor FOB por Quilograma (Mensal)',
              labels={'Data': 'Mês/Ano', 'Valor FOB por Quilograma': 'Valor FOB por Quilograma'},
              markers=False)

# Personalizando o layout para incluir o slider com formatação correta de mês/ano
fig.update_layout(
    xaxis_title='Mês/Ano',
    yaxis_title='Valor FOB por Quilograma',
    hovermode='x unified',  # Exibir valores ao passar o cursor
    xaxis=dict(
        rangeselector=dict(  # Seletor de intervalo para facilitar o zoom em períodos específicos
            buttons=list([
                dict(count=6, label="Últimos 6 meses", step="month", stepmode="backward"),
                dict(count=1, label="Último ano", step="year", stepmode="backward"),
                dict(step="all", label="Mostrar Tudo")
            ])
        ),
        rangeslider=dict(  # Habilitando o slider no eixo x
            visible=True,
            thickness=0.1,  # Ajusta a espessura do slider
            bgcolor="lightgray"  # Cor do fundo do slider
        ),
        type="date",
        tickformat="%b\n%Y"  # Formato de exibição no eixo x (Mês/Ano)
    )
)

# Exibindo o gráfico interativo
fig.show()


In [None]:
# Filtrar os dados apenas para o mês de dezembro de 2011
df_dezembro_2011 = dataset_exportacoes_rn_continente[(dataset_exportacoes_rn_continente['Data'].dt.year == 2011) & (dataset_exportacoes_rn_continente['Data'].dt.month == 12)]
df_dezembro_2011 = df_dezembro_2011.sort_values(by='Valor FOB por Quilograma', ascending=False)
df_dezembro_2011

In [None]:
import plotly.express as px

# Certifique-se de que a coluna 'Data' esteja em formato datetime e inclui o mês/ano
df_dezembro_2011['Data'] = pd.to_datetime(df_dezembro_2011['Data'], errors='coerce')

# Agrupando os dados por mês/ano e somando o valor FOB
exportacoes_por_mes = df_dezembro_2011.groupby(df_dezembro_2011['Data'].dt.to_period('M'))['Valor FOB por Quilograma'].sum().reset_index()
exportacoes_por_mes['Data'] = exportacoes_por_mes['Data'].dt.to_timestamp()  # Convertendo de Period para Timestamp

# Criando o gráfico de linha interativo com Plotly, exibindo mensalmente
fig = px.line(exportacoes_por_mes,
              x='Data',
              y='Valor FOB por Quilograma',
              title='Série Temporal: Valor FOB por Quilograma (Mensal)',
              labels={'Data': 'Mês/Ano', 'Valor FOB por Quilograma': 'Valor FOB por Quilograma'},
              markers=False)

# Personalizando o layout para incluir o slider com formatação correta de mês/ano
fig.update_layout(
    xaxis_title='Mês/Ano',
    yaxis_title='Valor FOB por Quilograma',
    hovermode='x unified',  # Exibir valores ao passar o cursor
    xaxis=dict(
        rangeselector=dict(  # Seletor de intervalo para facilitar o zoom em períodos específicos
            buttons=list([
                dict(count=6, label="Últimos 6 meses", step="month", stepmode="backward"),
                dict(count=1, label="Último ano", step="year", stepmode="backward"),
                dict(step="all", label="Mostrar Tudo")
            ])
        ),
        rangeslider=dict(  # Habilitando o slider no eixo x
            visible=True,
            thickness=0.1,  # Ajusta a espessura do slider
            bgcolor="lightgray"  # Cor do fundo do slider
        ),
        type="date",
        tickformat="%b\n%Y"  # Formato de exibição no eixo x (Mês/Ano)
    )
)

# Exibindo o gráfico interativo
fig.show()


---

# Listagens

---

## Listagem de produtos mais relevantes por Valor US$ FOB

In [None]:
# Agrupar por 'Código SH6' e 'Descrição SH6' e somar o 'Valor US$ FOB'
produtos_relevantes_fob = dataset_exportacoes_rn_continente.groupby(['Código SH6', 'Descrição SH6'], as_index=False)['Valor US$ FOB'].sum()

# Ordenar pelos valores FOB em ordem decrescente e selecionar os 25 produtos com maior valor FOB
produtos_relevantes_fob = produtos_relevantes_fob.sort_values(by='Valor US$ FOB', ascending=False).head(25)

# Exibir o DataFrame
produtos_relevantes_fob

### Outros produtos de origem animal, impróprios para alimentação humana; animais mortos   
> Fígados, biles, rins e etc

> Pode ser usado para adubo, ração animal, industria farmaceutica e química

## Listagem de produtos mais relevantes por Quilograma Líquido

In [None]:
# Agrupar por 'Código SH6' e 'Descrição SH6' e somar o 'Quilograma Líquido'
produtos_relevantes_quilograma = dataset_exportacoes_rn_continente.groupby(['Código SH6', 'Descrição SH6'], as_index=False)['Quilograma Líquido'].sum()

# Ordenar pelos valores de Quilograma Líquido em ordem decrescente e selecionar os 25 produtos com maior valor
produtos_relevantes_quilograma = produtos_relevantes_quilograma.sort_values(by='Quilograma Líquido', ascending=False).head(25)

# Exibir o DataFrame
produtos_relevantes_quilograma

## Tabela de valores por transações de um determinado código SH6



In [None]:
import pandas as pd

# Agrupar por "Código SH6", contar as transações, somar o valor "US$ FOB" e adicionar a descrição
dataset_valores_por_transacao = dataset_exportacoes_rn_continente.groupby('Código SH6').agg(
    Descricao_SH6=('Descrição SH6', 'first'),          # Pega a primeira ocorrência da descrição
    Quantidade_Transacoes=('Código SH6', 'size'),      # Conta a quantidade de transações
    Soma_Valor_FOB=('Valor US$ FOB', 'sum'),           # Calcula a soma do valor US$ FOB
).reset_index()


dataset_valores_por_transacao["valor_medio_transacao"] = dataset_valores_por_transacao["Soma_Valor_FOB"] / dataset_valores_por_transacao["Quantidade_Transacoes"]

# Ordenar pelo valor "Soma_Valor_FOB" em ordem decrescente e exibir o resultado
dataset_valores_por_transacao = dataset_valores_por_transacao.sort_values(by="valor_medio_transacao", ascending=False)
dataset_valores_por_transacao

## Listagem de produto por valor médio da transação

In [None]:
# Filtrar os produtos com menos de 10 transações
dataset_produtos_valor_medio = dataset_valores_por_transacao[dataset_valores_por_transacao["Quantidade_Transacoes"] > 10]
dataset_produtos_valor_medio = dataset_produtos_valor_medio.sort_values(by="valor_medio_transacao", ascending=False)
dataset_produtos_valor_medio = dataset_produtos_valor_medio.round(2)

# Exibir o resultado
dataset_produtos_valor_medio = pd.DataFrame(dataset_produtos_valor_medio.head(25))
dataset_produtos_valor_medio

## Listagem dos produtos por quantidade de transações

In [None]:
# Exibir o resultado
dataset_produtos_quantidade_transacoes = dataset_produtos_valor_medio.sort_values(by="Quantidade_Transacoes", ascending=False)
dataset_produtos_quantidade_transacoes = dataset_produtos_quantidade_transacoes.head(25)
dataset_produtos_quantidade_transacoes

---

# Listagens apenas com código e descrição para comparação

---

## Lista por Valor US$ FOB apenas com código e descrição SH6

In [None]:
produtos_relevantes_fob_sh6 = produtos_relevantes_fob.drop('Valor US$ FOB', axis = 1)

# Resetando os índices para que comecem a partir de 1
produtos_relevantes_fob_sh6.reset_index(drop=True, inplace=True)
# Definindo novos índices a partir de 1
produtos_relevantes_fob_sh6.index = range(1, len(produtos_relevantes_fob_sh6) + 1)

produtos_relevantes_fob_sh6

## Lista por Quilograma Líquido apenas com código e descrição SH6

In [None]:
produtos_relevantes_quilograma_sh6 = produtos_relevantes_quilograma

# Removendo as colunas desnecessárias e renomeando
produtos_relevantes_quilograma_sh6 = produtos_relevantes_quilograma_sh6.drop(
    ["Quilograma Líquido"], axis=1
).rename(columns={"Descricao_SH6": "Descrição SH6"})

# Resetando os índices para que comecem a partir de 1
produtos_relevantes_quilograma_sh6.reset_index(drop=True, inplace=True)
# Definindo novos índices a partir de 1
produtos_relevantes_quilograma_sh6.index = range(1, len(produtos_relevantes_quilograma_sh6) + 1)


# Exibindo o DataFrame atualizado
produtos_relevantes_quilograma_sh6

## Lista por valor médio da transação apenas com código e descrição SH6

In [None]:
# Removendo as colunas desnecessárias e renomeando
dataset_produtos_valor_medio_sh6 = dataset_produtos_valor_medio.drop(
    ["Quantidade_Transacoes", "Soma_Valor_FOB", "valor_medio_transacao"], axis=1
).rename(columns={"Descricao_SH6": "Descrição SH6"})

# Resetando os índices para que comecem a partir de 1
dataset_produtos_valor_medio.reset_index(drop=True, inplace=True)
dataset_produtos_valor_medio.index = dataset_produtos_valor_medio.index + 1

# Exibindo o DataFrame atualizado
dataset_produtos_valor_medio_sh6

## Lista por quantidade total de transações apenas com código e descrição SH6

In [None]:
# Removendo as colunas desnecessárias e renomeando
dataset_produtos_quantidade_transacoes_sh6 = dataset_produtos_quantidade_transacoes.drop(
    ["Quantidade_Transacoes", "Soma_Valor_FOB", "valor_medio_transacao"], axis=1
).rename(columns={"Descricao_SH6": "Descrição SH6"})

# Resetando os índices para que comecem a partir de 1
dataset_produtos_quantidade_transacoes_sh6.reset_index(drop=True, inplace=True)
dataset_produtos_quantidade_transacoes_sh6.index = dataset_produtos_quantidade_transacoes_sh6.index + 1

# Exibindo o DataFrame atualizado
dataset_produtos_quantidade_transacoes_sh6

---

# Comparando listas SH6

---

In [None]:
import pandas as pd

# Definindo a lista de DataFrames fornecidos
dataframes = [
    produtos_relevantes_fob_sh6,
    produtos_relevantes_quilograma_sh6,
    dataset_produtos_valor_medio_sh6,
    dataset_produtos_quantidade_transacoes_sh6
]

# Nomes dos datasets para identificação
dataset_names = [
    'produtos_relevantes_fob_sh6',
    'produtos_relevantes_quilograma_sh6',
    'dataset_produtos_valor_medio_sh6',
    'dataset_produtos_quantidade_transacoes_sh6'
]

# Adicionando uma coluna de identificação de dataset para cada DataFrame
for df, name in zip(dataframes, dataset_names):
    df['dataset'] = name

# Concatenando todos os datasets
all_datasets = pd.concat(dataframes)

# Contando a quantidade de ocorrências de cada Código SH6 e identificando os datasets onde eles aparecem
result = all_datasets.groupby(['Código SH6', 'Descrição SH6']).agg(
    num_aparicoes=('dataset', 'nunique'),
    datasets=('dataset', lambda x: ', '.join(set(x)))
).reset_index()

# Filtrando apenas produtos que aparecem em mais de um dataset
produtos_repetidos = result[result['num_aparicoes'] > 1]

produtos_repetidos


In [None]:
import pandas as pd

# Definindo a lista de DataFrames fornecidos
dataframes = [
    produtos_relevantes_fob_sh6,
    produtos_relevantes_quilograma_sh6,
    dataset_produtos_valor_medio_sh6,
    dataset_produtos_quantidade_transacoes_sh6
]

# Nomes dos datasets para identificação
dataset_names = [
    'produtos_relevantes_fob_sh6',
    'produtos_relevantes_quilograma_sh6',
    'dataset_produtos_valor_medio_sh6',
    'dataset_produtos_quantidade_transacoes_sh6'
]

# Adicionando uma coluna de identificação de dataset e posição original para cada DataFrame
for df, name in zip(dataframes, dataset_names):
    df['dataset'] = name
    df['posicao_original'] = df.index  # Salva a posição original

# Concatenando todos os datasets
all_datasets = pd.concat(dataframes)

# Contando a quantidade de ocorrências de cada Código SH6 e identificando os datasets onde eles aparecem
result = all_datasets.groupby(['Código SH6', 'Descrição SH6']).agg(
    num_aparicoes=('dataset', 'nunique'),
    datasets=('dataset', lambda x: ', '.join(set(x))),
    posicoes=('posicao_original', lambda x: ', '.join(map(str, x)))
).reset_index()

# Filtrando apenas produtos que aparecem em mais de um dataset
produtos_repetidos = result[result['num_aparicoes'] > 1]


produtos_repetidos.reset_index(drop=True, inplace=True)
produtos_repetidos.index = produtos_repetidos.index + 1

produtos_repetidos


In [None]:
import pandas as pd

# Definindo a lista de DataFrames fornecidos
dataframes = [
    produtos_relevantes_fob_sh6,
    produtos_relevantes_quilograma_sh6,
    dataset_produtos_valor_medio_sh6,
    dataset_produtos_quantidade_transacoes_sh6
]

# Nomes dos datasets para identificação
dataset_names = [
    'produtos_relevantes_fob_sh6',
    'produtos_relevantes_quilograma_sh6',
    'dataset_produtos_valor_medio_sh6',
    'dataset_produtos_quantidade_transacoes_sh6'
]

# Adicionando uma coluna de identificação de dataset e posição original para cada DataFrame
for df, name in zip(dataframes, dataset_names):
    df['dataset'] = name
    df['posicao_original'] = df.index  # Salva a posição original

# Concatenando todos os datasets
all_datasets = pd.concat(dataframes)

# Contando a quantidade de ocorrências de cada Código SH6 e identificando os datasets onde eles aparecem
result = all_datasets.groupby(['Código SH6', 'Descrição SH6']).agg(
    num_aparicoes=('dataset', 'nunique'),
    datasets=('dataset', lambda x: ', '.join(set(x))),
    posicoes=('posicao_original', lambda x: ', '.join(f"{name}: {pos}" for name, pos in zip(all_datasets['dataset'], x)))
).reset_index()

# Filtrando apenas produtos que aparecem em mais de um dataset
produtos_repetidos = result[result['num_aparicoes'] > 1]

produtos_repetidos


In [None]:
import pandas as pd

# Definindo a lista de DataFrames fornecidos
dataframes = [
    produtos_relevantes_fob_sh6,
    produtos_relevantes_quilograma_sh6,
    dataset_produtos_valor_medio_sh6,
    dataset_produtos_quantidade_transacoes_sh6
]

# Nomes dos datasets para identificação, agora mais legíveis
dataset_names = [
    'Produtos por valor US$ FOB SH6',
    'Produtos por Quilograma SH6',
    'Produtos por Valor Médio da transação SH5',
    'Produtos por quantidade de transações SH6'
]

# Adicionando uma coluna de identificação de dataset e posição original para cada DataFrame
for df, name in zip(dataframes, dataset_names):
    df['dataset'] = name
    df['posicao_original'] = df.index  # Salva a posição original

# Concatenando todos os datasets
all_datasets = pd.concat(dataframes)

# Contando a quantidade de ocorrências de cada Código SH6 e identificando os datasets onde eles aparecem
result = all_datasets.groupby(['Código SH6', 'Descrição SH6']).agg(
    num_aparicoes=('dataset', 'nunique'),
    datasets=('dataset', lambda x: ', '.join(set(x))),
    posicoes=('posicao_original', lambda x: ', '.join(f"{name}: {pos}" for name, pos in zip(all_datasets['dataset'], x)))
).reset_index()

# Filtrando apenas produtos que aparecem em mais de um dataset
produtos_repetidos = result[result['num_aparicoes'] > 1]

produtos_repetidos

---

# OUTROS

---

In [None]:
# Lista de produtos fornecida
produtos_lista = [
    "Açúcar", "Banana", "Castanha de caju", "Cera vegetal", "Chapa plástica",
    "Confeitaria", "Couro/pele", "Fuel oil", "Granito", "Lagosta", "Mamão",
    "Manga", "Melancia", "Melão", "Óleo diesel", "Ouro", "Pedra de cantaria",
    "Pedra semipreciosa", "Peixe", "Produto impróprio para a alimentação humana",
    "Querosene de aviação", "Resíduo/desperdício de minerais (cobre, alumínio etc)",
    "Sal", "Tecido", "Tungstênio (scheelita)"
]

# Agrupar por 'Descrição SH6' e somar o 'Valor US$ FOB'
produtos_relevantes_fob = dataset_exportacoes_rn_continente.groupby('Descrição SH6')['Valor US$ FOB'].sum().sort_values(ascending=False)

# Comparar os produtos da lista com os do dataset
comparacao = pd.DataFrame({
    'Listagem subcoordenador de comércio': produtos_lista,
    'Produto Calculado (Dataset)': produtos_relevantes_fob.index[:len(produtos_lista)],
    'Valor US$ FOB': produtos_relevantes_fob.values[:len(produtos_lista)]
})

# Ordenar os produtos em ordem alfabética
comparacao = comparacao.sort_values(by='Listagem subcoordenador de comércio')

# Exibir a comparação lado a lado
comparacao


In [None]:
# Lista de produtos fornecida
listagem_subcoordenador = [
    "Açúcar", "Banana", "Castanha de caju", "Ceras", "Chapa plástica",
    "Confeitaria", "Couro/pele", "Fuel oil", "Granito", "Lagosta", "Mamão",
    "Manga", "Melancia", "Melões", "Óleo diesel", "Ouro", "Pedra de cantaria",
    "Pedra semipreciosa", "Peixe", "Produto impróprio para a alimentação humana",
    "Querosene de aviação", "Resíduo/desperdício de minerais (cobre, alumínio etc)",
    "Sal", "Tecido", "Tungstênio (scheelita)"
]
print(len(produtos_lista))
# Agrupar por 'Descrição SH6' e somar o 'Valor US$ FOB'
produtos_relevantes_fob = dataset_exportacoes_rn_continente.groupby('Descrição SH6')['Valor US$ FOB'].sum().sort_values(ascending=False)

# DataFrame para armazenar as equivalências
equivalencias = pd.DataFrame(columns=['Produto Fornecido', 'Produto Calculado (Dataset)', 'Valor US$ FOB'])

# Loop para buscar equivalências aproximadas entre a lista fornecida e os produtos no dataset
for produto_fornecido in produtos_lista:
    # Verifica se há uma correspondência no dataset usando "contains"
    match = produtos_relevantes_fob[produtos_relevantes_fob.index.str.contains(produto_fornecido, case=False, na=False)]

    # Adiciona o produto encontrado, ou 'Não Encontrado' caso não haja correspondência
    if not match.empty:
        for descricao, valor in match.items():
            nova_linha = pd.DataFrame({
                'Produto Fornecido': [produto_fornecido],
                'Produto Calculado (Dataset)': [descricao],
                'Valor US$ FOB': [valor]
            })
            equivalencias = pd.concat([equivalencias, nova_linha], ignore_index=True)
    else:
        nova_linha = pd.DataFrame({
            'Produto Fornecido': [produto_fornecido],
            'Produto Calculado (Dataset)': ['Não Encontrado'],
            'Valor US$ FOB': [0]
        })
        equivalencias = pd.concat([equivalencias, nova_linha], ignore_index=True)

# Ordenar por 'Produto Fornecido' em ordem alfabética
equivalencias = equivalencias.sort_values(by='Produto Fornecido')

# Exibir a tabela de equivalências
equivalencias

In [None]:
import pandas as pd

# Agrupar os dados por 'Países' e somar os valores exportados
soma_exportacoes = dataset_exportacoes_rn_continente.groupby('Países')['Valor US$ FOB'].sum().reset_index()

# Ordenar os resultados em ordem decrescente
soma_exportacoes = soma_exportacoes.sort_values(by='Valor US$ FOB', ascending=False)

# Exibir os resultados
soma_exportacoes
