# Exportações Internacionais por Ano e Mês

Descrição: Esta base de dados, carregada a partir do arquivo 'exportacao_full.csv', disponível em [Kaggle](https://www.kaggle.com/datasets/hugovallejo/brazil-exports), contém informações detalhadas sobre as exportações internacionais, organizadas por ano e mês. Ela inclui dados como o país de origem, cidade de origem, códigos e descrições de produtos, blocos econômicos, valores em dólares FOB e pesos líquidos das exportações. Os nomes das colunas foram mapeados de acordo com o dicionário de mapeamento fornecido, tornando-a pronta para análise e exploração de tendências nas exportações ao longo do tempo.

Conforme conversado em sala de aula, para fins educacionais, a base de dados foi submetida a um script que apaga dados aleatóriamente o script está na pasta raíz do projeto. 

In [5]:
#DOWNLOAD DATASET
#!pip install kaggle
#!kaggle datasets download -d hugovallejo/brazil-exports
#!unzip brazil-exports.zip 
#!rm -rf brazil-exports.zip 

In [3]:
#bibliotecas utilizadas

import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
import numpy as np

#criando dataset a partir do arquivo csv

data = pd.read_csv('exportacao_notfull.csv')
column_names_mapping = {
    'Year': 'Ano',
    'Month': 'Mes',
    'Country': 'Pais',
    'City': 'Cidade',
    'SH4 Code': 'CodigoSH4',
    'SH4 Description': 'DescricaoSH4',
    'SH2 Code': 'CodigoSH2',
    'SH2 Description': 'DescricaoSH2',
    'Economic Block': 'Blocoeconomico',
    'US$ FOB': 'ValorFOBUS',
    'Net Weight': 'PesoLiquido'
}

data.rename(columns=column_names_mapping, inplace=True)

data.head()


Unnamed: 0,Ano,Mes,Pais,Cidade,CodigoSH4,DescricaoSH4,CodigoSH2,DescricaoSH2,Blocoeconomico,ValorFOBUS,PesoLiquido
0,2010.0,1.0,Afghanistan,Itajaí - SC,207.0,"Meat and edible offal, of the poultry of headi...",2.0,Meat and edible meat offal,Asia (minus MIDDLE EAST),197162.0,99945.0
1,2010.0,1.0,Afghanistan,Lapa - PR,207.0,"Meat and edible offal, of the poultry of headi...",2.0,Meat and edible meat offal,Asia (minus MIDDLE EAST),114570.0,76989.0
2,2010.0,1.0,Afghanistan,Rolândia - PR,207.0,"Meat and edible offal, of the poultry of headi...",2.0,Meat and edible meat offal,Asia (minus MIDDLE EAST),72900.0,54000.0
3,2010.0,1.0,Afghanistan,São Paulo - SP,207.0,"Meat and edible offal, of the poultry of headi...",2.0,Meat and edible meat offal,Asia (minus MIDDLE EAST),153593.0,106541.0
4,2010.0,1.0,Afghanistan,Xaxim - SC,207.0,"Meat and edible offal, of the poultry of headi...",2.0,Meat and edible meat offal,Asia (minus MIDDLE EAST),26739.0,24990.0


## 1. Pré-processamento
### 1.1 Inicio do pré-processamento

O DataFrame apresentado possui um total de 13.124.813 entradas e 11 colunas, com informações relacionadas a comércio internacional. As colunas incluem dados como ano, mês, país, cidade, códigos e descrições de produtos, bloco econômico, valor FOB em dólares e peso líquido. Foram identificados valores nulos em várias colunas, variando em quantidade, sendo a coluna "PesoLiquido" a que possui mais valores nulos, com 262.541 entradas faltantes. Não foram encontradas strings vazias em nenhuma coluna. Não foram identificados valores problemáticos. Após a remoção de duplicatas, o DataFrame reduziu para 13.123.569 entradas, mantendo a mesma estrutura de colunas e tipos de dados.

In [7]:
# Verifica a quantidade de valores nulos em cada coluna
null_counts = data.isna().sum()

# Verifica a quantidade de strings vazias em cada coluna
empty_string_counts = (data == '').sum()

# Verifica a quantidade de valores problemáticos 
negative_value_counts = (data['ValorFOBUS'] < 0).sum()  

# Mostra um resumo das informações sobre o DataFrame
data_info = data.info()

# Exibe os resultados
print("Quantidade de Valores Nulos em Cada Coluna: \n")
print(null_counts)
print("\nQuantidade de Strings Vazias em Cada Coluna: \n")
print(empty_string_counts)
print("\nQuantidade de Valores Problemáticos: \n")
print(negative_value_counts)
print("\nResumo das Informações do DataFrame: \n")
print(data_info)

# Verifica linhas duplicadas com base em todas as colunas
duplicates = data[data.duplicated()]

# Remove linhas duplicadas (mantém a primeira ocorrência)
data_no_duplicates = data.drop_duplicates()

# Exibe as linhas duplicadas
print("Linhas Duplicadas: ")
print(duplicates)

# Exibe as estatísticas após a remoção de duplicatas
print("\n Estatísticas após Remoção de Duplicatas: \n")
print(data_no_duplicates.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13124813 entries, 0 to 13124812
Data columns (total 11 columns):
 #   Column          Dtype  
---  ------          -----  
 0   Ano             float64
 1   Mes             float64
 2   Pais            object 
 3   Cidade          object 
 4   CodigoSH4       float64
 5   DescricaoSH4    object 
 6   CodigoSH2       float64
 7   DescricaoSH2    object 
 8   Blocoeconomico  object 
 9   ValorFOBUS      float64
 10  PesoLiquido     float64
dtypes: float64(6), object(5)
memory usage: 1.1+ GB
Quantidade de Valores Nulos em Cada Coluna: 

Ano               262289
Mes               263059
Pais              262063
Cidade            262335
CodigoSH4         263468
DescricaoSH4      262255
CodigoSH2         262325
DescricaoSH2      263349
Blocoeconomico    262071
ValorFOBUS        262192
PesoLiquido       262541
dtype: int64

Quantidade de Strings Vazias em Cada Coluna: 

Ano               0
Mes               0
Pais              0
Cidade        

### 1.2 Verificar dados faltantes

Para esse trabalho escolheremos aquele país com a maior quantidade de dados faltantes e focaremos as análises nele. 



In [8]:
# Calcula o número de valores ausentes por país
dados_faltantes_por_pais = data.groupby("Pais").apply(lambda x: x.isna().sum())

# Soma o número total de valores ausentes por país
total_dados_faltantes_por_pais = dados_faltantes_por_pais.sum(axis=1)

# Classifica os países pelo total de dados faltantes em ordem decrescente
paises_com_mais_dados_faltantes = total_dados_faltantes_por_pais.sort_values(ascending=False)

# Exibe os países com mais dados faltantes e a quantidade de dados faltantes por país
print(paises_com_mais_dados_faltantes)


Pais
Argentina                    260646
Paraguay                     247256
Uruguay                      171342
Bolivia                      153404
Colombia                     136500
                              ...  
Western Sahara                    1
Christmas Island                  1
Cocos (Keeling) Islands           1
Saint Pierre and Miquelon         1
Wake Island                       0
Length: 250, dtype: int64


## 1.3 Inicio da preparação dos dados - Argentina 

Selecionamos a Argentina como foco de nossa análise devido ao maior número de problemas de integridade dos dados em seu conjunto. Essa escolha visa facilitar o entendimento didático. Conforme revelado pelos resultados, o total de entradas no conjunto de dados para a Argentina é de 1.299.852 registros. Dessas, 1.061.396 são consideradas completas, ou seja, não apresentam valores ausentes.

Esses números indicam que a grande maioria das entradas contém informações completas e confiáveis. No entanto, ainda há uma parcela significativa de registros com valores ausentes, sugerindo a necessidade de ações adicionais, como o preenchimento dessas lacunas ou a realização de tratamentos específicos para melhorar a qualidade dos dados.

In [9]:
# Crie um novo DataFrame com as linhas que atendem à condição desejada
new_df_argentina = data[data['Pais'] == 'Argentina'].copy()

# Filtra o DataFrame para incluir apenas as linhas correspondentes à Argentina

new_df_argentina = data[data['Pais'] == 'Argentina']

# Calcula o número de valores ausentes em cada coluna para a Argentina
dados_faltantes_por_coluna = new_df_argentina.isna().sum()

# Classifica as colunas pelo total de dados faltantes em ordem decrescente
colunas_com_mais_dados_faltantes = dados_faltantes_por_coluna.sort_values(ascending=False)

# Exibe as colunas com mais dados faltantes e a quantidade de dados faltantes por coluna
print(colunas_com_mais_dados_faltantes)


# Conta o número de linhas para o país "Argentina"
numero_de_linhas_argentina = new_df_argentina.shape[0]

# Exibe o número de linhas para o país "Argentina"
print("Número de linhas para a Argentina:", numero_de_linhas_argentina)

# Conta as linhas completas para a Argentina
linhas_completas_argentina = (new_df_argentina.count(axis=1) == len(new_df_argentina.columns)).sum()

# Exibe o número de linhas completas para a Argentina
print("Número de linhas completas para a Argentina:", linhas_completas_argentina)


CodigoSH4         26447
Mes               26350
DescricaoSH2      26216
DescricaoSH4      26086
CodigoSH2         26035
PesoLiquido       25998
Blocoeconomico    25930
ValorFOBUS        25884
Cidade            25861
Ano               25839
Pais                  0
dtype: int64
Número de linhas para a Argentina: 1299852
Número de linhas completas para a Argentina: 1061396


## 1.4 Preenchimento de Dados Ausentes

Nesta etapa, começaremos transferindo os dados do país para um novo DataFrame, onde realizaremos os procedimentos de tratamento. Este conjunto de dados compreende quatro tipos de informações inter-relacionadas: os códigos SH2 e SH4 estão associados às suas respetivas descrições, sendo provado abaixo. 

In [10]:
# Criar uma cópia do DataFrame para a Argentina
#new_df_argentina = data[data['Pais'] == 'Argentina'].copy()

# Verificar se há várias descrições para o mesmo código SH2
duplicados_sh2 = new_df_argentina.groupby('CodigoSH2')['DescricaoSH2'].nunique() > 1

# Verificar se há várias descrições para o mesmo código SH4
duplicados_sh4 = new_df_argentina.groupby('CodigoSH4')['DescricaoSH4'].nunique() > 1


if duplicados_sh2.any() or duplicados_sh4.any():
    print("Existem códigos SH2 ou SH4 com múltiplas descrições.")
else:
    print("Não existem códigos SH2 ou SH4 com múltiplas descrições.")




Não existem códigos SH2 ou SH4 com múltiplas descrições.


In [11]:
# Função para preencher valores ausentes em 'CodigoSH2' com base em 'DescricaoSH2' e vice-versa
def fill_missing_values(row, column_to_fill, matching_column):
    if pd.isna(row[column_to_fill]) and not pd.isna(row[matching_column]):
        matching_value = new_df_argentina.loc[
            (new_df_argentina[matching_column] == row[matching_column]) &
            (~pd.isna(new_df_argentina[column_to_fill]))
        ]
        if not matching_value.empty:
            return matching_value.iloc[0][column_to_fill]
    return row[column_to_fill]

# Aplicar a função às colunas 'CodigoSH2' e 'DescricaoSH2'
new_df_argentina['CodigoSH2'] = new_df_argentina.apply(
    lambda row: fill_missing_values(row, 'CodigoSH2', 'DescricaoSH2'), axis=1)

new_df_argentina['DescricaoSH2'] = new_df_argentina.apply(
    lambda row: fill_missing_values(row, 'DescricaoSH2', 'CodigoSH2'), axis=1)


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  new_df_argentina['CodigoSH2'] = new_df_argentina.apply(
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  new_df_argentina['DescricaoSH2'] = new_df_argentina.apply(


In [12]:
# Função para preencher valores ausentes em 'CodigoSH4' com base em 'DescricaoSH4' e vice-versa
def fill_missing_values(row, column_to_fill, matching_column):
    if pd.isna(row[column_to_fill]) and not pd.isna(row[matching_column]):
        matching_value = new_df_argentina.loc[
            (new_df_argentina[matching_column] == row[matching_column]) &
            (~pd.isna(new_df_argentina[column_to_fill]))
        ]
        if not matching_value.empty:
            return matching_value.iloc[0][column_to_fill]
    return row[column_to_fill]

# Aplicar a função às colunas 'CodigoSH4' e 'DescricaoSH4'
new_df_argentina['CodigoSH4'] = new_df_argentina.apply(
    lambda row: fill_missing_values(row, 'CodigoSH4', 'DescricaoSH4'), axis=1)

new_df_argentina['DescricaoSH4'] = new_df_argentina.apply(
    lambda row: fill_missing_values(row, 'DescricaoSH4', 'CodigoSH4'), axis=1)


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  new_df_argentina['CodigoSH4'] = new_df_argentina.apply(
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  new_df_argentina['DescricaoSH4'] = new_df_argentina.apply(


In [54]:
# Criar uma cópia do DataFrame para a Argentina
#new_df_argentina.to_csv('new_df_argentina.csv', index=False)
new_df_argentina = pd.read_csv('new_df_argentina.csv')

# Calcula o número de valores ausentes em cada coluna para a Argentina
dados_faltantes_por_coluna = new_df_argentina.isna().sum()
dados_faltantes_por_coluna

Ano               25839
Mes               26350
Pais                  0
Cidade            25861
CodigoSH4           557
DescricaoSH4        557
CodigoSH2           528
DescricaoSH2        528
Blocoeconomico    25930
ValorFOBUS        25884
PesoLiquido       25998
dtype: int64

In [55]:
# Criar uma cópia do DataFrame para a Argentina
cp_df_argentina = new_df_argentina.copy()


Agora, criamos uma nova coluna no DataFrame chamada 'CodigoSH2_Cidade', que combina os valores das colunas 'CodigoSH2', 'Cidade' e 'Blocoeconomico' usando o caractere de sublinhado "_" como separador.

Em seguida, calculamos a média do peso (coluna 'PesoLiquido') para cada valor único na coluna 'CodigoSH2_Cidade' usando o método 'groupby'. Isso significa que estamos obtendo a média do peso para cada combinação única de 'CodigoSH2' e 'Cidade'.

Depois, preenchemos os valores ausentes na coluna 'PesoLiquido'. Para fazer isso, usamos uma função lambda que verifica se o valor na coluna 'CodigoSH2_Cidade' não é nulo (não é um valor NaN) e, se não for nulo, substituímos o valor na coluna 'PesoLiquido' pelo valor médio correspondente à 'CodigoSH2_Cidade'. Isso ajuda a preencher os valores ausentes na coluna de peso com base nas médias correspondentes.

Em seguida, calculamos dois totais para cada 'CodigoSH2_Cidade': o total da coluna 'ValorFOBUS' e o total da coluna 'PesoLiquido'. Isso é feito usando o método 'agg' para agregar os valores de acordo com 'CodigoSH2_Cidade'.

Depois, calculamos o valor unitário específico para cada 'CodigoSH2_Cidade'. Isso significa dividir o total da coluna 'ValorFOBUS' pelo total da coluna 'PesoLiquido' e armazenar o resultado na nova coluna 'ValorUnitario'.

Em seguida, preenchemos os valores ausentes na coluna 'ValorFOBUS'. Para fazer isso, usamos o método 'fillna' com base no mapeamento dos valores unitários específicos obtidos anteriormente usando 'CodigoSH2_Cidade'.

Por fim, multiplicamos o valor da coluna 'ValorFOBUS' pelo valor da coluna 'PesoLiquido' quando o valor em 'ValorFOBUS' é nulo (NaN) e o valor em 'PesoLiquido' não é nulo. Isso pode ser uma etapa para preencher ou ajustar os valores em 'ValorFOBUS' com base nos pesos.



In [56]:
if not new_df_argentina['CodigoSH2'].isnull().all():
    # Converter os valores de 'CodigoSH2' para string
    new_df_argentina['CodigoSH2'] = new_df_argentina['CodigoSH2'].astype(str)
    
    # Criar uma coluna que combine 'CodigoSH2', 'Cidade' e 'Blocoeconomico'
    new_df_argentina['CodigoSH2_Cidade'] = new_df_argentina['CodigoSH2'] + '_' + new_df_argentina['Cidade'] + '_' + new_df_argentina['Blocoeconomico']

    # Restaurar o tipo original de 'CodigoSH2'
    new_df_argentina['CodigoSH2'] = new_df_argentina['CodigoSH2'].astype(float)

    # Calcular a média do peso para cada 'CodigoSH2_Cidade_Blocoeconomico'
    media_peso_por_codigo_sh2_cidade = new_df_argentina.groupby('CodigoSH2_Cidade')['PesoLiquido'].mean()

    # Preencher os valores ausentes na coluna 'PesoLiquido' com base na média correspondente a 'CodigoSH2_Cidade'
    new_df_argentina['PesoLiquido'] = new_df_argentina.apply(
        lambda row: media_peso_por_codigo_sh2_cidade[row['CodigoSH2_Cidade']] if not pd.isna(row['CodigoSH2_Cidade']) else row['PesoLiquido'],
        axis=1
    )

    # Calcular o total ValorFOBUS e o total PesoLiquido para cada 'CodigoSH2_Cidade'
    totals_por_codigo_sh2_cidade = new_df_argentina.groupby('CodigoSH2_Cidade').agg({'ValorFOBUS': 'sum', 'PesoLiquido': 'sum'})

    # Calcular o valor unitário específico para cada 'CodigoSH2_Cidade'
    totals_por_codigo_sh2_cidade['ValorUnitario'] = totals_por_codigo_sh2_cidade['ValorFOBUS'] / totals_por_codigo_sh2_cidade['PesoLiquido']

    # Preencher os valores ausentes na coluna 'ValorFOBUS' com base no valor unitário específico para cada 'CodigoSH2_Cidade'
    new_df_argentina['ValorFOBUS'] = new_df_argentina['ValorFOBUS'].fillna(
        new_df_argentina['CodigoSH2_Cidade'].map(totals_por_codigo_sh2_cidade['ValorUnitario'])
    )

    # Multiplicar 'ValorFOBUS' por nulo e PesoLiquido não nulo
    new_df_argentina['ValorFOBUS'] = new_df_argentina.apply(
        lambda row: row['ValorFOBUS'] * row['PesoLiquido'] if pd.isnull(row['ValorFOBUS']) and not pd.isnull(row['PesoLiquido']) else row['ValorFOBUS'],
        axis=1
    )

    # Remover a coluna temporária 'CodigoSH2_Cidade'
    new_df_argentina.drop(columns=['CodigoSH2_Cidade'], inplace=True)
else:
    pass



In [57]:
if not new_df_argentina['CodigoSH4'].isnull().all():
    # Converter os valores de 'CodigoSH4' para string
    new_df_argentina['CodigoSH4'] = new_df_argentina['CodigoSH4'].astype(str)
    
    # Criar uma coluna que combine 'CodigoSH4', 'Cidade' e 'Blocoeconomico'
    new_df_argentina['CodigoSH4_Cidade'] = new_df_argentina['CodigoSH4'] + '_' + new_df_argentina['Cidade'] + '_' + new_df_argentina['Blocoeconomico']

    # Restaurar o tipo original de 'CodigoSH4'
    new_df_argentina['CodigoSH4'] = new_df_argentina['CodigoSH4'].astype(float)

    # Calcular a média do peso para cada 'CodigoSH4_Cidade_Blocoeconomico'
    media_peso_por_codigo_sh4_cidade = new_df_argentina.groupby('CodigoSH4_Cidade')['PesoLiquido'].mean()

    # Preencher os valores ausentes na coluna 'PesoLiquido' com base na média correspondente a 'CodigoSH4_Cidade'
    new_df_argentina['PesoLiquido'] = new_df_argentina.apply(
        lambda row: media_peso_por_codigo_sh4_cidade[row['CodigoSH4_Cidade']] if not pd.isna(row['CodigoSH4_Cidade']) else row['PesoLiquido'],
        axis=1
    )

    # Calcular o total ValorFOBUS e o total PesoLiquido para cada 'CodigoSH4_Cidade'
    totals_por_codigo_sh4_cidade = new_df_argentina.groupby('CodigoSH4_Cidade').agg({'ValorFOBUS': 'sum', 'PesoLiquido': 'sum'})

    # Calcular o valor unitário específico para cada 'CodigoSH4_Cidade'
    totals_por_codigo_sh4_cidade['ValorUnitario'] = totals_por_codigo_sh4_cidade['ValorFOBUS'] / totals_por_codigo_sh4_cidade['PesoLiquido']

    # Preencher os valores ausentes na coluna 'ValorFOBUS' com base no valor unitário específico para cada 'CodigoSH4_Cidade'
    new_df_argentina['ValorFOBUS'] = new_df_argentina['ValorFOBUS'].fillna(
        new_df_argentina['CodigoSH4_Cidade'].map(totals_por_codigo_sh4_cidade['ValorUnitario'])
    )

    # Multiplicar 'ValorFOBUS' por nulo e PesoLiquido não nulo
    new_df_argentina['ValorFOBUS'] = new_df_argentina.apply(
        lambda row: row['ValorFOBUS'] * row['PesoLiquido'] if pd.isnull(row['ValorFOBUS']) and not pd.isnull(row['PesoLiquido']) else row['ValorFOBUS'],
        axis=1
    )

    # Remover a coluna temporária 'CodigoSH4_Cidade'
    new_df_argentina.drop(columns=['CodigoSH4_Cidade'], inplace=True)
else:
    pass


Como nas proximas tratativas usaremos os códigos SH2 ou SH4 excluíremos as linhas que não tem, pois não nos servirá. 




In [63]:
# Remover linhas sem valores 
new_df_argentina.dropna(subset=['CodigoSH2'], how='all', inplace=True)
new_df_argentina.dropna(subset=['CodigoSH4'], how='all', inplace=True)
new_df_argentina.dropna(subset=['ValorFOBUS'], how='all', inplace=True)
new_df_argentina.dropna(subset=['PesoLiquido'], how='all', inplace=True)


# Calcula o número de valores ausentes em cada coluna para a Argentina
dados_faltantes_por_coluna = new_df_argentina.isna().sum()
dados_faltantes_por_coluna

Ano               0
Mes               0
Pais              0
Cidade            0
CodigoSH4         0
DescricaoSH4      0
CodigoSH2         0
DescricaoSH2      0
Blocoeconomico    0
ValorFOBUS        0
PesoLiquido       0
dtype: int64

In [23]:
new_df_argentina.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1296648 entries, 0 to 1299851
Data columns (total 11 columns):
 #   Column          Non-Null Count    Dtype  
---  ------          --------------    -----  
 0   Ano             1270867 non-null  float64
 1   Mes             1270376 non-null  float64
 2   Pais            1296648 non-null  object 
 3   Cidade          1271814 non-null  object 
 4   CodigoSH4       1296648 non-null  float64
 5   DescricaoSH4    1296648 non-null  object 
 6   CodigoSH2       1296648 non-null  float64
 7   DescricaoSH2    1296648 non-null  object 
 8   Blocoeconomico  1271769 non-null  object 
 9   ValorFOBUS      1296648 non-null  float64
 10  PesoLiquido     1296648 non-null  float64
dtypes: float64(6), object(5)
memory usage: 118.7+ MB


In [59]:
import pandas as pd
from sklearn.model_selection import cross_val_score, train_test_split, StratifiedKFold
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
from xgboost import XGBClassifier


# Carregar o DataFrame
df = new_df_argentina

# Lidar com os valores ausentes
df['Ano'].fillna(1900, inplace=True)  # Substitua 0 pelo valor desejado
df['Mes'].fillna(99, inplace=True)  # Substitua 0 pelo valor desejado
df['Cidade'].fillna('Desconhecido', inplace=True)  # Substitua 'Desconhecido' pelo valor desejado
df['Blocoeconomico'].fillna('Desconhecido', inplace=True)  # Substitua 'Desconhecido' pelo valor desejado

# # Converter a coluna Blocoeconomico em representações numéricas com one-hot encoding

# df = pd.get_dummies(df, columns=['Blocoeconomico'])

# # Converta a coluna Cidade em valores numéricos usando LabelEncoder
# label_encoder = LabelEncoder()
# df['Cidade'] = label_encoder.fit_transform(df['Cidade'])

# # Separar os dados em recursos (X) e rótulos (y)
# X = df[['CodigoSH2', 'ValorFOBUS', 'PesoLiquido'] + list(df.columns[11:])].values
# y = df['Cidade'].values

# # Inicializar o modelo XGBoost
# model = XGBClassifier()

# # Definir uma estratificação usando StratifiedKFold
# stratified_kfold = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# # Realizar a validação cruzada com estratificação
# cv_scores = cross_val_score(model, X, y, cv=stratified_kfold, error_score='raise')

# # Exibir as pontuações da validação cruzada
# print("Pontuações da validação cruzada:", cv_scores)
# print("Acurácia média da validação cruzada:", cv_scores.mean())




In [60]:
df.to_csv('new_df_argentina_limpo.csv', index=False)

Devido ao erro persistente nas classes entre nosso conjunto de treinamento e validação cruzada, optamos por realizar uma análise descritiva abrangente dos dados. Isso nos permitirá identificar as classes que podem ser retiradas do conjunto de dados ou agrupadas, a fim de resolver o problema de discrepância de classes e, ao mesmo tempo, garantir que nossas análises subsequentes sejam confiáveis. Estamos comprometidos em garantir a qualidade dos resultados e a integridade dos dados em nosso processo de modelagem de machine learning.

### 2 Análise descritiva dos dados 

In [64]:
new_df_argentina = pd.read_csv('new_df_argentina_limpo.csv')
dados_faltantes_por_coluna = new_df_argentina.isna().sum()
dados_faltantes_por_coluna

Ano                  0
Mes                  0
Pais                 0
Cidade               0
CodigoSH4          557
DescricaoSH4       557
CodigoSH2          528
DescricaoSH2       528
Blocoeconomico       0
ValorFOBUS         983
PesoLiquido       1159
dtype: int64

In [62]:
new_df_argentina.head()


Unnamed: 0,Ano,Mes,Pais,Cidade,CodigoSH4,DescricaoSH4,CodigoSH2,DescricaoSH2,Blocoeconomico,ValorFOBUS,PesoLiquido
0,2010.0,1.0,Argentina,Alfenas - MG,901.0,"Coffee, whether or not roasted or decaffeinate...",9.0,"Coffee, tea, maté and spices",South America,56000.0,149069.825059
1,1900.0,1.0,Argentina,Alfenas - MG,901.0,"Coffee, whether or not roasted or decaffeinate...",9.0,"Coffee, tea, maté and spices",Southern Common Market (MERCOSUL),56000.0,155204.897959
2,2010.0,1.0,Argentina,Almirante Tamandaré - PR,3918.0,"Floor coverings of plastics, whether or not se...",39.0,Plastics and articles thereof,South America,4277.0,6036.342105
3,2010.0,1.0,Argentina,Almirante Tamandaré - PR,3918.0,"Floor coverings of plastics, whether or not se...",39.0,Plastics and articles thereof,Southern Common Market (MERCOSUL),4277.0,5887.432432
4,2010.0,1.0,Argentina,Almirante Tamandaré - PR,8466.0,Parts and accessories suitable for use solely ...,84.0,"Nuclear reactors, boilers, machinery and mecha...",South America,250.0,3358.2
