# Análise Preditiva Aplicada ao Comércio Internacional
**Disciplina:** Análise Preditiva  
**Aluno:** Letícia Araújo Costa; Ándre Carvalho; Ítalo Timbó Santos

---

## 1. Introdução

O presente trabalho tem como objetivo realizar uma análise preditiva sobre dados de exportação e importação, aplicando técnicas de **regressão**. Utilizaremos um modelo de machine learning para prever o valor financeiro das transações comerciais, considerando características como o tipo de fluxo (exportação ou importação), os países envolvidos, o setor do produto e o ano da operação.

Essa previsão é de extrema relevância para auxiliar na tomada de decisões estratégicas no comércio internacional, permitindo entender tendências e comportamentos de mercado.

---

## 2. Descrição do Dataset

O dataset utilizado contém registros de transações comerciais, com as seguintes variáveis:

- **Fluxo_Comercial:** Indica se a operação é de exportação ou importação.  
- **Economia_Relatora:** País que está reportando a transação.  
- **Produto_Setor:** Categoria do produto transacionado.  
- **Economia_Parceira:** País parceiro na transação.  
- **Ano:** Ano da realização da transação.  
- **Valor:** Valor financeiro da transação (em dólares).  
- **Tipo:** Nível de agregação (país).

---

## 3. Metodologia

### 3.1 Escolha da Técnica

Optou-se pela utilização de um modelo de **Regressão**, pois o problema consiste em prever uma variável contínua (**Valor** das transações). Entre os modelos possíveis, escolhemos o **Random Forest Regressor**, uma técnica robusta para dados tabulares, que lida bem com variáveis categóricas e não requer normalização dos dados.

### 3.2 Etapas Realizadas

- Análise exploratória e pré-processamento dos dados.  
- Codificação de variáveis categóricas com Label Encoding.  
- Divisão dos dados em conjuntos de treino (80%) e teste (20%).  
- Treinamento do modelo Random Forest Regressor.  
- Avaliação do desempenho utilizando métricas de erro e R².  

---


In [6]:
# Importar bibliotecas
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
from sklearn.preprocessing import LabelEncoder
import numpy as np
import warnings
warnings.filterwarnings('ignore')


# Carregar o dataset
df = pd.read_csv('df_exportacao_importacao_classificado.csv')

# Remover valores nulos na coluna alvo
df = df.dropna(subset=['Valor'])

# Definir variáveis independentes e alvo
X = df[['Fluxo_Comercial', 'Economia_Relatora', 'Produto_Setor', 'Economia_Parceira', 'Ano']]
y = df['Valor']

# Codificar variáveis categóricas
label_encoders = {}
for column in ['Fluxo_Comercial', 'Economia_Relatora', 'Produto_Setor', 'Economia_Parceira']:
    le = LabelEncoder()
    X[column] = le.fit_transform(X[column])
    label_encoders[column] = le

# Dividir dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

# Instanciar o modelo
model = RandomForestRegressor(n_estimators=100, random_state=42)

# Treinar o modelo
model.fit(X_train, y_train)

# Fazer previsões
y_pred = model.predict(X_test)

# Avaliar o modelo
mae = mean_absolute_error(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_test, y_pred)

# Exibir resultados
print(f'MAE: {mae:,.2f}')
print(f'RMSE: {rmse:,.2f}')
print(f'R²: {r2:.3f}')

MAE: 10,209,318,557.80
RMSE: 74,575,565,417.28
R²: 0.991


---

## 5. Avaliação dos Resultados

As métricas de avaliação obtidas foram:

| Métrica | Valor                          |
|---------|---------------------------------|
| MAE     | ≈ 10,2 bilhões de dólares       |
| RMSE    | ≈ 74,57 bilhões de dólares      |
| R²      | 0,991                           |

### Interpretação:

- O modelo apresenta um **R² de 0,991**, o que indica que explica **99,1% da variabilidade dos dados**, caracterizando um excelente ajuste.
- O **MAE** e o **RMSE** são relativamente altos devido à **escala dos valores financeiros do comércio internacional**, que operam frequentemente na casa dos bilhões.
- O modelo se mostrou **eficiente**, embora o impacto de **outliers** e de **transações extremamente altas** seja perceptível nas métricas de erro.

---

## 6. Conclusão

Este trabalho demonstrou a aplicação prática de técnicas de **Machine Learning**, mais especificamente de **Regressão com Random Forest**, para prever valores de **transações comerciais internacionais**.

O modelo apresentou **excelente desempenho**, indicando que variáveis como **país de origem, parceiro, tipo de produto, ano e tipo de fluxo** são preditores relevantes para o valor das transações.
