# Modelo de Machine Learning - Random Forest
Neste notebook vamos treinar um modelo para prever o risco de transações com base na classificação manual feita anteriormente.

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, roc_auc_score

# Carregar a base com o score manual
file_path = '/mnt/data/aml_fraud_scored_manual.csv'
df = pd.read_csv(file_path)

## Pré-processamento
Transformar os scores manuais em variáveis numéricas.

In [None]:
df['manual_risk_score'] = df['manual_risk_score'].map({'low': 0, 'medium': 1, 'high': 2})
df = df.dropna(subset=['manual_risk_score'])

## Seleção de variáveis
Escolher colunas que farão sentido para o modelo.

In [None]:
features = ['amount', 'account_age_days', 'transaction_hour', 'customer_risk_score']
X = df[features]
y = df['manual_risk_score']

## Dividir os dados em treino e teste

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

## Treinar o modelo

In [None]:
model = RandomForestClassifier(random_state=42)
model.fit(X_train, y_train)

## Avaliar o modelo

In [None]:
y_pred = model.predict(X_test)
y_pred_proba = model.predict_proba(X_test)

print(classification_report(y_test, y_pred))
print('ROC AUC Score:', roc_auc_score(y_test, y_pred_proba, multi_class='ovr'))

### Próximo passo: aplicar SHAP para explicar por que o modelo classificou determinadas transações como risco alto, médio ou baixo.