# Detecção de Fraudes em Transações Bancárias
No projeto anterior, exploramos um rico conjunto de dados de transações bancárias para entender padrões de comportamento, identificar anomalias e gerar insights relevantes para a criação de modelos preditivos.


#### **Etapas Realizadas no Dataset Anterior:**
 **Tratamento e Exploração de Dados:** 
   - Identificação e análise de padrões relevantes, como frequências de transações, locais, dispositivos e comerciantes.
   - Análise detalhada das variáveis categóricas e numéricas para compreender possíveis indicadores de fraude.

 **Detecção de Outliers:**
   - Identificação de valores atípicos tanto em variáveis numéricas (ex.: valores de transação e tentativas de login) quanto categóricas (ex.: localização e dispositivos raros).

 **Engenharia de Features:**
   - Criação de novas variáveis baseadas em interações relevantes, como a contagem de transações por dispositivo, locais associados a dispositivos, entre outros, para enriquecer os dados e aumentar a capacidade de detecção de fraudes.

 **Exportação:**
   - Após os tratamentos e transformações, os dados foram salvos em um novo arquivo para a continuidade do projeto.

---

#### **Próximas Etapas no Novo Dataset:**

1. **Pré-processamento de Dados:**
2. **Criação do Modelo Preditivo:**
3. **Validação e Avaliação:**


# Importando as Bibliotecas

In [5]:
# Bibliotecas
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.preprocessing import MinMaxScaler
from sklearn.ensemble import IsolationForest
from sklearn.model_selection import train_test_split, KFold
from sklearn.metrics import precision_score, recall_score, f1_score, log_loss
from sklearn.isotonic import IsotonicRegression
from imblearn.over_sampling import SMOTE
import joblib


### Carregando os dados

In [8]:
df = pd.read_csv('detecção_de_fraude.csv')

df.head()

Unnamed: 0,AccountID,TransactionAmount,TransactionDate,TransactionType,Location,DeviceID,IP Address,MerchantID,Channel,CustomerAge,...,LoginAttempts,AccountBalance,PreviousTransactionDate,DayOfWeek,DeviceID_transaction_count,DeviceID_account_count,MerchantID_device_count,DeviceID_location_count,TransactionAmount_by_LoginAttempts,TimeSincePreviousTransaction
0,AC00128,14.09,2024-11-04 08:08:08,Debit,San Diego,D000380,162.198.218.92,M015,ATM,70,...,1,5112.21,2023-04-11 16:29:14,Tuesday,6,6,31,6,14.09,572.652014
1,AC00455,376.24,2024-11-04 08:09:35,Debit,Houston,D000051,13.149.61.4,M052,ATM,68,...,1,13758.91,2023-06-27 16:44:19,Tuesday,5,5,26,4,376.24,495.642546
2,AC00019,126.29,2024-11-04 08:07:04,Debit,Mesa,D000235,215.97.143.157,M009,Online,19,...,1,1122.35,2023-07-10 18:16:08,Monday,5,5,30,5,126.29,482.577037
3,AC00070,184.5,2024-11-04 08:09:06,Debit,Raleigh,D000187,200.13.225.150,M002,Online,26,...,1,8569.06,2023-05-05 16:32:11,Friday,6,6,31,6,184.5,548.650637
4,AC00411,13.45,2024-11-04 08:06:39,Credit,Atlanta,D000308,65.164.3.100,M091,Online,26,...,1,7429.4,2023-10-16 17:51:24,Monday,3,3,30,3,13.45,384.593924


In [10]:
df.dtypes

AccountID                              object
TransactionAmount                     float64
TransactionDate                        object
TransactionType                        object
Location                               object
DeviceID                               object
IP Address                             object
MerchantID                             object
Channel                                object
CustomerAge                             int64
CustomerOccupation                     object
TransactionDuration                     int64
LoginAttempts                           int64
AccountBalance                        float64
PreviousTransactionDate                object
DayOfWeek                              object
DeviceID_transaction_count              int64
DeviceID_account_count                  int64
MerchantID_device_count                 int64
DeviceID_location_count                 int64
TransactionAmount_by_LoginAttempts    float64
TimeSincePreviousTransaction      

In [12]:
# Remover as variáveis indesejadas já que a nossa análise e feature enginer já foram feitas!
df.drop(columns=['DeviceID', 'IP Address', 'AccountID', 'TransactionDate', 'DayOfWeek', 'PreviousTransactionDate'], inplace=True)
df.head()


Unnamed: 0,TransactionAmount,TransactionType,Location,MerchantID,Channel,CustomerAge,CustomerOccupation,TransactionDuration,LoginAttempts,AccountBalance,DeviceID_transaction_count,DeviceID_account_count,MerchantID_device_count,DeviceID_location_count,TransactionAmount_by_LoginAttempts,TimeSincePreviousTransaction
0,14.09,Debit,San Diego,M015,ATM,70,Doctor,81,1,5112.21,6,6,31,6,14.09,572.652014
1,376.24,Debit,Houston,M052,ATM,68,Doctor,141,1,13758.91,5,5,26,4,376.24,495.642546
2,126.29,Debit,Mesa,M009,Online,19,Student,56,1,1122.35,5,5,30,5,126.29,482.577037
3,184.5,Debit,Raleigh,M002,Online,26,Student,25,1,8569.06,6,6,31,6,184.5,548.650637
4,13.45,Credit,Atlanta,M091,Online,26,Student,198,1,7429.4,3,3,30,3,13.45,384.593924


# Pré-processamento

### Codificação de Variáveis Categóricas
Transformar variáveis categóricas (TransactionType, Location, MerchantID, Channel, CustomerOccupation) em valores numéricos usando One-Hot Encoding

In [16]:
# One-Hot Encoding (cria colunas separadas para cada categoria)
df = pd.get_dummies(df, columns=['TransactionType', 'Location', 'Channel', 'CustomerOccupation', 'MerchantID'], drop_first=True)

In [18]:
print(df)

      TransactionAmount  CustomerAge  TransactionDuration  LoginAttempts  \
0                 14.09           70                   81              1   
1                376.24           68                  141              1   
2                126.29           19                   56              1   
3                184.50           26                   25              1   
4                 13.45           26                  198              1   
...                 ...          ...                  ...            ...   
2507             856.21           33                  109              1   
2508             251.54           48                  177              1   
2509              28.63           56                  146              1   
2510             185.97           23                   19              1   
2511             243.08           24                   93              1   

      AccountBalance  DeviceID_transaction_count  DeviceID_account_count  \
0          

In [20]:
# Verificar se as variáveis categóricas foram codificadas corretamente
categorical_cols = ['TransactionType', 'Location', 'Channel', 'CustomerOccupation', 'MerchantID']
for col in categorical_cols:
    print(f"{col} - Present in dataset: {any(col in c for c in df.columns)}")


TransactionType - Present in dataset: True
Location - Present in dataset: True
Channel - Present in dataset: True
CustomerOccupation - Present in dataset: True
MerchantID - Present in dataset: True


In [22]:
# Resumo da distribuição das novas colunas categóricas
one_hot_cols = [col for col in df.columns if any(c in col for c in categorical_cols)]
print(df[one_hot_cols].sum().sort_values(ascending=False))


MerchantID_device_count       64459
TransactionType_Debit          1944
Channel_Branch                  868
Channel_Online                  811
CustomerOccupation_Student      657
                              ...  
MerchantID_M006                  16
MerchantID_M077                  16
MerchantID_M072                  15
MerchantID_M069                  15
MerchantID_M079                  13
Length: 148, dtype: int64


In [25]:
# O dataset contém muitas categorias, especialmente para a variável MerchantID, que gerou diversas colunas com frequências muito baixas. 
# Para melhorar a escalabilidade e eficiência do modelo, irei realizar um agrupamento das categorias de baixa frequência.

# Listar todas as colunas relacionadas às variáveis categóricas
categorical_cols = ['TransactionType', 'Location', 'Channel', 'CustomerOccupation']
merchant_cols = [col for col in df.columns if 'MerchantID_' in col]

# Definir o limite de frequência mínima (por exemplo, menos de 20 ocorrências)
threshold = 20

# Verificar quais categorias de MerchantID têm baixa frequência
merchant_sums = df[merchant_cols].sum()
low_freq_merchants = merchant_sums[merchant_sums < threshold].index

# Combinar categorias de baixa frequência em uma única coluna "MerchantID_Other"
df['MerchantID_Other'] = df[low_freq_merchants].sum(axis=1)

# Remover as colunas de baixa frequência
df.drop(columns=low_freq_merchants, inplace=True)

# Repetir o processo para outras variáveis categóricas, se necessário
for col in categorical_cols:
    one_hot_cols = [c for c in df.columns if col in c]
    col_sums = df[one_hot_cols].sum()
    low_freq_cols = col_sums[col_sums < threshold].index

    # Combinar categorias de baixa frequência em "Other"
    if len(low_freq_cols) > 0:
        df[f'{col}_Other'] = df[low_freq_cols].sum(axis=1)
        df.drop(columns=low_freq_cols, inplace=True)

# Verificar as alterações
print(df.shape)
print(df.head())


(2512, 146)
   TransactionAmount  CustomerAge  TransactionDuration  LoginAttempts  \
0              14.09           70                   81              1   
1             376.24           68                  141              1   
2             126.29           19                   56              1   
3             184.50           26                   25              1   
4              13.45           26                  198              1   

   AccountBalance  DeviceID_transaction_count  DeviceID_account_count  \
0         5112.21                           6                       6   
1        13758.91                           5                       5   
2         1122.35                           5                       5   
3         8569.06                           6                       6   
4         7429.40                           3                       3   

   MerchantID_device_count  DeviceID_location_count  \
0                       31                        6   


In [27]:
# Conversão Binária (True/False para 1/0)
df = df.replace({False: 0, True: 1})


## Normalização

In [30]:
# Filtrar automaticamente as variáveis que precisam de normalização
def identify_variables_for_normalization(df):
    # Selecionar colunas numéricas
    numeric_cols = df.select_dtypes(include=['float64', 'int64']).columns
    
    # Identificar variáveis que não são binárias (não possuem apenas valores 0 e 1)
    non_binary_cols = [col for col in numeric_cols if df[col].nunique() > 2]
    
    return non_binary_cols

# Identificar as variáveis que precisam de normalização
variables_to_normalize = identify_variables_for_normalization(df)

print("Variáveis que precisam de normalização:")
print(variables_to_normalize)


Variáveis que precisam de normalização:
['TransactionAmount', 'CustomerAge', 'TransactionDuration', 'LoginAttempts', 'AccountBalance', 'DeviceID_transaction_count', 'DeviceID_account_count', 'MerchantID_device_count', 'DeviceID_location_count', 'TransactionAmount_by_LoginAttempts', 'TimeSincePreviousTransaction']


In [32]:
# Lista de variáveis a normalizar
variables_to_normalize = [
    'TransactionAmount', 'CustomerAge', 'TransactionDuration', 
    'LoginAttempts', 'AccountBalance', 'DeviceID_transaction_count', 
    'DeviceID_account_count', 'MerchantID_device_count', 
    'DeviceID_location_count', 'TransactionAmount_by_LoginAttempts', 
    'TimeSincePreviousTransaction'
]

# Inicializar o Min-Max Scaler
scaler = MinMaxScaler()

# Aplicar o scaler apenas às variáveis identificadas
df[variables_to_normalize] = scaler.fit_transform(df[variables_to_normalize])

# Exibir as primeiras linhas para verificar
print("Variáveis normalizadas com sucesso:")
print(df[variables_to_normalize].head())


Variáveis normalizadas com sucesso:
   TransactionAmount  CustomerAge  TransactionDuration  LoginAttempts  \
0           0.007207     0.838710             0.244828            0.0   
1           0.195940     0.806452             0.451724            0.0   
2           0.065680     0.016129             0.158621            0.0   
3           0.096016     0.129032             0.051724            0.0   
4           0.006874     0.129032             0.648276            0.0   

   AccountBalance  DeviceID_transaction_count  DeviceID_account_count  \
0        0.336832                       0.625                   0.625   
1        0.918055                       0.500                   0.500   
2        0.068637                       0.500                   0.500   
3        0.569198                       0.625                   0.625   
4        0.492591                       0.250                   0.250   

   MerchantID_device_count  DeviceID_location_count  \
0                 0.620690     

# Modelagem

 ### Detecção de Anomalias (Isolation Forest)

In [36]:
# Inicializar o modelo Isolation Forest
iso_forest = IsolationForest(n_estimators=100, contamination=0.05, random_state=42)

# Ajustar o modelo aos dados (usando as variáveis preditoras normalizadas)
iso_forest.fit(df)

# Fazer previsões (-1: anomalia, 1: normal)
anomaly_labels = iso_forest.predict(df)

# Adicionar as previsões ao dataset
df['Anomaly'] = (anomaly_labels == -1).astype(int)  # 1 para anomalias, 0 para normal

# Verificar a quantidade de anomalias detectadas
print(df['Anomaly'].value_counts())


Anomaly
0    2386
1     126
Name: count, dtype: int64


### Percentual de Anomalias

In [39]:
# Proporção de anomalias detectadas
anomaly_percentage = (df['Anomaly'].sum() / len(df)) * 100
print(f"Percentual de anomalias detectadas: {anomaly_percentage:.2f}%")


Percentual de anomalias detectadas: 5.02%


# Avaliação e Ajustes

## Separação de Treino, Teste e Balanceamento

In [43]:
# Divisão do dataset em features e rótulos
X = df.drop(columns=['Anomaly'])  # Features
y = df['Anomaly']  # Rótulos

# Divisão em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, test_size=0.3, random_state=42)

# Aplicação do SMOTE para balanceamento
smote = SMOTE(random_state=42)
X_train_balanced, y_train_balanced = smote.fit_resample(X_train, y_train)

# Verificar distribuição antes e após balanceamento
print("Distribuição antes do balanceamento:")
print(y_train.value_counts())

print("\nDistribuição após o balanceamento:")
print(pd.Series(y_train_balanced).value_counts())


Distribuição antes do balanceamento:
Anomaly
0    1670
1      88
Name: count, dtype: int64

Distribuição após o balanceamento:
Anomaly
0    1670
1    1670
Name: count, dtype: int64


## Treinamento Inicial do Modelo

In [46]:
# Treinamento do Isolation Forest
contamination = 0.02  # Proporção de anomalias
iso_forest = IsolationForest(n_estimators=100, contamination=contamination, random_state=42)
iso_forest.fit(X_train_balanced)

# Predição no conjunto de teste
anomaly_scores_test = iso_forest.decision_function(X_test)


## Refinamento de Thresholds

In [49]:
# Treinar Isolation Forest
contamination = 0.03  # Proporção esperada de anomalias
iso_forest = IsolationForest(n_estimators=100, contamination=contamination, random_state=42)
iso_forest.fit(df.drop(columns=['Anomaly']))  # Usar os dados sem rótulos para treino

# 2. Obter pontuações de anomalia
anomaly_scores = iso_forest.decision_function(df.drop(columns=['Anomaly']))

# 3. Refinar Thresholds
thresholds = np.linspace(-0.002, 0.01, 50)  # Intervalo para testar thresholds
results = []

for threshold in thresholds:
    y_pred = (anomaly_scores < threshold).astype(int)  # Classificar com base no threshold
    precision = precision_score(df['Anomaly'], y_pred)
    recall = recall_score(df['Anomaly'], y_pred)
    f1 = f1_score(df['Anomaly'], y_pred)
    
    results.append({
        "Threshold": threshold,
        "Precision": precision,
        "Recall": recall,
        "F1-Score": f1
    })

# 4. Análise dos Resultados
results_df = pd.DataFrame(results)
best_result = results_df.loc[results_df['F1-Score'].idxmax()]

print("\nMelhor Threshold:")
print(best_result)

# 5. Métricas Finais
best_threshold = best_result['Threshold']
y_pred_best = (anomaly_scores < best_threshold).astype(int)
final_precision = precision_score(df['Anomaly'], y_pred_best)
final_recall = recall_score(df['Anomaly'], y_pred_best)
final_f1 = f1_score(df['Anomaly'], y_pred_best)

print("\nResultados Finais:")
print(f"Threshold: {best_threshold}")
print(f"Precision: {final_precision:.4f}, Recall: {final_recall:.4f}, F1-Score: {final_f1:.4f}")




Melhor Threshold:
Threshold    0.003388
Precision    0.992126
Recall       1.000000
F1-Score     0.996047
Name: 22, dtype: float64

Resultados Finais:
Threshold: 0.003387755102040816
Precision: 0.9921, Recall: 1.0000, F1-Score: 0.9960


## Validação Cruzada com Log Loss

In [51]:
kf = KFold(n_splits=5, shuffle=True, random_state=42)
log_loss_scores = []

print("Validação Cruzada com Log Loss:")
for train_index, test_index in kf.split(df):
    # Divisão para validação cruzada
    X_train, X_test = df.iloc[train_index].drop(columns=['Anomaly']), df.iloc[test_index].drop(columns=['Anomaly'])
    y_test = df.iloc[test_index]['Anomaly']
    
    # Treinar Isolation Forest
    iso_forest = IsolationForest(n_estimators=100, contamination=contamination, random_state=42)
    iso_forest.fit(X_train)
    
    # Obter pontuações no conjunto de teste
    anomaly_scores_test = iso_forest.decision_function(X_test)
    y_pred_proba = (anomaly_scores_test - anomaly_scores_test.min()) / (anomaly_scores_test.max() - anomaly_scores_test.min())
    
    # Calcular Log Loss
    score = log_loss(y_test, y_pred_proba)
    log_loss_scores.append(score)
    print(f"Fold Log Loss: {score:.4f}")

# Resultados finais
print("\nResultados Finais da Validação Cruzada:")
print(f"Média Log Loss: {np.mean(log_loss_scores):.4f}")
print(f"Desvio Padrão Log Loss: {np.std(log_loss_scores):.4f}")


Validação Cruzada com Log Loss:
Fold Log Loss: 1.2126
Fold Log Loss: 1.2264
Fold Log Loss: 1.0688
Fold Log Loss: 1.1642
Fold Log Loss: 0.9772

Resultados Finais da Validação Cruzada:
Média Log Loss: 1.1299
Desvio Padrão Log Loss: 0.0942


## Calibração de Probabilidades

In [54]:
# Dividir os dados em treino, validação e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, test_size=0.3, random_state=42)

# Dividir o conjunto de treino em treino e validação para calibração
X_train_cal, X_val_cal, y_train_cal, y_val_cal = train_test_split(X_train, y_train, stratify=y_train, test_size=0.3, random_state=42)

# Treinar Isolation Forest no conjunto de treino
iso_forest = IsolationForest(n_estimators=100, contamination=0.02, random_state=42)
iso_forest.fit(X_train_cal)

# Obter pontuações de decisão no conjunto de validação
val_scores = iso_forest.decision_function(X_val_cal)

# Verificar consistência no número de amostras
if len(val_scores) != len(y_val_cal):
    print(f"Erro: Tamanhos inconsistentes. val_scores: {len(val_scores)}, y_val_cal: {len(y_val_cal)}")
else:
    # Normalizar pontuações de validação
    val_scores_normalized = (val_scores - val_scores.min()) / (val_scores.max() - val_scores.min())

    # Ajustar Isotonic Regression
    iso_reg = IsotonicRegression(out_of_bounds='clip')
    iso_reg.fit(val_scores_normalized, y_val_cal)

    # Obter pontuações normalizadas no conjunto de teste
    test_scores = iso_forest.decision_function(X_test)
    test_scores_normalized = (test_scores - test_scores.min()) / (test_scores.max() - test_scores.min())

    # Prever probabilidades calibradas
    calibrated_probabilities = iso_reg.predict(test_scores_normalized)

    # Calcular Log Loss calibrado
    calibrated_log_loss = log_loss(y_test, calibrated_probabilities)
    print(f"Log Loss Calibrado: {calibrated_log_loss:.4f}")


Log Loss Calibrado: 0.1997


## Resultados Finais

In [56]:
print("\nResultados Finais:")
print(f"Melhor Threshold: {best_result['Threshold']}")
print(f"Precision: {best_result['Precision']:.4f}")
print(f"Recall: {best_result['Recall']:.4f}")
print(f"F1-Score: {best_result['F1-Score']:.4f}")
print(f"Log Loss Calibrado: {calibrated_log_loss:.4f}")



Resultados Finais:
Melhor Threshold: 0.003387755102040816
Precision: 0.9921
Recall: 1.0000
F1-Score: 0.9960
Log Loss Calibrado: 0.1997


# Salvando o modelo e calibração

In [65]:
import joblib

# Salvar o Isolation Forest
joblib.dump(iso_forest, 'iso_forest_model.pkl')
print("Modelo Isolation Forest salvo com sucesso!")

# Salvar o modelo de calibração
joblib.dump(iso_reg, 'isotonic_regression_model.pkl')
print("Modelo de calibração salvo com sucesso!")



Modelo Isolation Forest salvo com sucesso!
Modelo de calibração salvo com sucesso!


Ao longo do desenvolvimento do projeto de detecção de fraudes, seguimos um processo estruturado para construir, avaliar e validar um modelo robusto utilizando **Isolation Forest**, uma abordagem não supervisionada. O objetivo central era identificar transações anômalas, representando potenciais fraudes, em um conjunto de dados realista.

### **Processo Realizado**

Inicialmente, os dados foram preparados com um foco especial no desbalanceamento entre classes (transações normais e anômalas). Dividimos os dados em conjuntos de treino e teste, garantindo que houvesse uma representatividade adequada para avaliação. Para lidar com o desbalanceamento, aplicamos **SMOTE**, uma técnica de oversampling, no conjunto de treino, permitindo que o modelo tivesse uma visão equilibrada das duas classes durante o treinamento.

O treinamento do modelo foi realizado com o **Isolation Forest**, ajustado para detectar 3% de anomalias inicialmente. O modelo foi refinado para identificar o **melhor threshold**, que maximizou o equilíbrio entre precisão e recall, refletido no F1-Score. Adicionalmente, calibramos as probabilidades preditas utilizando **Isotonic Regression**, garantindo que as saídas fossem confiáveis e diretamente utilizáveis em decisões automatizadas.

A validação foi conduzida com técnicas rigorosas, incluindo **validação cruzada** para avaliar a generalização do modelo. Métricas como **Precision**, **Recall**, **F1-Score** e **Log Loss** foram usadas para medir o desempenho em diferentes cenários.

### **Resultados Obtidos**

Os resultados alcançados foram excepcionalmente positivos, destacando a robustez do modelo. Com um **threshold ideal de 0.0034**, o modelo apresentou:
- **Precision de 99.21%**, indicando que quase todas as transações sinalizadas como fraude realmente eram fraudulentas, minimizando falsos positivos.
- **Recall de 100%**, garantindo que nenhuma fraude real foi perdida.
- Um **F1-Score de 99.60%**, equilibrando de maneira quase perfeita a precisão e o recall.
- Um **Log Loss Calibrado de 0.1997**, comprovando que as probabilidades geradas são altamente confiáveis para uso prático.

### **Conclusão**

O modelo de detecção de fraudes desenvolvido é adequado para implementação em um ambiente de produção. Sua combinação de alta precisão e recall oferece uma solução confiável, capaz de prevenir fraudes sem gerar um número excessivo de falsos positivos. Além disso, a calibração realizada permite que as probabilidades preditas sejam usadas para priorizar casos críticos, garantindo eficiência operacional.

No entanto, recomenda-se que o modelo seja monitorado continuamente para garantir sua eficácia ao lidar com dados novos ou mudanças nas características das transações. Adicionalmente, futuras melhorias poderiam incluir a criação de novas features transacionais para capturar padrões ainda mais detalhados.

Com esses resultados, o projeto cumpre seu objetivo de oferecer uma ferramenta poderosa para prevenção de fraudes, contribuindo para maior segurança e eficiência operacional. 🚀

In [68]:
df.head()

Unnamed: 0,TransactionAmount,CustomerAge,TransactionDuration,LoginAttempts,AccountBalance,DeviceID_transaction_count,DeviceID_account_count,MerchantID_device_count,DeviceID_location_count,TransactionAmount_by_LoginAttempts,...,MerchantID_M093,MerchantID_M094,MerchantID_M095,MerchantID_M096,MerchantID_M097,MerchantID_M098,MerchantID_M099,MerchantID_M100,MerchantID_Other,Anomaly
0,0.007207,0.83871,0.244828,0.0,0.336832,0.625,0.625,0.62069,0.625,0.002258,...,0,0,0,0,0,0,0,0,0,0
1,0.19594,0.806452,0.451724,0.0,0.918055,0.5,0.5,0.448276,0.375,0.061385,...,0,0,0,0,0,0,0,0,0,0
2,0.06568,0.016129,0.158621,0.0,0.068637,0.5,0.5,0.586207,0.5,0.020576,...,0,0,0,0,0,0,0,0,0,0
3,0.096016,0.129032,0.051724,0.0,0.569198,0.625,0.625,0.62069,0.625,0.03008,...,0,0,0,0,0,0,0,0,0,0
4,0.006874,0.129032,0.648276,0.0,0.492591,0.25,0.25,0.586207,0.25,0.002153,...,0,0,0,0,0,0,0,0,0,0


In [76]:
import joblib

# Carregar o modelo Isolation Forest
iso_forest = joblib.load('iso_forest_model.pkl')
print("Modelo Isolation Forest carregado com sucesso!")

# Verificar atributos do modelo (não retorna features diretamente)
try:
    # Isso funciona apenas se as features foram nomeadas antes do treinamento
    features = iso_forest.feature_names_in_
    print(f"O modelo Isolation Forest utiliza {len(features)} características:")
    for i, feature in enumerate(features, start=1):
        print(f"{i}. {feature}")
except AttributeError:
    print("O modelo Isolation Forest não possui o atributo 'feature_names_in_'. Certifique-se de passar dados nomeados no treinamento.")


Modelo Isolation Forest carregado com sucesso!
O modelo Isolation Forest utiliza 146 características:
1. TransactionAmount
2. CustomerAge
3. TransactionDuration
4. LoginAttempts
5. AccountBalance
6. DeviceID_transaction_count
7. DeviceID_account_count
8. MerchantID_device_count
9. DeviceID_location_count
10. TransactionAmount_by_LoginAttempts
11. TimeSincePreviousTransaction
12. TransactionType_Debit
13. Location_Atlanta
14. Location_Austin
15. Location_Baltimore
16. Location_Boston
17. Location_Charlotte
18. Location_Chicago
19. Location_Colorado Springs
20. Location_Columbus
21. Location_Dallas
22. Location_Denver
23. Location_Detroit
24. Location_El Paso
25. Location_Fort Worth
26. Location_Fresno
27. Location_Houston
28. Location_Indianapolis
29. Location_Jacksonville
30. Location_Kansas City
31. Location_Las Vegas
32. Location_Los Angeles
33. Location_Louisville
34. Location_Memphis
35. Location_Mesa
36. Location_Miami
37. Location_Milwaukee
38. Location_Nashville
39. Location_New