In [1]:
# Transações suspeitas

import pandas as pd
from sklearn.ensemble import IsolationForest


# Dados fictícios
data = {
    "valor_transacao": [100, 120, 90, 110, 5000, 105, 95, 8000],
    "tempo_segundos": [30, 35, 25, 40, 5, 32, 28, 3]
}
df = pd.DataFrame(data)

# Modelo
modelo = IsolationForest(contamination=0.25, random_state=42)
df["anomalia"] = modelo.fit_predict(df)

print(df)  # -1 = anomalia

   valor_transacao  tempo_segundos  anomalia
0              100              30         1
1              120              35         1
2               90              25         1
3              110              40         1
4             5000               5        -1
5              105              32         1
6               95              28         1
7             8000               3        -1


In [2]:
import joblib

# Salvar o modelo treinado em um arquivo .pkl
joblib.dump(modelo, 'anomalia.pkl')
print("Modelo salvo com sucesso em 'anomalia.pkl'")

Modelo salvo com sucesso em 'anomalia.pkl'


O Isolation Forest identifica anomalias (valores fora do padrão) isolando pontos que são diferentes dos demais.

**Como funciona no seu exemplo:**

1. **Dados:** Você tem transações com valores e tempos. Alguns são normais (ex: 100, 120), outros são muito diferentes (ex: 5000, 8000).

2. **Modelo:** O Isolation Forest constrói várias "árvores" que separam os dados. Pontos que são isolados rapidamente (com poucas divisões) são considerados anomalias, pois estão longe dos outros.

3. **Contaminação:** O parâmetro contamination=0.25 diz ao modelo que cerca de 25% dos dados devem ser tratados como anomalias.

4. **Resultado:** O método fit_predict marca cada linha como:
   - **1:** normal
   - **-1:** anomalia

No seu caso, os valores muito altos (5000, 8000) e tempos muito baixos (3, 5) são diferentes dos demais e provavelmente serão marcados como anomalias.

**Resumo:**  
O modelo procura pontos que se destacam muito dos outros e os marca como anomalias automaticamente.