# Detecção de Possíveis Fraudes em Óbitos com Isolation Forest

In [1]:
import pandas as pd
from sklearn.ensemble import IsolationForest
from sklearn.preprocessing import StandardScaler

In [2]:
# Carregar os dados
df = pd.read_csv('obitos_normalizados.csv')

In [3]:
# Selecionar colunas relevantes
X = df[['CD_DIST', 'NM_DIST', 'Sexo', 'Obitos']]

In [4]:
# Converter variáveis categóricas em dummies
X = pd.get_dummies(X, drop_first=True)

In [5]:
# Tratar valores ausentes
X = X.fillna(0)

In [6]:
# Escalar os dados
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

In [7]:
# Modelo de detecção de anomalias
model = IsolationForest(n_estimators=100, contamination=0.05, random_state=42)
model.fit(X_scaled)

In [8]:
# Previsões: -1 = anomalia, 1 = normal
df['suspeita_fraude'] = model.predict(X_scaled)
df['suspeita_fraude'] = df['suspeita_fraude'].map({1: 0, -1: 1})

In [9]:
# Mostrar registros suspeitos
print("Registros suspeitos de fraude:")
print(df[df['suspeita_fraude'] == 1])

Registros suspeitos de fraude:
         CD_DIST                   NM_DIST                         Sexo  \
35     110013025                  Tabajara                     Feminino   
69     110033820                 Palmeiras                     Feminino   
130    120080725                 Vila do V                     Feminino   
466    150715105  São Domingos do Araguaia                     Feminino   
531    160050115                Vila Velha                     Feminino   
...          ...                       ...                          ...   
32003  521580105                   Palmelo  Masculino (70 anos ou mais)   
32008  521645205                Perolândia  Masculino (70 anos ou mais)   
32021  521805205                 Porteirão  Masculino (70 anos ou mais)   
32055  522005805       São João da Paraúna  Masculino (70 anos ou mais)   
32091  522230205             Vila Propício  Masculino (70 anos ou mais)   

      Obitos  suspeita_fraude  
35         9                1  
69  