# ISOLATION FOREST FOR ANOMALY DETECTION 


Algoritmos de Isolation Forest para detecção de Anolamia na Folha de Pagamento
Importação do Modulo de Pré-processamento

In [1]:
import sys
sys.path.append("C:/Users/joaoc/Documents/MT/pagamento_servidores/src")
import process_servants as ps
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import IsolationForest
import pandas as pd
from janitor import clean_names

## Função para pre-processamento dos dados
Utiliza-se funções importadas do arquivo process_servants.py, no qual foram pré-definidas algumas funções para o pré-processamento dos dados

In [3]:
def process_registration_data_rendim(file_path, reference_date_str):
    """Process registration data from Excel file"""
    
    df = (
        pd.read_excel(file_path)
        .pipe(clean_names)
        .pipe(ps.convert_rendim_to_numeric)
        .pipe(ps.process_month_column)
        )    

    #Selecionar apesas as colunas necessárias para o modelo
    df_rendim = df[['cpf_servidor', 'mes', 'rendim']]
    #Se tiver valores com o CPF duplicado para o mesmo mês, somar os valores
    df_rendim = df_rendim.groupby(['cpf_servidor', 'mes'])['rendim'].sum().reset_index()

    return df_rendim

## Função para Leitura dos Dados

In [5]:
def processed_data(brute_data_file_path, reference_date, file_name): 

    registration_df = process_registration_data_rendim(brute_data_file_path, reference_date)
    
    processed_path  = "C:/Users/joaoc/Documents/MT/pagamento_servidores/data/processed/" + file_name + ".xlsx"
    print("Processed data shapes:")
    print(f"Registration data: {registration_df.shape}")
    
    #registration_df.to_excel(processed_path, index=False)
    
    return registration_df

Importação da Base de Dados

In [10]:
reference_date = '2022-04-01'
brute_file_path = 'C:/Users/joaoc/Documents/MT/pagamento_servidores/data/raw/servidores_mes_rubricas_alimentacao.xlsx'

Limpeza e Pre-processamento dos dados para tentar identificar o caso a seguir como um Anomaly Detection
![image.png](attachment:1cf54f27-e734-4093-a92f-766002dc7ed0.png)

In [32]:
df_alimentacao = processed_data(brute_file_path, reference_date, "dados_12_meses_cadastro_e_std")

  warn("Workbook contains no default style, apply openpyxl's default")


Processed data shapes:
Registration data: (109799, 3)


## Isolation Forest

In [35]:
df_alimentacao_serie = df_alimentacao.set_index(['cpf_servidor', 'mes'])[['rendim']]

In [55]:
contamination = 0.5

iso_forest = IsolationForest(
    contamination = contamination,
    random_state = 42
)

x_iso_forest = df_alimentacao_serie.values

iso_forest.fit(x_iso_forest)

anomalias = iso_forest.predict(x_iso_forest)

df_alimentacao['anomalia'] = anomalias



In [57]:
df_alimentacao[df_alimentacao['anomalia']== -1]

Unnamed: 0,cpf_servidor,mes,rendim,anomalia
0,3183106,2013-03-01,429.0,-1
1,3183106,2013-04-01,429.0,-1
2,3183106,2013-05-01,429.0,-1
3,3183106,2013-06-01,429.0,-1
4,3183106,2013-07-01,429.0,-1
...,...,...,...,...
109794,99897628134,2016-11-01,471.9,-1
109795,99897628134,2016-12-01,471.9,-1
109796,99897628134,2017-01-01,1642.5,-1
109797,99897628134,2017-02-01,667.0,-1
