## Contexto do problema

Institui√ß√µes financeiras liram diariamente com milhares de opera√ß√µes internas e transa√ß√µes que, quando mal monitoradas, podem gerar **risco operacional**.

Risco operacional envolve falhas em processos, sistemas, pessoas ou eventos externos, podendo resultar em:
- perdas financeiras
- falhas de compliance 
- impactos reputacionais

## Cen√°rio simulado 

Neste projeto, ser√° simulada uma base de dados contendo registros operacionais de uma institui√ß√£o financeira fict√≠cia 

Cada registro representa uma ocorr√™ncia operacional associada a:
- √°rea respons√°vel
- tipo de evento 
- data
- valor financeiro impactado 
- canal de origem 

O objetivo √© identificar padr√µes que possam indicar **aumento de risco operacional**.

## Estrutura dos Dados

Cada linha do dataset representa uma ocorr√™ncia de risco operacional registrada pela institui√ß√£o

A seguir est√£o descritas as principais vari√°veis consideradas na an√°lise.

## Vari√°veis do Dataset 

- **id_ocorrencia**: identificador √∫nico da ocorr√™ncia
- **data_ocorrencia**: data em que o evento foi registrado 
- **area_responsavel**: √°rea interna respons√°vel pelo processo
- **tipo_evento**: classifica√ß√£o do evento operacional 
- **canal_origem**: canal onde o evento ocorreu (ex: digital, ag√™ncia, backoffice)
- **valor_impacto**: valor financeiro estimado do impacto
- **nivel_risco**: classifica√ß√£o do risco (baixo, m√©dio, alto)

In [None]:
import random
import pandas as pd
import numpy as np
from datetime import datetime, timedelta 

from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report

import psycopg2
from psycopg2 import sql, Error
from config import DB_CONFIG

In [None]:
def sortear_nivel_risco():
    return random.choices(
        ["baixo", "medio", "alto", "critico"],
        weights=[0.6, 0.25, 0.1, 0.05]
    )[0]

def gerar_impacto_por_nivel(nivel):
    if nivel == "baixo":
        return random.randint(1_000, 50_000)
    elif nivel == "medio":
        return random.randint(50_001, 250_000)
    elif nivel == "alto":
        return random.randint(250_001, 1_000_000)
    else:
        return random.randint(1_000_001, 5_000_000)
    
def gerar_evento():
    nivel = sortear_nivel_risco()
    impacto = gerar_impacto_por_nivel(nivel)

    dias_atras = random.randint(0, 30)
    hora_aleatoria = random.randint(0, 23)
    minuto_aleatorio = random.randint(0, 59)
    
    data_evento = datetime.now() - timedelta(
        days=dias_atras,
        hours=hora_aleatoria,
        minutes=minuto_aleatorio
    )
    
    if nivel == "baixo":
        horas_resolucao = random.randint(1, 24)
    elif nivel == "medio":
        horas_resolucao = random.randint(4, 48)
    elif nivel == "alto":
        horas_resolucao = random.randint(12, 72)
    else:
        horas_resolucao = random.randint(24, 168)
    
    data_resolucao = data_evento + timedelta(hours=horas_resolucao)

    evento = {
        "data_evento": data_evento,
        "data_resolucao": data_resolucao,
        "tempo_resolucao_horas": horas_resolucao,
        "impacto_financeiro": impacto,
        "impacto_cliente": random.randint(0, 1),
        "tempo_indisponibilidade": round(random.uniform(0.1, 8), 2),
        "frequencia_evento": random.randint(1, 10),
        "criticidade_sistema": random.randint(1, 5),
        "falha_processo": random.randint(0, 1),
        "fraude_interna": random.randint(0, 1),
        "recorrencia": random.randint(1, 5),
        "nivel_risco": nivel
    }
    
    return evento

In [None]:
eventos = [gerar_evento() for _ in range(5_000)]
df = pd.DataFrame(eventos)

In [None]:
contagem = df["nivel_risco"].value_counts()
percentual = df["nivel_risco"].value_counts(normalize=True) * 100

resultado = pd.DataFrame({
    "quantidade": contagem,
    "percentual (%)": percentual.round(2)
})

print("\nüìä DISTRIBUI√á√ÉO DOS EVENTOS")

resultado

In [None]:
# Prepara√ß√£o dos dados para ML
X = df.drop(columns=["nivel_risco", "data_evento", "data_resolucao"])
y = df["nivel_risco"]

print("\nüìä Features do modelo: \n")
print(X.dtypes)
print(f"\n‚úÖ Shape: {X.shape}")
print(f"‚úÖ Target: {y.name} com {y.nunique()} classes")

In [None]:
x_train, x_test, y_train, y_test = train_test_split(
    X,
    y,
    test_size=0.3,
    random_state=42,
    stratify=y
)

print("\nüìä Divis√£o dos dados: \n")
print(f"Treino: {x_train.shape[0]} eventos")
print(f"Teste: {x_test.shape[0]} eventos")
print(f"Features: {x_train.shape[1]}")

In [None]:
# Treinamento do modelo
print("ü§ñ Treinando Random Forest...")

modelo = RandomForestClassifier(
    n_estimators=100,
    random_state=42,
    class_weight="balanced"
)

modelo.fit(x_train, y_train)

print("‚úÖ Modelo treinado com sucesso!")

# Mostra os par√¢metros do modelo
modelo

In [None]:
# Avalia√ß√£o do modelo
y_pred = modelo.predict(x_test)

print("\nüìä RELAT√ìRIO DE CLASSIFICA√á√ÉO")
print("=" * 60)
print(classification_report(y_test, y_pred))

In [None]:
df.shape

In [None]:
# criar tabela no postgree

def criar_tabela_eventos():
    """
    Cria tabela para armazenar eventos de risco operacional
    """
    try:
        # conecta
        conexao = psycopg2.connect(**DB_CONFIG)
        print('‚úÖ PostgreSQL conectado com sucesso!')
        print(f'‚úÖ Vers√£o: {conexao.server_version}')

        cursor = conexao.cursor()

        # SQL para criar tabela
        query = """
        CREATE TABLE IF NOT EXISTS eventos_risco (
            id SERIAL PRIMARY KEY,
            evento_id VARCHAR(100) UNIQUE NOT NULL,
            data_evento TIMESTAMP NOT NULL,
            data_resolucao TIMESTAMP,
            tempo_resolucao_horas FLOAT,
            impacto_financeiro DECIMAL(15, 2) NOT NULL,
            impacto_cliente INTEGER,
            tempo_indisponibilidade FLOAT,
            frequencia_evento INTEGER,
            criticidade_sistema INTEGER,
            falha_processo INTEGER,
            fraude_interna INTEGER,
            recorrencia INTEGER,
            nivel_risco VARCHAR(20) NOT NULL,
            created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP
        );
        
        CREATE INDEX IF NOT EXISTS idx_nivel_risco ON eventos_risco(nivel_risco);
        CREATE INDEX IF NOT EXISTS idx_data_evento ON eventos_risco(data_evento);
        CREATE INDEX IF NOT EXISTS idx_impacto ON eventos_risco(impacto_financeiro);
        """

        # executa
        cursor.execute(query)
        conexao.commit()

        print('‚úÖ Tabela eventos_risco criada com sucesso!')
        print('‚úÖ √≠ndices criados para otimizar consultas!')

        cursor.close()
        conexao.close()

        return True
    except Exception as e:
        print(f'‚ùå Erro ao criar tabela: {e}')
        return False
    
# cria a tabela
criar_tabela_eventos()

‚úÖ PostgreSQL conectado com sucesso!
‚úÖ Vers√£o: 180001
‚úÖ Tabela eventos_risco criada com sucesso!
‚úÖ √≠ndices criados para otimizar consultas!


True