# Bibliotecas

In [1]:
## ===============================
## Bibliotecas para manipulação de dados
## ===============================

import pandas as pd  # Manipulação de dados em DataFrames
import numpy as np  # Operações numéricas e vetoriais

## ===============================
## Visualização de dados
## ===============================

import seaborn as sns  # Visualizações estatísticas com gráficos mais sofisticados
import matplotlib.pyplot as plot  # Criação de gráficos básicos (linhas, barras, dispersão, etc.)

## ===============================
## Manipulação funcional de DataFrames
## ===============================

from dfply import *  # Sintaxe funcional para manipulação de DataFrames (inspirado no dplyr do R)

## ===============================
## Manipulação de datas
## ===============================

from pandas.tseries.offsets import DateOffset  # Deslocamento de datas personalizado
from datetime import datetime  # Trabalhar com datas e horários
from dateutil.relativedelta import relativedelta  # Manipulação flexível de datas (ex: adicionar meses)

## ===============================
## Utilitários diversos
## ===============================

from math import sqrt  # Função para raiz quadrada
import random  # Geração de números aleatórios
import warnings  # Controle de avisos
warnings.filterwarnings("ignore")  # Ignora avisos durante a execução

## ===============================
## Configurações de exibição do pandas
## ===============================

pd.set_option('display.max_columns', None)  # Exibe todas as colunas do DataFrame
pd.set_option('display.float_format', '{:.2f}'.format)  # Formata números flutuantes com duas casas decimais

hoje = datetime.today().strftime("%Y%m")  # Data atual no formato YYYYMM

## ===============================
## Monitoramento de qualidade e drift de dados
## ===============================

from evidently import ColumnMapping  # Mapeamento de colunas para relatórios
from evidently.report import Report  # Geração de relatórios
from evidently.metric_preset import DataDriftPreset  # Verificação de drift de dados
from evidently.metric_preset import DataQualityPreset  # Avaliação da qualidade dos dados
from evidently.metric_preset import ClassificationPreset  # Avaliação de modelos de classificação

## ===============================
## Modelagem e Machine Learning
## ===============================

from sklearn.cluster import KMeans  # Algoritmo de agrupamento baseado em médias
from sklearn.preprocessing import StandardScaler  # Padronização de dados (média 0, desvio padrão 1)
from sklearn.ensemble import RandomForestClassifier  # Classificador baseado em floresta aleatória
import joblib  # Salvamento e carregamento de modelos (formato pickle)
from sklearn.impute import SimpleImputer  # Imputação de valores ausentes
from sklearn.metrics import (
    f1_score, precision_recall_curve, roc_auc_score, r2_score, accuracy_score,
    confusion_matrix, ConfusionMatrixDisplay, roc_curve, auc,
    mean_squared_error, mean_absolute_error, recall_score,
    precision_score, classification_report
)  # Métricas de avaliação para modelos de classificação e regressão

import shap  # Interpretação de modelos com valores SHAP
from scipy.special import expit  # Função sigmoide (usada em modelos como regressão logística)

## ===============================
## Controle de aleatoriedade
## ===============================

np.random.seed(2025)  # Semente para reprodutibilidade com numpy
random.seed(2025)  # Semente para reprodutibilidade com random

## ===============================
## Alternativas para manipulação de dados e arquivos
## ===============================

import polars as pl  # Biblioteca alternativa ao pandas, mais rápida e eficiente para grandes volumes de dados
from pathlib import Path  # Manipulação de caminhos de arquivos
import glob  # Busca de arquivos com padrões (ex: *.csv)
import os
import re

# Empilhamento

## Carnê

In [2]:
#Caminho dos arquivos
arquivos = glob.glob(r"C:\Users\fernando.monteiro\deep-torch-example\KAB\Dados\Behavior\app\data\input\carne\*.csv")

# Colunas para somar
cols_a_vencer = [
    "creditos_a_vencer_ate_30_dias",
    "creditos_a_vencer_de_31_e_60_dias",
    "creditos_a_vencer_de_61_e_90_dias",
    "creditos_a_vencer_de_91_e_180_dias",
    "creditos_a_vencer_de_181_e_360_dias",
    "creditos_a_vencer_de_361_e_720_dias",
    "creditos_a_vencer_de_721_e_1080_dias",
    "creditos_a_vencer_de_1081_e_1440_dias",
    "creditos_a_vencer_de_1441_e_1800_dias",
    "creditos_a_vencer_de_1801_e_5400_dias",
    "creditos_a_vencer_acima_de_5400_dias"
]

cols_vencidos = [
    "creditos_vencidos_de_1_a_14_dias",
    "creditos_vencidos_de_15_a_30_dias",
    "creditos_vencidos_de_31_a_60_dias",
    "creditos_vencidos_de_61_a_90_dias",
    "creditos_vencidos_de_91_a_120_dias",
    "creditos_vencidos_de_121_a_150_dias",
    "creditos_vencidos_de_151_a_180_dias",
    "creditos_vencidos_de_181_a_240_dias",
    "creditos_vencidos_de_241_a_300_dias",
    "creditos_vencidos_de_301_a_360_dias",
    "creditos_vencidos_de_361_a_540_dias",
    "creditos_vencidos_acima_de_540_dias"
]

dfs = []

for f in arquivos:
    try:
        print(f"\n Lendo arquivo: {f}")
        # Leitura dos arquivos
        esquema = {
            "anomes": pl.Utf8, 
            "cpf_cnpj": pl.Float64, 
            "conceito": pl.Utf8,
            "id_contrato": pl.Float64,
            "id_financeira": pl.Utf8,
            "data": pl.Date,
            "id_agente": pl.Utf8,
            "dias_carencia": pl.Int32,
            "taxajuros": pl.Float32,
            "cet": pl.Float32,
            "saldo_contabil": pl.Float32,
            "dias_maior_atraso": pl.Int32,
            "dias_maior_atraso_aberto": pl.Int32,
            "media_atraso": pl.Float32,
            "qtd_parcelas": pl.Int32,
            "qtd_parcelas_abertas": pl.Int32,
            "qtd_parcelas_pagas": pl.Int32,
            "valor_entrada": pl.Float32,
            "valor_pago": pl.Float32,
            "valor_pago_atraso": pl.Float32,
            "valor_parcela": pl.Float32,
            "data_vencimento_prox_parcela": pl.Date,
            "data_vencimento_ultima_parcela": pl.Date,
            "principal_total": pl.Float32,
            "servicos_financeiros": pl.Float32,
            "flag_renegociacao": pl.Utf8,
            "data_ultimo_pagamento": pl.Date,
            **{col: pl.Float32 for col in cols_a_vencer + cols_vencidos}
           }
        df = pl.read_csv(
            f,
            separator=";",
            null_values=["null"],
            ignore_errors=True,
            schema_overrides=esquema,
            decimal_comma=True
            )
        
        # Criar colunas de soma logo após leitura
        df = df.with_columns([
            pl.sum_horizontal(pl.col(cols_a_vencer)).alias("creditos_a_vencer"),
            pl.sum_horizontal(pl.col(cols_vencidos)).alias("creditos_vencidos")
        ])
        df = df.drop(cols_a_vencer + cols_vencidos)
        dfs.append(df) # Salva dataframe
        # Mostra resumo e cabeçalho
        print(f"Número de colunas: {len(df.columns)}")
        print("Nome e tipo das colunas:")
        for nome, tipo in zip(df.columns, df.dtypes):
            print(f" - {nome}: {tipo}")

        print("\n Primeiras linhas:")
        print(df.head(3))


    except Exception as e:
        print(f"Erro ao ler {f}: {e}")
        
# Concatenar tudo ao final
if dfs:
    df_concatenado = pl.concat(dfs, how="vertical_relaxed")
    print("\n Arquivos concatenados com sucesso.")
else:
    print("Nenhum arquivo pôde ser lido com sucesso.")


 Lendo arquivo: C:\Users\fernando.monteiro\deep-torch-example\KAB\Dados\Behavior\app\data\input\carne\Behavior_20250930_1.csv
Número de colunas: 29
Nome e tipo das colunas:
 - anomes: String
 - cpf_cnpj: Float64
 - conceito: String
 - id_contrato: Float64
 - id_financeira: String
 - data: Date
 - id_agente: String
 - dias_carencia: Int32
 - taxajuros: Float32
 - cet: Float32
 - saldo_contabil: Float32
 - dias_maior_atraso: Int32
 - dias_maior_atraso_aberto: Int32
 - media_atraso: Float32
 - qtd_parcelas: Int32
 - qtd_parcelas_abertas: Int32
 - qtd_parcelas_pagas: Int32
 - valor_entrada: Float32
 - valor_pago: Float32
 - valor_pago_atraso: Float32
 - valor_parcela: Float32
 - data_vencimento_prox_parcela: Date
 - data_vencimento_ultima_parcela: Date
 - principal_total: Float32
 - servicos_financeiros: Float32
 - flag_renegociacao: String
 - data_ultimo_pagamento: Date
 - creditos_a_vencer: Float32
 - creditos_vencidos: Float32

 Primeiras linhas:
shape: (3, 29)
┌─────────┬────────────┬

In [3]:
# Conversão das variáveis categoricas
df_concatenado = df_concatenado.with_columns([
    pl.col("id_agente").str.strip_chars().cast(pl.Categorical).alias("id_agente")
])

In [4]:
# Conversão da coluna "anomes" para data
df_concatenado = df_concatenado.with_columns([
    (pl.col("anomes")
    .str.slice(0, 4) + "-" + pl.col("anomes").str.slice(5, 2) + "-01")
    .str.strptime(pl.Date, "%Y-%m-%d")
    .alias("anomes_new")
])

In [5]:
df_concatenado = df_concatenado.with_columns([
    pl.col("cpf_cnpj").cast(pl.Float64).cast(pl.Utf8),
    pl.col("id_contrato").cast(pl.Float64).cast(pl.Utf8),
    pl.col("qtd_parcelas_pagas").cast(pl.Int32).cast(pl.Utf8)
])

In [6]:
# Contratos do Carnê - última informação de cada contrato
df_carne_empilhado = pl.read_parquet(r'C:\Users\fernando.monteiro\deep-torch-example\KAB\Dados\Behavior\app\data\input\carne\saida_carne_*.parquet')

In [7]:
df_carne_empilhado = df_carne_empilhado.select(['anomes',
 'cpf_cnpj',
 'conceito',
 'id_contrato',
 'id_financeira',
 'data',
 'id_agente',
 'dias_carencia',
 'taxajuros',
 'cet',
 'saldo_contabil',
 'dias_maior_atraso',
 'dias_maior_atraso_aberto',
 'media_atraso',
 'qtd_parcelas',
 'qtd_parcelas_abertas',
 'qtd_parcelas_pagas',
 'valor_entrada',
 'valor_pago',
 'valor_pago_atraso',
 'valor_parcela',
 'data_vencimento_prox_parcela',
 'data_vencimento_ultima_parcela',
 'principal_total',
 'servicos_financeiros',
 'flag_renegociacao',
 'data_ultimo_pagamento',
 'creditos_a_vencer',
 'creditos_vencidos',
 'anomes_new'])

In [8]:
df_carne_empilhado_tudo=pl.concat([df_carne_empilhado,df_concatenado], how="vertical_relaxed")

In [9]:
df_carne = (
    df_carne_empilhado_tudo
    .group_by(["cpf_cnpj", "id_contrato"])
    .agg(
        pl.col("*").gather(pl.col("anomes_new").arg_max())
    )
    .explode([col for col in df_carne_empilhado_tudo.columns if col not in ["cpf_cnpj", "id_contrato"]])
)

In [10]:
# Exportar para csv ou parquet
mov_df_final=df_carne.select(pl.col("anomes_new").max()).item()
mov = mov_df_final.strftime("%Y%m")

In [11]:
df_carne.write_parquet(fr"C:\Users\fernando.monteiro\deep-torch-example\KAB\Dados\Behavior\app\data\output\carne_empilhado\saida_carne_{mov}.parquet")

## Cartao

In [12]:
# Caminho dos arquivos
arquivos = glob.glob(r'C:\Users\fernando.monteiro\deep-torch-example\KAB\Dados\Behavior\app\data\input\cartao\*.csv')

# Colunas para somar
cols_a_vencer = [
    "CREDITOS_A_VENCER_ATE_30_DIAS",
    "CREDITOS_A_VENCER_DE_31_A_60_DIAS",
    "CREDITOS_A_VENCER_DE_61_A_90_DIAS",
    "CREDITOS_A_VENCER_DE_91_A_180_DIAS",
    "CREDITOS_A_VENCER_DE_181_A_360_DIAS",
    "CREDITOS_A_VENCER_DE_361_A_720_DIAS",
    "CREDITOS_A_VENCER_DE_721_A_1080_DIAS",
    "CREDITOS_A_VENCER_DE_1081_A_1440_DIAS",
    "CREDITOS_A_VENCER_DE_1441_A_1800_DIAS",
    "CREDITOS_A_VENCER_DE_1801_A_5400_DIAS",
    "CREDITOS_A_VENCER_ACIMA_DE_5400_DIAS",
]

cols_vencidos = [
    "CREDITOS_VENCIDOS_DE_1_A_14_DIAS",
    "CREDITOS_VENCIDOS_DE_15_A_30_DIAS",
    "CREDITOS_VENCIDOS_DE_31_A_60_DIAS",
    "CREDITOS_VENCIDOS_DE_61_A_90_DIAS",
    "CREDITOS_VENCIDOS_DE_91_A_120_DIAS",
    "CREDITOS_VENCIDOS_DE_121_A_150_DIAS",
    "CREDITOS_VENCIDOS_DE_151_A_180_DIAS",
    "CREDITOS_VENCIDOS_DE_181_A_240_DIAS",
    "CREDITOS_VENCIDOS_DE_241_A_300_DIAS",
    "CREDITOS_VENCIDOS_DE_301_A_360_DIAS",
    "CREDITOS_VENCIDOS_DE_361_A_540_DIAS",
    "CREDITOS_VENCIDOS_ACIMA_DE_540_DIAS"
]

dfs = []

for f in arquivos:
    try:
        print(f"\n Lendo arquivo: {f}")
        # Leitura dos arquivos
        esquema = {
            "ANO_MES_MOVIMENTO": pl.Utf8, 
            "DATA_MOVIMENTO": pl.Date, 
            "CPF_CNPJ": pl.Utf8, 
            "NUMERO_CONTRATO": pl.Float64,
            "DATA_CONTRATO": pl.Date,
            "MODALIDADE": pl.Int32,
            "TIPO_ACORDO": pl.Utf8,
            "DIAS_CARENCIA": pl.Int32,
            "TAXA_JUROS": pl.Float32,
            "CET": pl.Float32,
            "SALDO_CONTABIL": pl.Float32,
            "DIAS_MAIOR_ATRASO": pl.Int32,
            "DIAS_MAIOR_ATRASO_ABERTO": pl.Int32,
            "MEDIA_ATRASO": pl.Float32,
            "QTD_PARCELAS": pl.Int32,
            "QTD_PARCELAS_ABERTAS": pl.Int32,
            "QTD_PARCELAS_PAGAS": pl.Int32,
            "VALOR_PAGO": pl.Float32,
            "DATA_ULTIMO_PAGAMENTO": pl.Date,
            "JUROS_PAGOS_ATRASO": pl.Float32,
            "VALOR_PARCELA": pl.Float32,
            "DATA_VENCIMENTO_PROX_PARCELA": pl.Date,
            "DATA_VENCIMENTO_ULTIMA_PARCELA": pl.Date,
            "VALOR_CALCULADO": pl.Float32,
            "VALOR_DESCONTO": pl.Float32,
            "PRINCIPAL_TOTAL": pl.Float32,
            "VALOR_FINANCIADO": pl.Float32,
            "TIPO_OPERACAO": pl.Utf8,
            "FLAG_RENEGOCIACAO": pl.Utf8,
            **{col: pl.Float32 for col in cols_a_vencer + cols_vencidos}
           }
        df = pl.read_csv(
            f,
            separator=";",
            null_values=["null"],
            ignore_errors=True,
            schema_overrides=esquema,
            decimal_comma=True
            )
        
        ## Extrair apenas os números do nome do arquivo
        #nome_arquivo = os.path.basename(f)  # Exemplo: "cartao_202501.csv"
        #numeros_arquivo = re.findall(r"\d+", nome_arquivo)  # Lista de grupos numéricos encontrados
        #numeros_arquivo = numeros_arquivo[0] if numeros_arquivo else None  # Pega o primeiro grupo numérico

        # Adiciona a coluna com os números
        #df = df.with_columns(pl.lit(numeros_arquivo).alias("identificador_arquivo"))
        
        # Criar colunas de soma logo após leitura
        df = df.with_columns([
            pl.sum_horizontal(pl.col(cols_a_vencer)).alias("creditos_a_vencer"),
            pl.sum_horizontal(pl.col(cols_vencidos)).alias("creditos_vencidos")
        ])
        df = df.drop(cols_a_vencer + cols_vencidos)
        df = df.with_columns(
            pl.col("CPF_CNPJ").str.strip_chars().cast(pl.Float64)
            )

        dfs.append(df) # Salva dataframe
        # Mostra resumo e cabeçalho
        print(f"Número de colunas: {len(df.columns)}")
        print("Nome e tipo das colunas:")
        for nome, tipo in zip(df.columns, df.dtypes):
            print(f" - {nome}: {tipo}")

        print("\n Primeiras linhas:")
        print(df.head(3))


    except Exception as e:
        print(f"Erro ao ler {f}: {e}")
        
# Concatenar tudo ao final
if dfs:
    df2_concatenado = pl.concat(dfs, how="vertical_relaxed")
    print("\n Arquivos concatenados com sucesso.")
else:
    print("Nenhum arquivo pôde ser lido com sucesso.")


 Lendo arquivo: C:\Users\fernando.monteiro\deep-torch-example\KAB\Dados\Behavior\app\data\input\cartao\BASEBEHAVIORCONTRATOS_2025-09-30.csv
Número de colunas: 32
Nome e tipo das colunas:
 - ANO_MES_MOVIMENTO: String
 - DATA_MOVIMENTO: Date
 - CPF_CNPJ: Float64
 - NUMERO_CONTRATO: Float64
 - DATA_CONTRATO: Date
 - MODALIDADE: Int32
 - TIPO_ACORDO: String
 - DIAS_CARENCIA: Int32
 - TAXA_JUROS: Float32
 - CET: Float32
 - SALDO_CONTABIL: Float32
 - DIAS_MAIOR_ATRASO_ABERTO: Int32
 - DIAS_MAIOR_ATRASO: Int32
 - MEDIA_ATRASO: Float32
 - QTD_PARCELAS: Int32
 - QTD_PARCELAS_ABERTAS: Int32
 - QTD_PARCELAS_PAGAS: Int32
 - VALOR_PAGO: Float32
 - DATA_ULTIMO_PAGAMENTO: Date
 - JUROS_PAGOS_ATRASO: Float32
 - VALOR_PARCELA: Float32
 - DATA_VENCIMENTO_PROX_PARCELA: Date
 - DATA_VENCIMENTO_ULTIMA_PARCELA: Date
 - VALOR_CALCULADO: Float32
 - VALOR_DESCONTO: Float32
 - PRINCIPAL_TOTAL: Float32
 - VALOR_FINANCIADO: Float32
 - TIPO_OPERACAO: String
 - FLAG_RENEGOCIACAO: String
 - : String
 - creditos_a_v

In [13]:
maior_data = df2_concatenado["DATA_MOVIMENTO"].max()

In [14]:
df2_concatenado=df2_concatenado.filter(pl.col("DATA_CONTRATO")<= pl.lit(maior_data).cast(pl.Date)) # filtro

In [15]:
df2_concatenado = df2_concatenado.select(['CPF_CNPJ',
 'NUMERO_CONTRATO',
 'ANO_MES_MOVIMENTO',
 'DATA_MOVIMENTO',
 'DATA_CONTRATO',
 'MODALIDADE',
 'TIPO_ACORDO',
 'DIAS_CARENCIA',
 'TAXA_JUROS',
 'CET',
 'SALDO_CONTABIL',
 'DIAS_MAIOR_ATRASO_ABERTO',
 'DIAS_MAIOR_ATRASO',
 'MEDIA_ATRASO',
 'QTD_PARCELAS',
 'QTD_PARCELAS_ABERTAS',
 'QTD_PARCELAS_PAGAS',
 'VALOR_PAGO',
 'DATA_ULTIMO_PAGAMENTO',
 'JUROS_PAGOS_ATRASO',
 'VALOR_PARCELA',
 'DATA_VENCIMENTO_PROX_PARCELA',
 'DATA_VENCIMENTO_ULTIMA_PARCELA',
 'VALOR_CALCULADO',
 'VALOR_DESCONTO',
 'PRINCIPAL_TOTAL',
 'VALOR_FINANCIADO',
 'TIPO_OPERACAO',
 'FLAG_RENEGOCIACAO',
 'creditos_a_vencer',
 'creditos_vencidos'])

In [16]:
# Contratos do Cartao - última informação de cada contrato
df_cartao_empilhado = pl.read_parquet(r'C:\Users\fernando.monteiro\deep-torch-example\KAB\Dados\Behavior\app\data\input\cartao\saidacartao_*.parquet')

In [17]:
df_cartao_empilhado = df_cartao_empilhado.select(['CPF_CNPJ',
 'NUMERO_CONTRATO',
 'ANO_MES_MOVIMENTO',
 'DATA_MOVIMENTO',
 'DATA_CONTRATO',
 'MODALIDADE',
 'TIPO_ACORDO',
 'DIAS_CARENCIA',
 'TAXA_JUROS',
 'CET',
 'SALDO_CONTABIL',
 'DIAS_MAIOR_ATRASO_ABERTO',
 'DIAS_MAIOR_ATRASO',
 'MEDIA_ATRASO',
 'QTD_PARCELAS',
 'QTD_PARCELAS_ABERTAS',
 'QTD_PARCELAS_PAGAS',
 'VALOR_PAGO',
 'DATA_ULTIMO_PAGAMENTO',
 'JUROS_PAGOS_ATRASO',
 'VALOR_PARCELA',
 'DATA_VENCIMENTO_PROX_PARCELA',
 'DATA_VENCIMENTO_ULTIMA_PARCELA',
 'VALOR_CALCULADO',
 'VALOR_DESCONTO',
 'PRINCIPAL_TOTAL',
 'VALOR_FINANCIADO',
 'TIPO_OPERACAO',
 'FLAG_RENEGOCIACAO',
 'creditos_a_vencer',
 'creditos_vencidos'])

In [18]:
df_cartao_empilhado_tudo=pl.concat([df_cartao_empilhado,df2_concatenado], how="vertical_relaxed")

In [19]:
df_cartao = (
    df_cartao_empilhado_tudo
    .group_by(["CPF_CNPJ", "NUMERO_CONTRATO"])
    .agg(
        pl.col("*").gather(pl.col("ANO_MES_MOVIMENTO").arg_max())
    )
    .explode([col for col in df_cartao_empilhado_tudo.columns if col not in ["CPF_CNPJ", "NUMERO_CONTRATO"]])
)

In [20]:
# Salvar em parquet
df_cartao.write_parquet(fr"C:\Users\fernando.monteiro\deep-torch-example\KAB\Dados\Behavior\app\data\output\cartao_empilhado\saidacartao_{mov}.parquet")

# ED

## Contratos Carnê

In [21]:
# Base Carnê

# Contratos do Carnê - última informação de cada contrato até agosto
df_carne = df_carne.to_pandas() # transforma o banco de dados em pandas

# Ajustando os tipos dos campos
df_carne["data"]=pd.to_datetime(df_carne["data"])
df_carne["id_agente"]=df_carne["id_agente"].astype("category")
df_carne["cpf_cnpj"]=df_carne["cpf_cnpj"].astype("float")
df_carne["id_contrato"]=df_carne["cpf_cnpj"].astype("float")
df_carne["conceito"]=df_carne["conceito"].astype("category")
df_carne["conceito"] = df_carne["conceito"].astype(str).str.strip()
df_carne["anomes"]=df_carne["anomes"].astype("category")
df_carne["flag_renegociacao"]=df_carne["flag_renegociacao"].astype("category")
df_carne["anomes_new"]=pd.to_datetime(df_carne["anomes_new"])
df_carne["data_vencimento_prox_parcela"]=pd.to_datetime(df_carne["data_vencimento_prox_parcela"])
df_carne["data_vencimento_ultima_parcela"]=pd.to_datetime(df_carne["data_vencimento_ultima_parcela"])
df_carne["data_ultimo_pagamento"]=pd.to_datetime(df_carne["data_ultimo_pagamento"])
df_carne["qtd_parcelas_pagas"]=df_carne["qtd_parcelas_pagas"].astype("int64")

# % de nulos por linha
df_carne["%_nulos"] = df_carne.isna().sum(axis=1) / df_carne.shape[1] * 100

# Excluindo linhas e colunas que não serão utilizadas
to_exclude = [
    "033 VENDAS ATACADO",
    "009 SAQUE EMERGENCIAL",
    "029 RENEGOCIACAO SAQUE EMER (AG19)",
    "019 RENEGOCIACAO SAQUE EMERGENCIAL"
]
df_carne = df_carne[
    ~df_carne["id_agente"].isin(to_exclude) &
    (df_carne["%_nulos"] <= 50)
].drop(columns=["%_nulos"])  

# Categorização 'Produto'
condicoes = [
    df_carne["id_agente"] == "005 KREDILIG (CP)",
    df_carne["id_agente"].isin([
       "001 CREDIARIO",
       "044 SEGURO - KREDILIG (CDC)",
       "004 KREDILIG (CDC)"
    ]),
    df_carne["id_agente"].isin([
        "015 RENEGOCIACAO CP",
        "025 RENEGOCIACAO CP (AG 15)"
    ]),
    df_carne["id_agente"].isin([
        "011 RENEGOCIACAO CREDIARIO",
        "021 RENEGOCIACAO CREDIARIO (AG 11)",        
        "014 RENEGOCIACAO CDC",
        "024 RENEGOCIACAO CDC (AG 14)",
    ])
]

prod = ["EMPRESTIMO", "FINANCIAMENTO", "RENEG_EMPRESTIMO","RENEG_FINANCIAMENTO"]
df_carne["Produto"] = np.select(condicoes, prod, default="SEM_CLASSIFICACAO")
df_carne["Produto"]=df_carne["Produto"].astype("category")

for var in ["taxajuros", "cet", "qtd_parcelas_pagas", "dias_carencia"]:
    df_carne[var] = df_carne[var].clip(lower=0) # valores negativos são substituídos por zero

df_carne["principal_total"] = np.where(df_carne["principal_total"] > 0,
                                  df_carne["principal_total"],
                                  df_carne["valor_pago"]) # substituir valores negativos pelo valor pago

# criando indicadoras
df_carne["ind_reneg"] = (df_carne["flag_renegociacao"] == "SIM").astype(int) # Indicador numérico de contratos de Renegociação
df_carne["valor_da_parcela_aberto"] = np.where(df_carne["saldo_contabil"] > 0, df_carne["valor_parcela"], 0)# Variável contém apenas os valores das parcelas mensais em aberto
df_carne["valor_principal_total_aberto"] = np.where(df_carne["saldo_contabil"] > 0, df_carne["principal_total"], 0)# Variável possui apenas o valor total principal aberto
df_carne["valor_pago_nr"] = np.where(df_carne["flag_renegociacao"] == "NAO", df_carne["valor_pago"], 0)# Variável possui apenas o valor pagos de contratos que não são renegiação
df_carne["valor_principal_total_reneg"] = np.where(df_carne["flag_renegociacao"] == "SIM", df_carne["principal_total"], 0)# Variável possui apenas o valor total principal de contratos que são renegiação
df_carne["valor_principal_total_nr"] = np.where(df_carne["flag_renegociacao"] == "NAO", df_carne["principal_total"], 0)# Variável possui apenas o valor total principal de contratos que não são renegiação
df_carne["valor_entrada_nr"] = np.where(df_carne["flag_renegociacao"] == "NAO", df_carne["valor_entrada"], 0)# Variável possui apenas o valor de entrada de contratos que não são renegociação 
df_carne["qtd_parcelas_pagas_nr"] = np.where(df_carne["flag_renegociacao"] == "NAO", df_carne["qtd_parcelas_pagas"], 0)# Variável possui apenas a quantidade de parcelas pagas de contratos que não são renegociação
df_carne["base_carne"] = 1 # variável de valor único para identificar a base carne

## Contratos Cartão

In [22]:
## Base cartões 
# Contratos do Cartão - última informação de cada contrato 
df_cartao = df_cartao.to_pandas()  # transforma o banco de dados em pandas

# Ajustando os tipos dos campos
df_cartao["ANO_MES_MOVIMENTO"]=df_cartao["ANO_MES_MOVIMENTO"].astype("category")
df_cartao["FLAG_RENEGOCIACAO"]=df_cartao["FLAG_RENEGOCIACAO"].astype("category")
df_cartao["TIPO_OPERACAO"]=df_cartao["TIPO_OPERACAO"].astype("category")
df_cartao["TIPO_ACORDO"]=df_cartao["TIPO_ACORDO"].astype("category")

# % de nulos por linha
df_cartao["%_nulos"] = df_cartao.isna().sum(axis=1) / df_cartao.shape[1] * 100

# Excluindo linhas
df_cartao = df_cartao[df_cartao["%_nulos"] <= 50].drop(columns=["%_nulos"])

# Ajustando os tidos das colunas de datas
df_cartao["DATA_CONTRATO"] = pd.to_datetime(df_cartao["DATA_CONTRATO"], errors="coerce")
df_cartao["DATA_VENCIMENTO_PROX_PARCELA"] = pd.to_datetime(df_cartao["DATA_VENCIMENTO_PROX_PARCELA"], errors="coerce")
df_cartao["DATA_VENCIMENTO_ULTIMA_PARCELA"] = pd.to_datetime(df_cartao["DATA_VENCIMENTO_ULTIMA_PARCELA"], errors="coerce")
df_cartao["DATA_ULTIMO_PAGAMENTO"] = pd.to_datetime(df_cartao["DATA_ULTIMO_PAGAMENTO"], errors="coerce")
df_cartao["DATA_MOVIMENTO"] = pd.to_datetime(df_cartao["DATA_MOVIMENTO"], errors="coerce")

# Categorização 'Produto'
condicoes = [
    df_cartao["TIPO_OPERACAO"] == "EMPRESTIMO",
    df_cartao["TIPO_OPERACAO"].isin(["FINANCIAMENTO", "AVISTA"]),
    df_cartao["TIPO_OPERACAO"].isin(["ACORDO", "ROTATIVO"])
]

prod = ["EMPRESTIMO", "FINANCIAMENTO", "RENEG_EMPRESTIMO"]
df_cartao["Produto"] = np.select(condicoes, prod, default="SEM CLASSIFICACAO")
df_cartao["Produto"]=df_cartao["Produto"].astype("category")

for var in ["TAXA_JUROS", "CET", "QTD_PARCELAS_PAGAS", "DIAS_CARENCIA"]:
    df_cartao[var] = df_cartao[var].clip(lower=0) # negativos são substituídos por zero

df_cartao["PRINCIPAL_TOTAL"] = np.where(df_cartao["PRINCIPAL_TOTAL"] > 0,
                                  df_cartao["PRINCIPAL_TOTAL"],
                                  df_cartao["VALOR_PAGO"]) # substituir valores negativos pelo valor pago

# criando indicadoras
df_cartao["ind_reneg"] = (df_cartao["FLAG_RENEGOCIACAO"] == "SIM").astype(int) # Indicador numérico de contratos de Renegociação
df_cartao["valor_da_parcela_aberto"] = np.where(df_cartao["SALDO_CONTABIL"] > 0, df_cartao["VALOR_PARCELA"], 0)# Variável contém apenas os valores das parcelas mensais em aberto
df_cartao["valor_principal_total_aberto"] = np.where(df_cartao["SALDO_CONTABIL"] > 0, df_cartao["PRINCIPAL_TOTAL"], 0)# Variável possui apenas o valor total principal aberto
df_cartao["valor_pago_nr"] = np.where(df_cartao["FLAG_RENEGOCIACAO"] == "NAO", df_cartao["VALOR_PAGO"], 0)# Variável possui apenas o valor pagos de contratos que não são renegiação
df_cartao["valor_principal_total_reneg"] = np.where(df_cartao["FLAG_RENEGOCIACAO"] == "SIM", df_cartao["PRINCIPAL_TOTAL"], 0)# Variável possui apenas o valor total principal de contratos que são renegiação
df_cartao["valor_principal_total_nr"] = np.where(df_cartao["FLAG_RENEGOCIACAO"] == "NAO", df_cartao["PRINCIPAL_TOTAL"], 0)# Variável possui apenas o valor total principal de contratos que não são renegiação
df_cartao["ind_tipo_acordo"] =  (df_cartao["TIPO_ACORDO"] == "I").astype(int)# Indicador numérico de contratos que são de acordo tipo "I" (Possível adiantamento)
df_cartao["ind_rotativo"] =  (df_cartao["MODALIDADE"] == 5).astype(int)# Indicador numérico de contratos de modalidade "5" (Rotativos)
df_cartao["qtd_parcelas_pagas_nr"] = np.where(df_cartao["FLAG_RENEGOCIACAO"] == "NAO", df_cartao["QTD_PARCELAS_PAGAS"], 0)# Variável possui apenas a quantidade de parcelas pagas de contratos que não são renegociação
df_cartao["base_cartao"] = 1 # variável de valor único para identificar a base cartao

# Drop das colunas que começam com "Unnamed" - são colunas vazias
df_cartao = df_cartao.loc[:, ~df_cartao.columns.str.contains('^Unnamed')]

# info
#df_cartao.info()
#df_cartao.head()

## CARTAO - Base Cadastro

In [23]:
## Base Cadastro - contém as informações dos clientes
# Lista todos os arquivos CSV
caminho_cliente = glob.glob(
    r"C:\Users\fernando.monteiro\deep-torch-example\KAB\Dados\Behavior\app\data\input\clientes\*.csv"
)

# Verifica se encontrou arquivos
if not caminho_cliente:
    raise FileNotFoundError("Nenhum arquivo CSV encontrado na pasta especificada.")

# Lê e concatena todos os arquivos em um único DataFrame
df_cad = pd.concat(
    [pd.read_csv(arquivo, encoding="latin1", sep=";") for arquivo in caminho_cliente],
    ignore_index=True
)

# colunas numéricas
col_numerica=[
        "IDADE",
        "RENDA_DIGITADA",
        "RENDA_VALIDA",
        "TEMPO_RELACIONAMENTO_KREDILIG",
        #"TEMPO_INATIVIDADE_KREDILIG",
        "TEMPO_INATIVIDADE_CONTA_CARTAO",
        "TEMPO_INATIVIDADE_CONTA_CARNE",
        "SCORE",
        "LIMITE_TOTAL",
        "LIMITE_A_VISTA",
        "LIMITE_SAQUE",
        "LIMITE_MENSAL",
        "LIMITE_TOTAL_UTILIZADO",
        "LIMITE_A_VISTA_UTILIZADO",
        "LIMITE_SAQUE_UTILIZADO",
        "LIMITE_MENSAL_UTILIZADO",
        "LIMITE_TOTAL_DISPONIVEL",
        "LIMITE_A_VISTA_DISPONIVEL",
        "LIMITE_SAQUE_DISPONIVEL",
        "LIMITE_MENSAL_DISPONIVEL"]

for col in col_numerica:
    df_cad[col] = (
        df_cad[col]
        .astype(str)
        .str.replace(".", "", regex=False)
        .str.replace(",", ".", regex=False)
        .astype(float)
        .replace({np.nan: None})
    )
    
# % de nulos por linha
df_cad["%_nulos"] = df_cad.isna().sum(axis=1) / df_cad.shape[1] * 100

# Excluindo linhas
df_cad = df_cad[df_cad["%_nulos"] <= 50].drop(columns=["NOME","TIPO_PESSOA","CARGO","REGIONAL","%_nulos"])

# Nacionalidade
# Remover espaços em branco e categorizar nacionalidade
df_cad['NACIONALIDADE'] = df_cad['NACIONALIDADE'].str.strip()
df_cad['UF_NASCIMENTO'] = df_cad['UF_NASCIMENTO'].str.strip()
df_cad['UF_NASCIMENTO'] = df_cad['UF_NASCIMENTO'].replace(r'^\s*$', np.nan, regex=True)
# Categorizar nacionalidade
cond1 = (df_cad['NACIONALIDADE'] != 'BRASILEIRO') & (~df_cad['NACIONALIDADE'].isna())
df_cad.loc[cond1, 'NACIONALIDADE'] = 'ESTRANGEIRO'
# Condições para categorizar como "ESTRANGEIRO" - UF_NASCIMENTO = XX
df_cad.loc[df_cad['UF_NASCIMENTO'] == 'XX', 'NACIONALIDADE'] = 'ESTRANGEIRO'
# Condições para categorizar como "BRASILEIRO" - UF_NASCIMENTO não é nulo e não é XX
cond2 = (~df_cad['UF_NASCIMENTO'].isna()) & (df_cad['UF_NASCIMENTO'] != 'XX')
df_cad.loc[cond2, 'NACIONALIDADE'] = 'BRASILEIRO'

#Tipos
tipos = {
    "IDADE": "int64",
    "FILIAL": "int64",
    "CPF_CNPJ": "float64",
    "TEMPO_RELACIONAMENTO_KREDILIG": "int64",
    "TEMPO_INATIVIDADE_CONTA_CARTAO": "int64",
    "TEMPO_INATIVIDADE_CONTA_CARNE": "int64",
    "DATA_MOVIMENTO": "datetime64[ns]",
    "DATA_ABERTURA_CONTA": "datetime64[ns]",
    "DATA_ULTIMA_ALTERACAO_LIMITE": "datetime64[ns]",
    "ANO_MES_MOVIMENTO": "category",
    "SEXO" : "category",
    "ESTADO_CIVIL" : "category",
    "GRAU_ESCOLARIDADE" : "category",
    "PROFISSAO" : "category",
    "NATUREZA_OCUPACAO" : "category",
    "RENDA_DIGITADA" : "float64",
    "NACIONALIDADE" : "category",
    "UF_NASCIMENTO" : "category",
    "CIDADE_NASCIMENTO" : "category",
    "UF_RESIDENCIA" : "category",
    "CIDADE_RESIDENCIA" : "category",
    "BLACKLIST" : "category",
    "SITUACAO_CONTA" : "category",
    "MOTIVO_SITUACAO_CONTA" : "category",
    "CANAL_ORIGEM" : "category",
    "NIVEL_DE_RISCO" : "category",
    "ORIGEM_SCORE" : "category",
    "ORIGEM_ALTERACAO_LIMITE" : "category",
    "HISTORICO_ALTERACAO" : "category",
    "SITUACAO_FATURA" : "category"
    }

# conversão
df_cad = df_cad.astype({k: v for k, v in tipos.items() if v != "datetime64[ns]"})

# colunas de datas
for col in [c for c, dtype in tipos.items() if dtype == "datetime64[ns]"]:
    df_cad[col] = pd.to_datetime(df_cad[col], dayfirst=True, errors="coerce")

# excluir duplicados
df_cad = df_cad.drop_duplicates(subset=['CPF_CNPJ'])

# info
#df_cad.info()
#df_cad.head()

## Função para criar novas variáveis

In [24]:
# FUNÇÃO 1
#### Contar contratos em atrasos e regulares 
def contar_produtos(df, df_consulta_1, df_consulta_2):
    df.columns = df.columns.str.lower()
    df_consulta_1.columns = df_consulta_1.columns.str.lower()
    df_consulta_2.columns = df_consulta_2.columns.str.lower()
    df_consulta = pd.concat([
            df_consulta_1[["cpf_cnpj", "produto","saldo_contabil","dias_maior_atraso","dias_maior_atraso_aberto"]],
            df_consulta_2[["cpf_cnpj", "produto","saldo_contabil","dias_maior_atraso","dias_maior_atraso_aberto"]]
        ])
    def contar_por_produto(dados, atraso_min, atraso_max, prefixo,col_atraso):
        # Padroniza colunas para minúsculas
        dados = dados.copy()
        dados.columns = dados.columns.str.lower()

        # Filtra pelos dias de atraso
        filtro = dados[(dados[col_atraso] >= atraso_min) & 
                       (dados[col_atraso] < atraso_max)]

        # Conta quantos contratos por CPF e Produto
        contagem = (
            filtro.groupby(["cpf_cnpj", "produto"],observed=True)
            .size()
            .unstack()
        )

        # Renomeia as colunas com o prefixo
        contagem.columns = [f"{prefixo}{col}" for col in contagem.columns]
        contagem.reset_index(inplace=True)

        return contagem

    # === Base CARNE e CARTAO ===
    total_fechado = contar_por_produto(df_consulta[df_consulta["saldo_contabil"]==0], atraso_min=0, atraso_max=31, prefixo="Qtd_total_fechado_", col_atraso = "dias_maior_atraso") # quantidade de contratos fechados por produto
    atraso_fechado = contar_por_produto(df_consulta[df_consulta["saldo_contabil"]==0], atraso_min=31, atraso_max=np.inf, prefixo="Qtd_em_atraso_fechado_", col_atraso = "dias_maior_atraso")# Qtd de contratos em atraso (>=31 dias) fechados por produto
    total_aberto = contar_por_produto(df_consulta[df_consulta["saldo_contabil"]>0], atraso_min=0, atraso_max=31, prefixo="Qtd_total_aberto_", col_atraso = "dias_maior_atraso_aberto") # quantidade de contratos em aberto por produto
    atraso_aberto = contar_por_produto(df_consulta[df_consulta["saldo_contabil"]>0], atraso_min=31, atraso_max=np.inf, prefixo="Qtd_em_atraso_aberto_",col_atraso = "dias_maior_atraso_aberto")# Qtd de contratos em atraso (>=31 dias) aberto por produto

    # === Junta tudo no df principal ===
    df_final = df.copy()
    df_final.columns = df_final.columns.str.lower()


    for juncao in [total_fechado, atraso_fechado, total_aberto, atraso_aberto]:
        colunas_novas = [col for col in juncao.columns if col != "cpf_cnpj"]
        df_final = df_final.merge(juncao, on="cpf_cnpj", how="left")
        df_final[colunas_novas] = df_final[colunas_novas].fillna(0) # Preenche valores nulos com zero

    return df_final

In [25]:
# FUNÇÃO 2
def var_new(df, df_consulta_1, df_consulta_2):
    # Padroniza colunas
    df_consulta_1 = df_consulta_1.copy()
    df_consulta_2 = df_consulta_2.copy()

    df.columns = df.columns.str.lower()
    df_consulta_1.columns = df_consulta_1.columns.str.lower()
    df_consulta_2.columns = df_consulta_2.columns.str.lower()

    # Ordena
    df_consulta_1.sort_values(by=["cpf_cnpj", "data"], inplace=True)
    df_consulta_2.sort_values(by=["cpf_cnpj", "data_contrato"], inplace=True)

    df_agg = pd.concat([
            df_consulta_1[["cpf_cnpj", "media_atraso", "data","qtd_parcelas_pagas","qtd_parcelas_abertas","valor_da_parcela_aberto",
                           "valor_principal_total_aberto","creditos_a_vencer","creditos_vencidos", "principal_total","valor_pago_nr","valor_principal_total_reneg",
                           "dias_maior_atraso","dias_maior_atraso_aberto","valor_principal_total_nr","data_ultimo_pagamento","ind_reneg","saldo_contabil","qtd_parcelas_pagas_nr"]].rename(columns={"parceladatapagto": "data_ultimo_pagamento"}),
            df_consulta_2[["cpf_cnpj", "media_atraso", "data_contrato","qtd_parcelas_pagas","qtd_parcelas_abertas","valor_da_parcela_aberto",
                           "valor_principal_total_aberto","creditos_a_vencer","creditos_vencidos","principal_total","valor_pago_nr","valor_principal_total_reneg",
                           "dias_maior_atraso","dias_maior_atraso_aberto","valor_principal_total_nr","data_ultimo_pagamento","ind_reneg","saldo_contabil","qtd_parcelas_pagas_nr"]].rename(columns={"data_contrato": "data"})
        ])
    
    df_agg.sort_values(by=["cpf_cnpj", "data"], inplace=True)

    # Função para agrupar dados
    def agrupar_dados(df):
        agg_df = df.groupby("cpf_cnpj").agg({
            "media_atraso": "mean", # Tempo médio de atraso
            "data": ["first", "last"], # data do primeiro e último contrato realizado
            "qtd_parcelas_pagas": "sum", # soma da quantidade de todas as parcelas pagas
            "qtd_parcelas_abertas": "sum",  # soma da quantidade de todas as parcelas abertas
            "valor_da_parcela_aberto": "sum", # soma do valor da parcela mensal dos contratos vigentes
            "valor_principal_total_aberto": "sum", # soma do valor principal total aberto
            "principal_total": "sum", # Soma do valor principal total de todos os contratos
            "creditos_a_vencer": "sum", # Soma dos credito a vencer do cliente considerando todos os contratos
            "creditos_vencidos": "sum", # Soma dos credito vencidos do cliente considerando todos os contratos
            "valor_pago_nr": "sum", # Soma do valor pago dos contratos que não são renegociados
            "valor_principal_total_reneg": "sum", # Soma do valor principal total dos contratos renegociados
            "dias_maior_atraso": "max", # maior dia de atraso
            "dias_maior_atraso_aberto": "max", # maior dia de atraso aberto
            "valor_principal_total_nr": "sum", # Soma do valor principal total dos contratos que não são de reneg
            "data_ultimo_pagamento": "max", # data do último pagamento do cliente
            "qtd_parcelas_pagas_nr": "sum" # soma da quantidade de parcelas pagas de contratos que não são de reneg
        })
        agg_df.columns = [f"{col[1]}_{col[0]}" for col in agg_df.columns]
        return agg_df.reset_index()
    
     # ================== AGREGADOS BASE CARNE E CARTAO ==================
    totais = agrupar_dados(df_agg)

    # Contratos em atraso (>60)
    ultimo_atraso = df_agg[df_agg["dias_maior_atraso"] > 60].groupby("cpf_cnpj")["data"].last().reset_index(name="data_ultimo_atraso")

    # Contratos de reneg aberto
    ultimo_reneg_aberto = df_agg[(df_agg["ind_reneg"] == 1) & (df_agg["saldo_contabil"]>0)].groupby("cpf_cnpj")["data"].last().reset_index(name="data_reneg_aberto")

    # Contratos de reneg
    ultimo_reneg = df_agg[(df_agg["ind_reneg"] == 1)].groupby("cpf_cnpj")["data"].last().reset_index(name="data_ult_reneg")
    
    # ================== BASE CARNE E CARTAO ==================
    # Média de dias entre contratos 
    carne_intervalo = df_consulta_1[~((df_consulta_1["id_agente"] == " 044 SEGURO - KREDILIG (CDC)") | (df_consulta_1["ind_reneg"] == 1))][["cpf_cnpj", "data"]]

    # Média de dias entre contratos (Cartão)
    cartao_intervalo = df_consulta_2[df_consulta_2["ind_reneg"] != 1][["cpf_cnpj", "data_contrato"]]

    combinado_base = pd.concat([
        cartao_intervalo[["cpf_cnpj", "data_contrato"]].rename(columns={"data_contrato": "data"}),
        carne_intervalo[["cpf_cnpj", "data"]]
    ])
    combinado_base.sort_values(by=["cpf_cnpj", "data"], inplace=True)
    combinado_base["data_anterior"] = combinado_base.groupby("cpf_cnpj")["data"].shift()
    combinado_base["dias_entre_contratos"] = (combinado_base["data"] - combinado_base["data_anterior"]).dt.days
    media_meses_combinado = combinado_base.groupby("cpf_cnpj")["dias_entre_contratos"].mean().reset_index(name="media_dias_entre_contratos_combinado")
    media_meses_combinado["media_meses_entre_contratos_combinado"]= media_meses_combinado["media_dias_entre_contratos_combinado"]/30
    media_meses_combinado.drop(columns=["media_dias_entre_contratos_combinado"], inplace=True)

    # Renegociação (combinada)
    carne_intervalo_reneg = df_consulta_1[df_consulta_1["ind_reneg"] == 1][["cpf_cnpj", "data"]]
    carne_intervalo_reneg["data"] = pd.to_datetime(carne_intervalo_reneg["data"])

    reneg_base = pd.concat([
            carne_intervalo_reneg,
            df_consulta_2[df_consulta_2["ind_reneg"] == 1][["cpf_cnpj", "data_contrato"]].rename(columns={"data_contrato": "data"})
        ])
    reneg_base.sort_values(by=["cpf_cnpj", "data"], inplace=True)
    reneg_base["data_anterior"] = reneg_base.groupby("cpf_cnpj")["data"].shift()
    reneg_base["dias_entre_contratos"] = (reneg_base["data"] - reneg_base["data_anterior"]).dt.days
    media_meses_reneg = reneg_base.groupby("cpf_cnpj")["dias_entre_contratos"].mean().reset_index(name="media_dias_entre_contratos_reneg")
    media_meses_reneg["media_meses_entre_contratos_reneg"]= media_meses_reneg["media_dias_entre_contratos_reneg"]/30
    media_meses_reneg.drop(columns=["media_dias_entre_contratos_reneg"], inplace=True)

    # ================== JOIN FINAL ==================
    df_final = df.copy()

    joins = [
        totais, ultimo_atraso,media_meses_combinado, media_meses_reneg,ultimo_reneg_aberto,ultimo_reneg
    ]

    for join_df in joins:
        df_final = df_final.merge(join_df, on="cpf_cnpj", how="left")

    return df_final

In [26]:
# FUNÇÃO 3
def sum_valor_entrada(df, df_consulta_1):
    # Cópia
    df_consulta_1 = df_consulta_1.copy()

    df.columns = df.columns.str.lower()
    df_consulta_1.columns = df_consulta_1.columns.str.lower()

    df_consulta_1.sort_values(by=["cpf_cnpj", "data"], inplace=True)

    # Função para agrupar dados
    total_carne = df_consulta_1.groupby("cpf_cnpj").agg({
            "valor_entrada_nr": "mean", # Soma dos valores de entrada sem considerar contratos de renegociação
            "conceito":"last",
        })

    total_carne.reset_index()
    
    # ================== JOIN FINAL ==================
    df_final = df.copy()

    joins = [total_carne]

    for join_df in joins:
        df_final = df_final.merge(join_df, on="cpf_cnpj", how="left")

    #df_final.fillna(0, inplace=True)

    return df_final

In [27]:
# FUNÇÃO 4 - Auxiliar para identificar de que base veio a informação
def identificador_base(df, df_consulta_1, df_consulta_2):
    # Cópia
    df_consulta_1 = df_consulta_1.copy()
    df_consulta_2 = df_consulta_2.copy()

    df.columns = df.columns.str.lower()
    df_consulta_1.columns = df_consulta_1.columns.str.lower()
    df_consulta_2.columns = df_consulta_2.columns.str.lower()

    df_consulta_1=df_consulta_1[["cpf_cnpj","base_carne"]]
    df_consulta_2=df_consulta_2[["cpf_cnpj","base_cartao"]]

    # Função para agrupar dados
    total_carne = df_consulta_1.groupby("cpf_cnpj").agg({
            "base_carne": "sum", # Soma de quantas vezes o cliente aparece na base carne
        })
    
    total_cartao = df_consulta_2.groupby("cpf_cnpj").agg({
            "base_cartao": "sum", # Soma de quantas vezes o cliente aparece na base cartao
        })

    total_carne.reset_index()
    total_cartao.reset_index()
    
    # ================== JOIN FINAL ==================
    df_final = df.copy()

    joins = [total_carne,total_cartao]

    for join_df in joins:
        df_final = df_final.merge(join_df, on="cpf_cnpj", how="left")

    df_final.base_carne.fillna(0, inplace=True)
    df_final.base_cartao.fillna(0, inplace=True)

    return df_final

## JOIN CARTAO e CONTRATOS

In [28]:
## Join das tabelas
df_final = contar_produtos(df=df_cad, df_consulta_1=df_carne,df_consulta_2=df_cartao)
df_final = var_new(df=df_final, df_consulta_1=df_carne,df_consulta_2=df_cartao)
df_final = sum_valor_entrada(df=df_final, df_consulta_1=df_carne)
df_final = identificador_base(df=df_final, df_consulta_1=df_carne,df_consulta_2=df_cartao)

In [29]:
# Quantidade de contratos total regular de cada cliente
df_final["qtd_contratos_regular"] = (
    df_final[[
        'qtd_total_fechado_emprestimo', 'qtd_total_fechado_financiamento','qtd_total_fechado_reneg_emprestimo','qtd_total_fechado_reneg_financiamento',
        'qtd_total_aberto_emprestimo', 'qtd_total_aberto_financiamento','qtd_total_aberto_reneg_emprestimo','qtd_total_aberto_reneg_financiamento',
    ]].sum(axis=1, skipna=True)
)

# Quantidade de contratos total em atraso de cada cliente mais que 60 dias
df_final["qtd_contratos_atraso"] = df_final[[
    'qtd_em_atraso_fechado_emprestimo','qtd_em_atraso_fechado_financiamento','qtd_em_atraso_fechado_reneg_emprestimo','qtd_em_atraso_fechado_reneg_financiamento',
    'qtd_em_atraso_aberto_emprestimo', 'qtd_em_atraso_aberto_financiamento','qtd_em_atraso_aberto_reneg_emprestimo','qtd_em_atraso_aberto_reneg_financiamento',
]].sum(axis=1, skipna=True)

# Quantidade de contratos total de cada cliente
df_final["qtd_contratos"] = df_final[[
    "qtd_contratos_regular","qtd_contratos_atraso"
]].sum(axis=1, skipna=True)

# Quantidade de contratos total sem reneg de cada cliente
df_final["qtd_contratos_nr"] = df_final[[
    'qtd_total_fechado_emprestimo', 'qtd_total_fechado_financiamento','qtd_total_aberto_emprestimo', 'qtd_total_aberto_financiamento',
    'qtd_em_atraso_fechado_emprestimo','qtd_em_atraso_fechado_financiamento','qtd_em_atraso_aberto_emprestimo', 'qtd_em_atraso_aberto_financiamento'
]].sum(axis=1, skipna=True)

# Indicadores binários para produtos sem considerar os que ficaram em atraso 
df_final["FINANCIAMENTO_regular"] = ((df_final["qtd_total_fechado_financiamento"] > 0) | (df_final["qtd_total_aberto_financiamento"] > 0) |
                                     (df_final["qtd_total_fechado_reneg_financiamento"] > 0) | (df_final["qtd_total_aberto_reneg_financiamento"] > 0)).astype(int)
df_final["EMPRESTIMO_regular"] = ((df_final["qtd_total_fechado_emprestimo"] > 0) | (df_final["qtd_total_aberto_emprestimo"] > 0) |
                                 (df_final["qtd_total_fechado_reneg_emprestimo"] > 0) | (df_final["qtd_total_aberto_reneg_emprestimo"] > 0)).astype(int)
df_final["RENEG_regular"] = (
    (df_final["qtd_total_fechado_reneg_emprestimo"] > 0) | (df_final["qtd_total_fechado_reneg_financiamento"] > 0) |
    (df_final["qtd_total_aberto_reneg_emprestimo"] > 0) | (df_final["qtd_total_aberto_reneg_financiamento"] > 0)
).astype(int)

# Indicadores binários para produtos considerando apenas os que ficaram ou estão em atraso 
df_final["FINANCIAMENTO_atraso"] = ((df_final["qtd_em_atraso_fechado_financiamento"] > 0) | (df_final["qtd_em_atraso_aberto_financiamento"] > 0) |
                                    (df_final["qtd_em_atraso_fechado_reneg_financiamento"] > 0) | (df_final["qtd_em_atraso_aberto_reneg_financiamento"] > 0)).astype(int)
df_final["EMPRESTIMO_atraso"] = ((df_final["qtd_em_atraso_fechado_emprestimo"] > 0) | (df_final["qtd_em_atraso_aberto_emprestimo"] > 0) |
                                 (df_final["qtd_em_atraso_fechado_reneg_emprestimo"] > 0) | (df_final["qtd_em_atraso_aberto_reneg_emprestimo"] > 0) ).astype(int)
df_final["RENEG_atraso"] = (
    (df_final["qtd_em_atraso_fechado_reneg_emprestimo"] > 0) | (df_final["qtd_em_atraso_fechado_reneg_financiamento"] > 0) | 
    (df_final["qtd_em_atraso_aberto_reneg_emprestimo"] > 0) | (df_final["qtd_em_atraso_aberto_reneg_financiamento"] > 0)
).astype(int)

# Indicadores binários para produtos que a pessoa já utilizou ou utiliza
df_final["FINANCIAMENTO"] = ((df_final["FINANCIAMENTO_regular"] > 0) | (df_final["FINANCIAMENTO_atraso"] > 0)).astype(int)
df_final["EMPRESTIMO"] = ((df_final["EMPRESTIMO_regular"] > 0) | (df_final["EMPRESTIMO_atraso"] > 0)).astype(int)
df_final["RENEG"] = ((df_final["RENEG_regular"] > 0) | (df_final["RENEG_atraso"] > 0)).astype(int)

# Indicadores binários para produtos ativos considerando os que estão em atraso
df_final["FINANCIAMENTO_aberto"] = ((df_final["qtd_total_aberto_financiamento"] > 0) | (df_final["qtd_em_atraso_aberto_financiamento"] > 0) |
                                    (df_final["qtd_total_aberto_reneg_financiamento"] > 0) | (df_final["qtd_em_atraso_aberto_reneg_financiamento"] > 0)).astype(int)
df_final["EMPRESTIMO_aberto"] = ((df_final["qtd_total_aberto_emprestimo"] > 0) | (df_final["qtd_em_atraso_aberto_emprestimo"] > 0) |
                                 (df_final["qtd_total_aberto_reneg_emprestimo"] > 0) | (df_final["qtd_em_atraso_aberto_reneg_emprestimo"] > 0)).astype(int)
df_final["RENEG_aberto"] = (
    (df_final["qtd_total_aberto_reneg_emprestimo"] > 0) | (df_final["qtd_total_aberto_reneg_financiamento"] > 0) |
    (df_final["qtd_em_atraso_aberto_reneg_emprestimo"] > 0) | (df_final["qtd_em_atraso_aberto_reneg_financiamento"] > 0)
).astype(int)

# Quantidade de contratos abertos e fechados
df_final["qtd_contratos_aberto_atraso"] = df_final[["qtd_em_atraso_aberto_financiamento", "qtd_em_atraso_aberto_emprestimo"]].sum(axis=1, skipna=True)
df_final["qtd_contratos_aberto_regular"] = df_final[["qtd_total_aberto_financiamento", "qtd_total_aberto_emprestimo"]].sum(axis=1, skipna=True)
df_final["qtd_contratos_fechado_atraso"] = df_final[["qtd_em_atraso_fechado_financiamento", "qtd_em_atraso_fechado_emprestimo"]].sum(axis=1, skipna=True)
df_final["qtd_contratos_fechado_regular"] = df_final[["qtd_total_fechado_financiamento", "qtd_total_fechado_emprestimo"]].sum(axis=1, skipna=True)
df_final["qtd_reneg_aberto_atraso"] = df_final[["qtd_em_atraso_aberto_reneg_financiamento", "qtd_em_atraso_aberto_reneg_emprestimo"]].sum(axis=1, skipna=True)
df_final["qtd_reneg_aberto_regular"] = df_final[["qtd_total_aberto_reneg_financiamento", "qtd_total_aberto_reneg_emprestimo"]].sum(axis=1, skipna=True)
df_final["qtd_reneg_fechado_atraso"] = df_final[["qtd_em_atraso_fechado_reneg_financiamento", "qtd_em_atraso_fechado_reneg_emprestimo"]].sum(axis=1, skipna=True)
df_final["qtd_reneg_fechado_regular"] = df_final[["qtd_total_fechado_reneg_financiamento", "qtd_total_fechado_reneg_emprestimo"]].sum(axis=1, skipna=True)

# soma dos valores das parcelas mensais dos contratos abertos
df_final["valor_da_parcela_aberto"] = df_final[["sum_valor_da_parcela_aberto"]].sum(axis=1, skipna=True)

# soma do valores do principal total em aberto
df_final["principal_total_aberto"] = df_final[["sum_valor_principal_total_aberto"]].sum(axis=1, skipna=True)

# soma do principal total já adquirido pelo cliente menos o valor principal total em aberto
df_final["principal_total_fechado"] = (df_final[["sum_principal_total"]].sum(axis=1, skipna=True) 
                                       - df_final[["sum_valor_principal_total_aberto"]].sum(axis=1, skipna=True))

# Soma da quantidade de parcelas pagas pelo cliente
df_final["qtd_parcelas_pagas"] = df_final[["sum_qtd_parcelas_pagas"]].sum(axis=1, skipna=True)

# Soma da quantidade de parcelas pagas pelo cliente
df_final["qtd_parcelas_pagas_nr"] = df_final[["sum_qtd_parcelas_pagas_nr"]].sum(axis=1, skipna=True)

# Soma da quantidade de parcelas que estão em aberto para cada cliente
df_final["qtd_parcelas_aberta"] = df_final[["sum_qtd_parcelas_abertas"]].sum(axis=1, skipna=True)

# Soma de todos os créditos a vencer
df_final["creditos_a_vencer"] = df_final[["sum_creditos_a_vencer"]].sum(axis=1, skipna=True)

# Soma de todos os créditos vencidos
df_final["creditos_vencidos"] = df_final[["sum_creditos_vencidos"]].sum(axis=1, skipna=True)

# soma dos valores pagos dos contratos que não são renegociados
df_final["valor_pago_nr"] = df_final[["sum_valor_pago_nr"]].sum(axis=1, skipna=True)

# soma do valor principal total dos contratos renegociados
df_final["valor_principal_total_reneg"] = df_final[["sum_valor_principal_total_reneg"]].sum(axis=1, skipna=True)

# soma do valor principal total dos contratos que não são reneg
df_final["valor_principal_total_nr"] = df_final[["sum_valor_principal_total_nr"]].sum(axis=1, skipna=True)

# Amortização
df_final["amortizacao"]=(df_final["valor_pago_nr"].fillna(0)-df_final["valor_principal_total_reneg"].fillna(0))

#### media do valor de entrada por qtd de contratos carne sem considerar reneg
df_final["FIN_valor_medio_entrada_nr"] = df_final["valor_entrada_nr"].fillna(0)/(df_final[['qtd_total_fechado_financiamento','qtd_total_aberto_financiamento',"qtd_em_atraso_fechado_financiamento","qtd_em_atraso_aberto_financiamento"]]).sum(axis=1, skipna=True)


# Regra: se carne_valor_entrada_nr é nulo e valor_entrada_nr é zero considerar 0, caso contrário, considerar a media do valor de entrada por contrato ou nulo que siginifca que a pessoa nunca utilizou o financiamento
df_final["FIN_valor_medio_entrada_nr"] = np.where(
    (df_final["FIN_valor_medio_entrada_nr"].isna()) & (df_final["valor_entrada_nr"]==0),
    0,
    df_final["FIN_valor_medio_entrada_nr"]
)

# média de atraso em dias CARTAO + CARNE
df_final["media_atraso_dias"] = df_final[["mean_media_atraso"]].mean(axis=1, skipna=True).fillna(0)

# dias maior atraso CARTAO + CARNE
df_final["dias_maior_atraso"]= df_final[["max_dias_maior_atraso"]].max(axis=1, skipna=True).fillna(0)

# dias maior atraso CARTAO + CARNE aberto
df_final["dias_maior_atraso_aberto"]= df_final[["max_dias_maior_atraso_aberto"]].max(axis=1, skipna=True).fillna(0)

# Flag de inadimplência ou renegociação
df_final["inad_e_reneg"] = np.where(
    (df_final["qtd_reneg_aberto_atraso"] > 0) |
    (df_final["qtd_reneg_aberto_regular"] > 0)|
    (df_final["dias_maior_atraso_aberto"] > 60),
    "SIM", "NAO"
)
df_final["inad_e_reneg"]=df_final["inad_e_reneg"].astype("category")

# Flag de inadimplência
df_final["inad"] = np.where(
    (df_final["dias_maior_atraso_aberto"] > 60),
    "SIM", "NAO"
)
df_final["inad"]=df_final["inad"].astype("category")

# produtos diferentes q já utilizou ou utiliza
# Variável auxiliar para media_dias_entre_contratos_combinado
cond1 = [
    (df_final["EMPRESTIMO"] == 1) & (df_final["FINANCIAMENTO"] == 0),
    (df_final["EMPRESTIMO"] == 0) & (df_final["FINANCIAMENTO"] == 1),
    (df_final["EMPRESTIMO"] == 1) & (df_final["FINANCIAMENTO"] == 1),
    (df_final["EMPRESTIMO"] == 0) & (df_final["FINANCIAMENTO"] == 0),
]

class1 = [
    "EMPRESTIMO",
    "FINANCIAMENTO",
    "EMPRESTIMO/FINANCIAMENTO",
    "NENHUM"
]

df_final["produtos"] = np.select(cond1, class1, default="SEM_CLASSIFICACAO")
df_final["produtos"]=df_final["produtos"].astype("category")


# produtos diferente ativos
# Variável auxiliar para media_dias_entre_contratos_combinado
cond2 = [
    (df_final["EMPRESTIMO_aberto"] == 1) & (df_final["FINANCIAMENTO_aberto"] == 0),
    (df_final["EMPRESTIMO_aberto"] == 0) & (df_final["FINANCIAMENTO_aberto"] == 1),
    (df_final["EMPRESTIMO_aberto"] == 1) & (df_final["FINANCIAMENTO_aberto"] == 1),
    (df_final["EMPRESTIMO_aberto"] == 0) & (df_final["FINANCIAMENTO_aberto"] == 0),
]

class2 = [
    "EMPRESTIMO",
    "FINANCIAMENTO",
    "EMPRESTIMO/FINANCIAMENTO",
    "NENHUM"
]

df_final["produtos_ativos"] = np.select(cond2, class2, default="SEM_CLASSIFICACAO")
df_final["produtos_ativos"]=df_final["produtos_ativos"].astype("category")

#### Contar contratos pagos a vista 
contagem_avista=df_cartao[(df_cartao["tipo_operacao"] == "AVISTA") & (df_cartao["dias_maior_atraso"] <=60) & (df_cartao["saldo_contabil"]==0)].groupby(["cpf_cnpj"]).size()
contagem_avista = contagem_avista.reset_index(name="qtd_total_fechado_a_vista")
df_final = df_final.merge(contagem_avista, on="cpf_cnpj", how="left")
df_final["qtd_total_fechado_a_vista"] = df_final["qtd_total_fechado_a_vista"].fillna(0)

# indentificador de base
cond3 = [
    (df_final["base_carne"] > 0) & (df_final["base_cartao"] == 0),
    (df_final["base_carne"] == 0) & (df_final["base_cartao"] > 0),
    (df_final["base_carne"] > 0) & (df_final["base_cartao"] > 0),
    (df_final["base_carne"] == 0) & (df_final["base_cartao"] == 0),
]

class3 = [
    "base_carne",
    "base_cartao",
    "base_carne/base_cartao",
    "nenhum"
]

df_final["id_base"] = np.select(cond3, class3, default="sem_classificacao")
df_final["id_base"]=df_final["id_base"].astype("category")

In [30]:
# Datas
df_final["data_ultimo_contrato"] = df_final[["last_data"]].max(axis=1)# pegando a data de maior operação entre os contratos Carne e Cartao
df_final["data_primeiro_contrato"] = df_final[["first_data"]].min(axis=1)# pegando a data de menor operação entre os contratos Carne e Cartao
df_final["ultimo_dia_fechamento"] = pd.to_datetime(df_final["data_movimento"]).dt.to_period("M").dt.to_timestamp("M")# coluna com o ultimo dia do mes de fechamento para o calculo 
df_final["max_data_ultimo_pagamento"]=np.where(
    (df_final["max_data_ultimo_pagamento"].isnull()),
    df_final["data_ultimo_contrato"], df_final["max_data_ultimo_pagamento"]
)

# Tempo em meses desde a ultima operação arredondado
df_final["meses_ultimo_pagamento"] = ((
    df_final["ultimo_dia_fechamento"] - df_final["max_data_ultimo_pagamento"]
).dt.days / 30).round(0)

df_final["meses_ultimo_pagamento"] = df_final["meses_ultimo_pagamento"].apply(lambda x: 0 if x <= 0 else x)


# Tempo em meses entre a primeira e ultima operação - Aqui vale fazer o cálculo com o último pagamento
df_final["meses_entre_primeiro_e_ultimo_pagamento"] = ((
    df_final["max_data_ultimo_pagamento"] - df_final["data_primeiro_contrato"]
).dt.days / 30).round(0) 
df_final["meses_entre_primeiro_e_ultimo_pagamento"] = df_final["meses_entre_primeiro_e_ultimo_pagamento"].apply(lambda x: 0 if x <= 0 else x)

df_final["meses_entre_primeiro_e_ultimo_fechamento"] = ((
    df_final["ultimo_dia_fechamento"] - df_final["data_primeiro_contrato"]
).dt.days / 30 ).round(0) 
df_final["meses_entre_primeiro_e_ultimo_fechamento"] = df_final["meses_entre_primeiro_e_ultimo_fechamento"].apply(lambda x: 0 if x <= 0 else x)


# Tempo em meses desde o ultimo atraso >= 60 dias
# pegando a data de maior operação entre os contratos atraso >= 60 Carne e Cartao
df_final["data_ultimo_atraso"] = df_final[["data_ultimo_atraso"]].max(axis=1) 
df_final["tempo_ultimo_atraso_meses"] = ((
    df_final["ultimo_dia_fechamento"] - df_final["data_ultimo_atraso"]
).dt.days / 30 ).round(0) 
df_final["tempo_ultimo_atraso_meses"] = df_final["tempo_ultimo_atraso_meses"].apply(lambda x: 0 if x <= 0 else x)

# Tempo em meses de relacionamento
df_final["tempo_relacionamento_kredilig_meses"] = (df_final["tempo_relacionamento_kredilig"] / 30).round(0) 

In [31]:
# Risco de Atraso
df_final["ratio_contratos_atraso"] = np.where((df_final["qtd_contratos_regular"]+df_final["qtd_contratos_atraso"]) > 0,
                                          df_final["qtd_contratos_atraso"] /(df_final["qtd_contratos_regular"] + df_final["qtd_contratos_atraso"]),
                                          df_final["qtd_contratos_atraso"])

# Frequência de Atrasos 
df_final["freq_atraso"] = np.where(df_final["qtd_parcelas_pagas"]>0,
                                                  (df_final["media_atraso_dias"] / df_final["qtd_parcelas_pagas"]),
                                                  df_final["media_atraso_dias"])

# Exposição Atual vs Passada
df_final["exposicao_ratio"] = np.where(df_final["sum_principal_total"]>0,
                                                  (df_final["principal_total_aberto"] / df_final["sum_principal_total"]),
                                                  df_final["principal_total_aberto"])

# Estabilidade do Relacionamento
df_final["indice_instabilidade"] = np.where((df_final["qtd_contratos_aberto_regular"] + df_final["qtd_contratos_fechado_regular"])>0,
                                                  (df_final["tempo_relacionamento_kredilig_meses"] / (df_final["qtd_contratos_aberto_regular"] + df_final["qtd_contratos_fechado_regular"])),
                                                  df_final["tempo_relacionamento_kredilig_meses"])

# Regularidade
df_final["indice_regularidade"] = np.where((df_final["qtd_contratos_regular"] + df_final["qtd_contratos_atraso"]) > 0,
                                          df_final["qtd_contratos_regular"] /(df_final["qtd_contratos_regular"] + df_final["qtd_contratos_atraso"]),
                                          df_final["qtd_contratos_regular"])

# data da ultima renegociação
df_final["tempo_ultimo_reneg_meses"] = ((
    df_final["ultimo_dia_fechamento"] - df_final["data_ult_reneg"]
).dt.days / 30 ).round(0) 
df_final["tempo_ultimo_reneg_meses"] = df_final["tempo_ultimo_reneg_meses"].apply(lambda x: 0 if x <= 0 else x)

# proporção de contratos renegociados
df_final["prop_reneg"] =np.where((df_final["qtd_contratos"]) > 0,
                                 (df_final["qtd_contratos"] - df_final["qtd_contratos_nr"]) / (df_final["qtd_contratos"]),
                                 (df_final["qtd_contratos"] - df_final["qtd_contratos_nr"]))

# valor renegociado sobre exposição total
df_final["reneg_severity"] = np.where((df_final["sum_principal_total"]) > 0,
                                 df_final["valor_principal_total_reneg"] / (df_final["sum_principal_total"]),
                                 df_final["valor_principal_total_reneg"])

# razão renegociados / liquidados (quanto >1, mais prefere renegociar)
df_final["reneg_vs_liq_ratio"] = np.where(df_final["qtd_contratos_fechado_regular"] > 0,
                                          (df_final["qtd_contratos"] - df_final["qtd_contratos_nr"]) / (df_final["qtd_contratos_fechado_regular"]),
                                          (df_final["qtd_contratos"] - df_final["qtd_contratos_nr"]))

half_life = 180  # 6 meses
df_final["reneg_vs_liq_ratio_ponderado"] = np.where((df_final["qtd_contratos_fechado_regular"]) > 0,
                                                    (((df_final["qtd_contratos"] - df_final["qtd_contratos_nr"]) * 
                                                      np.exp(-df_final["tempo_ultimo_reneg_meses"].fillna(1e9) / half_life))
                                                      / (df_final["qtd_contratos_fechado_regular"] + 1e-9)),
                                                      ((df_final["qtd_contratos"] - df_final["qtd_contratos_nr"]) * np.exp(-df_final["tempo_ultimo_reneg_meses"].fillna(1e9) / half_life)))

## Excluir campos

In [32]:
# Drop de colunas que não serão mais utilizadas
colunas_para_remover = [
"ano_mes_movimento","uf_nascimento","cidade_nascimento",

'qtd_total_fechado_emprestimo', 'qtd_total_fechado_financiamento','qtd_total_fechado_reneg_emprestimo','qtd_total_fechado_reneg_financiamento',
'qtd_em_atraso_fechado_emprestimo','qtd_em_atraso_fechado_financiamento','qtd_em_atraso_fechado_reneg_emprestimo','qtd_em_atraso_fechado_reneg_financiamento',
'qtd_total_aberto_emprestimo', 'qtd_total_aberto_financiamento','qtd_total_aberto_reneg_emprestimo','qtd_total_aberto_reneg_financiamento',
'qtd_em_atraso_aberto_emprestimo', 'qtd_em_atraso_aberto_financiamento','qtd_em_atraso_aberto_reneg_emprestimo','qtd_em_atraso_aberto_reneg_financiamento', 

"EMPRESTIMO_aberto", "FINANCIAMENTO_aberto",     

'mean_media_atraso','first_data', 'last_data', 'sum_qtd_parcelas_pagas','sum_qtd_parcelas_abertas', 'sum_valor_da_parcela_aberto',
'sum_valor_principal_total_aberto', 'sum_principal_total','sum_creditos_a_vencer', 'sum_creditos_vencidos', 'sum_valor_pago_nr',
'sum_valor_principal_total_reneg', 'max_dias_maior_atraso',"max_dias_maior_atraso_aberto",'sum_valor_principal_total_nr', 'data_ultimo_atraso', 
"sum_qtd_parcelas_pagas_nr",

"base_carne","base_cartao","valor_entrada_nr","qtd_de_contratos_nr_basecarne","tempo_relacionamento_kredilig"
]

df_final.drop(columns=[col for col in colunas_para_remover if col in df_final.columns], inplace=True)

## Renda CAGED

In [33]:
# Tabela de Rendas por profissões
import unicodedata # Tirar acentos das profissões

# Função para remover acentos
def remover_acentos(texto):
    if isinstance(texto, str):
        return ''.join(
            c for c in unicodedata.normalize('NFKD', texto)
            if not unicodedata.combining(c)
        )
    return texto

caminho= r"C:\Users\fernando.monteiro\deep-torch-example\KAB\Dados\Behavior\app\data\input\Nova_Renda_salarios_caged_2025.xlsx"
df_renda = pd.read_excel(
    caminho, sheet_name="entrar_python"
)

# Dicionário com mapeamentos
mapeamento = {
        "TÉCNICO DE INFORMÁTICA":"TECNICODE INFORMATICA",
        "TÉCNICO EM RADIOLOGIA E IMAGEM":"TECNICO EM RADIOLOGIA E IMAGENOLOGIA",
        "COSTUREIRA ROUPAS COURO. PELE. MAQCONFER":"COSTROUPAS COURO. PELE. MAQCONFER",
        "MOTOCICLISTA. MOTOBOY. MOTOTAXISTA":"MOTOCICLISTA. MOTO-BOY. MOTO-TAXISTA",
        "PROFESSOR DE EDUCAÇÃO ENSINO FUNDAM(1A-4ASERIE)":"PROFESEDUCENSINO FUNDAM(1A-4ASERIE)",
        "AGENTE DE SEGURANÇA PENITENCIARIA - CARCEREIRO":"AGENTE DE SEGURANCA PENITENCIARIA - CARCEIREIRO",
        "SUPERVISOR DE DESENVOLVIMENTO DE SISTEMAS DA INFORMAÇÃO":"SUPERVISOR DE DESENVOLVIMENTO DE SISTEMAS DA INF",
        "COBRADOR TRANSPORTE COLETIVOS(EXCETO TREM)":"COBRADOR TRANSPCOLETIVOS(EXCETO TREM)",
        "TECNDESPORTO INDIV./COLET(EXCFUTEBOL)":"TECNDESPORTO INDIV/COLET(EXCFUTEBOL)",
        "CAMINHONEIRO AUTONÔMO(ROTAS REGINTERNAC)":"CAMINHAUTONOMO(ROTAS REGINTERNAC)",
        "GERENTE DE LOGÍSTICA (ARMAZÉM E DISTR)":"GERENTE DE LOGISTICA (ARMAZEN E DISTR)",
        "REPARADOR APARELHO ELETRÔNICOS E TELECOMUNIÇÃO":"REPARADOR APAREL ELETRONICOS E TELECOMUN",
        "AUXILIAR LABORATÓRIO ANALISES FÍSICO-QUIM":"AUXLABORATORIO ANALISES FISICO-QUIM",
        "ANALISTA CREDITO (Instituições Financeiras)":"ANALISTA CREDITO",
        "ANALISTA DE COBRANÇA (Instituições Financeiras)":"ANALISTA COBRANCA",
        "AUXILIAR RADIOLÓGIA E OPERADOR RX":"AUXRADIOLOGIA E OPERADOR RX",
        "OFICIAL DA POLICIA MILITAR":"OFICIAL DA POLICIA MITITAR",
        "CRIADOR DE CAMARÕES MEXILHÕES. OSTRAS. PEIXES":"CRIADOR DE CAMAROES.MEXILHOES. OSTRAS. PEIXES",
        "SALGADOR DE ALIMENTOS":"SALGADOR DE ALIMENTOS",
        "GERENTE DE PROJETOS DE TÉCNOLOGIA INFORMAÇÃO":"GERENTE DE PROJETOS DE TECNOLINFORMACAO",
        "SUPERVISOR TESOURARIA FINANCEIRO":"SUPERVISOR TESOURARIA FINANC",
        "GERENTE DE PRODUÇÃO DE TÉCNOLOGIA DA INFORMAÇÃO":"GERENTE DE PRODDE TECNOL DA INFORMACAO",
        "OPERADOR DE EQUIPAMENTOS MÉDICOS":"OPERADOR DE EQUIP MEDICOS",
        "CINEGRAFISTA":"CINEFRAFISTA",
        "CONFECCIONADOR DE INSTRUMENTOS":"CONFECCIONADORDE INSTRUMENTOS",
        "TÉCNICO MANUTENÇÃO INSTRUMENTO MEDIÇÃO. PRECISÃO":"TECMANUTINSTRUMMEDICAO. PRECISAO",
        "MARTELEIRO":"MARTELETEIRO",
        "TÉCNICO MANUTENÇÃO EQUIPAMENTO INSTRUMENTO MÉDICO-HOSPIT":"TECMANUTEQUIPINSTRUMMEDICO-HOSPIT",
        "SALSICHA(FABRICAÇÃO LINGUIÇA SALSICHA. PROXIMAL)":"SALSIC(FABRICLINGSALSICHA. PRODIMIL)",
}

df_renda['cargo'] = df_renda['cargo'].replace(mapeamento)

df_renda['cargo_sem_acento'] = df_renda['cargo'].apply(remover_acentos)
df_renda['cargo_sem_acento'] = df_renda['cargo_sem_acento'].str.strip()
df_renda = df_renda.rename(columns={'cargo_sem_acento': 'profissao'})
df_renda=df_renda[['profissao','CAGED']]
df_renda['CAGED'] = pd.to_numeric(df_renda['CAGED'], errors='coerce')

# Join do df_final com a tabela de rendas
df_renda['profissao'] = df_renda['profissao'].str.strip()
df_final = df_final.merge(df_renda, on="profissao", how="left")

In [34]:
# Regra 1: dividir por 100 renda valida maior que 30mil
df_final["renda_valida_new"] = np.where(
    (df_final["renda_valida"] > 30000),
    df_final["renda_valida"] / 100,
    df_final["renda_valida"])

# Regra 2: Considerar o menor valor entre a renda valida e a renda digitada - para renda valida entre 10mil e 30mil
df_final["renda_valida_new"] = np.where(
    ((df_final["renda_valida"] >= 10000) & (df_final["renda_valida"] <= 30000)),
    df_final[["renda_digitada","renda_valida"]].min(axis=1, skipna=True),
    df_final["renda_valida_new"])

# Regra 3: Se a renda Valida for igual a zero tras a renda CAGED se não mantem a mesmo valor de renda
df_final["renda_valida_new"] = np.where(
    (df_final["renda_valida"] == 0),
    df_final["CAGED"],
    df_final["renda_valida_new"])

# Regra 4: Se a renda CAGED for maior que a renda válida, considera a renda CAGED, caso contrário, mantêm o mesmo valor VALIDAR
df_final["renda_valida_new"] = df_final[["renda_valida_new","CAGED"]].max(axis=1, skipna=True)

In [35]:
# renda comprometida - imputação dessa variável pode ser feita como o valor da parcela e a renda imputada
df_final["renda_comprometida"] = np.where(
    df_final["renda_valida_new"].notna() & (df_final["renda_valida_new"] != 0),
    np.round((df_final["valor_da_parcela_aberto"].fillna(0) / df_final["renda_valida_new"]) * 100, 2),
    np.nan
)

## Último Limite

In [36]:
caminho = r"C:\Users\fernando.monteiro\deep-torch-example\KAB\Dados\Behavior\app\data\input\Último Mês Limite Total Não Zerado.csv"
df_limite_ult = pd.read_csv(
    caminho, sep=";"
)

In [37]:
df_limite_ult=df_limite_ult[["Cliente CPF","Limite Total","Limite Saque","Limite À vista","Limite Parcelado Mensal"]]
df_limite_ult=df_limite_ult.rename(columns={"Cliente CPF":"cpf_cnpj",
                                            "Limite Total":"limite_total_ultimo_mes",
                                            "Limite Saque":"Limite_saque_ultimo_mes",
                                            "Limite À vista":"Limite_a_vista_ultimo_mes",
                                            "Limite Parcelado Mensal":"Limite_parcelado_mensal_ultimo_mes"
                                            })

In [38]:
df_final = df_final.merge(df_limite_ult, on="cpf_cnpj", how="left")

## Região

In [39]:
df_rg=pd.read_csv(r"C:\Users\fernando.monteiro\deep-torch-example\KAB\Dados\Behavior\app\data\input\Base_Microregiao.csv", sep=";", header=0, index_col=None)

In [40]:
df_rg=df_rg.rename(columns={"NM_MUN_S_ACENTO": "cidade_residencia","SIGLA_UF":"uf_residencia"}).copy()

In [41]:
df_final = df_final.merge(df_rg, on=["uf_residencia","cidade_residencia"], how="inner")

In [42]:
# Dicionário de mapeamento UF -> Região
mapa_regioes = {
    # Norte
    "AC": "Norte_Centro", "AP": "Norte_Centro", "AM": "Norte_Centro", "PA": "Norte_Centro",
    "RO": "Norte_Centro", "RR": "Norte_Centro", "TO": "Norte_Centro",

    # Nordeste
    "AL": "Norte_Centro", "BA": "Norte_Centro", "CE": "Norte_Centro", "MA": "Norte_Centro",
    "PB": "Norte_Centro", "PE": "Norte_Centro", "PI": "Norte_Centro", "RN": "Norte_Centro",
    "SE": "Norte_Centro",

    # Centro-Oeste
    "DF": "Norte_Centro", "GO": "Norte_Centro", "MT": "Norte_Centro", "MS": "Norte_Centro",

    # Sudeste
    "ES": "Sudeste", "MG": "Sudeste", "RJ": "Sudeste", "SP": "Sudeste",

    # Sul
    "PR": "Sul", "RS": "Sul", "SC": "Sul"
}

# Criar nova coluna de região
df_final["REGIAO"] = df_final["uf_residencia"].map(mapa_regioes)

In [43]:
df_final["REGIAO_NOVO"]=np.where(df_final["uf_residencia"]=="SC",
                                 df_final["NM_MESO"],
                                 df_final["REGIAO"])

## Filtro - Clientes com e sem histórico

In [44]:
# Filtro dos clientes com histórico de cobrança e fraude
conceito_filt = [
    "50","51","52","58","92","63","64"
]
df_clientes_BK_HC = df_final[(df_final["blacklist"]=="SIM") | 
                              (df_final["historico_cobranca"].notnull()) |
                              (df_final["conceito"].isin(conceito_filt))]

# Filtro dos clientes com histórico de contratos
df_clientes_historico = df_final[(df_final["qtd_contratos_regular"] > 0) | (df_final["qtd_contratos_atraso"] > 0)]
df_clientes_historico = df_clientes_historico[~((df_final["blacklist"]=="SIM") | 
                              (df_final["historico_cobranca"].notnull()) |
                              (df_final["conceito"].isin(conceito_filt)))]

# Filtro dos clientes sem histórico de contratos
df_clientes_sem_historico = df_final[(df_final["qtd_contratos_regular"] == 0) & (df_final["qtd_contratos_atraso"] == 0)]
df_clientes_sem_historico = df_clientes_sem_historico[~((df_final["blacklist"]=="SIM") | 
                              (df_final["historico_cobranca"].notnull()) |
                              (df_final["conceito"].isin(conceito_filt)))]

# Contagem 
total_BK_HC = len(df_clientes_BK_HC)
total_sem_historico = len(df_clientes_sem_historico)
total_historico = len(df_clientes_historico)
print(f"Número de clientes na Black List ou com histórico de cobrança : {total_BK_HC}")
print(f"Número de clientes com histórico: {total_historico}")
print(f"Número de clientes sem histórico: {total_sem_historico}")

Número de clientes na Black List ou com histórico de cobrança : 9956
Número de clientes com histórico: 497497
Número de clientes sem histórico: 50099


In [45]:
#df_clientes_sem_historico.to_csv(f"clientes_sem_historico_{mov}.csv", index=False)
df_clientes_sem_historico.to_parquet(rf"C:\Users\fernando.monteiro\deep-torch-example\KAB\Dados\Behavior\app\data\output\clientes_sem_historico_{mov}.parquet")
#df_clientes_BK_HC.to_csv(f"clientes_blacklist_cobranca_{mov}.csv", index=False)
df_clientes_BK_HC.to_parquet(rf"C:\Users\fernando.monteiro\deep-torch-example\KAB\Dados\Behavior\app\data\output\clientes_blacklist_cobranca_{mov}.parquet")

In [46]:
df_clientes_historico["fx_score"]=pd.qcut(df_clientes_historico.score,q=20)

In [47]:
# Variáveis que não foram selecionadas 30
'''['renda_digitada','renda_valida','cidade_residencia','blacklist','data_abertura_conta','score','origem_score','limite_a_vista_utilizado',
 'limite_saque_utilizado','limite_mensal_utilizado','limite_total_disponivel','limite_a_vista_disponivel','limite_saque_disponivel',
 'limite_mensal_disponivel','origem_alteracao_limite','historico_alteracao','historico_cobranca','max_data_ultimo_pagamento','conceito',
 'FINANCIAMENTO_regular','EMPRESTIMO_regular','RENEG_regular','data_ultimo_contrato','data_primeiro_contrato','ultimo_dia_fechamento',
 'tempo_relacionamento_kredilig_meses','CAGED','NM_MESO','NM_MICRO','REGIAO']'''

"['renda_digitada','renda_valida','cidade_residencia','blacklist','data_abertura_conta','score','origem_score','limite_a_vista_utilizado',\n 'limite_saque_utilizado','limite_mensal_utilizado','limite_total_disponivel','limite_a_vista_disponivel','limite_saque_disponivel',\n 'limite_mensal_disponivel','origem_alteracao_limite','historico_alteracao','historico_cobranca','max_data_ultimo_pagamento','conceito',\n 'FINANCIAMENTO_regular','EMPRESTIMO_regular','RENEG_regular','data_ultimo_contrato','data_primeiro_contrato','ultimo_dia_fechamento',\n 'tempo_relacionamento_kredilig_meses','CAGED','NM_MESO','NM_MICRO','REGIAO']"

In [48]:
# Selecão de variáveis
df_select=df_clientes_historico[[
"cpf_cnpj","sexo","idade","estado_civil","grau_escolaridade","natureza_ocupacao","profissao",
"nacionalidade","uf_residencia","filial","tempo_relacionamento_kredilig_meses","tempo_inatividade_conta_cartao","tempo_inatividade_conta_carne",
"situacao_conta","motivo_situacao_conta","canal_origem","situacao_fatura",
"limite_total","limite_total_utilizado","data_ultima_alteracao_limite",
"media_meses_entre_contratos_combinado",
"media_meses_entre_contratos_reneg",
"qtd_contratos_regular",
'FINANCIAMENTO_atraso', 'EMPRESTIMO_atraso', 'RENEG_atraso','FINANCIAMENTO', 'EMPRESTIMO', 'RENEG',
"qtd_contratos_atraso",
"qtd_contratos_aberto_atraso",
"qtd_contratos_aberto_regular",
"qtd_contratos_fechado_atraso",
"qtd_contratos_fechado_regular",
"qtd_reneg_aberto_atraso",
"qtd_reneg_aberto_regular",
"qtd_reneg_fechado_atraso",
"qtd_reneg_fechado_regular",
"valor_da_parcela_aberto",
"principal_total_aberto",
"principal_total_fechado",
"qtd_parcelas_pagas",
"qtd_parcelas_aberta",
"creditos_a_vencer",
"creditos_vencidos",
"media_atraso_dias",
"inad_e_reneg",
"inad",
'RENEG_aberto',
"meses_ultimo_pagamento","meses_entre_primeiro_e_ultimo_pagamento","meses_entre_primeiro_e_ultimo_fechamento","tempo_ultimo_atraso_meses",
"valor_pago_nr","valor_principal_total_reneg","valor_principal_total_nr", "FIN_valor_medio_entrada_nr", "id_base",
"produtos_ativos","dias_maior_atraso",'renda_valida_new', 'renda_comprometida', "amortizacao",'produtos',
"qtd_total_fechado_a_vista","qtd_contratos", 
"limite_total_ultimo_mes", 
"nivel_de_risco","fx_score","REGIAO_NOVO","dias_maior_atraso_aberto", "data_reneg_aberto", "qtd_contratos_nr",
"qtd_parcelas_pagas_nr",
'ratio_contratos_atraso',
'freq_atraso',
'exposicao_ratio',
'indice_instabilidade',
'indice_regularidade',
'tempo_ultimo_reneg_meses',
'prop_reneg',
'reneg_severity',
'reneg_vs_liq_ratio',
"reneg_vs_liq_ratio_ponderado",
"limite_a_vista","limite_saque","limite_mensal","Limite_saque_ultimo_mes","Limite_a_vista_ultimo_mes","Limite_parcelado_mensal_ultimo_mes",
"data_movimento"
#"conceito","blacklist","historico_cobranca"
]].copy()

In [49]:
df_select["profissao"]=df_select["profissao"].astype("category")
df_select["qtd_contratos_regular"]=df_select["qtd_contratos_regular"].astype("int64")
df_select["qtd_contratos"]=df_select["qtd_contratos"].astype("int64")
df_select["qtd_contratos_nr"]=df_select["qtd_contratos_nr"].astype("int64")
df_select["qtd_contratos_atraso"]=df_select["qtd_contratos_atraso"].astype("int64")
df_select["qtd_contratos_aberto_atraso"]=df_select["qtd_contratos_aberto_atraso"].astype("int64")
df_select["qtd_contratos_aberto_regular"]=df_select["qtd_contratos_aberto_regular"].astype("int64")
df_select["qtd_contratos_fechado_atraso"]=df_select["qtd_contratos_fechado_atraso"].astype("int64")
df_select["qtd_contratos_fechado_regular"]=df_select["qtd_contratos_fechado_regular"].astype("int64")
df_select["qtd_reneg_aberto_atraso"]=df_select["qtd_reneg_aberto_atraso"].astype("int64")
df_select["qtd_reneg_fechado_atraso"]=df_select["qtd_reneg_fechado_atraso"].astype("int64")
df_select["qtd_reneg_fechado_regular"]=df_select["qtd_reneg_fechado_regular"].astype("int64")
df_select["qtd_reneg_aberto_regular"]=df_select["qtd_reneg_aberto_regular"].astype("int64")
df_select["qtd_parcelas_pagas"]=df_select["qtd_parcelas_pagas"].astype("int64")
df_select["qtd_parcelas_aberta"]=df_select["qtd_parcelas_aberta"].astype("int64")
df_select["qtd_total_fechado_a_vista"]=df_select["qtd_total_fechado_a_vista"].astype("int64")
df_select["dias_maior_atraso"]=df_select["dias_maior_atraso"].astype("int64")
df_select["dias_maior_atraso_aberto"]=df_select["dias_maior_atraso_aberto"].astype("int64")
df_select["fx_score"]=df_select["fx_score"].astype("str")
df_select["nivel_de_risco"]=df_select["nivel_de_risco"].astype("category")
df_select["REGIAO_NOVO"]=df_select["REGIAO_NOVO"].astype("category")
df_select["qtd_parcelas_pagas_nr"]=df_select["qtd_parcelas_pagas_nr"].astype("int64")
df_select["uf_residencia"]=df_select["uf_residencia"].astype("category")
df_select["tempo_relacionamento_kredilig_meses"]=df_select["tempo_relacionamento_kredilig_meses"].astype("int64")
df_select["meses_ultimo_pagamento"]=df_select["meses_ultimo_pagamento"].astype("int64")
df_select["meses_entre_primeiro_e_ultimo_pagamento"]=df_select["meses_entre_primeiro_e_ultimo_pagamento"].astype("int64")
df_select["meses_entre_primeiro_e_ultimo_fechamento"]=df_select["meses_entre_primeiro_e_ultimo_fechamento"].astype("int64")

In [50]:
df=df_select.copy()

# Behavior

## Filtro tempo de relacionamento

In [51]:
# categoria_relacionamento
df["categoria_relacionamento"]= np.where(
    (df["tempo_relacionamento_kredilig_meses"] < 12),
    "Recente", "Behavior")
df["categoria_relacionamento"]=df["categoria_relacionamento"].astype("category")

In [52]:
# Filtro por categoria de relacionamento
df_behavior=df[df["categoria_relacionamento"]=="Behavior"].copy()
df_recente=df[df["categoria_relacionamento"]=="Recente"].copy()
# Salvando os DataFrames filtrados
#df_recente.to_excel(f"df_recente_{mov}.xlsx", index=False)
df_recente.to_parquet(fr"C:\Users\fernando.monteiro\deep-torch-example\KAB\Dados\Behavior\app\data\output\df_recente_{mov}.parquet")

## Ocupação, Escolaridade e Região

In [53]:
# Categorização 'natureza_ocupacao_cat'
mapeamento_ocupacao = {
    'APOSENTADO EMPRESA PUBLICA': 'APOSENTADO',
    'APOSENTADO EMPRESA PUBLICA ESTADUAL': 'APOSENTADO',
    'APOSENTADO EMPRESA PUBLICA FEDERAL': 'APOSENTADO',
    'APOSENTADO EMPRESA PUBLICA MUNICIPAL': 'APOSENTADO',
    'APOSENTADO MILITAR, MILITAR RESERVA OU REFORMADO': 'APOSENTADO',
    'APOSENTADO EMPRESA PRIVADA':'APOSENTADO',
    'PENSIONISTA DA PREVIDENCIA SOCIAL (INSS)': 'RENDA_PASSIVA_PENSAO',
    'BENEFICIARIO DE PENSAO': 'RENDA_PASSIVA_PENSAO',
    'LOCATARIO RENDA COM ALUGUEIS': 'RENDA_PASSIVA_PENSAO',
    'AUTONOMO SEM VINCULO EMPREGO': 'EMPREGADO_PRIVADO_AUTONOMO',#'AUTONOMO',
    'EMPREGADO SETOR PRIVADO,EXCETO INSTITUICAO FINANC': 'EMPREGADO_PRIVADO_AUTONOMO',#'EMPREGADO_PRIVADO',
    'EMPREGADO DE INSTITUICOES FINANCEIRAS PRIVADAS': 'EMPREGADO_PRIVADO_AUTONOMO',#'EMPREGADO_PRIVADO',
    'SERVIDOR PUBLICO ESTADUAL': 'SERVIDOR_PUBLICO',
    'SERVIDOR PUBLICO FEDERAL': 'SERVIDOR_PUBLICO',
    'SERVIDOR PUBLICO MUNICIPAL': 'SERVIDOR_PUBLICO',
    'PROFISSIONAL LIBERAL': 'OUTROS',#'PROFISSIONAL_LIBERAL',
    'EMPRESARIO PROPRIETARIO OU FIRMA INDIVIDUAL': 'OUTROS',#'EMPREENDEDOR',
    'MICROEMPRESARIO/MICROEMPREENDEDOR INDIVIDUAL(MEI)': 'OUTROS',#'EMPREENDEDOR',
    'BOLSISTA': 'OUTROS',#'SEM_OCUPACAO_FORMAL',
    'DO LAR': 'OUTROS',#'SEM_OCUPACAO_FORMAL',
    'ESTUDANTE': 'OUTROS',# 'SEM_OCUPACAO_FORMAL',
    'NATUREZA OCUPACAO NAO ESPECIFICADA ANTERIORMENTE': 'OUTROS'
}

# Criação da nova coluna com a categoria
df_behavior['ocupacao'] = df_behavior['natureza_ocupacao'].map(mapeamento_ocupacao)
df_behavior["ocupacao"]= df_behavior["ocupacao"].astype("category")

In [54]:
# Categorização 'Escolaridade'
condicoes = [
    df_behavior["grau_escolaridade"].isin(["SEM INSTRUCAO","ENSINO FUNDAMENTA 1º GRAU COMP", "ENSINO FUNDAMENTAL 1º GRAU INC"]),
    df_behavior["grau_escolaridade"].isin(["ENSINO MEDIO 2º GRAU COM", "ENSINO MEDIO 2º GRAU INC"]),
    df_behavior["grau_escolaridade"].isin(["CURSO TECNICO","SUPERIOR COMPLETO", "SUPERIOR INCOMPLETO"]),
]

Esc = ["ATE_FUNDAMENTAL", "ENSINO_MEDIO","TECNICO_SUPERIOR"]
df_behavior["grau_escolaridade_cat"] = np.select(condicoes, Esc,default=None)
df_behavior["grau_escolaridade_cat"]=df_behavior["grau_escolaridade_cat"].astype("category")
df_behavior.drop(columns="grau_escolaridade", inplace=True)

In [55]:
# Categorização 'REGIAO'
mapeamento_regiao = {
"Grande Florianópolis": "Grande_Florianópolis",
"Norte Catarinense":"Norte_Catarinense",
"Norte_Centro": "Fora_SC",
"Oeste Catarinense": "Oeste_Catarinense",
"Serrana":"Serrana",
"Sudeste":"Fora_SC",
"Sul":"Fora_SC",
"Sul Catarinense":"Sul_Catarinense",
"Vale do Itajaí" :"Vale_do_Itajaí"
}

# Criação da nova coluna com a categoria
df_behavior['regiao'] = df_behavior['REGIAO_NOVO'].map(mapeamento_regiao)
df_behavior["regiao"]=df_behavior["regiao"].astype("category")

## Pré-Processamento Cluster

### Imputação

In [56]:
# Variável auxiliar para media_meses_entre_contratos_combinado
cond1 = [
    df_behavior["media_meses_entre_contratos_combinado"] == 0,
    df_behavior["media_meses_entre_contratos_combinado"].isna(),
    df_behavior["media_meses_entre_contratos_combinado"] > 0
]

class1 = [
    "Contratos_mesmo_dia",
    "Apenas_1_contrato",
    "Contratos_dias_diferentes"
]

df_behavior["tipo_cal_entre_contratos"] = np.select(cond1, class1, default="sem_classificacao")
df_behavior["tipo_cal_entre_contratos"]=df_behavior["tipo_cal_entre_contratos"].astype("category")

# Variável auxiliar para media_meses_entre_contratos_reneg
cond2 = [
    df_behavior["media_meses_entre_contratos_reneg"] == 0,
    df_behavior["media_meses_entre_contratos_reneg"].isna(),
    df_behavior["media_meses_entre_contratos_reneg"] > 0
]

class2 = [
    "Contratos_mesmo_dia",
    "Apenas_1_contrato",
    "Contratos_dias_diferentes"
]

df_behavior["tipo_cal_entre_contratos_reneg"] = np.select(cond2, class2, default="sem_classificacao")
df_behavior["tipo_cal_entre_contratos_reneg"]=df_behavior["tipo_cal_entre_contratos_reneg"].astype("category")

# Variável auxiliar para FIN_valor_medio_entrada_nr
cond3 = [
    df_behavior["FIN_valor_medio_entrada_nr"] == 0,
    df_behavior["FIN_valor_medio_entrada_nr"].isna(),
    df_behavior["FIN_valor_medio_entrada_nr"] > 0
]

class3 = [
    "N_Paga_entrada",
    "N_Paga_entrada",
    "Paga_entrada"
]

df_behavior["tipo_valor_entrada"] = np.select(cond3, class3, default="sem_classificacao")
df_behavior["tipo_valor_entrada"]=df_behavior["tipo_valor_entrada"].astype("category")

# Variável auxiliar para limite_total
df_behavior["situacao_limite"] = np.where(
    (df_behavior["limite_total"] > 0),
    "Possui_Limite", "N_possui_Limite"
)
df_behavior["situacao_limite"]=df_behavior["situacao_limite"].astype("category")

# Variável auxiliar para valor_da_parcela_aberto
df_behavior["situacao_parcela_aberto"] = np.where(
    (df_behavior["valor_da_parcela_aberto"] == 0),
    "N_possui_parcela_aberto","Possui_parcela_aberto"
)
df_behavior["situacao_parcela_aberto"]=df_behavior["situacao_parcela_aberto"].astype("category")

# possui_contratos_a_vista
cond5 = [
    ((df_behavior["qtd_total_fechado_a_vista"] == 0) & (df_behavior["id_base"] == "base_carne")),
    ((df_behavior["qtd_total_fechado_a_vista"] == 0) & (df_behavior["id_base"] == "base_cartao")),
    ((df_behavior["qtd_total_fechado_a_vista"] == 0) & (df_behavior["id_base"] == "base_carne/base_cartao")),
    df_behavior["qtd_total_fechado_a_vista"] > 0
]

class5 = [
    "N_base_CARTAO",
    "NAO",
    "NAO",
    "SIM"
]

df_behavior["possui_contratos_a_vista"] = np.select(cond5, class5, default="sem_classificacao")
df_behavior["possui_contratos_a_vista"]=df_behavior["possui_contratos_a_vista"].astype("category")

# principal total
df_behavior["principal_total"]=df_behavior["principal_total_fechado"]+df_behavior["principal_total_aberto"]

## Imputação nulos
df_behavior["media_meses_entre_contratos_combinado"] = df_behavior["media_meses_entre_contratos_combinado"].fillna(0)
df_behavior["media_meses_entre_contratos_reneg"] = df_behavior["media_meses_entre_contratos_reneg"].fillna(0)
df_behavior["FIN_valor_medio_entrada_nr"] = df_behavior["FIN_valor_medio_entrada_nr"].fillna(0)
df_behavior["situacao_fatura"] = df_behavior["situacao_fatura"].cat.add_categories("VAZIO")
df_behavior["situacao_fatura"] = df_behavior["situacao_fatura"].fillna("VAZIO")
df_behavior["renda_comprometida"] = np.where(
    (df_behavior["renda_valida_new"] == 0) | (df_behavior["valor_da_parcela_aberto"] == 0),
    0, df_behavior["renda_comprometida"]
)

# Flag de propensão a fazer reneg
df_behavior["reneg_flag_high_risk"] = (
    (df_behavior["prop_reneg"] > 0.3) &  # mais de 30% dos contratos renegociados
    (df_behavior["reneg_severity"] > 0.1) &  # >10% do principal renegociado
    (df_behavior["reneg_vs_liq_ratio_ponderado"] > 0.5)  #>50% dos contrados renegociados sobre o que já foi liquidado ponderado pelo tempo da ultima renegociação
).astype(int)


# Fase em que o cliente está de realção e cosolidação de comportamento
df_behavior["fase_relacionamento"] = np.select(
    [
        (df_behavior["qtd_parcelas_pagas"] < 10),
        (df_behavior["qtd_parcelas_pagas"] < 20),
        (df_behavior["qtd_parcelas_pagas"] >= 20)
    ],
    ["novo", "fase_consolidacao", "maduro"],
    default="indefinido"   # <-- importante!
)

In [57]:
# Entrando com os imputadores já treinados
todos_os_imputers = joblib.load("C:/Users/fernando.monteiro/deep-torch-example/KAB/Behavior_KAB/Modelos/Pré-Processamento/imputers_e_parametros.pkl")

In [58]:
df_behavior["categoria_cliente"] = np.select(
    [
        df_behavior["qtd_contratos_aberto_regular"] > 0,
        df_behavior["qtd_contratos_fechado_regular"] > 0,
        df_behavior["qtd_contratos_aberto_atraso"] > 0,
        df_behavior["qtd_contratos_fechado_atraso"] > 0,
    ],
    ["ativo_regular", "quitado", "aberto_atraso", "fechado_atraso"],
    default="outros"
)

peso_dict=todos_os_imputers["parametros"]["peso_categoria"]


df_behavior["peso_categoria"] = df_behavior["categoria_cliente"].map(peso_dict)
df_behavior["tempo_ultimo_pagamento_pond"] = df_behavior["meses_ultimo_pagamento"] * df_behavior["peso_categoria"]

In [59]:
# tempo_ultimo_pagamento_pond
# Função logística: pouco efeito até 12 meses, cresce rápido depois disso
def penalizacao_inatividade(t):
    return 1 / (1 + np.exp(-(t - 12) / 6))  # centro em 12 meses, suaviza até ~24m

df_behavior['penalizacao_inatividade'] = df_behavior['meses_ultimo_pagamento'].apply(penalizacao_inatividade)

In [60]:
# variável target em numérica
df_behavior['inad_e_reneg'] = df_behavior['inad_e_reneg'].map({'SIM': 1, 'NAO': 0})
df_behavior['inad_e_reneg'] = df_behavior['inad_e_reneg'].astype(int)

In [61]:
# Amostragem
#Variável de interesse
outcome = df_behavior >> select(X.inad_e_reneg)

# Remover a variável resposta do conjunto de dados
df_behavior.drop(['inad_e_reneg'],axis=1, inplace=True)

# fazendo a separação entre variável resposta e preditoras
X=df_behavior
y=outcome

In [62]:
# Retirando ids e armazenando em variável separada
ids = X["cpf_cnpj"]
X = X.drop(columns=["cpf_cnpj"])

In [63]:
## Pré processamento - Imputação utiliza transform
X["sexo"] = X["sexo"].str.strip().replace("", np.nan).astype("category")

## Imputação moda por grupo

# Criar Series com os valores imputados
valores_grau_escolaridade_cat_test = X["natureza_ocupacao"].map(todos_os_imputers["parametros"]["moda_grau_escolaridade_cat"])
valores_estado_civil_test  = X["natureza_ocupacao"].map(todos_os_imputers["parametros"]["moda_estado_civil"])

# Imputar manualmente com .loc[]
X.loc[X["grau_escolaridade_cat"].isna(), "grau_escolaridade_cat"] = valores_grau_escolaridade_cat_test[X["grau_escolaridade_cat"].isna()]
X.loc[X["estado_civil"].isna(), "estado_civil"] = valores_estado_civil_test[X["estado_civil"].isna()]

var_null_cat=["grau_escolaridade_cat","estado_civil","nacionalidade","sexo"]

## Imputação categórica moda geral
X[var_null_cat] = X[var_null_cat].replace({None: np.nan})

imputer_cat = todos_os_imputers['imputer_cat']
imputer_num = todos_os_imputers['imputer_num']
imputer_num_median = todos_os_imputers['imputer_num_median']

X[var_null_cat] = pd.DataFrame(
    imputer_cat.transform(X[var_null_cat]),
    columns=var_null_cat,
    index=X.index)

## Imputação numérica por grupo

# Criar Series com os valores imputados
valores_imputados_valida_test = X["natureza_ocupacao"].map(todos_os_imputers["parametros"]["medias_renda_valida"])
valores_imputados_comprometida_test = X["natureza_ocupacao"].map(todos_os_imputers["parametros"]["medias_renda_comprometida"])
valores_imputados_ultimo_mes_test = X["fx_score"].map(todos_os_imputers["parametros"]["medianas_renda_limite_total_ultimo_mes"])

# tipos
valores_imputados_valida_test=valores_imputados_valida_test.astype(float)
valores_imputados_comprometida_test=valores_imputados_comprometida_test.astype(float)
valores_imputados_ultimo_mes_test=valores_imputados_ultimo_mes_test.astype(float)

# Imputar manualmente com .loc[]
X.loc[X["renda_valida_new"].isna(), "renda_valida_new"] = valores_imputados_valida_test[X["renda_valida_new"].isna()]
X.loc[X["renda_comprometida"].isna(), "renda_comprometida"] = valores_imputados_comprometida_test[X["renda_comprometida"].isna()]
X.loc[X["limite_total_ultimo_mes"].isna(), "limite_total_ultimo_mes"] = valores_imputados_valida_test[X["limite_total_ultimo_mes"].isna()]


## Imputação numérica média geral
var_null_num=["renda_valida_new",'renda_comprometida']
X[var_null_num] = X[var_null_num].replace({None: np.nan})

X[var_null_num] = pd.DataFrame(
    imputer_num.transform(X[var_null_num]),
    columns=var_null_num,
    index=X.index)


## Imputação numérica mediana geral
var_null_num_median=["limite_total_ultimo_mes"]
X[var_null_num_median] = X[var_null_num_median].replace({None: np.nan})

X[var_null_num_median] = pd.DataFrame(
    imputer_num_median.transform(X[var_null_num_median]),
    columns=var_null_num_median,
    index=X.index)

X.drop(columns=["natureza_ocupacao","fx_score"], inplace=True)

### Categorização

In [64]:
X["sexo"]=X["sexo"].astype("category")
X["estado_civil"]=X["estado_civil"].astype("category")
X["nacionalidade"]=X["nacionalidade"].astype("category")
X["estado_civil"]=X["estado_civil"].astype("category")
X["grau_escolaridade_cat"]=X["grau_escolaridade_cat"].astype("category")

In [65]:
# Categorizando as variáveis numéricas
X["fx_renda_valida"]=pd.cut(X.renda_valida_new, 
                                          bins=[0,1518,1518*1.25,1518*1.5,1518*2,1518*3,np.inf], 
                                          labels=["Até 1 SM","De 1 SM a 1,25 SM","De 1,25 SM a 1,5 SM", "De 1,5 SM a 2 SM", "De 2 SM a 3 SM", "Acima de 3 SM"])
X["fx_principal_total_nr"]=pd.cut(X.valor_principal_total_nr,
       bins=[-0.99,0,2000,5000,10000,20000,np.inf],
       labels=["0","Até R$2 mil","R$2 mil a R$5mil","R$5 mil a R$10mil","R$10 mil a R$20mil","Acima de R$20mil"])

## Pré-processamento Modelo PD

In [66]:
modelo = joblib.load("C:/Users/fernando.monteiro/deep-torch-example/KAB/Behavior_KAB/Modelos/fa_15.pkl")
odds_threshold = joblib.load("C:/Users/fernando.monteiro/deep-torch-example/KAB/Behavior_KAB/Modelos/odds_threshold_bins.pkl")

# Selciona as colunas usadas no treino
colunas_train = modelo.feature_names_in_ # COLOCAR VARIÁVEIS USADAS NO TREINO DO MODELO
X_pd_dummy = pd.get_dummies(X[['valor_pago_nr', 'produtos', 'indice_instabilidade','qtd_parcelas_pagas_nr', 
                               'reneg_vs_liq_ratio_ponderado','valor_principal_total_nr','idade', 'qtd_contratos_nr', 
                               'tempo_relacionamento_kredilig_meses','ocupacao','canal_origem','possui_contratos_a_vista',
                               'media_meses_entre_contratos_combinado', 'prop_reneg', 'tempo_ultimo_pagamento_pond',
                               "fase_relacionamento","reneg_flag_high_risk",'penalizacao_inatividade']]).astype(int)

In [67]:
# Normalização
num_cols = ['idade', 'tempo_relacionamento_kredilig_meses',
       'media_meses_entre_contratos_combinado', 'valor_pago_nr',
       'valor_principal_total_nr', 'qtd_contratos_nr',
       'qtd_parcelas_pagas_nr', 'indice_instabilidade', 'prop_reneg',
       'reneg_vs_liq_ratio_ponderado', 'tempo_ultimo_pagamento_pond',
       'penalizacao_inatividade']

# Entrando com os imputadores já treinados
scaler = joblib.load("C:/Users/fernando.monteiro/deep-torch-example/KAB/Behavior_KAB/Modelos/Pré-Processamento/scaler_num.pkl")

## conjunto de teste - precisa ser o modelo que treinado para evitar vazamento de informação
X_pd_dummy[num_cols] = pd.DataFrame(
    scaler.transform(X_pd_dummy[num_cols]),
    columns=num_cols,
    index=X_pd_dummy.index
)

X_pd_dummy = X_pd_dummy.reindex(columns=colunas_train, fill_value=0)

### Pontuação e SCR

In [68]:
# Previsões
prob = modelo.predict_proba(X_pd_dummy)[:, 1]
X["cpf_cnpj"] = ids.values
X["PD"] = prob
X["inad_e_reneg"] = y["inad_e_reneg"]
# Threshold para recall superior a 80% (do desenvolvimento do modelo)
melhor_threshold_recall80=odds_threshold["odds_threshold"]["threshold"]
X["inad_e_reneg_prev"] = np.where(
    (X["PD"] > melhor_threshold_recall80),
    1, 0
)
X["Modelo"] = modelo.__class__.__name__

In [69]:
# Escore SCR

########################################################
X["SCR"] = (1 - X["PD"]) * 1000
X["SCR"] = ((1 - X["PD"]) * 1000).astype(int)

In [70]:
bins_carregado = odds_threshold["bins_SCR"]
X["fx_SCR"]=pd.cut(X.SCR, bins=bins_carregado)

In [71]:
data_str = datetime.today().strftime("%Y%m%d")

In [72]:
data_processamento = datetime.strptime(data_str, "%Y%m%d").date()

In [73]:
X["data_processamento"] = pd.to_datetime(data_processamento)
X["SCORE_ORIGEM"]="Behavior"

In [74]:
X["data_movimento"]=mov_df_final

In [75]:
X["Modelo"]=X["Modelo"].astype("category")
X["SCORE_ORIGEM"]=X["SCORE_ORIGEM"].astype("category")

In [76]:
colunas_finais=["data_movimento",
 'cpf_cnpj',
 'sexo',
 'estado_civil',
 'nacionalidade',
 'ocupacao',
 'grau_escolaridade_cat',
 'regiao',
 'idade',
 'tempo_relacionamento_kredilig_meses',
 'meses_ultimo_pagamento',
 'situacao_conta',
 'canal_origem',
 'limite_total',
 'limite_total_utilizado',
 'limite_total_ultimo_mes',
 'limite_a_vista',
 "Limite_a_vista_ultimo_mes",
 "limite_mensal",
 "Limite_parcelado_mensal_ultimo_mes",
 "limite_saque",
 'Limite_saque_ultimo_mes',
 'data_ultima_alteracao_limite',
 'media_meses_entre_contratos_combinado',
 'dias_maior_atraso',
 'media_atraso_dias',
 'dias_maior_atraso_aberto',
 'valor_pago_nr',
 'principal_total_fechado',
 'valor_principal_total_nr',
 'principal_total',
 'principal_total_aberto',
 'FIN_valor_medio_entrada_nr',
 'renda_valida_new',
 'valor_da_parcela_aberto',
 'qtd_total_fechado_a_vista',
 'qtd_contratos',
 'qtd_contratos_nr',
 'qtd_contratos_fechado_regular',
 'qtd_contratos_fechado_atraso',
 'qtd_reneg_fechado_atraso',
 'qtd_reneg_fechado_regular',
 'qtd_parcelas_pagas',
 'qtd_parcelas_pagas_nr',
 'qtd_parcelas_aberta',
 'data_reneg_aberto',
 "qtd_reneg_aberto_atraso",
 'qtd_reneg_aberto_regular',
 "qtd_contratos_aberto_atraso",
 "qtd_contratos_aberto_regular",
 'qtd_contratos_regular',
 'qtd_contratos_atraso',
 'possui_contratos_a_vista',
 'produtos',
 'produtos_ativos',
 'inad_e_reneg',
 'inad',
 'RENEG_aberto',
 'PD',
 'inad_e_reneg_prev',
 'Modelo',
 'SCR',
 'data_processamento',
 'SCORE_ORIGEM',
 'tipo_valor_entrada',
 'creditos_a_vencer',
 'creditos_vencidos',
 'ratio_contratos_atraso',
 'freq_atraso',
 'exposicao_ratio',
 'indice_instabilidade',
 'indice_regularidade',
 'prop_reneg',
 'reneg_severity',
 'reneg_vs_liq_ratio',
 'reneg_vs_liq_ratio_ponderado',
 'tempo_ultimo_pagamento_pond',
 "fase_relacionamento",
 "reneg_flag_high_risk",
 ]

In [77]:
X[colunas_finais].to_parquet(fr"C:\Users\fernando.monteiro\deep-torch-example\KAB\Dados\Behavior\app\data\output\relatorio_analitico_{mov}.parquet")

## Limites

### Filtros

In [78]:
#Entrada com os limites regressão isotônica
bins_risco_carregado = np.load('C:/Users/fernando.monteiro/deep-torch-example/KAB/Behavior_KAB/Modelos/bins_risco.npy')
X["fx_risco"]=pd.cut(X.SCR, bins=bins_risco_carregado).astype(str)
resultados_limites=pd.read_csv('C:/Users/fernando.monteiro/deep-torch-example/KAB/Behavior_KAB/Modelos/resultados_limites.csv')
resultados_limites["fx_risco"]=resultados_limites["fx_risco"].astype(str)

# Merge para adicionar a coluna media_limite_isotonico ao X
relatorio=X.merge(resultados_limites[["fx_risco","media_limite_isotonico"]],on="fx_risco", how="left")

# Entrando com as políticas
politicas_limites=pd.read_excel(r"C:\Users\fernando.monteiro\deep-torch-example\KAB\Dados\Behavior\app\data\input\POLÍTICAS_BEHAVIOR.xlsx",sheet_name="BEHAVIOR")

In [79]:
# Categorizando o SCR
bins = np.load("C:/Users/fernando.monteiro/deep-torch-example/KAB/Behavior_KAB/Modelos/bins_PD90.npy")
relatorio['NIVEL_DE_RISCO']=pd.cut(relatorio.SCR,bins=bins,labels=["R10","R9","R8","R7","R6","R5","R4","R3","R2","R1"],include_lowest=True)

In [None]:
# Filtros importantes
# Clientes com atraso maior que 90 dias
clientes_91 = relatorio[
     (relatorio["dias_maior_atraso_aberto"]>90) & ~(relatorio["situacao_conta"]=="Cancelada")
]

# Clientes cancelados
clientes_Cancelados = relatorio[
    (relatorio["situacao_conta"]=="Cancelada")
]

# Clientes válidos
clientes_validos = relatorio[
    ~((relatorio["dias_maior_atraso_aberto"]>90) |
    (relatorio["situacao_conta"]=="Cancelada"))
]

mes_ref = mov_df_final.strftime("%Y-%m-%d")
mes_ref = pd.to_datetime(mes_ref)

# Variávei importantes

# Calcula a variação percentual do limite isotônico em relação ao limite total do último mês.
clientes_validos["%_variacao_limite_isotonico"]=((clientes_validos["media_limite_isotonico"]/clientes_validos["limite_total_ultimo_mes"])-1)*100

# Calcula o percentual do valor da parcela em aberto em relação à renda válida.
clientes_validos["%_end"]=(clientes_validos["valor_da_parcela_aberto"]/clientes_validos["renda_valida_new"])*100

# Calcula o percentual do limite total já utilizado.
clientes_validos["%_limite_utilizado"]=(clientes_validos["limite_total_utilizado"]/clientes_validos["limite_total"])*100

# Calcula o percentual do limite mensal em relação ao limite total.
clientes_validos["%_limite_mensal_total"]=(clientes_validos["limite_mensal"]/clientes_validos["limite_total"])*100

# Salvar Relatórios
#clientes_91.to_csv(f"C:/Users/fernando.monteiro/deep-torch-example/KAB/Behavior_KAB/clientes_91_{mov}.csv", index=False)
#clientes_Cancelados.to_csv(f"C:/Users/fernando.monteiro/deep-torch-example/KAB/Behavior_KAB/clientes_Cancelados_{mov}.csv", index=False)
clientes_91[colunas_finais].to_parquet(fr"C:\Users\fernando.monteiro\deep-torch-example\KAB\Dados\Behavior\app\data\output\clientes_91_{mov}.parquet")
clientes_Cancelados[colunas_finais].to_parquet(rf"C:\Users\fernando.monteiro\deep-torch-example\KAB\Dados\Behavior\app\data\output\clientes_Cancelados_{mov}.parquet")

In [81]:
# Quantidades
print(relatorio.shape)
print(clientes_91.shape)
print(clientes_Cancelados.shape)
print(clientes_validos.shape)

(449899, 117)
(94952, 117)
(119957, 117)
(234990, 121)


### Retorno

In [82]:
nivel_aumento=politicas_limites[politicas_limites["ACAO"]=="AUMENTO"].NIVEL_DE_RISCO.unique().tolist()
tolerancia_atraso=politicas_limites[politicas_limites["ACAO"]=="AUMENTO"].TOLERANCIA_ATRASO.unique().tolist()
max_tolerancia_atraso=max(tolerancia_atraso)

In [83]:
# Retorno do último limite dos clientes
filtro_retorno = clientes_validos[
    (clientes_validos["NIVEL_DE_RISCO"].isin(nivel_aumento)) & 
    (clientes_validos["tempo_relacionamento_kredilig_meses"]>9) & ## Alterar direto no código conforme política
    (clientes_validos["dias_maior_atraso_aberto"]<=max_tolerancia_atraso) &
    (clientes_validos["limite_total"]==0) &
    (clientes_validos["situacao_conta"]=="Ativa") &
    (clientes_validos["data_reneg_aberto"].isna())]

In [84]:
filtro_retorno["limite_recalculado"]=filtro_retorno["limite_total_ultimo_mes"] # Vamos voltar para confirmar limites mensais, saques, à vista
filtro_retorno["limite_saque_recalculado"] = filtro_retorno["Limite_saque_ultimo_mes"] 
filtro_retorno["limite_a_vista_recalculado"] = filtro_retorno["Limite_a_vista_ultimo_mes"] 
filtro_retorno["limite_mensal_recalculado"] = filtro_retorno["Limite_parcelado_mensal_ultimo_mes"] 

In [85]:
filtro_retorno["SITUACAO_LIMITE"]="RETORNO"

### Aumento

In [None]:
# Filtro para clientes que podem receber aumento de limite
filtro_aumento = clientes_validos[
    (clientes_validos["NIVEL_DE_RISCO"].isin(nivel_aumento)) & 
    (clientes_validos["tempo_relacionamento_kredilig_meses"]>12) & ## Alterar direto no código conforme política
    (clientes_validos["dias_maior_atraso_aberto"]<=max_tolerancia_atraso) &
    (clientes_validos["limite_total"]>0) &
    (clientes_validos["situacao_conta"]=="Ativa") &
    (clientes_validos["data_reneg_aberto"].isna())]

filtro_aumento["POSSUI_SALDO_ABERTO"]=np.where(filtro_aumento["valor_da_parcela_aberto"]>0,"SIM","NAO")
filtro_aumento["ACAO"]="AUMENTO"

In [87]:
# Exemplo: juntando cliente + política por faixa de idade e nível de risco
df_calculo_aumento = pd.merge(
    filtro_aumento,
    politicas_limites,
    how="left",
    left_on=["NIVEL_DE_RISCO","POSSUI_SALDO_ABERTO","ACAO"],   # <- aqui depende do que mapeia as políticas
    right_on=["NIVEL_DE_RISCO","POSSUI_SALDO_ABERTO","ACAO"]
)

# Agora filtramos apenas as regras válidas pela idade
df_calculo_aumento = df_calculo_aumento[
    (df_calculo_aumento["idade"] >= df_calculo_aumento["IDADE_MINIMA"]) &
    (df_calculo_aumento["idade"] <= df_calculo_aumento["IDADE_MAXIMA"])
]

In [88]:
# Agora vamos aplicar as regras de política para recalcular os limites
def recalcular_limite(row):
    limite_atual = row["limite_total"]
    limite_saque_atual = row["limite_saque"]
    limite_a_vista_atual = row["limite_a_vista"]
    limite_mensal_atual = row["limite_mensal"]
    idade = row["idade"]
    atraso = row["dias_maior_atraso_aberto"]
    
    # Verifica se cliente está dentro dos atrasos permitidos
    if not (atraso <= row["TOLERANCIA_ATRASO"]):
        # Fora da política → mantém os valores originais
        return (
            limite_atual,
            limite_mensal_atual,
            limite_a_vista_atual,
            limite_saque_atual
        )

    # Aplica percentual de variação
    novo_limite = limite_atual * (1 + row["PERCENTUAL_VARIACAO"])

    # Aplica percentual do limite mensal
    novo_limite_mensal = limite_mensal_atual * (1 + row["PERCENTUAL_MENSAL"])

    # Aplica percentual do limite à vista
    novo_limite_vista = limite_a_vista_atual * (1 + row["PERCENTUAL_A_VISTA_TOTAL"])

    # Aplica percentual do limite de saque
    novo_limite_saque = limite_saque_atual * (1 + row["PERCENTUAL_SAQUE_TOTAL"])

    # Respeita o teto máximo total
    if novo_limite > row["TETO_MAXIMO_LIMITE"]:
        novo_limite = limite_atual

    # Respeita o teto máximo de saque
    if novo_limite_saque > row["TETO_MAXIMO_LIMITE_SAQUE"]:
        novo_limite_saque = limite_saque_atual

    return (
        novo_limite,
        novo_limite_mensal,
        novo_limite_vista,
        novo_limite_saque
    )

In [None]:
# Recalculando os limites
df_calculo_aumento[["limite_recalculado","limite_mensal_recalculado","limite_a_vista_recalculado","limite_saque_recalculado"]] = df_calculo_aumento.apply(recalcular_limite, axis=1,result_type="expand")
df_calculo_aumento["SITUACAO_LIMITE"]=np.where(df_calculo_aumento["limite_recalculado"]>df_calculo_aumento["limite_total"],"AUMENTO","MANTEVE")

### Redução

In [90]:
tolerancia_atraso_reducao=politicas_limites[politicas_limites["ACAO"]=="REDUCAO"].TOLERANCIA_ATRASO.unique().tolist()
min_tolerancia_atraso=min(tolerancia_atraso_reducao)

In [91]:
# Filtro para clientes que podem receber redução de limite
filtro_reducao = clientes_validos[
    ((clientes_validos["dias_maior_atraso_aberto"]>=min_tolerancia_atraso) &
    (clientes_validos["limite_total"]>0)) |
    ((clientes_validos["data_reneg_aberto"]>=mes_ref) &
    (clientes_validos["limite_total"]>0))]

filtro_reducao["ACAO"]="REDUCAO"

In [92]:
filtro_reducao_2 = filtro_reducao[
    ~filtro_reducao["cpf_cnpj"].isin(filtro_aumento["cpf_cnpj"])]

In [93]:
# Exemplo: juntando cliente + política por faixa de idade e nível de risco
df_calculo_reducao = pd.merge(
    filtro_reducao_2,
    politicas_limites,
    how="left",
    left_on=["NIVEL_DE_RISCO","ACAO"],   # <- aqui depende do que mapeia as políticas
    right_on=["NIVEL_DE_RISCO","ACAO"]
)

# Agora filtramos apenas as regras válidas pela idade
df_calculo_reducao = df_calculo_reducao[
    (df_calculo_reducao["idade"] >= df_calculo_reducao["IDADE_MINIMA"]) &
    (df_calculo_reducao["idade"] <= df_calculo_reducao["IDADE_MAXIMA"])
]

In [94]:
def recalcular_limite_reducao(row):
    limite_atual = row["limite_total"]
    limite_saque_atual = row["limite_saque"]
    limite_a_vista_atual = row["limite_a_vista"]
    limite_mensal_atual = row["limite_mensal"]
    atraso = row["dias_maior_atraso_aberto"]

    if pd.notna(row["data_reneg_aberto"]) and row["data_reneg_aberto"] >= mes_ref:
        atraso = 999  # Força a redução se houver renegociação recente
    
    # Verifica se cliente está dentro dos atrasos permitidos
    if not (atraso >= row["TOLERANCIA_ATRASO"]):
        # fora da política → mantém os valores originais
        return (
            limite_atual,
            limite_mensal_atual,
            limite_a_vista_atual,
            limite_saque_atual
        )

    # Aplica percentual de empréstimo
    novo_limite = limite_atual - limite_atual * row["PERCENTUAL_VARIACAO"]

    # Aplica percentual do limite mensal
    novo_limite_mensal = limite_mensal_atual - limite_mensal_atual * row["PERCENTUAL_MENSAL"]

    # Aplica percentual do limite à vista
    novo_limite_vista = limite_a_vista_atual - limite_a_vista_atual * row["PERCENTUAL_A_VISTA_TOTAL"]
    
    if row["NIVEL_DE_RISCO"] in nivel_aumento:
        novo_limite_saque = limite_saque_atual - limite_saque_atual * row["PERCENTUAL_SAQUE_TOTAL"]
    else:
        novo_limite_saque = limite_saque_atual

    # Respeita o mínimo de limite
    novo_limite = max(novo_limite, 0)
    novo_limite_mensal = max(novo_limite_mensal, 0)
    novo_limite_vista = max(novo_limite_vista, 0)
    novo_limite_saque = max(novo_limite_saque, 0)

    return (
        novo_limite,
        novo_limite_mensal,
        novo_limite_vista,
        novo_limite_saque
    )

In [95]:
df_calculo_reducao[["limite_recalculado","limite_mensal_recalculado","limite_a_vista_recalculado","limite_saque_recalculado"]] = df_calculo_reducao.apply(recalcular_limite_reducao, axis=1,result_type="expand")
df_calculo_reducao["SITUACAO_LIMITE"]=np.where(df_calculo_reducao["limite_recalculado"]<df_calculo_reducao["limite_total"],"REDUCAO","MANTEVE")

In [96]:
df_alteracao = pd.concat([filtro_retorno[["cpf_cnpj","limite_recalculado","limite_mensal_recalculado","limite_a_vista_recalculado","limite_saque_recalculado","SITUACAO_LIMITE"]], 
                         df_calculo_aumento[["cpf_cnpj","limite_recalculado","limite_mensal_recalculado","limite_a_vista_recalculado","limite_saque_recalculado","SITUACAO_LIMITE"]],
                         df_calculo_reducao[["cpf_cnpj","limite_recalculado","limite_mensal_recalculado","limite_a_vista_recalculado","limite_saque_recalculado","SITUACAO_LIMITE"]]], ignore_index=True)


In [97]:
print(df_alteracao.shape)
print(filtro_retorno.shape)
print(df_calculo_aumento.shape)
print(df_calculo_reducao.shape)

(198808, 6)
(3326, 126)
(159027, 142)
(36455, 142)


In [98]:
saida_behavior=clientes_validos.merge(df_alteracao[["cpf_cnpj","limite_recalculado","limite_mensal_recalculado","limite_a_vista_recalculado","limite_saque_recalculado","SITUACAO_LIMITE"]],on="cpf_cnpj",how="left")
saida_behavior["limite_recalculado"]=np.where(saida_behavior["limite_recalculado"].isna(),
                                                saida_behavior["limite_total"],saida_behavior["limite_recalculado"])
saida_behavior["limite_mensal_recalculado"]=np.where(saida_behavior["limite_mensal_recalculado"].isna(),
                                                saida_behavior["limite_mensal"],saida_behavior["limite_mensal_recalculado"])
saida_behavior["limite_a_vista_recalculado"]=np.where(saida_behavior["limite_a_vista_recalculado"].isna(),
                                                saida_behavior["limite_a_vista"],saida_behavior["limite_a_vista_recalculado"])
saida_behavior["limite_saque_recalculado"]=np.where(saida_behavior["limite_saque_recalculado"].isna(),
                                                saida_behavior["limite_saque"],saida_behavior["limite_saque_recalculado"])
saida_behavior["SITUACAO_LIMITE"]=np.where(saida_behavior["SITUACAO_LIMITE"].isna(),
                                                "MANTEVE",saida_behavior["SITUACAO_LIMITE"])

In [99]:
# variáveis que não foram selecionadas
'''['profissao',
 'uf_residencia',
 'filial',
 'tempo_inatividade_conta_cartao',
 'tempo_inatividade_conta_carne',
 'motivo_situacao_conta',
 'situacao_fatura',
 'media_meses_entre_contratos_reneg',
 'FINANCIAMENTO_atraso',
 'EMPRESTIMO_atraso',
 'RENEG_atraso',
 'FINANCIAMENTO',
 'EMPRESTIMO',
 'RENEG',
 'meses_entre_primeiro_e_ultimo_pagamento',
 'meses_entre_primeiro_e_ultimo_fechamento',
 'tempo_ultimo_atraso_meses',
 'valor_principal_total_reneg',
 'situacao_parcela_aberto',
 'id_base',
 'renda_comprometida',
 'amortizacao',
 'nivel_de_risco',
 'REGIAO_NOVO',
 'categoria_relacionamento',
 'tipo_cal_entre_contratos',
 'tipo_cal_entre_contratos_reneg',
 'situacao_limite',
 'mean_atraso_possui_info',
 'fx_renda_valida',
 'fx_principal_total_nr',
 'fx_SCR',
 'fx_risco',
 'fx_ult_limite',
 '%_limite_mensal_total']'''

"['profissao',\n 'uf_residencia',\n 'filial',\n 'tempo_inatividade_conta_cartao',\n 'tempo_inatividade_conta_carne',\n 'motivo_situacao_conta',\n 'situacao_fatura',\n 'media_meses_entre_contratos_reneg',\n 'FINANCIAMENTO_atraso',\n 'EMPRESTIMO_atraso',\n 'RENEG_atraso',\n 'FINANCIAMENTO',\n 'EMPRESTIMO',\n 'RENEG',\n 'meses_entre_primeiro_e_ultimo_pagamento',\n 'meses_entre_primeiro_e_ultimo_fechamento',\n 'tempo_ultimo_atraso_meses',\n 'valor_principal_total_reneg',\n 'situacao_parcela_aberto',\n 'id_base',\n 'renda_comprometida',\n 'amortizacao',\n 'nivel_de_risco',\n 'REGIAO_NOVO',\n 'categoria_relacionamento',\n 'tipo_cal_entre_contratos',\n 'tipo_cal_entre_contratos_reneg',\n 'situacao_limite',\n 'mean_atraso_possui_info',\n 'fx_renda_valida',\n 'fx_principal_total_nr',\n 'fx_SCR',\n 'fx_risco',\n 'fx_ult_limite',\n '%_limite_mensal_total']"

In [100]:
# Seleção de variáveis para o relatório final
saida_behavior[[
 "data_movimento",
 'cpf_cnpj',
 'sexo',
 'estado_civil',
 'nacionalidade',
 'ocupacao',
 'grau_escolaridade_cat',
 'regiao',
 'idade',
 'tempo_relacionamento_kredilig_meses',
 'meses_ultimo_pagamento',
 'situacao_conta',
 'canal_origem',
 'limite_total',
 'limite_total_utilizado',
 "%_limite_utilizado",
 "limite_recalculado",
 'limite_total_ultimo_mes',
 'limite_a_vista',
 "limite_a_vista_recalculado",
 "Limite_a_vista_ultimo_mes",
 "limite_mensal",
 "limite_mensal_recalculado",
 "Limite_parcelado_mensal_ultimo_mes",
 "limite_saque",
 "limite_saque_recalculado",
 'Limite_saque_ultimo_mes',
 'data_ultima_alteracao_limite',
 'media_meses_entre_contratos_combinado',
 'dias_maior_atraso',
 'media_atraso_dias',
 'dias_maior_atraso_aberto',
 'valor_pago_nr',
 'principal_total_fechado',
 'valor_principal_total_nr',
 'principal_total',
 'principal_total_aberto',
 'FIN_valor_medio_entrada_nr',
 'renda_valida_new',
 'valor_da_parcela_aberto',
 "%_end",
 'qtd_total_fechado_a_vista',
 'qtd_contratos',
 'qtd_contratos_nr',
 'qtd_contratos_fechado_regular',
 'qtd_contratos_fechado_atraso',
 'qtd_reneg_fechado_atraso',
 'qtd_reneg_fechado_regular',
 'qtd_parcelas_pagas',
 'qtd_parcelas_pagas_nr',
 'qtd_parcelas_aberta',
 'data_reneg_aberto',
 "qtd_reneg_aberto_atraso",
 'qtd_reneg_aberto_regular',
 "qtd_contratos_aberto_atraso",
 "qtd_contratos_aberto_regular",
 'qtd_contratos_regular',
 'qtd_contratos_atraso',
 'possui_contratos_a_vista',
 'produtos',
 'produtos_ativos',
 'inad_e_reneg',
 'inad',
 'RENEG_aberto',
 'PD',
 'inad_e_reneg_prev',
 'Modelo',
 'SCR',
 'data_processamento',
 'SCORE_ORIGEM',
 'media_limite_isotonico',
 "%_variacao_limite_isotonico",
 'NIVEL_DE_RISCO',
 'SITUACAO_LIMITE',
 'tipo_valor_entrada',
 'creditos_a_vencer',
 'creditos_vencidos',
 'ratio_contratos_atraso',
 'freq_atraso',
 'exposicao_ratio',
 'indice_instabilidade',
 'indice_regularidade',
 'prop_reneg',
 'reneg_severity',
 'reneg_vs_liq_ratio',
 'reneg_vs_liq_ratio_ponderado',
 'tempo_ultimo_pagamento_pond',
 "fase_relacionamento",
 "reneg_flag_high_risk"
 ]].to_parquet(fr"C:\Users\fernando.monteiro\deep-torch-example\KAB\Dados\Behavior\app\data\output\relatorio_behavior_{mov}.parquet")

# Monitoramento

In [101]:
colunas_train

array(['tempo_ultimo_pagamento_pond', 'valor_pago_nr',
       'indice_instabilidade', 'valor_principal_total_nr',
       'produtos_FINANCIAMENTO', 'qtd_parcelas_pagas_nr',
       'reneg_flag_high_risk', 'qtd_contratos_nr',
       'produtos_EMPRESTIMO/FINANCIAMENTO',
       'tempo_relacionamento_kredilig_meses', 'idade',
       'fase_relacionamento_novo',
       'fase_relacionamento_fase_consolidacao', 'ocupacao_APOSENTADO',
       'ocupacao_EMPREGADO_PRIVADO_AUTONOMO',
       'fase_relacionamento_maduro', 'possui_contratos_a_vista_SIM',
       'produtos_EMPRESTIMO'], dtype=object)

In [102]:
relatorio_prob_inad_train = pd.read_csv(r'C:\Users\fernando.monteiro\deep-torch-example\KAB\Dados\Behavior\app\data\input\relatorio_prob_inad_train.csv')
df_ref=relatorio_prob_inad_train[['inad_e_reneg','inad_e_reneg_prev','tempo_ultimo_pagamento_pond', 'valor_pago_nr',
       'indice_instabilidade', 'valor_principal_total_nr',
       'produtos', 'qtd_parcelas_pagas_nr',
       'reneg_flag_high_risk', 'qtd_contratos_nr',
       'tempo_relacionamento_kredilig_meses', 'idade',
       'fase_relacionamento','ocupacao', 'possui_contratos_a_vista']]# Carregar dados de referência
df_atual=X[['inad_e_reneg','inad_e_reneg_prev','tempo_ultimo_pagamento_pond', 'valor_pago_nr',
       'indice_instabilidade', 'valor_principal_total_nr',
       'produtos', 'qtd_parcelas_pagas_nr',
       'reneg_flag_high_risk', 'qtd_contratos_nr',
       'tempo_relacionamento_kredilig_meses', 'idade',
       'fase_relacionamento','ocupacao', 'possui_contratos_a_vista']]# Carregar dados atuais

# VERIFICAR SE TODAS AS VARIAVEIS DO MODELOS ESTAO NESSE RELATORIO

In [103]:
# Configuração Evidently
column_mapping = ColumnMapping()
column_mapping.target = 'inad_e_reneg'  # Nome da coluna alvo
column_mapping.prediction = 'inad_e_reneg_prev'  # Nome da coluna de predição
column_mapping.numerical_features = ['tempo_ultimo_pagamento_pond', 'valor_pago_nr',
       'indice_instabilidade', 'valor_principal_total_nr',
       'produtos', 'qtd_parcelas_pagas_nr',
       'reneg_flag_high_risk', 'qtd_contratos_nr',
       'tempo_relacionamento_kredilig_meses', 'idade',
       'fase_relacionamento','ocupacao', 'possui_contratos_a_vista']
  # Lista de features

# Configuração do relatório
report = Report(metrics=[
    DataDriftPreset(),
    ClassificationPreset(),
])

report.run(current_data=df_atual, reference_data=df_ref, column_mapping=column_mapping) # Gerar relatório de drift

In [104]:
# Gerar relatório em HTML
report.path=fr'C:\Users\fernando.monteiro\deep-torch-example\KAB\Dados\Behavior\app\data\output\Relatorio_drift_{mov}.html'
report.save_html(report.path)

# Indicadores

In [105]:
labels = [0, 1]
cm_floresta = confusion_matrix(X["inad_e_reneg"], X["inad_e_reneg_prev"],labels=labels) # Matriz de Confusão
tn_fa, fp_fa, fn_fa, tp_fa = cm_floresta.ravel()
especificidade_fa = tn_fa / (tn_fa + fp_fa)
recall_fa = recall_score(X["inad_e_reneg"], X["inad_e_reneg_prev"])
accuracy_fa=accuracy_score(X["inad_e_reneg"], X["inad_e_reneg_prev"])
roc_fa=roc_auc_score(X["inad_e_reneg"], X["inad_e_reneg_prev"])
tx_inad_e_reneg=X["inad_e_reneg"].mean()
fpr_fa, tpr_fa, _ = roc_curve(X["inad_e_reneg"], X["inad_e_reneg_prev"])
ks_fa=max(tpr_fa-fpr_fa)

In [106]:
# Indicador KS 
ks_table = X.groupby("fx_SCR").agg(
    total=('inad_e_reneg', 'count'),           # total de clientes na faixa
    maus=('inad_e_reneg', 'sum')               # número de inadimplentes
).reset_index()

# Número de bons e total geral
total_maus = ks_table['maus'].sum()
total_bons = ks_table['total'].sum() - total_maus

ks_table['bons'] = ks_table['total'] - ks_table['maus']

# Percentual acumulado de bons e ruins
ks_table['cum_maus_pct'] = ks_table['maus'].cumsum() / total_maus
ks_table['cum_bons_pct'] = ks_table['bons'].cumsum() / total_bons

# Diferença para o KS
ks_table['KS'] = abs(ks_table['cum_maus_pct'] - ks_table['cum_bons_pct'])
KS_valor = ks_table['KS'].max()

In [107]:
import builtins

# Montar um dicionário com os resultados
resultados = {
    "PERIODO_PROCESSAMENTO": [data_processamento],
    "PERIODO_MOVIMENTO": [mes_ref],
    "MODELO": [modelo.__class__.__name__],
    "SENSIBILIDADE": [builtins.round(recall_fa, 4)*100],
    "ESPECIFICIDADE": [builtins.round(especificidade_fa, 4)*100],
    "ACURACIA": [builtins.round(accuracy_fa, 4)*100],
    "AUC": [builtins.round(roc_fa, 4)*100],
    "KS":[builtins.round(KS_valor, 4)*100],
    "VN": [tn_fa],
    "FP": [fp_fa],
    "FN": [fn_fa],
    "VP": [tp_fa],
    "TX_INAD_E_RENEG":[builtins.round(tx_inad_e_reneg,4)*100],
}

# Criar DataFrame
df_resultados = pd.DataFrame(resultados)

# Mostrar como tabela
df_resultados.to_excel(fr"C:\Users\fernando.monteiro\deep-torch-example\KAB\Dados\Behavior\app\data\output\Metricas_behavior_{mov}.xlsx")

# Shap

## Validação

In [108]:
#floresta = joblib.load(r"fa_15.pkl")
df_shap=X_pd_dummy.copy()
df_shap["id"]= ids.values
#df_shap_fa=df_shap_fa[df_shap_fa["id"]==cpf_validacao] #
cpfs = df_shap["id"]
df_shap.drop(columns=["id"], inplace=True)

In [None]:
# Objeto explainer - XGBoost:TreeExplainer, Floresta Aleatoria:Explainer, Regressão Logística: LinearExplainer
explainer = shap.Explainer(modelo)

In [None]:
# Calcular os valores SHAP no conjunto de treino de uma vez só
#shap_values = explainer(df_shap)

# === Calcular SHAP em lotes ===

from tqdm import tqdm
batch_size = 1000  # ajuste conforme sua RAM
n = len(df_shap)
shap_values_list = []

for i in tqdm(range(0, n, batch_size), desc="Calculando SHAP", unit="lote"):
    batch = df_shap.iloc[i:i+batch_size]
    shap_values_batch = explainer(batch)
    shap_values_list.append(shap_values_batch.values)

# === Concatenar todos os resultados ===
shap_values = np.concatenate(shap_values_list, axis=0)

# === Criar DataFrame com resultados ===
# se o modelo for binário e shap_values for (n, features, 2)
if shap_values.ndim == 3:
    shap_values = shap_values[:, :, 1]

Calculando SHAP: 100%|██████████| 450/450 [21:25:19<00:00, 171.38s/lote]   


In [115]:
# cpfs
cpfs = cpfs.values

In [118]:
# Associa os shap values aos CPFs

# Rodar esse se for o SHAP normal
#shap_df = pd.DataFrame(shap_values.values[:, :, 1],index=cpfs, columns=[f"{col}_shap" for col in df_shap.columns])

# Rodar esse se for o SHAP em lotes
shap_df = pd.DataFrame(shap_values,index=cpfs, columns=[f"{col}_shap" for col in df_shap.columns])

# Adiciona o CPF como primeira coluna
shap_df.insert(0, "cpf_cnpj", cpfs)

In [119]:
shap_df_completo=shap_df.merge(X, left_on="cpf_cnpj", right_on="cpf_cnpj", how="left")

In [123]:
colunas = [
 'tempo_ultimo_pagamento_pond_shap',
 'valor_pago_nr_shap',
 'indice_instabilidade_shap',
 'valor_principal_total_nr_shap',
 'produtos_FINANCIAMENTO_shap',
 'qtd_parcelas_pagas_nr_shap',
 'reneg_flag_high_risk_shap',
 'qtd_contratos_nr_shap',
 'produtos_EMPRESTIMO/FINANCIAMENTO_shap',
 'tempo_relacionamento_kredilig_meses_shap',
 'idade_shap',
 'fase_relacionamento_novo_shap',
 'fase_relacionamento_fase_consolidacao_shap',
 'ocupacao_APOSENTADO_shap',
 'ocupacao_EMPREGADO_PRIVADO_AUTONOMO_shap',
 'fase_relacionamento_maduro_shap',
 'possui_contratos_a_vista_SIM_shap',
 'produtos_EMPRESTIMO_shap']


# Soma linha a linha dessas colunas
shap_df_completo['soma_shap'] = shap_df_completo[colunas].sum(axis=1)
# Colocar as VARIAVEIS usadas no modelo

# Suponha que df seja seu DataFrame
shap_df_completo[colunas] = shap_df_completo[colunas].round(4)

## Salvar Shap

In [125]:
shap_df_completo[['cpf_cnpj',
                'SCR',
                'PD',
                'tempo_ultimo_pagamento_pond_shap',
                'valor_pago_nr_shap',
                'indice_instabilidade_shap',
                'valor_principal_total_nr_shap',
                'produtos_FINANCIAMENTO_shap',
                'qtd_parcelas_pagas_nr_shap',
                'reneg_flag_high_risk_shap',
                'qtd_contratos_nr_shap',
                'produtos_EMPRESTIMO/FINANCIAMENTO_shap',
                'tempo_relacionamento_kredilig_meses_shap',
                'idade_shap',
                'fase_relacionamento_novo_shap',
                'fase_relacionamento_fase_consolidacao_shap',
                'ocupacao_APOSENTADO_shap',
                'ocupacao_EMPREGADO_PRIVADO_AUTONOMO_shap',
                'fase_relacionamento_maduro_shap',
                'possui_contratos_a_vista_SIM_shap',
                'produtos_EMPRESTIMO_shap',
                'tempo_ultimo_pagamento_pond',
                'valor_pago_nr',
                'indice_instabilidade',
                'valor_principal_total_nr',
                'produtos',
                'qtd_parcelas_pagas_nr',
                'reneg_flag_high_risk',
                'qtd_contratos_nr',
                'tempo_relacionamento_kredilig_meses',
                'idade',
                'fase_relacionamento',
                'ocupacao',
                'possui_contratos_a_vista',
                'soma_shap',
                "data_processamento",
                "data_movimento",
                'inad_e_reneg',
                'Modelo',
                'SCORE_ORIGEM'
  ]].to_parquet(fr"C:\Users\fernando.monteiro\deep-torch-example\KAB\Dados\Behavior\app\data\output\shap_df_{mov}.parquet", index=False)