In [1]:
import pandas as pd
import numpy as np

from pandas.api.types import is_string_dtype
from collections import defaultdict
from time import time

pd.options.display.max_columns = None
pd.options.display.max_rows = None

In [2]:
port_clientes = pd.read_csv("../datasets/portfolio_clientes.csv", sep=",")
port_comunicados = pd.read_csv("../datasets/portfolio_comunicados.csv", sep=",")
port_geral = pd.read_csv("../datasets/portfolio_geral.csv", sep=",", nrows=500000, skiprows=range(1, 8000000, 40))
port_tpv = pd.read_csv("../datasets/portfolio_tpv.csv", sep=",")
#port_geral_contrato_status = pd.read_csv("../datasets/portfolio_geral.csv", sep=",", usecols=['contrato_id', 'dt_ref_portfolio', 'status_contrato'])

data_quitacao_contrato = pd.read_csv("../datasets/data_quitacao_contrato.csv", sep=",").set_index('CONTRATO_ID').to_dict()['DT_QUITACAO']
data_quitacao_contrato = {key : pd.to_datetime(val,format="%Y-%m-%d") if not pd.isna(val) else None 
                                                    for key, val in data_quitacao_contrato.items()}


In [3]:
def tratar_dataset(dataset):

    for coluna in dataset.columns:
        if is_string_dtype(dataset[coluna]):
            dataset[coluna] = dataset[coluna].str.normalize('NFKD').str.encode('ascii', errors='ignore').str.decode('utf-8')
            dataset[coluna] = dataset[coluna].str.upper()
            
    dataset.columns = map(str.upper, dataset.columns)
    
    return dataset


def converter_para_datetime(dataset, lst_colunas, formato):
    for coluna in lst_colunas:
        dataset[coluna] = pd.to_datetime(dataset[coluna], format=formato)

In [4]:
lst_datasets = [port_clientes, port_comunicados, port_geral, port_tpv]#, port_geral_contrato_status]

for dataset in lst_datasets:
    dataset = tratar_dataset(dataset)
    dataset.dropna(inplace=True)
    dataset.drop_duplicates(inplace=True)


In [5]:
converter_para_datetime(port_tpv, ["DT_TRANSACAO"], "%Y%m%d")
converter_para_datetime(port_geral, ["DT_REF_PORTFOLIO", "SAFRA", "DT_CONTRATO", "DT_DESEMBOLSO", "DT_VENCIMENTO", "DT_WO"], "%Y-%m-%d")
converter_para_datetime(port_comunicados, ["DT_REF_PORTFOLIO", "DATA_ACAO"], "%Y-%m-%d")
#converter_para_datetime(port_geral_contrato_status, ["DT_REF_PORTFOLIO"], "%Y-%m-%d")

In [6]:
port_clientes.drop(port_clientes.index[port_clientes["ESTADO"] == "ND"], inplace = True)
port_clientes.drop(port_clientes.index[port_clientes["SUBSEGMENTO"] == "NONE"], inplace = True)

In [7]:
lst_nr_suspensos = set(port_geral.query("STATUS_CONTRATO == 'SUSPENDED'").NR_DOCUMENTO.tolist())
lst_nr_pagos = set(port_geral.query("STATUS_CONTRATO == 'SETTLED'").NR_DOCUMENTO.tolist())

In [8]:
intersection_set = set.intersection(set(lst_nr_pagos), set(lst_nr_suspensos))

In [9]:
lst_nr_pago_sem_suspenso = lst_nr_pagos - lst_nr_suspensos

# PESSOAS QUE QUITARAM A DIVIDA E NUNCA FORAM SUSPENSAS

In [10]:
lst_nr_suspenso_sem_pagar = lst_nr_suspensos - lst_nr_pagos

# PESSOAS QUE FORAM SUSPENSAS E NUNCA PAGARAM A DIVIDA

In [11]:
port_comunicados.head()

Unnamed: 0,CONTRATO_ID,DT_REF_PORTFOLIO,DATA_ACAO,TIPO_ACAO,ACAO,STATUS
0,0D823DDFF1839EB938DCCC68586AE365,2021-01-16,2021-01-18,HSM,CAMPANHAOBSERVACAO,LIDO
1,C2F8A21671DBAEAA4157E03682C639E1,2021-05-22,2021-05-24,HSM,CAMPANHAOBSERVACAO,ENTREGUE
2,E19A222C233D46FF4984489C13AA1B98,2020-09-15,2020-09-15,HSM,CAMPANHAOBSERVACAO,NAO ENTREGUE
3,C24FC7630FE5B89928BA9478C2CDD9B2,2021-07-20,2021-07-20,HSM,CAMPANHAOBSERVACAO,NAO ENTREGUE
4,0ABE9C2F21E941F2BD3B086277E33EBC,2020-12-26,2020-12-28,HSM,CAMPANHAOBSERVACAO,ENTREGUE


In [12]:
contratos_pagos = port_geral.loc[port_geral['NR_DOCUMENTO'].isin(lst_nr_pago_sem_suspenso)]
contratos_pagos['PERFIL_PAGADOR'] = 'BOM'

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  contratos_pagos['PERFIL_PAGADOR'] = 'BOM'


In [13]:
contratos_pagos_suspensos = port_geral.loc[port_geral['NR_DOCUMENTO'].isin(intersection_set)]
contratos_pagos_suspensos['PERFIL_PAGADOR'] = 'NEUTRO'

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  contratos_pagos_suspensos['PERFIL_PAGADOR'] = 'NEUTRO'


In [14]:
contratos_suspensos = port_geral.loc[port_geral['NR_DOCUMENTO'].isin(lst_nr_suspenso_sem_pagar)]
contratos_suspensos['PERFIL_PAGADOR'] = 'MAU'

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  contratos_suspensos['PERFIL_PAGADOR'] = 'MAU'


############################################################################


In [15]:
clientes_com_contratos_pago = contratos_pagos.merge(port_clientes, how='inner', on='NR_DOCUMENTO')

In [16]:
contratos_pagos_suspensos_merge = contratos_pagos_suspensos.merge(port_clientes, how='inner', on='NR_DOCUMENTO')

In [17]:
clientes_com_contratos_suspensos = contratos_suspensos.merge(port_clientes, how='inner', on='NR_DOCUMENTO')

In [18]:
todos_clientes = pd.concat([clientes_com_contratos_pago, contratos_pagos_suspensos_merge, clientes_com_contratos_suspensos])

############################################################################

In [19]:
def agrupa_e_segmenta_porcentagem(dataframe, coluna_groupby, coluna_tipo):
    tipos = list(filter(lambda elem: not pd.isna(elem), dataframe[coluna_tipo].unique()))
    
    tipos_dict = {}
    for tipo in tipos:
        query = dataframe.query(f'{coluna_tipo} == "{tipo}"')
        contagem = query.groupby(coluna_groupby).size()
        porcentagem = round(contagem / contagem.sum() * 100, 2)

        tipo_dataframe = pd.DataFrame()
        tipo_dataframe['contagem'] = contagem
        tipo_dataframe['porcentagem'] = porcentagem

        tipos_dict[tipo] = tipo_dataframe.sort_values(by=['contagem'], ascending=False)

    return tipos_dict

In [20]:
def gera_df_porcentagem_simples(dataframe, tipo):
    contagem = dataframe.drop_duplicates('NR_DOCUMENTO').groupby(tipo).size()
    porcentagem = round(contagem / contagem.sum() * 100,2)

    dataframe_resultado = pd.DataFrame()
    dataframe_resultado['contagem'] = contagem
    dataframe_resultado['porcentagem'] = porcentagem

    return dataframe_resultado.sort_values('contagem', ascending=False)

def gera_df_porcentagem_composto(dataframe, tipo, subtipo):
    resultado = defaultdict(list)
    agrupamento = dataframe.drop_duplicates('NR_DOCUMENTO').groupby([tipo, subtipo])
    contagem_total_por_tipo = agrupamento.size()

    for (tipo_aux, subtipo_aux), valor in agrupamento:
        contagem = len(valor)
        contagem_total = contagem_total_por_tipo.loc[tipo_aux].sum()
        resultado['tipo'].append(tipo_aux)
        resultado['subtipo'].append(subtipo_aux)
        resultado['contagem'].append(contagem)
        resultado['porcentagem'].append(round(contagem / contagem_total * 100,2))

    return pd.DataFrame(resultado).set_index(['tipo', 'subtipo']).sort_values(by=['tipo','contagem'], ascending=False)

def gera_df_porcentagem(dataframe, tipo, subtipo = None):
    resultado = gera_df_porcentagem_composto(dataframe, tipo, subtipo) if subtipo is not None else gera_df_porcentagem_simples(dataframe, tipo)

    return resultado

def gera_df_porcentagem_por_perfil_pagador(todos_perfis_pagadores_dataframe, tipo):
    return gera_df_porcentagem_composto(dataframe=todos_perfis_pagadores_dataframe, tipo=tipo, subtipo='PERFIL_PAGADOR')

def extrair_subtipo_ordenado(dataframe, subtipo):
    return dataframe.query(f'subtipo == "{subtipo}"').sort_values(by='porcentagem', ascending=False)
    

## TODO
- [x] Listar os agrupamentos por perfil de pagador (estado, tipo de empresa, segmento, status do contrato)
- [x] Listar demais tipos de agrupamentos (Estado x Segmento, Status do contrato x Tipo de empresa, Segmento x Status de contrato)
- [x] Adicionar resultados para perfil de pagador neutro
- [] Investigar a criação da curva de acionamento (plotar uma para cada perfil de pagador)
- [] Há um diferença entre a quantidade de lidos de um bom e mau pagador

## Bom pagador

### Tipo empresa

In [21]:
bom_pagador_tipo_empresa = gera_df_porcentagem(clientes_com_contratos_pago, 'TIPO_EMPRESA')
bom_pagador_tipo_empresa

Unnamed: 0_level_0,contagem,porcentagem
TIPO_EMPRESA,Unnamed: 1_level_1,Unnamed: 2_level_1
PJ,3950,59.26
MEI,2136,32.04
PF,580,8.7


### Segmento

#### Quantidade de bons pagadores por segmento

In [22]:
bom_pagador_segmento = gera_df_porcentagem(clientes_com_contratos_pago, 'SEGMENTO')
bom_pagador_segmento

Unnamed: 0_level_0,contagem,porcentagem
SEGMENTO,Unnamed: 1_level_1,Unnamed: 2_level_1
ALIMENTACAO,2474,37.11
VAREJO,1180,17.7
BENS DURAVEIS,1057,15.86
SERVICOS,1022,15.33
SUPERMERCADO/FARMACIA,627,9.41
SERVICOS RECORRENTES,139,2.09
VIAGENS E ENTRETENIMENTO,91,1.37
POSTO,76,1.14


#### Distribuição de status de contrato por segmento

In [23]:
bom_pagador_segmento_status = gera_df_porcentagem(clientes_com_contratos_pago, 'SEGMENTO', 'STATUS_CONTRATO')
bom_pagador_segmento_status

Unnamed: 0_level_0,Unnamed: 1_level_0,contagem,porcentagem
tipo,subtipo,Unnamed: 2_level_1,Unnamed: 3_level_1
VIAGENS E ENTRETENIMENTO,ACTIVE,46,50.55
VIAGENS E ENTRETENIMENTO,SETTLED,45,49.45
VAREJO,ACTIVE,637,53.98
VAREJO,SETTLED,543,46.02
SUPERMERCADO/FARMACIA,ACTIVE,364,58.05
SUPERMERCADO/FARMACIA,SETTLED,262,41.79
SUPERMERCADO/FARMACIA,ACCEPTED,1,0.16
SERVICOS RECORRENTES,SETTLED,71,51.08
SERVICOS RECORRENTES,ACTIVE,68,48.92
SERVICOS,ACTIVE,564,55.19


Qual segmento possui a maior taxa de contratos quitados?

In [58]:
bom_pagador_segmento_status_quitado = extrair_subtipo_ordenado(bom_pagador_segmento_status, 'SETTLED')
bom_pagador_segmento_status_quitado

Unnamed: 0_level_0,Unnamed: 1_level_0,contagem,porcentagem
tipo,subtipo,Unnamed: 2_level_1,Unnamed: 3_level_1
SERVICOS RECORRENTES,SETTLED,71,51.08
VIAGENS E ENTRETENIMENTO,SETTLED,45,49.45
BENS DURAVEIS,SETTLED,505,47.78
VAREJO,SETTLED,543,46.02
ALIMENTACAO,SETTLED,1121,45.31
POSTO,SETTLED,34,44.74
SERVICOS,SETTLED,457,44.72
SUPERMERCADO/FARMACIA,SETTLED,262,41.79


### Status contrato

In [25]:
bom_pagador_status_contrato = gera_df_porcentagem(clientes_com_contratos_pago, 'STATUS_CONTRATO')
bom_pagador_status_contrato

Unnamed: 0_level_0,contagem,porcentagem
STATUS_CONTRATO,Unnamed: 1_level_1,Unnamed: 2_level_1
ACTIVE,3622,54.34
SETTLED,3038,45.57
DISBURSEMENTREQUESTED,4,0.06
ACCEPTED,1,0.02
DISBURSEMENTCONFIRMED,1,0.02


### Estado

#### Quantidade de bons pagadores por estado

In [26]:
bom_pagador_estado = gera_df_porcentagem(clientes_com_contratos_pago, 'ESTADO')
bom_pagador_estado

Unnamed: 0_level_0,contagem,porcentagem
ESTADO,Unnamed: 1_level_1,Unnamed: 2_level_1
SP,1838,27.57
RJ,800,12.0
PR,620,9.3
MG,419,6.29
SC,395,5.93
RS,360,5.4
BA,344,5.16
GO,275,4.13
PE,205,3.08
DF,201,3.02


#### Distribuição dos status de contrato por estado

In [27]:
bom_pagador_estado_status = gera_df_porcentagem(clientes_com_contratos_pago, 'ESTADO', 'STATUS_CONTRATO')
bom_pagador_estado_status

Unnamed: 0_level_0,Unnamed: 1_level_0,contagem,porcentagem
tipo,subtipo,Unnamed: 2_level_1,Unnamed: 3_level_1
TO,ACTIVE,15,60.0
TO,SETTLED,10,40.0
SP,ACTIVE,968,52.67
SP,SETTLED,867,47.17
SP,DISBURSEMENTREQUESTED,2,0.11
SP,DISBURSEMENTCONFIRMED,1,0.05
SE,ACTIVE,40,62.5
SE,SETTLED,24,37.5
SC,ACTIVE,210,53.16
SC,SETTLED,185,46.84


Qual estado possui a maior taxa de contratos quitados?

In [59]:
bom_pagador_estado_status_quitados = extrair_subtipo_ordenado(bom_pagador_estado_status, 'SETTLED')
bom_pagador_estado_status_quitados

Unnamed: 0_level_0,Unnamed: 1_level_0,contagem,porcentagem
tipo,subtipo,Unnamed: 2_level_1,Unnamed: 3_level_1
AC,SETTLED,7,63.64
MA,SETTLED,35,60.34
PI,SETTLED,17,53.12
RO,SETTLED,16,51.61
AL,SETTLED,34,48.57
PA,SETTLED,59,47.97
RS,SETTLED,171,47.5
DF,SETTLED,95,47.26
SP,SETTLED,867,47.17
SC,SETTLED,185,46.84


#### Distribuição de segmento de atuação por estado

In [29]:
bom_pagador_estado_segmento = gera_df_porcentagem(clientes_com_contratos_pago, 'ESTADO', 'SEGMENTO')
bom_pagador_estado_segmento

Unnamed: 0_level_0,Unnamed: 1_level_0,contagem,porcentagem
tipo,subtipo,Unnamed: 2_level_1,Unnamed: 3_level_1
TO,ALIMENTACAO,8,32.0
TO,BENS DURAVEIS,5,20.0
TO,SERVICOS,5,20.0
TO,SUPERMERCADO/FARMACIA,5,20.0
TO,POSTO,1,4.0
TO,SERVICOS RECORRENTES,1,4.0
SP,ALIMENTACAO,748,40.7
SP,VAREJO,303,16.49
SP,SERVICOS,291,15.83
SP,BENS DURAVEIS,282,15.34


## Mau pagador

### Tipo empresa

In [42]:
mau_pagador_tipo_empresa = gera_df_porcentagem(clientes_com_contratos_suspensos, 'TIPO_EMPRESA')
mau_pagador_tipo_empresa

Unnamed: 0_level_0,contagem,porcentagem
TIPO_EMPRESA,Unnamed: 1_level_1,Unnamed: 2_level_1
PJ,561,51.05
MEI,368,33.48
PF,170,15.47


### Segmento

#### Quantidade de maus pagadores por segmento

In [33]:
mau_pagador_segmento = gera_df_porcentagem(clientes_com_contratos_suspensos, 'SEGMENTO')
mau_pagador_segmento

Unnamed: 0_level_0,contagem,porcentagem
SEGMENTO,Unnamed: 1_level_1,Unnamed: 2_level_1
ALIMENTACAO,332,30.21
VAREJO,234,21.29
SERVICOS,200,18.2
BENS DURAVEIS,196,17.83
SUPERMERCADO/FARMACIA,75,6.82
SERVICOS RECORRENTES,34,3.09
VIAGENS E ENTRETENIMENTO,17,1.55
POSTO,11,1.0


#### Distribuição de status de contrato por segmento

In [34]:
mau_pagador_segmento_status = gera_df_porcentagem(clientes_com_contratos_suspensos, 'SEGMENTO', 'STATUS_CONTRATO')
mau_pagador_segmento_status

Unnamed: 0_level_0,Unnamed: 1_level_0,contagem,porcentagem
tipo,subtipo,Unnamed: 2_level_1,Unnamed: 3_level_1
VIAGENS E ENTRETENIMENTO,ACTIVE,15,88.24
VIAGENS E ENTRETENIMENTO,SUSPENDED,2,11.76
VAREJO,ACTIVE,183,78.21
VAREJO,SUSPENDED,51,21.79
SUPERMERCADO/FARMACIA,ACTIVE,57,76.0
SUPERMERCADO/FARMACIA,SUSPENDED,17,22.67
SUPERMERCADO/FARMACIA,DISBURSEMENTCONFIRMED,1,1.33
SERVICOS RECORRENTES,ACTIVE,29,85.29
SERVICOS RECORRENTES,SUSPENDED,5,14.71
SERVICOS,ACTIVE,160,80.0


Qual segmento possui a maior taxa de contratos suspensos?

In [56]:
mau_pagador_segmento_status_suspenso = extrair_subtipo_ordenado(mau_pagador_segmento_status, 'SUSPENDED')
mau_pagador_segmento_status_suspenso

Unnamed: 0_level_0,Unnamed: 1_level_0,contagem,porcentagem
tipo,subtipo,Unnamed: 2_level_1,Unnamed: 3_level_1
BENS DURAVEIS,SUSPENDED,46,23.47
SUPERMERCADO/FARMACIA,SUSPENDED,17,22.67
VAREJO,SUSPENDED,51,21.79
SERVICOS,SUSPENDED,40,20.0
ALIMENTACAO,SUSPENDED,65,19.58
SERVICOS RECORRENTES,SUSPENDED,5,14.71
VIAGENS E ENTRETENIMENTO,SUSPENDED,2,11.76


### Estado

#### Quantidade de maus pagadores por estado

In [37]:
mau_pagador_estado = gera_df_porcentagem(clientes_com_contratos_suspensos, 'ESTADO')
mau_pagador_estado

Unnamed: 0_level_0,contagem,porcentagem
ESTADO,Unnamed: 1_level_1,Unnamed: 2_level_1
SP,280,25.48
RJ,156,14.19
PR,91,8.28
BA,63,5.73
MG,57,5.19
GO,53,4.82
SC,49,4.46
DF,48,4.37
RS,46,4.19
CE,44,4.0


#### Distribuição dos status de contrato por estado

In [38]:
mau_pagador_estado_status = gera_df_porcentagem(clientes_com_contratos_suspensos, 'ESTADO', 'STATUS_CONTRATO')
mau_pagador_estado_status

Unnamed: 0_level_0,Unnamed: 1_level_0,contagem,porcentagem
tipo,subtipo,Unnamed: 2_level_1,Unnamed: 3_level_1
TO,ACTIVE,6,100.0
SP,ACTIVE,227,81.07
SP,SUSPENDED,53,18.93
SE,ACTIVE,4,80.0
SE,SUSPENDED,1,20.0
SC,ACTIVE,36,73.47
SC,SUSPENDED,13,26.53
RS,ACTIVE,34,73.91
RS,SUSPENDED,12,26.09
RR,ACTIVE,5,100.0


Qual estado possui a maior taxa de contratos suspensos?

In [57]:
mau_pagador_estado_status_suspenso = extrair_subtipo_ordenado(mau_pagador_estado_status, 'SUSPENDED')
mau_pagador_estado_status_suspenso

Unnamed: 0_level_0,Unnamed: 1_level_0,contagem,porcentagem
tipo,subtipo,Unnamed: 2_level_1,Unnamed: 3_level_1
AP,SUSPENDED,3,42.86
RO,SUSPENDED,2,40.0
MT,SUSPENDED,4,36.36
PE,SUSPENDED,12,33.33
SC,SUSPENDED,13,26.53
RS,SUSPENDED,12,26.09
RJ,SUSPENDED,40,25.64
PB,SUSPENDED,3,23.08
RN,SUSPENDED,4,22.22
MS,SUSPENDED,3,21.43


#### Distribuição de segmento de atuação por estado

In [40]:
mau_pagador_estado_segmento = gera_df_porcentagem(clientes_com_contratos_suspensos, 'ESTADO', 'SEGMENTO')
mau_pagador_estado_segmento

Unnamed: 0_level_0,Unnamed: 1_level_0,contagem,porcentagem
tipo,subtipo,Unnamed: 2_level_1,Unnamed: 3_level_1
TO,BENS DURAVEIS,3,50.0
TO,ALIMENTACAO,2,33.33
TO,VAREJO,1,16.67
SP,ALIMENTACAO,81,28.93
SP,SERVICOS,56,20.0
SP,VAREJO,54,19.29
SP,BENS DURAVEIS,51,18.21
SP,SUPERMERCADO/FARMACIA,20,7.14
SP,SERVICOS RECORRENTES,9,3.21
SP,VIAGENS E ENTRETENIMENTO,6,2.14


### Status contrato

In [43]:
mau_pagador_status_contrato = gera_df_porcentagem(clientes_com_contratos_suspensos, 'STATUS_CONTRATO')
mau_pagador_status_contrato

Unnamed: 0_level_0,contagem,porcentagem
STATUS_CONTRATO,Unnamed: 1_level_1,Unnamed: 2_level_1
ACTIVE,872,79.34
SUSPENDED,226,20.56
DISBURSEMENTCONFIRMED,1,0.09


## Pagador neutro

### Tipo empresa

In [45]:
neutro_pagador_tipo_empresa = gera_df_porcentagem(contratos_pagos_suspensos_merge, 'TIPO_EMPRESA')
neutro_pagador_tipo_empresa

Unnamed: 0_level_0,contagem,porcentagem
TIPO_EMPRESA,Unnamed: 1_level_1,Unnamed: 2_level_1
PJ,503,56.71
MEI,292,32.92
PF,92,10.37


### Segmento

#### Quantidade de pagadores neutros por segmento

In [46]:
neutro_pagador_segmento = gera_df_porcentagem(contratos_pagos_suspensos_merge, 'SEGMENTO')
neutro_pagador_segmento

Unnamed: 0_level_0,contagem,porcentagem
SEGMENTO,Unnamed: 1_level_1,Unnamed: 2_level_1
ALIMENTACAO,313,35.29
SERVICOS,160,18.04
VAREJO,158,17.81
BENS DURAVEIS,148,16.69
SUPERMERCADO/FARMACIA,59,6.65
SERVICOS RECORRENTES,25,2.82
VIAGENS E ENTRETENIMENTO,15,1.69
POSTO,9,1.01


#### Distribuição de status de contrato por segmento

In [47]:
neutro_pagador_segmento_status = gera_df_porcentagem(contratos_pagos_suspensos_merge, 'SEGMENTO', 'STATUS_CONTRATO')
neutro_pagador_segmento_status

Unnamed: 0_level_0,Unnamed: 1_level_0,contagem,porcentagem
tipo,subtipo,Unnamed: 2_level_1,Unnamed: 3_level_1
VIAGENS E ENTRETENIMENTO,SETTLED,7,46.67
VIAGENS E ENTRETENIMENTO,ACTIVE,6,40.0
VIAGENS E ENTRETENIMENTO,SUSPENDED,2,13.33
VAREJO,ACTIVE,74,46.84
VAREJO,SETTLED,63,39.87
VAREJO,SUSPENDED,21,13.29
SUPERMERCADO/FARMACIA,ACTIVE,25,42.37
SUPERMERCADO/FARMACIA,SETTLED,23,38.98
SUPERMERCADO/FARMACIA,SUSPENDED,11,18.64
SERVICOS RECORRENTES,ACTIVE,11,44.0


Qual segmento possui a maior taxa de contratos quitados?

In [49]:
neutro_pagador_segmento_status_quitado = extrair_subtipo_ordenado(neutro_pagador_segmento_status, 'SETTLED')
neutro_pagador_segmento_status_quitado

Unnamed: 0_level_0,Unnamed: 1_level_0,contagem,porcentagem
tipo,subtipo,Unnamed: 2_level_1,Unnamed: 3_level_1
POSTO,SETTLED,6,66.67
VIAGENS E ENTRETENIMENTO,SETTLED,7,46.67
SERVICOS RECORRENTES,SETTLED,11,44.0
VAREJO,SETTLED,63,39.87
SUPERMERCADO/FARMACIA,SETTLED,23,38.98
BENS DURAVEIS,SETTLED,54,36.49
ALIMENTACAO,SETTLED,108,34.5
SERVICOS,SETTLED,42,26.25


Qual segmento possui a maior taxa de contratos suspensos?

In [50]:
neutro_pagador_segmento_status_suspenso = extrair_subtipo_ordenado(neutro_pagador_segmento_status, 'SUSPENDED')
neutro_pagador_segmento_status_suspenso

Unnamed: 0_level_0,Unnamed: 1_level_0,contagem,porcentagem
tipo,subtipo,Unnamed: 2_level_1,Unnamed: 3_level_1
POSTO,SUSPENDED,2,22.22
SUPERMERCADO/FARMACIA,SUSPENDED,11,18.64
SERVICOS,SUSPENDED,26,16.25
BENS DURAVEIS,SUSPENDED,23,15.54
VIAGENS E ENTRETENIMENTO,SUSPENDED,2,13.33
VAREJO,SUSPENDED,21,13.29
SERVICOS RECORRENTES,SUSPENDED,3,12.0
ALIMENTACAO,SUSPENDED,35,11.18


### Estado

#### Quantidade de maus pagadores por estado

In [51]:
neutro_pagador_estado = gera_df_porcentagem(contratos_pagos_suspensos_merge, 'ESTADO')
neutro_pagador_estado

Unnamed: 0_level_0,contagem,porcentagem
ESTADO,Unnamed: 1_level_1,Unnamed: 2_level_1
SP,236,26.61
RJ,121,13.64
PR,62,6.99
MG,57,6.43
BA,51,5.75
SC,44,4.96
RS,44,4.96
PE,42,4.74
DF,39,4.4
GO,26,2.93


#### Distribuição dos status de contrato por estado

In [52]:
neutro_pagador_estado_status = gera_df_porcentagem(contratos_pagos_suspensos_merge, 'ESTADO', 'STATUS_CONTRATO')
neutro_pagador_estado_status

Unnamed: 0_level_0,Unnamed: 1_level_0,contagem,porcentagem
tipo,subtipo,Unnamed: 2_level_1,Unnamed: 3_level_1
TO,SETTLED,3,42.86
TO,ACTIVE,2,28.57
TO,SUSPENDED,2,28.57
SP,ACTIVE,116,49.15
SP,SETTLED,81,34.32
SP,SUSPENDED,39,16.53
SE,ACTIVE,5,41.67
SE,SETTLED,4,33.33
SE,SUSPENDED,3,25.0
SC,SETTLED,19,43.18


Qual estado possui a maior taxa de contratos suspensos?

In [53]:
neutro_pagador_estado_status_concluido = extrair_subtipo_ordenado(neutro_pagador_estado_status, 'SUSPENDED')
neutro_pagador_estado_status_concluido

Unnamed: 0_level_0,Unnamed: 1_level_0,contagem,porcentagem
tipo,subtipo,Unnamed: 2_level_1,Unnamed: 3_level_1
AL,SUSPENDED,2,40.0
TO,SUSPENDED,2,28.57
SE,SUSPENDED,3,25.0
GO,SUSPENDED,6,23.08
MA,SUSPENDED,3,21.43
RN,SUSPENDED,4,20.0
PA,SUSPENDED,3,20.0
SC,SUSPENDED,8,18.18
AM,SUSPENDED,1,16.67
PE,SUSPENDED,7,16.67


#### Distribuição de segmento de atuação por estado

In [54]:
neutro_pagador_estado_segmento = gera_df_porcentagem(contratos_pagos_suspensos_merge, 'ESTADO', 'SEGMENTO')
neutro_pagador_estado_segmento

Unnamed: 0_level_0,Unnamed: 1_level_0,contagem,porcentagem
tipo,subtipo,Unnamed: 2_level_1,Unnamed: 3_level_1
TO,VAREJO,3,42.86
TO,ALIMENTACAO,2,28.57
TO,BENS DURAVEIS,1,14.29
TO,SERVICOS,1,14.29
SP,ALIMENTACAO,100,42.37
SP,SERVICOS,47,19.92
SP,BENS DURAVEIS,37,15.68
SP,VAREJO,32,13.56
SP,SUPERMERCADO/FARMACIA,9,3.81
SP,SERVICOS RECORRENTES,7,2.97


### Status contrato

In [55]:
neutro_pagador_status_contrato = gera_df_porcentagem(contratos_pagos_suspensos_merge, 'STATUS_CONTRATO')
neutro_pagador_status_contrato

Unnamed: 0_level_0,contagem,porcentagem
STATUS_CONTRATO,Unnamed: 1_level_1,Unnamed: 2_level_1
ACTIVE,450,50.73
SETTLED,314,35.4
SUSPENDED,123,13.87


## Análise Geral

### Tipo de empresa

In [60]:
geral_tipo_empresa = gera_df_porcentagem_por_perfil_pagador(todos_clientes, 'TIPO_EMPRESA')
geral_tipo_empresa

Unnamed: 0_level_0,Unnamed: 1_level_0,contagem,porcentagem
tipo,subtipo,Unnamed: 2_level_1,Unnamed: 3_level_1
PJ,BOM,3950,78.78
PJ,MAU,561,11.19
PJ,NEUTRO,503,10.03
PF,BOM,580,68.88
PF,MAU,170,20.19
PF,NEUTRO,92,10.93
MEI,BOM,2136,76.39
MEI,MAU,368,13.16
MEI,NEUTRO,292,10.44


### Estado

In [61]:
geral_estado = gera_df_porcentagem_por_perfil_pagador(todos_clientes, 'ESTADO')
geral_estado.head(10)

Unnamed: 0_level_0,Unnamed: 1_level_0,contagem,porcentagem
tipo,subtipo,Unnamed: 2_level_1,Unnamed: 3_level_1
TO,BOM,25,65.79
TO,NEUTRO,7,18.42
TO,MAU,6,15.79
SP,BOM,1838,78.08
SP,MAU,280,11.89
SP,NEUTRO,236,10.03
SE,BOM,64,79.01
SE,NEUTRO,12,14.81
SE,MAU,5,6.17
SC,BOM,395,80.94


Quais estados possuem as maiores taxa de bons pagadores?

In [62]:
geral_estado_bom = extrair_subtipo_ordenado(geral_estado, 'BOM')
geral_estado_bom.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,contagem,porcentagem
tipo,subtipo,Unnamed: 2_level_1,Unnamed: 3_level_1
RO,BOM,31,81.58
MT,BOM,97,81.51
SC,BOM,395,80.94
PR,BOM,620,80.21
RS,BOM,360,80.0


Quais estados possuem as maiores taxes de maus pagadores?

In [63]:
geral_estado_mau = extrair_subtipo_ordenado(geral_estado, 'MAU')
geral_estado_mau.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,contagem,porcentagem
tipo,subtipo,Unnamed: 2_level_1,Unnamed: 3_level_1
RR,MAU,5,20.83
AM,MAU,16,19.28
CE,MAU,44,17.25
DF,MAU,48,16.67
MA,MAU,14,16.28


### Segmento

In [64]:
geral_segmento = gera_df_porcentagem_por_perfil_pagador(todos_clientes, 'SEGMENTO')
geral_segmento

Unnamed: 0_level_0,Unnamed: 1_level_0,contagem,porcentagem
tipo,subtipo,Unnamed: 2_level_1,Unnamed: 3_level_1
VIAGENS E ENTRETENIMENTO,BOM,91,73.98
VIAGENS E ENTRETENIMENTO,MAU,17,13.82
VIAGENS E ENTRETENIMENTO,NEUTRO,15,12.2
VAREJO,BOM,1180,75.06
VAREJO,MAU,234,14.89
VAREJO,NEUTRO,158,10.05
SUPERMERCADO/FARMACIA,BOM,627,82.39
SUPERMERCADO/FARMACIA,MAU,75,9.86
SUPERMERCADO/FARMACIA,NEUTRO,59,7.75
SERVICOS RECORRENTES,BOM,139,70.2


Quais são os segmentos que costumam ter mais bons pagadores?

In [65]:
geral_segmento_bom = extrair_subtipo_ordenado(geral_segmento, 'BOM')
geral_segmento_bom.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,contagem,porcentagem
tipo,subtipo,Unnamed: 2_level_1,Unnamed: 3_level_1
SUPERMERCADO/FARMACIA,BOM,627,82.39
ALIMENTACAO,BOM,2474,79.32
POSTO,BOM,76,79.17
BENS DURAVEIS,BOM,1057,75.45
VAREJO,BOM,1180,75.06


Quais são os segmentos que costumam ter mais maus pagadores?

In [66]:
geral_segmento_mau = extrair_subtipo_ordenado(geral_segmento, 'MAU')
geral_segmento_mau.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,contagem,porcentagem
tipo,subtipo,Unnamed: 2_level_1,Unnamed: 3_level_1
SERVICOS RECORRENTES,MAU,34,17.17
VAREJO,MAU,234,14.89
SERVICOS,MAU,200,14.47
BENS DURAVEIS,MAU,196,13.99
VIAGENS E ENTRETENIMENTO,MAU,17,13.82


## Curva de acionamentos

In [67]:
def extrai_data_de_quitacao_contratos(dataframe_values):
    data_quitacao_contrato = {}
    contratos_unicos = set()
    for contrato_id, dt_ref_portfolio, status in dataframe_values:
        contratos_unicos.add(contrato_id)

        if status == "SETTLED":
            data_quitacao_contrato[contrato_id] = dt_ref_portfolio
    
    contratos_nao_quitados = contratos_unicos - data_quitacao_contrato.keys()
    for contrato in contratos_nao_quitados:
        data_quitacao_contrato[contrato] = None
    
    return pd.DataFrame(data_quitacao_contrato.items(), columns=['CONTRATO_ID','DT_QUITACAO']).set_index('CONTRATO_ID')

def extrai_sucessos_por_qnt_acionamentos(dataframe_values, contratos_indices_dict, data_quitacao_contrato):

    sucessos_por_qnt_acionamentos = defaultdict(set)

    for contrato, indices_contrato in contratos_indices_dict.items():
        _, _, dt_acao_portfolio, *_ = dataframe_values[indices_contrato].transpose()

        if data_quitacao_contrato[contrato] is not None:
            
            qnt_acionamentos = len(np.where(dt_acao_portfolio <= data_quitacao_contrato[contrato])[0])

            assert qnt_acionamentos % 2 == 0
            
            sucessos_por_qnt_acionamentos[qnt_acionamentos//2].add(contrato)
        else:
            sucessos_por_qnt_acionamentos['PENDENTE'].add(contrato)

    assert sucessos_por_qnt_acionamentos.get(0) is None

    contratos_quitados_sem_acionamento = data_quitacao_contrato.keys() - contratos_indices_dict.keys()
    sucessos_por_qnt_acionamentos[0] = contratos_quitados_sem_acionamento

    sucessos_por_qnt_acionamentos_ordenado = {key:len(sucessos_por_qnt_acionamentos[key]) for key in sorted(sucessos_por_qnt_acionamentos.keys() - {'PENDENTE'})}
    sucessos_por_qnt_acionamentos_ordenado['PENDENTE'] = len(sucessos_por_qnt_acionamentos['PENDENTE'])
    
    return sucessos_por_qnt_acionamentos_ordenado

def gera_soma_acumulada(dicionario):
    chaves_sem_pendente = dicionario.keys() - {'PENDENTE'}

    soma = 0
    dicionario_acumulado = {}
    for chave in sorted(chaves_sem_pendente):
        soma += dicionario[chave]
        dicionario_acumulado[chave] = soma
    
    dicionario_acumulado['PENDENTE'] = dicionario['PENDENTE']

    return dicionario_acumulado

def gera_mapeamento_contrato_indices(dataframe):

    contrato_indices_dict = defaultdict(list)
    
    for idx, (contrato_id, *_) in enumerate(dataframe):
        contrato_indices_dict[contrato_id].append(idx)
    
    return contrato_indices_dict

def gera_curva_acionamentos(dataframe_values, contratos_indices_dict, data_quitacao_contrato):

    start = time()
    sucessos_por_qnt_acionamento = extrai_sucessos_por_qnt_acionamentos(dataframe_values, contratos_indices_dict, data_quitacao_contrato)
    sucessos_por_qnt_acionamento_df = pd.DataFrame(sucessos_por_qnt_acionamento.items(), columns=['NUM_ACIONAMENTOS', 'QNT_QUITADOS']).head(-1)
    
    total_contratos = sucessos_por_qnt_acionamento_df.QNT_QUITADOS.sum()
    sucessos_por_qnt_acionamento_df['PORCENTAGEM_QUITADOS'] = sucessos_por_qnt_acionamento_df.QNT_QUITADOS / total_contratos * 100
    #print(f'Extrai {time()-start}')

    start = time()
    sucessos_acumulados_por_qnt_acionamentos = gera_soma_acumulada(sucessos_por_qnt_acionamento)
    sucessos_acumulados_por_qnt_acionamentos_df = pd.DataFrame(sucessos_acumulados_por_qnt_acionamentos.items(), columns=['NUM_ACIONAMENTOS', 'QNT_QUITADOS_ACUMULADA']).head(-1)
    sucessos_acumulados_por_qnt_acionamentos_df['PORCENTAGEM_QUITADOS_ACUMULADA'] = sucessos_acumulados_por_qnt_acionamentos_df.QNT_QUITADOS_ACUMULADA / total_contratos * 100
    #print(f'Soma {time()-start}')

    return sucessos_por_qnt_acionamento_df, sucessos_acumulados_por_qnt_acionamentos_df



In [68]:
#data_quitacao_contrato = extrai_data_de_quitacao_contratos(port_geral_contrato_status.values)
#data_quitacao_contrato.to_csv('data_quitacao_contrato.csv', index=True)

### Geral

In [69]:
port_comunicados_values = port_comunicados.values
port_comunicado_mapeamento = gera_mapeamento_contrato_indices(port_comunicados_values)

In [70]:
sucessos_por_qnt_acionamento_df , sucessos_acumulados_por_qnt_acionamentos_df = gera_curva_acionamentos(port_comunicados_values, port_comunicado_mapeamento, data_quitacao_contrato)

#### Quantidade / Porcentagem de contratos que foram quitados com exatamente X acionamentos

In [71]:
sucessos_por_qnt_acionamento_df.head()

Unnamed: 0,NUM_ACIONAMENTOS,QNT_QUITADOS,PORCENTAGEM_QUITADOS
0,0,2554,29.601298
1,1,934,10.82522
2,2,535,6.200742
3,3,462,5.354659
4,4,393,4.554937


#### Quantidade / Porcentagem acumulada de contratos quitados em até X acionamentos

In [72]:
sucessos_acumulados_por_qnt_acionamentos_df.head()

Unnamed: 0,NUM_ACIONAMENTOS,QNT_QUITADOS_ACUMULADA,PORCENTAGEM_QUITADOS_ACUMULADA
0,0,2554,29.601298
1,1,3488,40.426518
2,2,4023,46.62726
3,3,4485,51.981919
4,4,4878,56.536857


### Bom Pagador

In [77]:
ids_contratos_bons_pagadores = set(clientes_com_contratos_pago.CONTRATO_ID.unique())
port_comunicados_bom_pagador = port_comunicados[port_comunicados.CONTRATO_ID.isin(ids_contratos_bons_pagadores)]

In [81]:
len(port_comunicados_bom_pagador)

109798

In [83]:
port_comunicados_bom_pagador_values = port_comunicados_bom_pagador.values
port_comunicado_bom_pagador_mapeamento = gera_mapeamento_contrato_indices(port_comunicados_bom_pagador_values)

In [84]:
sucessos_por_qnt_acionamento_bom_pagador_df , sucessos_acumulados_por_qnt_acionamentos_bom_pagador_df = gera_curva_acionamentos(port_comunicados_bom_pagador_values, port_comunicado_bom_pagador_mapeamento, data_quitacao_contrato)

#### Quantidade / Porcentagem de contratos que foram quitados com exatamente X acionamentos

In [89]:
sucessos_por_qnt_acionamento_bom_pagador_df.head()

Unnamed: 0,NUM_ACIONAMENTOS,QNT_QUITADOS,PORCENTAGEM_QUITADOS
0,0,9646,66.045875
1,1,822,5.62821
2,2,466,3.190688
3,3,408,2.793564
4,4,346,2.369052


#### Quantidade / Porcentagem acumulada de contratos quitados em até X acionamentos

In [95]:
sucessos_acumulados_por_qnt_acionamentos_bom_pagador_df.head()

Unnamed: 0,NUM_ACIONAMENTOS,QNT_QUITADOS_ACUMULADA,PORCENTAGEM_QUITADOS_ACUMULADA
0,0,9646,66.045875
1,1,10468,71.674084
2,2,10934,74.864772
3,3,11342,77.658336
4,4,11688,80.027388


### Mau Pagador

Essa curva não faz sentido para os maus pagadores, pois eles não possuem contratos quitados.

## Exportação de dados - PRECISA ATUALIZAR

In [1]:
clientes_com_contratos_suspensos[['CONTRATO_ID','DT_REF_PORTFOLIO']].drop_duplicates().merge(port_comunicados, how='inner', on=['CONTRATO_ID','DT_REF_PORTFOLIO']).groupby('CONTRATO_ID').size().quantile(0.99)

NameError: name 'clientes_com_contratos_suspensos' is not defined

Prazo/parcelas do contrato da linha de crédito, geralmente o prazo médio é de 8 meses.

https://www.bndes.gov.br/wps/portal/site/home/financiamento/guia/prazos-periodicidade-pagamento

In [31]:
lst_nr_pago_sem_suspenso = list(lst_nr_pago_sem_suspenso)

In [34]:
mau_pagador_estado.to_csv('mau_pagador_estado.csv')
mau_pagador_status_contrato.to_csv('mau_pagador_status_contrato.csv')
mau_pagador_segmento.to_csv('mau_pagador_segmento.csv')
mau_pagador_tipo_empresa.to_csv('mau_pagador_tipo_empresa.csv')
bom_pagador_estado.to_csv('bom_pagador_estado.csv')
bom_pagador_status_contrato.to_csv('bom_pagador_status_contrato.csv')
bom_pagador_segmento.to_csv('bom_pagador_segmento.csv')
bom_pagador_tipo_empresa.to_csv('bom_pagador_tipo_empresa.csv')

Estado atual do empréstimo, podendo ser "Desembolso confirmado (DisbursementConfirmed), Aceito (Accepted), Desembolso solicitado (DisbursementRequested), Ativo (Active) ou Quitado (Settled)".