# Modelagem da Probabilidade de Risco de Crédito e Cálculo da Perda Esperada
---

Diante do cenário econômico atual, a concessão de crédito é uma decisão sob condições de incerteza e um grande desafio. Sejam empréstimos, financiamentos ou vendas a prazo, a possibilidade de perda sempre estará presente. Mesmo com critérios para a concessão definidos, como a análise da situação financeira, relacionamento com o credor e o histórico de pagamentos, ainda há risco do solicitante não cumprir com suas dívidas, fazendo com que um credor não receba o principal devido nem os juros, o que, por conseguinte, resulta na interrupção dos fluxos de caixa e no aumento dos custos de cobrança. (SICSÚ, 2010).

No entanto, caso ele consiga estimar a probabilidade de risco da operação e identificar esses requerentes, sua decisão poderá ser mais confiável reduzindo perdas para a instituição. Portanto, o presente projeto teve como objetivo a modelagem de risco de crédito, utilizando algoritmos de machine learning e técnicas estatísticas, em que foram identificadas possíveis variáveis indicadoras de inadimplência e se foi estimada a **Perda Esperada**.

É importante primeiramente conhecer sobre o ciclo de crédito que, apesar de sofrer pequenas alterações de acordo com o modelo de negócio, de maneira geral engloba as etapas a seguir.

## Ciclo de Crédito 
---
O ciclo de crédito está presente em todas as empresas que concedem tal benefício, processo necessário para minimizar riscos e perdas financeiras, além de otimizar as atividades de crédito, pode-se antecipar possíveis inadimplências ou recuperar dinheiro. (ZUÑIGA, 2019).

Para tanto, esse ciclo conta com as etapas abaixo: 

<img src = "https://images2.imgbox.com/23/f6/vHEZbiCf_o.png" width="450">


- **Prospecção:** em que um perfil ideal de cliente confiável e bom pagador será criado pela empresa, por meio de filtros, com base nas informações dos clientes; 
- **Concessão de crédito:** em que o risco de crédito de cada cliente será mensurado levando em conta o perfil ideal da etapa anterior e as políticas da empresa; 
- **Gestão de risco:** será feito um acompanhamento dos clientes e da sua situação para que ele não entre em inadimplência e que a relação cliente-empresa permanece favorável a ambos;
- **Cobrança:** apesar do risco de inadimplência ter sido diminuído pelas etapas anteriores ele não será nulo, portanto, se bem executadas as etapas anteriores, nesta etapa se darão as possibilidades de negociação, já que o cliente entrou em inadimplência.

<br>


Apesar das devidas precauções serem tomadas e políticas de gestão de risco serem criadas, ajudando a diminuir a inadimplência, vender ou emprestar valores a prazo é uma ação complexa para qualquer tipo de negócio. Diante disso, o ideal é buscar controlar e reduzir ao máximo os riscos da operação, com uma análise completa dos solicitantes do crédito, ou seja, calcular seu **risco de crédito**. (NEOWAY, 2020).

## Risco de Crédito
---

O **Risco de Crédito** pode ser definido como a probabilidade de um devedor não quitar o valor devido de um parcelamento de compra, empréstimo, financiamento etc. para com o credor. É associado um risco a cada cliente, seja ele inerente ao próprio cliente, ao ambiente econômico ou a combinação dos dois, tais fatores são levados em consideração durante o cálculo de risco. (GEORGIEV, 2022).

Nesse contexto, os modelos de **credit scoring**, escore de crédito, são utilizados na hora da concessão de crédito para tal finalidade, saber quando uma operação poderá incorrer em perda para o credor, com a finalidade de reduzir o **risco de crédito**. 

É indispensável a estimação mais precisa possível com o intuito de minimizar ao máximo a **Perda Esperada**, fator este que leva em consideração a probabilidade de inadimplência, índice de perda e exposição. 

<br> 

Em que: 

- __Probabilidade de inadimplência (Probability of Default - PD):__ a probabilidade existente de que um devedor deixe de cumprir com as parcelas de pagamento;

- __Índice de perda por inadimplência (Loss Given Default - LGD):__  percentual que a credor perde quando um devedor entra em inadimplência;

- __Exposição em caso de inadimplência (Exposure at Default - EAD):__ perda total que o credor não pode cobrar porque o devedor se declarou inadimplente.

<br> 

Então, têm-se que a perda esperada é dada por:


`Perda esperada` = `Probabilidade de inadimplência ` x `Índice de perda` x `Exposição`

<br> 
<br>

---

Para melhor entendimento, segue o seguinte exemplo (*não foram consideradas taxas de juros*):

Supondo que uma pessoa solicite a uma instituição bancária um empréstimo de R\$ 400.000,00 para comprar uma casa, primeiro será realizada uma análise das informações pessoais do solicitante que definirá seu escore de crédito, ou seja, a probabilidade de que a pessoa não pague o valor solicitado mais juros. 

Ele recebe o valor e paga ao banco R\\$ 40.000,00 de volta, mas ainda faltam R\$ 360.000,00 e, nesse momento, entra em default, com isso a **exposição em caso de inadimplência** será o valor ainda não pago. 

Mas banco pode vender a casa por R\\$ 342.000,00, então a  **exposição em caso de inadimplência** passa a ser de R\\$ 18.000,00 (R\\$ 360.000,00 - R\\$342.000,00) então o **índice de perda por inadimplência** será de 5% (R\\$ 18.000,00 / R\\$ 360.000,00).  

Agora, considerando que um em cada quatro solicitantes dessa instituição entre em default, a **probabilidade de inadimplência** seria de 25%. 

<br>

Nisso têm-se que a perda esperada será de: `25% * 5% * R$ 360.000,00 = R$ 4.500,00`

# Problema 
---

Existem diferentes metodologias para se estimar a perda esperada, tendo cada uma sua complexidade de aplicação e acurácia, cabendo a instituição ponderar suas prioridades no momento da escolha da abordagem a ser escolhida. Nesse projeto foi-se utilizada a regressão logística para prever a probabilidade de inadimplência e a regressão linear para calcular o índice de perda e exposição em caso de inadimplência.

Diante do contexto exposto o projeto tem a finalidade de responder o seguinte questionamento:

*Como modelar a probabilidade de risco de crédito e calcular a perda esperada?*


# Impacto
---

O Brasil possui altos índices de inadimplência, de acordo com o [Mapa da Inadimplência](https://www.serasa.com.br/assets/cms/2022/MKTECS-965-Mapa-da-inadimplencia-JUNHO.pdf), pesquisa realizada pelo Serasa em junho de 2022, houve um aumento de 200 mil novos inadimplentes no país nesse ano, que já possuía com 66,8 milhões de brasileiros com o nome restrito. (SERASA, 2022). 

Então, oferecer soluções que possam ser utilizadas para categorizar os requerentes, sejam as pessoas que não irão devolver valor emprestado, ou das que tem um empréstimo negado por políticas muito restritivas, podem ajudar a reduzir o montante perdido por muitas empresas, bem como auxiliar no aperfeiçoamento das técnicas usadas para mensurar o risco de crédito e calcular a perda esperada. 

Considerando o contexto econômico atual do país, além da importância e o reduzido número de estudos sobre o tema, faz-se necessária a realização de trabalhos dessa natureza para desenvolvimento e conhecimento dessa área.


# Desenho da Solução
---

Primeiramente foi aplicada uma metodologia para seleção de features e criação de um dataset que utiliza técnicas estatísticas, em que um conjunto de dados foi escolhido e realizada uma análise das suas variáveis com base no peso de evidência e valor de informação, após essa seleção os dados foram agrupados em classes com coarse e fine classing. 

Verificou-se, por meio de uma análise exploratória dos dados no dataset, a correlação e distribuição das features, que possibilitou uma melhor compreensão dos dados. 

Com isso, desenvolveu-se o modelo de probabilidade de inadimplência com regressão logística e o primeiro modelo foi desenvolvimento das demais etapas.

Em seguida, um score de crédito foi desenvolvido com base nos coeficientes das features e os mutuários foram escorados. Também foi desenvolvido um monitoramento para o modelo de probabilidade de inadimplência, com o índice de estabilidade populacional e, realizou-se uma análise demonstrativa comparando os dados de desenvolvimento do modelo e de um novo dataset. 

Os modelos de índice de perda e exposição por inadimplência com regressão linear foram criados e, por fim, a perda esperada foi calculada utilizando os três modelos.

# Dados
---

O dataset contém todos os dados disponíveis para mais de 2 milhões de empréstimos ao consumidor emitidos de 2007 a 2020 pelo Lending Club: uma grande empresa de empréstimo peer-to-peer dos EUA. Há várias versões diferentes desse conjunto de dados e a fonte de dados utilizada nesse projeto se encontra aqui: [Lending Club Loan Data](https://www.kaggle.com/datasets/ethon0426/lending-club-20072020q1)

Foi-se retirada uma amostra de 30% dos dados, em que foram aplicados tratamentos como: alteração de tipos de dados, retirada de colunas com mais de 80% de dados nulos, preenchimento de dados faltantes, seleção e criação de features etc.

## Dicionários de Dados

- **acc_now_delinq:** O número de contas em que o mutuário está agora inadimplente
- **acc_open_past_24mths:** O número de negócios abertos nos últimos 24 meses
- **addr_state:** O estado fornecido pelo mutuário no pedido de empréstimo
- **all_util:** Saldo para o limite de crédito em todas as negociações
- **annual_inc:** A renda anual declarada pelo mutuário do empréstimo durante o registro
- **annual_inc_joint:** A renda anual combinada auto-reportada fornecida pelos co-mutuários durante o registro
- **application_type:** Indica se o empréstimo é uma aplicação individual ou uma aplicação conjunta com dois co-mutuários
- **avg_cur_bal:** Saldo médio atual de todas as contas
- **bc_open_to_buy:** Total aberto para compra em cartões bancários rotativos
- **bc_util:** Relação entre o saldo atual total e o limite de crédito/crédito para todas as contas de cartão bancário
- **chargeoff_within_12_mths:** Número de charge-offs dentro de 12 meses
- **collection_recovery_fee:** Cobrança de taxa de coleta pelo correio
- **collections_12_mths_ex_med:** Número de cobranças em 12 meses, excluindo cobranças médicas
- **debt_settlement_flag:** Sinaliza se o mutuário, que foi descontado, está ou não trabalhando com uma empresa de liquidação de dívidas
- **debt_settlement_flag_date:** A data mais recente que o Debt_Settlement_Flag foi estabelecida
- **deferral_term:** Quantidade de meses em que se espera que o mutuário pague menos do que o valor do pagamento mensal contratual devido a um plano de carência
- **delinq_2yrs:** O número de incidências de inadimplência há mais de 30 dias no arquivo de crédito do mutuário nos últimos 2 anos
- **delinq_amnt:** O valor em atraso das contas em que o mutuário está agora em situação de inadimplência
- **desc:** Descrição do empréstimo fornecida pelo mutuário
- **disbursement_method:** O método pelo qual o mutuário recebe seu empréstimo. Os valores possíveis são: CASH, DIRECT_PAY
- **dti:** Um índice calculado usando o total de pagamentos mensais da dívida do mutuário sobre o total das obrigações da dívida, excluindo hipoteca e o empréstimo LC solicitado, dividido pela renda mensal informada do mutuário
- **dti_joint:** Um índice calculado usando os pagamentos mensais totais dos co-mutuários sobre as obrigações totais da dívida, excluindo hipotecas e o empréstimo LC solicitado, dividido pela renda mensal combinada autodeclarada dos co-mutuários
- **earliest_cr_line:** O mês em que foi aberta a linha de crédito mais antiga do mutuário
- **emp_length:** Tempo de trabalho em anos. Os valores possíveis estão entre 0 e 10, onde 0 significa menos de um ano e 10 significa dez ou mais anos
- **emp_title:** O cargo fornecido pelo mutuário ao solicitar o empréstimo
- **fico_range_high:** O intervalo de limite superior ao qual o FICO do mutuário na originação do empréstimo pertence
- **fico_range_low:** O intervalo de limite inferior ao qual o FICO do mutuário na originação do empréstimo pertence
- **funded_amnt:** O valor total comprometido com esse empréstimo naquele momento
- **funded_amnt_inv:** O valor total comprometido pelos investidores para esse empréstimo naquele momento
- **grade:** LC grau de empréstimo atribuído
- **hardship_amount:** O pagamento de juros que o mutuário se comprometeu a fazer todos os meses enquanto estiver em um plano de dificuldades
- **hardship_dpd:** Dias de conta vencidos a partir da data de início do plano de carência
- **hardship_end_date:** A data de término do período do plano de carência
- **hardship_flag:** Sinaliza se o mutuário está ou não em um plano de carência
- **hardship_last_payment_amount:** O valor do último pagamento na data de início do plano de carência
- **hardship_length:** O número de meses que o mutuário fará pagamentos menores do que o normalmente obrigado devido a um plano de carência
- **hardship_loan_status:** Status do empréstimo a partir da data de início do plano de carência
- **hardship_payoff_balance_amount:** O valor do saldo de pagamento na data de início do plano de carência
- **hardship_reason:** Descreve o motivo pelo qual o plano de dificuldades foi oferecido
- **hardship_start_date:** A data de início do período do plano de dificuldades  
- **hardship_status:** Descreve se o plano de dificuldades está ativo, pendente, cancelado, concluído ou quebrado
- **hardship_type:** Descreve a oferta do plano de dificuldades 
- **home_ownership:** O status de propriedade da casa fornecido pelo mutuário durante o registro ou obtido no relatório de crédito. Nossos valores são: ALUGUEL, PRÓPRIO, HIPOTECA, OUTROS
- **id:** Um ID exclusivo atribuído a LC para a listagem de empréstimos
- **il_util:** Proporção do saldo atual total para crédito/limite de crédito alto em todas as contas de instalação
- **initial_list_status:** O status de listagem inicial do empréstimo. Os valores possíveis são – W, F
- **inq_fi:** Número de consultas de finanças pessoais
- **inq_last_12m:** Número de consultas de crédito nos últimos 12 meses
- **inq_last_6mths:** O número de consultas nos últimos 6 meses (excluindo consultas de automóveis e hipotecas)
- **installment:** O pagamento mensal devido pelo mutuário se o empréstimo se originar
- **int_rate:** Taxa de juros do empréstimo
- **issue_d:** O mês em que o empréstimo foi financiado
- **last_credit_pull_d:** No mês mais recente, LC puxou crédito para este empréstimo
- **last_fico_range_high:** O intervalo de limite superior ao qual o último FICO puxado do mutuário pertence
- **last_fico_range_low:** O intervalo de limite inferior ao qual o último FICO puxado do mutuário pertence
- **last_pymnt_amnt:** Último valor total do pagamento recebido
- **last_pymnt_d:** O pagamento do mês passado foi recebido
- **loan_amnt:** O valor listado do empréstimo solicitado pelo mutuário. Se em algum momento o departamento de crédito reduzir o valor do empréstimo, ele será refletido nesse valor
- **loan_status:** Situação atual do empréstimo
- **max_bal_bc:** Saldo atual máximo devido em todas as contas rotativas
- **member_id:** Um ID exclusivo de LC atribuído para o membro mutuário
- **mo_sin_old_il_acct:** Meses desde a abertura da conta bancária mais antiga  
- **mo_sin_old_rev_tl_op:** Meses desde a abertura da conta rotativa mais antiga
- **mo_sin_rcnt_rev_tl_op:** Meses desde a abertura da conta rotativa mais recente
- **mo_sin_rcnt_tl:** Meses desde a abertura da conta mais recente
- **mort_acc:** Número de contas hipotecárias
- **mths_since_last_delinq:** O número de meses desde a última inadimplência do mutuário
- **mths_since_last_major_derog:** Meses desde a classificação mais recente de 90 dias ou pior
- **mths_since_last_record:** O número de meses desde o último registro público
- **mths_since_rcnt_il:** Meses desde que as contas de parcelamento mais recentes foram abertas
- **mths_since_recent_bc:** Meses desde a abertura da conta mais recente do cartão bancário
- **mths_since_recent_bc_dlq:** Meses desde a inadimplência mais recente do cartão bancário
- **mths_since_recent_inq:** Meses desde a última consulta
- **mths_since_recent_revol_delinq:** Meses desde a inadimplência rotativa mais recente
- **next_pymnt_d:** Próxima data de pagamento agendada
- **num_accts_ever_120_pd:** Número de contas vencidas há 120 ou mais dias
- **num_actv_bc_tl:** Número de contas de cartão de banco atualmente ativas
- **num_actv_rev_tl:** Número de negócios rotativos atualmente ativos
- **num_bc_sats:** Número de contas bancárias satisfatórias
- **num_bc_tl:** Número de contas bancárias
- **num_il_tl:** Número de contas parceladas
- **num_op_rev_tl:** Número de contas rotativas abertas
- **num_rev_accts:** Número de contas rotativas
- **num_rev_tl_bal_gt_0:** Número de negócios rotativos com saldo > 0
- **num_sats:** Número de contas satisfatórias
- **num_tl_120dpd_2m:** Número de contas atualmente vencidas há 120 dias (atualizadas nos últimos 2 meses)
- **num_tl_30dpd:** Número de contas com atraso de 30 dias (atualizado nos últimos 2 meses)
- **num_tl_90g_dpd_24m:** Número de contas vencidas há 90 ou mais dias nos últimos 24 meses
- **num_tl_op_past_12m:** Número de contas abertas nos últimos 12 meses
- **open_acc:** O número de linhas de crédito abertas no arquivo de crédito do mutuário
- **open_acc_6m:** Número de negociações abertas nos últimos 6 meses
- **open_act_il:** Número de transações de parcelamento atualmente ativas
- **open_il_12m:** Número de contas parceladas abertas nos últimos 12 meses
- **open_il_24m:** Número de contas parceladas abertas nos últimos 24 meses
- **open_rv_12m:** Número de negócios rotativos abertos nos últimos 12 meses
- **open_rv_24m:** Número de negócios rotativos abertos nos últimos 24 meses
- **orig_projected_additional_accrued_interest:** O valor original projetado de juros adicionais que se acumularão para o plano de pagamento de dificuldades a partir da Data de Início da Carência. Este campo será nulo se o mutuário tiver quebrado seu plano de pagamento de carência
- **out_prncp:** Restante capital em dívida pelo montante total financiado
- **out_prncp_inv:** Restante capital em dívida para parte do montante total financiado pelos investidores
- **payment_plan_start_date:** O dia em que o primeiro pagamento do plano de carência é devido. Por exemplo, se um mutuário tiver um período de plano de carência de 3 meses, a data de início será o início do período de três meses em que o mutuário tem permissão para fazer pagamentos somente de juros
- **pct_tl_nvr_dlq:** Porcentagem de negócios nunca inadimplentes
- **percent_bc_gt_75:** Porcentagem de todas as contas de cartão bancário > 75% do limite
- **policy_code:** Disponível publicamente policy_code=1 / Não disponível publicamente para novos produtos policy_code=2
- **pub_rec:** Número de registros públicos depreciativos
- **pub_rec_bankruptcies:** Número de falências de registro público
- **purpose:** Uma categoria fornecida pelo mutuário para a solicitação de empréstimo
- **pymnt_plan:** Indica se um plano de pagamento foi implementado para o empréstimo
- **recoveries:** Pós cobrança da recuperação bruta
- **revol_bal:** Saldo total do crédito rotativo
- **revol_bal_joint:** Soma do saldo credor rotativo dos co-mutuários, líquido dos saldos duplicados
- **revol_util:** Taxa de utilização da linha rotativa, ou a quantidade de crédito que o mutuário está usando em relação a todo o crédito rotativo disponível
- **sec_app_chargeoff_within_12_mths:** Número de baixas nos últimos 12 meses no momento da inscrição para o candidato secundário
- **sec_app_collections_12_mths_ex_med:** Número de coletas nos últimos 12 meses, excluindo coletas médicas no momento da solicitação para o solicitante secundário
- **sec_app_earliest_cr_line:** Linha de crédito mais antiga no momento da solicitação para o solicitante secundário
- **sec_app_fico_range_high:** Faixa FICO (baixa) para o requerente secundário
- **sec_app_fico_range_low:** Faixa FICO (alta) para o candidato secundário
- **sec_app_inq_last_6mths:** Consultas de crédito nos últimos 6 meses no momento da solicitação do solicitante secundário
- **sec_app_mort_acc:** Número de contas hipotecárias no momento do pedido para o requerente secundário
- **sec_app_mths_since_last_major_derog:** Meses desde a classificação mais recente de 90 dias ou pior no momento da inscrição para o candidato secundário
- **sec_app_num_rev_accts:** Número de contas rotativas no momento da solicitação para o solicitante secundário
- **sec_app_open_acc:** Número de negócios abertos no momento da solicitação para o solicitante secundário
- **sec_app_open_act_il:** Número de transações de parcelamento atualmente ativas no momento da solicitação para o solicitante secundário
- **sec_app_revol_util:** Proporção do saldo atual total para crédito/limite de crédito alto para todas as contas rotativas
- **settlement_amount:** O valor do empréstimo que o mutuário concordou em liquidar
- **settlement_date:** A data em que o mutuário concorda com o plano de liquidação
- **settlement_percentage:** O valor de liquidação como uma porcentagem do valor do saldo de pagamento do empréstimo
- **settlement_status:** O status do plano de liquidação do mutuário. Os valores possíveis são: COMPLETO, ATIVO, QUEBRADO, CANCELADO, NEGADO, RASCUNHO
- **settlement_term:** O número de meses que o mutuário estará no plano de liquidação
- **sub_grade:** Subclasse de empréstimo atribuída LC
- **tax_liens:** Número de ônus fiscais
- **term:** O número de pagamentos do empréstimo. Os valores estão em meses e podem ser 36 ou 60
- **title:** O título de empréstimo fornecido pelo mutuário
- **tot_coll_amt:** Valores totais de cobrança já devidos
- **tot_cur_bal:** Saldo atual total de todas as contas
- **tot_hi_cred_lim:** Crédito alto total/limite de crédito
- **total_acc:** O número total de linhas de crédito atualmente no arquivo de crédito do mutuário
- **total_bal_ex_mort:** Saldo total de crédito excluindo hipoteca
- **total_bal_il:** Saldo atual total de todas as contas parceladas
- **total_bc_limit:** Total de crédito/limite de crédito alto do cartão bancário
- **total_cu_tl:** Número de negócios financeiros
- **total_il_high_credit_limit:** Parcela total de crédito/limite de crédito alto
- **total_pymnt:** Pagamentos recebidos até o momento para o valor total financiado
- **total_pymnt_inv:** Pagamentos recebidos até o momento por parte do valor total financiado pelos investidores
- **total_rec_int:** Juros recebidos até o momento
- **total_rec_late_fee:** Taxas atrasadas recebidas até o momento
- **total_rec_prncp:** Principal recebido até o momento
- **total_rev_hi_lim:** Total rotativo alto crédito/limite de crédito
- **url:** URL para a página LC com dados de listagem
- **verification_status:** Indica se a renda foi verificada por LC, não verificada, ou se a fonte de renda foi verificada
- **verified_status_joint:** Indica se a renda conjunta dos co-mutuários foi verificada por LC, não verificada, ou se a fonte de renda foi verificada
- **zip_code:** Os 3 primeiros números do CEP fornecidos pelo mutuário no pedido de empréstimo


# Insights 
---

Alguns insights tirados dos dados do projeto: 

- Há um visível desbalanceamento das classes, o que é normal em casos como esse, em adimplentes representam 87% e inadimplentes 13%;
- Empréstimos para pessoas com mais de 10 anos empregadas supera em mais do que o dobro o das pessoas com menos tempo empregadas;
- Empréstimos com 36 meses são mais pagos do que os com 60 meses;
- A maioria dos empréstimo são para consolidação de débitos, ou cartão de crédito;
- A maioria das pessoas vivem em casa hipotecadas ou de aluguel e têm a maior taxa de adimplência.

# Resultados e Discussões
---

- **Resultados do modelo de probabilidade de inadimplência que utilizou a seleção de features por técnicas estatísticas:**

   - A acurácia do modelo de regressão logística é de 78% e a ROC-AUC que se aproxima de 1. Assim, pode-se concluir que o classificador consegue prever o risco de crédito, sem mostrar sinais de overfitting. 
    
   - f-1 score: 79%, Recall: 79%

   - Os coeficientes de KS e Gini apresentam bons resultados, 0.56, o que significa que o modelo está conseguindo separar bem as classes.

   - O score do modelo original e a pontuação média de validação cruzada são iguais, então a validação cruzada não resulta em melhoria de desempenho.

   - O GridSearchCV apresenta acurácia de 0.7867, e a acurácia de teste do modelo original 0.7867, ou seja, pode melhorar o desempenho para este modelo específico, mas não é uma melhora muito significativa.
   
    
- **Resultados do modelo de índice de perda por inadimplência:** 

    - Regressão Logística:

       - A acurácia do modelo de regressão logística foi de 61% e a ROC-AUC que se aproxima de 1. Assim, pode-se concluir que o classificador consegue prever a taxa de recuperação, sem mostrar sinais de overfitting. 
    
       - f-1 score: 65%, Recall: 71%
       
    - Regressão Linear:
    
        - O valor RMSE foi encontrado para ser 0.10. Isso significa que o desvio padrão para nossa previsão é 0.10. 
        

- **Resultados do modelo de exposição em caso de inadimplência:**  

    - Distribuição concentrada perto de zero, condizendo com os dados então o modelo é aceitável metodologicamente.
    - Baixa correlação, mas satisfatória para um modelo EAD caso a correlação fosse muito alta, o modelo teria que ser refeito.
    

- **Resultados do cálculo de perda esperada:** 

    - Nesta etapa os modelos anteriores foram aplicados no conjunto de dados e, de acordo com os resultados, a perda esperada do dataset selecionado possui média de U\\$ 592.28, desvio padrão de U\\$ 1.639.46, e valor máximo de U\\$ 37.975,99. A soma total da perda esperada do portifólio é de U\\$ 519.819.141,88 e, por fim, proporcão da perda esperada pelo valor dos empréstimo é 3.8%.

# Conclusões e Recomendações para Projetos Futuros
---

Nesse projeto foram desenvolvidos um modelo para probabilidade de inadimplência, utilizando regressão logística, dois modelos utilizando regressão linear, o índice de perda por inadimplência e exposição por inadimplência, bem como o cálculo da perda esperada utilizando os três modelos criados anteriormente. Atendendo assim as expectativas e planejamentos propostos, além de apresentarem bons resultados diante do contexto. 

Para próximos passos sugere-se a criação de um modelo de behavior score, para análise do comportamento dos mutuários diante do histórico de transações geradas, e melhorar a classificação e limites ao longo do tempo, além do monitoramento constante do modelo de probabilidade de inadimplência, para entender se o público está mudando ao longo do tempo e seria necessária uma nova versão do modelo. 

Outra sugestão seria seleção de features utilizando outras abordagens mais atuais, bem como a criação dos modelos, visando a melhor performance e redução de custos para implantação, o que não foi abordado nesse projeto. 

## REFERÊNCIAS

GEORGIEV, N. **Credit Risk Modeling in Python**. 365 Data Science. Disponível em: https://365datascience.com/courses/credit-risk-modeling-in-python/. Acesso em: 06 jun. 2022.

NEOWAY. **Risco de crédito: como funciona, e quais critérios para análise**. Neoway Blog. Florianópolis, 10 set. 2020. Disponível em: https://blog.neoway.com.br/risco-de-credito/. Acesso em: 10 ago. 2022.

SERASA. **Mapa da inadimplência e renegociação de dívidas no Brasil**. Disponível em: https://www.serasa.com.br/limpa-nome-online/blog/mapa-da-inadimplencia-e-renogociacao-de-dividas-no-brasil/. Acesso em: 10 ago. 2022.

SICSÚ, A. L. **Credit Scoring: desenvolvimento, implantação, acompanhamento**. São Paulo: Blucher, 2010.

ZUÑIGA, N. **Ciclo de crédito: como mapear a jornada do seu cliente**. Assertiva Soluções. São Paulo, 20 dez. 2019. Disponível em: https://blog.assertivasolucoes.com.br/ciclo-de-credito-como-mapear-a-jornada-do-seu-cliente/. Acesso em: 07 ago. 2022.



---