Skip to content

Este projeto visa otimizar modelos de machine learning supervisionados (Decision Tree Classifier e Logistic Regression) para prever a probabilidade de inadimplência em empréstimos.

Notifications You must be signed in to change notification settings

ledsouza/machine-learning-otimizacao

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

12 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Otimização de Modelos de Machine Learning para Predição de Inadimplência

Static Badge

Descrição

Este projeto visa otimizar modelos de machine learning supervisionados (Decision Tree Classifier e Logistic Regression) para prever a probabilidade de inadimplência em empréstimos. O processo envolve diversas técnicas de otimização, como validação cruzada aninhada e não aninhada, busca em grid, busca aleatória e busca bayesiana.

Tecnologias Utilizadas

  • Linguagem: Python
  • Bibliotecas:
    • Scikit-learn: Para modelagem, validação cruzada e otimização de hiperparâmetros.
    • Pandas: Para manipulação e análise de dados.
    • NumPy: Para operações numéricas.
    • Plotly: Para visualização de dados.
    • Scikit-optimize: Para busca bayesiana de hiperparâmetros.

Descrição Detalhada

  1. Preparação dos Dados:
    • Os dados foram fornecidos já pré-processados, prontos para modelagem.
    • As features incluem informações financeiras do cliente, histórico de crédito, dados demográficos e informações de contato.
    • O target é a variável binária 'inadimplente', indicando se o cliente deixou de pagar o empréstimo.
image
  1. Modelagem Inicial (Baseline):
    • Dois modelos foram treinados com hiperparâmetros padrão:
      • Decision Tree Classifier
      • Logistic Regression
    • O desempenho dos modelos foi avaliado para estabelecer um baseline.
image
  1. Validação Cruzada Não Aninhada:
    • GridSearchCV: Uma busca exaustiva em uma grade de hiperparâmetros foi realizada para cada modelo, usando validação cruzada com StratifiedKFold para garantir a representatividade das classes.
    • RandomizedSearchCV: Uma busca aleatória em um espaço de hiperparâmetros foi realizada para cada modelo, também com validação cruzada estratificada.
image
  1. Validação Cruzada Aninhada:
    • O processo de busca de hiperparâmetros (GridSearchCV ou RandomizedSearchCV) foi repetido dentro de um loop externo de validação cruzada. Isso ajuda a estimar o desempenho do modelo de forma mais robusta e a evitar o overfitting.
image
  1. BayesSearchCV Aninhado:
    • Uma busca bayesiana de hiperparâmetros foi realizada, aproveitando informações de iterações anteriores para otimizar a busca de forma mais eficiente.
image
  1. Avaliação e Comparação dos Modelos:
    • Os melhores modelos de cada etapa foram avaliados em termos da métrica mais relevante: recall.
    • Os resultados foram comparados para identificar as melhores estratégias de otimização e o modelo com o melhor desempenho generalizado.

About

Este projeto visa otimizar modelos de machine learning supervisionados (Decision Tree Classifier e Logistic Regression) para prever a probabilidade de inadimplência em empréstimos.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published