Otimização de Modelos de Machine Learning para Predição de Inadimplência

Descrição

Este projeto visa otimizar modelos de machine learning supervisionados (Decision Tree Classifier e Logistic Regression) para prever a probabilidade de inadimplência em empréstimos. O processo envolve diversas técnicas de otimização, como validação cruzada aninhada e não aninhada, busca em grid, busca aleatória e busca bayesiana.

Tecnologias Utilizadas

Linguagem: Python
Bibliotecas:
- Scikit-learn: Para modelagem, validação cruzada e otimização de hiperparâmetros.
- Pandas: Para manipulação e análise de dados.
- NumPy: Para operações numéricas.
- Plotly: Para visualização de dados.
- Scikit-optimize: Para busca bayesiana de hiperparâmetros.

Descrição Detalhada

Preparação dos Dados:
- Os dados foram fornecidos já pré-processados, prontos para modelagem.
- As features incluem informações financeiras do cliente, histórico de crédito, dados demográficos e informações de contato.
- O target é a variável binária 'inadimplente', indicando se o cliente deixou de pagar o empréstimo.

Modelagem Inicial (Baseline):
- Dois modelos foram treinados com hiperparâmetros padrão:
  - Decision Tree Classifier
  - Logistic Regression
- O desempenho dos modelos foi avaliado para estabelecer um baseline.

Validação Cruzada Não Aninhada:
- GridSearchCV: Uma busca exaustiva em uma grade de hiperparâmetros foi realizada para cada modelo, usando validação cruzada com StratifiedKFold para garantir a representatividade das classes.
- RandomizedSearchCV: Uma busca aleatória em um espaço de hiperparâmetros foi realizada para cada modelo, também com validação cruzada estratificada.

Validação Cruzada Aninhada:
- O processo de busca de hiperparâmetros (GridSearchCV ou RandomizedSearchCV) foi repetido dentro de um loop externo de validação cruzada. Isso ajuda a estimar o desempenho do modelo de forma mais robusta e a evitar o overfitting.

BayesSearchCV Aninhado:
- Uma busca bayesiana de hiperparâmetros foi realizada, aproveitando informações de iterações anteriores para otimizar a busca de forma mais eficiente.

Avaliação e Comparação dos Modelos:
- Os melhores modelos de cada etapa foram avaliados em termos da métrica mais relevante: recall.
- Os resultados foram comparados para identificar as melhores estratégias de otimização e o modelo com o melhor desempenho generalizado.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

Otimização de Modelos de Machine Learning para Predição de Inadimplência

Descrição

Tecnologias Utilizadas

Descrição Detalhada

Files

README.md

Latest commit

History

README.md

File metadata and controls

Otimização de Modelos de Machine Learning para Predição de Inadimplência

Descrição

Tecnologias Utilizadas

Descrição Detalhada