Otimização de Modelos de Machine Learning para Predição de Inadimplência

Descrição

Este projeto visa otimizar modelos de machine learning supervisionados (Decision Tree Classifier e Logistic Regression) para prever a probabilidade de inadimplência em empréstimos. O processo envolve diversas técnicas de otimização, como validação cruzada aninhada e não aninhada, busca em grid, busca aleatória e busca bayesiana.

Tecnologias Utilizadas

Linguagem: Python
Bibliotecas:
- Scikit-learn: Para modelagem, validação cruzada e otimização de hiperparâmetros.
- Pandas: Para manipulação e análise de dados.
- NumPy: Para operações numéricas.
- Plotly: Para visualização de dados.
- Scikit-optimize: Para busca bayesiana de hiperparâmetros.

Descrição Detalhada

Preparação dos Dados:
- Os dados foram fornecidos já pré-processados, prontos para modelagem.
- As features incluem informações financeiras do cliente, histórico de crédito, dados demográficos e informações de contato.
- O target é a variável binária 'inadimplente', indicando se o cliente deixou de pagar o empréstimo.

Modelagem Inicial (Baseline):
- Dois modelos foram treinados com hiperparâmetros padrão:
  - Decision Tree Classifier
  - Logistic Regression
- O desempenho dos modelos foi avaliado para estabelecer um baseline.

Validação Cruzada Não Aninhada:
- GridSearchCV: Uma busca exaustiva em uma grade de hiperparâmetros foi realizada para cada modelo, usando validação cruzada com StratifiedKFold para garantir a representatividade das classes.
- RandomizedSearchCV: Uma busca aleatória em um espaço de hiperparâmetros foi realizada para cada modelo, também com validação cruzada estratificada.

Validação Cruzada Aninhada:
- O processo de busca de hiperparâmetros (GridSearchCV ou RandomizedSearchCV) foi repetido dentro de um loop externo de validação cruzada. Isso ajuda a estimar o desempenho do modelo de forma mais robusta e a evitar o overfitting.

BayesSearchCV Aninhado:
- Uma busca bayesiana de hiperparâmetros foi realizada, aproveitando informações de iterações anteriores para otimizar a busca de forma mais eficiente.

Avaliação e Comparação dos Modelos:
- Os melhores modelos de cada etapa foram avaliados em termos da métrica mais relevante: recall.
- Os resultados foram comparados para identificar as melhores estratégias de otimização e o modelo com o melhor desempenho generalizado.

Name		Name	Last commit message	Last commit date
Latest commit History 12 Commits
.gitignore		.gitignore
README.md		README.md
otimizacao.ipynb		otimizacao.ipynb
poetry.lock		poetry.lock
pyproject.toml		pyproject.toml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Otimização de Modelos de Machine Learning para Predição de Inadimplência

Descrição

Tecnologias Utilizadas

Descrição Detalhada

About

Releases

Packages

Languages

ledsouza/machine-learning-otimizacao

Folders and files

Latest commit

History

Repository files navigation

Otimização de Modelos de Machine Learning para Predição de Inadimplência

Descrição

Tecnologias Utilizadas

Descrição Detalhada

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages