# Projeto 1 — Otimização de Modelos de Diagnóstico

## Introdução

Na Fase 1 foram avaliados diferentes modelos de machine learning para
classificação diagnóstica. Com base nas métricas de desempenho e na
interpretabilidade clínica, a Regressão Logística foi selecionada como
modelo base.

Nesta fase, o objetivo é otimizar os hiperparâmetros do modelo selecionado
utilizando Algoritmos Genéticos (GA), buscando melhorar métricas como
Recall e F1-score, essenciais no contexto médico.


## Modelo Selecionado: Regressão Logística

**Logistic Regression** foi escolhida como modelo final devido ao maior *recall* (0.70) para a classe de pacientes diabéticos, garantindo melhor detecção de casos positivos — o que é fundamental em contextos médicos, onde falsos negativos podem representar risco à saúde do paciente.  


O foco desta fase não é substituir o modelo, mas **otimizar sua configuração**.

## Hiperparâmetros da Regressão Logística

A implementação da Regressão Logística no scikit-learn possui diversos hiperparâmetros configuráveis de acordo com a [documentação oficial do scikit-learn](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html).
Abaixo estão os hiperparâmetros disponíveis:


In [2]:
from sklearn.linear_model import LogisticRegression

LogisticRegression().get_params()

{'C': 1.0,
 'class_weight': None,
 'dual': False,
 'fit_intercept': True,
 'intercept_scaling': 1,
 'l1_ratio': None,
 'max_iter': 100,
 'multi_class': 'deprecated',
 'n_jobs': None,
 'penalty': 'l2',
 'random_state': None,
 'solver': 'lbfgs',
 'tol': 0.0001,
 'verbose': 0,
 'warm_start': False}

## Hiperparâmetros Selecionados para Otimização

Nem todos os hiperparâmetros serão otimizados via GA.
Foram selecionados aqueles com maior impacto no desempenho e
relevância clínica:

### Parâmetros escolhidos
|Parâmetro|Tipo|Motivo|
|---|---|---|
|C|Contínuo|Controla a força da regularização|
|penalty|Categórico|Define o tipo de regularização|
|solver|Categórico|Afeta convergência e estabilidade|
|max_iter|Discreto|Controla o processo de otimização|

O hiperparâmetro `solver` será fixado para garantir compatibilidade
com os demais parâmetros e reduzir o espaço de busca.

## Espaço de Busca dos Hiperparâmetros

O espaço de busca define os valores possíveis que cada gene poderá assumir no Algoritmo Genético.

| Parâmetro     | Tipo      | Espaço de Busca                          |
|---------------|-----------|------------------------------------------|
| C             | Contínuo  | [0.001, 10]                              |
| penalty       | Categórico| ['l1', 'l2']                             |
| class_weight  | Categórico| [None, 'balanced']                      |
| max_iter      | Discreto  | [100, 500]                              |

**Observação:** algumas combinações de `solver` e `penalty` não são válidas no scikit-learn.
Essas restrições serão tratadas na etapa de avaliação da fitness.