### RESUMO CLASSIFICAÇÃO E REGRESSÃO LOGÍSTICA

**4.1 Visão Geral da Classificação**  
* **Definição**:  
   - A classificação é o processo de prever uma variável resposta qualitativa (categórica).  
   - Diferente da regressão linear, que lida com respostas quantitativas, a classificação atribui observações a categorias ou classes.  
   - Exemplos de aplicações: diagnóstico médico, detecção de fraudes, análise de DNA.  

**4.2 Por Que Não Usar Regressão Linear?**  
* **Problemas com Regressão Linear**:  
   - Para respostas qualitativas com mais de duas classes, a codificação numérica (e.g., 1, 2, 3) implica uma ordenação artificial.  
   - Para respostas binárias, a regressão linear pode prever probabilidades fora do intervalo [0, 1].  

**4.3 Regressão Logística**  
* **Definição**:  
   - Modela a probabilidade de uma resposta binária usando a função logística.  
   - Equação do modelo:  
     $$
     p(X) = \frac{e^{\beta_0 + \beta_1 X}}{1 + e^{\beta_0 + \beta_1 X}}
     $$  
   - A função logística garante que \( p(X) \) esteja sempre entre 0 e 1.  

**4.3.1 O Modelo Logístico**  
* **Interpretação dos Coeficientes**:  
   - O log-odds (logaritmo da razão de chances) é linear em \( X \):  
     $$
     \log\left(\frac{p(X)}{1 - p(X)}\right) = \beta_0 + \beta_1 X
     $$  
   - Um aumento de uma unidade em \( X \) multiplica as chances por $ e^{\beta_1} $.  

**4.3.2 Estimação dos Coeficientes**  
* **Método de Máxima Verossimilhança**:  
   - Os coeficientes $ \beta_0 $ e $ \beta_1 $ são estimados maximizando a função de verossimilhança:  
     $$
     l(\beta_0, \beta_1) = \prod_{i: y_i = 1} p(x_i) \prod_{i': y_{i'} = 0} (1 - p(x_{i'}))
     $$  

**4.3.3 Fazendo Previsões**  
* **Exemplo**:  
   - Para um indivíduo com \( X = 1000 \), a probabilidade de default é:  
     $$
     p(X) = \frac{e^{-10.6513 + 0.0055 \times 1000}}{1 + e^{-10.6513 + 0.0055 \times 1000}} \approx 0.00576
     $$  

**4.3.4 Regressão Logística Múltipla**  
* **Quando usar?**:  
   - Quando a variável resposta $Y$ é binária (ou seja, tem apenas duas categorias, como "Sim/Não", "Sucesso/Fracasso", "Default/Não Default").
   - Exemplo: Prever o diagnóstico de um paciente com base em sintomas
* **Extensão para Múltiplos Preditores**:  
   - O modelo é estendido para:  
     $$
     \log\left(\frac{p(X)}{1 - p(X)}\right) = \beta_0 + \beta_1 X_1 + \dots + \beta_p X_p
     $$  
   - A probabilidade é dada por:  
     $$
     p(X) = \frac{e^{\beta_0 + \beta_1 X_1 + \dots + \beta_p X_p}}{1 + e^{\beta_0 + \beta_1 X_1 + \dots + \beta_p X_p}}
     $$  

**4.3.5 Regressão Logística Multinomial**  
* **Quando usar?**:  
   - Quando a variável resposta $Y$ é multiclasse (ou seja, tem mais de duas categorias, como "Stroke", "Drug Overdose", "Epileptic Seizure").
   - Exemplo: Prever se um cliente vai dar default (sim ou não) com base em variáveis como renda, saldo da conta e status de estudante.
* **Para Respostas com \( K > 2 \) Classes**:  
   - Uma classe é escolhida como baseline, e as probabilidades são modeladas como:  
     $$
     \Pr(Y = k|X = x) = \frac{e^{\beta_{k0} + \beta_{k1} x_1 + \dots + \beta_{kp} x_p}}{1 + \sum_{l=1}^{K-1} e^{\beta_{l0} + \beta_{l1} x_1 + \dots + \beta_{lp} x_p}}
     $$  
   - A codificação **softmax** trata todas as classes simetricamente:  
     $$
     \Pr(Y = k|X = x) = \frac{e^{\beta_{k0} + \beta_{k1} x_1 + \dots + \beta_{kp} x_p}}{\sum_{l=1}^K e^{\beta_{l0} + \beta_{l1} x_1 + \dots + \beta_{lp} x_p}}
     $$  

### GENERATIVE MODELS FOR CLASSIFICATION  
**4.4 Modelos Gerativos para Classificação**  
* **Quando usar?**:  
   - Modelos generativos são métodos de classificação que tentam modelar a distribuição dos dados de cada classe. Em vez de prever diretamente a classe de uma observação (como faz a regressão logística), eles:
        -  Por exemplo, se a classe é "Default" ou "Não Default", o modelo aprende como são as distribuições de X (como saldo da conta, renda, etc.) para cada uma dessas classes.
        -  Usam o teorema de Bayes para "inverter" essa modelagem e estimar a probabilidade de uma observação pertencer a cada classe.
   - Quando se deseja modelar a distribuição dos preditores \( X \) dentro de cada classe \( Y \) e usar o teorema de Bayes para estimar $ \Pr(Y = k | X = x) $.  
   - Útil quando há separação substancial entre as classes ou quando a distribuição de \( X \) é aproximadamente normal.  
   - Exemplo: Classificar pacientes em categorias de diagnóstico com base em sintomas.  

* **Teorema de Bayes**:  
   - A probabilidade posterior $ \Pr(Y = k | X = x) $ é dada por:  
     $$
     \Pr(Y = k | X = x) = \frac{\pi_k f_k(x)}{\sum_{l=1}^K \pi_l f_l(x)}
     $$  
     Onde:  
     - $ \pi_k $: Probabilidade a priori da classe \( k \).  
     - $ f_k(x) $: Função de densidade de \( X \) na classe \( k \).  

* **Vantagens dos Modelos Gerativos**:  
   - São mais estáveis quando há separação substancial entre as classes.  
   - Podem ser mais precisos que a regressão logística se a distribuição de \( X \) for aproximadamente normal e o tamanho da amostra for pequeno.  
   - Podem ser estendidos naturalmente para problemas com mais de duas classes.  

---

**4.4.1 Análise Discriminante Linear (LDA) para \( p = 1 \)**  
* **Suposições**:  
   - \( f_k(x) \) é uma distribuição normal com média \( \mu_k \) e variância \( \sigma^2 \) (comum a todas as classes).  
   - A função discriminante para a classe \( k \) é:  
     $$
     \delta_k(x) = x \cdot \frac{\mu_k}{\sigma^2} - \frac{\mu_k^2}{2\sigma^2} + \log(\pi_k)
     $$  
   - A observação \( x \) é classificada na classe com maior \( \delta_k(x) \).  

* **Estimação dos Parâmetros**:  
   - \( \hat{\mu}_k \): Média dos valores de \( X \) na classe \( k \).  
   - \( \hat{\sigma}^2 \): Variância ponderada entre as classes.  
   - \( \hat{\pi}_k \): Proporção de observações na classe \( k \).  

* **Exemplo**:  
   - No conjunto de dados **Default**, o LDA classifica corretamente a maioria dos não-defaults, mas tem alta taxa de erro para os defaults.  

---

**4.4.2 Análise Discriminante Linear para \( p > 1 \)**  
* **Suposições**:  
   - \( X \) segue uma distribuição normal multivariada com vetor de média \( \mu_k \) e matriz de covariância \( \Sigma \) (comum a todas as classes).  
   - A função discriminante para a classe \( k \) é:  
     $$
     \delta_k(x) = x^T \Sigma^{-1} \mu_k - \frac{1}{2} \mu_k^T \Sigma^{-1} \mu_k + \log(\pi_k)
     $$  

* **Classificação**:  
   - A observação \( x \) é classificada na classe com maior \( \delta_k(x) \).  

---

**4.4.3 Análise Discriminante Quadrática (QDA)**  
* **Suposições**:  
   - Cada classe tem sua própria matriz de covariância \( \Sigma_k \).  
   - A função discriminante para a classe \( k \) é:  
     $$
     \delta_k(x) = -\frac{1}{2} (x - \mu_k)^T \Sigma_k^{-1} (x - \mu_k) - \frac{1}{2} \log|\Sigma_k| + \log(\pi_k)
     $$  

* **Comparação com LDA**:  
   - QDA é mais flexível, mas requer mais parâmetros.  
   - LDA é preferível quando o número de observações é pequeno, enquanto QDA é melhor quando as matrizes de covariância das classes são diferentes.  

---

**4.4.4 Naive Bayes**  
* **Suposições**:  
   - Dentro de cada classe, os preditores são independentes.  
   - A função de densidade conjunta é:  
     $$
     f_k(x) = f_{k1}(x_1) \times f_{k2}(x_2) \times \dots \times f_{kp}(x_p)
     $$  

* **Estimação**:  
   - Para preditores quantitativos, assume-se uma distribuição normal.  
   - Para preditores qualitativos, usa-se a proporção de observações em cada categoria.  

* **Vantagens**:  
   - Simples e eficaz, especialmente quando \( p \) é grande ou \( n \) é pequeno.  
   - Reduz a variância ao custo de introduzir viés.  

### Tabela Resumo: Modelos de Classificação

| **Modelo**                     | **Descrição**                                                                 | **Quando usar?**                                                                 | **Vantagens**                                                                 | **Desvantagens**                                                                 |
|--------------------------------|-------------------------------------------------------------------------------|----------------------------------------------------------------------------------|-------------------------------------------------------------------------------|----------------------------------------------------------------------------------|
| **Regressão Logística Binária** | Modela \( \Pr(Y = 1 \| X) \) usando a função logística.                       | - Problemas de classificação binária. <br> - Quando a relação entre \( X \) e \( Y \) é aproximadamente linear. | - Simples e eficaz. <br> - Interpretação direta dos coeficientes.              | - Não funciona bem com classes separadas. <br> - Limitado a respostas binárias.   |
| **Regressão Logística Múltipla** | Estende a regressão logística para múltiplos preditores.                      | - Quando há mais de um preditor e a resposta é binária. <br> - Problemas com múltiplas variáveis explicativas. | - Captura relações complexas entre preditores. <br> - Interpretação dos coeficientes. | - Pode sofrer com overfitting se \( p \) (número de preditores) for grande.       |
| **Regressão Logística Multinomial** | Estende a regressão logística para respostas com mais de duas classes.         | - Quando a variável resposta tem \( K > 2 \) classes. <br> - Problemas multiclasse sem ordenação natural. | - Flexível para problemas multiclasse. <br> - Não assume ordenação entre classes. | - Requer mais dados para estimar parâmetros. <br> - Computacionalmente mais custoso. |
| **LDA (Análise Discriminante Linear)** | Modelo generativo que assume distribuição normal com mesma matriz de covariância para todas as classes. | - Quando as classes têm distribuições normais com covariâncias homogêneas. <br> - Pequenos conjuntos de dados. | - Estável e eficiente. <br> - Funciona bem com poucos dados.                    | - Assume normalidade e homogeneidade das covariâncias. <br> - Menos flexível que QDA. |
| **QDA (Análise Discriminante Quadrática)** | Modelo generativo que assume distribuição normal com matriz de covariância específica para cada classe. | - Quando as classes têm distribuições normais com covariâncias diferentes. <br> - Conjuntos de dados maiores. | - Mais flexível que LDA. <br> - Captura relações não lineares entre classes.     | - Requer mais dados para estimar parâmetros. <br> - Pode sofrer com overfitting.  |
| **Naive Bayes**               | Modelo generativo que assume independência entre preditores dentro de cada classe. | - Quando os preditores são independentes ou o conjunto de dados é de alta dimensão. <br> - Problemas com muitas classes. | - Simples e rápido. <br> - Funciona bem com dados de alta dimensão.             | - A suposição de independência raramente é verdadeira. <br> - Pode perder precisão. |

### RESUMO CLASSIFICAÇÃO HOML

**3.1 Visão Geral da Classificação**  
* **Definição**:  
   - A classificação é o processo de prever uma variável resposta qualitativa (categórica).  
   - Diferente da regressão, que prevê valores contínuos, a classificação atribui observações a categorias ou classes.  
   - Exemplos de aplicações: reconhecimento de dígitos, diagnóstico médico, detecção de spam.
     
**3.4 Medidas de Desempenho**  
* **Acurácia e Validação Cruzada**:  
   - A acurácia pode ser enganosa, especialmente em conjuntos de dados desbalanceados.  
   - A validação cruzada é uma técnica robusta para avaliar o desempenho do modelo: cross_val_score() 
* **Matriz de Confusão**:  
   - A matriz de confusão fornece uma visão detalhada dos erros do classificador, mostrando quantas vezes uma classe foi confundida com outra.
   - cross_val_predict()
* **Precisão, Recall e F1-Score**:
   - Depende do contexto em que eu estiver trabalhando.
   - É poss[ivel ter uma precisao muito alta e atrapalhar o recall, depende do que eu quero olhar no modelo.    
   - **Precisão**: Proporção de previsões positivas corretas.  
     $$
     \text{Precisão} = \frac{TP}{TP + FP}
     $$  
   - **Recall**: Proporção de instâncias positivas corretamente classificadas.  
     $$
     \text{Recall} = \frac{TP}{TP + FN}
     $$  
   - **F1-Score**: Média harmônica entre precisão e recall.  
     $$
     F1 = 2 \times \frac{\text{Precisão} \times \text{Recall}}{\text{Precisão} + \text{Recall}}
     $$
- É possivel ainda ploter uma curva Precisão vs Recall, para verificar o trade-off entre as duas 
     
**3.5 Curva ROC e AUC**  
* **Curva ROC**:  
   - A curva ROC (Receiver Operating Characteristic) plota a taxa de verdadeiros positivos (TPR) contra a taxa de falsos positivos (FPR) para diferentes thresholds.
   - A escolha por usar a curva precisao/recall (PR) ou ROC: Preferir PR sempre que classe positiva for rara ou qunado os falsos positivos forem mais importantes do que com os falsos negativos. Caso contrário, usar ROC
* **AUC (Area Under the Curve)**:  
   - A AUC mede a qualidade do classificador. Um valor próximo de 1 indica um bom desempenho.
      
**3.6 Classificação Multiclasse**  
* **Estratégias Multiclasse**:  
   - **One-vs-All (OvA)**: Treina um classificador binário para cada classe.  
   - **One-vs-One (OvO)**: Treina um classificador binário para cada par de classes.  
   - O Scikit-Learn automaticamente seleciona a estratégia adequada dependendo do algoritmo.
  
**3.7 Análise de Erros**  
* **Matriz de Confusão Normalizada**:  
   - A matriz de confusão normalizada ajuda a identificar quais classes são mais frequentemente confundidas.  
* **Melhorias Possíveis**:  
   - Coletar mais dados para classes problemáticas.  
   - Engenharia de features para destacar padrões específicos.  
   - Pré-processamento de imagens para reduzir ruídos e variações.
  
**3.8 Classificação Multilabel e Multioutput**  
* **Classificação Multilabel**:  
   - Um classificador multilabel pode atribuir múltiplas classes a uma única instância.  
   - Exemplo: Reconhecimento de múltiplas pessoas em uma imagem.  
* **Classificação Multioutput**:  
   - Generalização da classificação multilabel, onde cada label pode ter múltiplos valores.  
   - Exemplo: Remoção de ruído de imagens, onde cada pixel é uma label com valores de 0 a 255. 