# Regression, Classification, Decision Trees, and Ensemble Models


## 1. Regressão

Na regressão linear, a multicolinearidade entre as variáveis independentes pode desestabilizar os coeficientes do modelo. Explique como a **Regressão Ridge** e a **Regressão Lasso** abordam essa questão de maneiras diferentes. Em quais cenários você preferiria uma em vez da outra?

---

## 2. Classificação

Explique como o **desequilíbrio de classes** afeta o desempenho dos modelos de classificação. Quais estratégias você usaria para lidar com um conjunto de dados com uma variável alvo altamente desbalanceada, e como essas estratégias impactariam as métricas de avaliação do modelo?

---

## 3. Árvores de Decisão

Árvores de Decisão são conhecidas pela tendência de se ajustarem demais aos dados de treinamento. Descreva o papel da **poda de árvores** e do **hiperparâmetro de profundidade máxima** no controle do overfitting. Como essas técnicas equilibram viés e variância no modelo?

---

## 4. Modelos de Ensemble

Compare e contraste **Bagging** (por exemplo, Random Forest) e **Boosting** (por exemplo, Gradient Boosting Machines) em termos de suas abordagens para reduzir variância e viés. Como cada método afeta a robustez e interpretabilidade do modelo final?

---

## 5. Conjuntos de Árvores para Regressão vs Classificação

Métodos de ensemble baseados em árvores, como Random Forests e Gradient Boosting, podem ser usados tanto para regressão quanto para classificação. Descreva as principais diferenças em como esses algoritmos são configurados e avaliados para problemas de regressão e classificação. Como os critérios de divisão e as métricas de desempenho mudam entre esses contextos?



# Respostas das questões
# Questão 1
Regressão Ridge e Regressão Lasso são técnicas de regularização, que abordam a questão da multicolinearidade e reduzem o impacto de variáveis altamente correlacionadas entre si, mas de formas diferentes:

- Regressão Ridge: adiciona uma penalidade proporcional ao quadrado da magnitude dos coeficientes. Essa penalidade força os coeficientes a reduzirem em direção a zero, mas nunca zera completamente.

- Regressão Lasso: adiciona uma penalidade proporcional ao valor absoluto dos coeficientes. Diferente da Regressão de Ridge, alguns coeficientes podem ser forçados a serem exatamente zero, resultando em seleção de variáveis.

Cenários para preferir Regressão Ridge: quando todas as variáveis contribuem para o modelo e é desejado apenas a magnitude dos coeficientes.
Cenários para preferir Regressão Lasso: quando é necessária a seleção automática de variáveis, eliminando características irrelevantes.

# Questão 2
O desiquilíbrio de classes ocorre quando a quantidade de informações de uma classe é muito maior que a outra. Isso impacta no desempenho dos modelos de classficação de diversas formas, como no viés do modelo (onde o algoritmo tende a focar na classe majoritária) e em métricas enganosas.

Algumas estratégias para lidar com isso são:
- Reamostragem dos dados:
    - Oversampling: que consiste em aumentar os exemplos da classe minoritária, podendo ser feito de forma simples (duplicando exemplos) ou usando técnicas como **SMOTE (Synthetic Minority Over-sampling Technique)**, que gera exemplos sintéticos;
    - Undersampling: que reduz exemplos da classe majoritária.
- Ponderação de classes: uso de pesos diferentes atribuídos às classes durante o treinamento (sklearn), penalizando mais os erros na classe menor.
- Troca de métricas para avaliação: 
    - F1-Score: média harmônica entre precisão (saber quantos dos positivos previstos eram realmente positivos) e recall (quantos positivos reais foram identificados corretamente);
    - ROC-AUC (Receiver Operating Characteristic - Area Under the Curve): mede a capacidade do modelo de distinguir entre positivos e negativos em diferentes limiares e são menos sensíveis ao desequilíbrio.
        - ROC: curva que plota a taxa de verdadeiros positivos vs taxa de falsos positivos;
        - AUC: área sob a curva. Quanto maior o valor (próximo de 1), melhor a separação entre as classes.

O objetivo ao lidar com o desequilíbro é melhorar o desempenho da classe minoritária, mesmo que signifique uma redução na acurácia geral, resultando em um modelo mais útil e robusto.

# Questão 3
Árvores de Decisão são propensas ao overfitting, pois podem se ajustar excessivamente aos dados de treinamento, capturando ruído e padrões específicos da amostra, o que compromete a generalização para novos dados. Para combater isso:
- Poda de árvores: remove nós irrelevantes ou de baixa importância  para simplificar a árvore e melhorar generalização;
- Hiperparâmetro de profundidade máxima: define um limite para a qtde de divisões. Uma árvore muito profunda pode capturar ruído em vez de padrões reais.

São técnicas de regularização para árvores de decisão, essenciais para equilibrar o viés e a variância, buscando um modelo que seja complexo o suficiente para capturar os padrões subjacentes (baixo viés) sem se ajustar ao ruído (baixa variância), garantindo assim uma boa generalização.

# Questão 4
Modelos de ensemble combinam múltiplas previsões de modelos base para melhorar o desempenho. Bagging e Boosting são as duas principais abordagens, com diferenças fundamentais na redução de viés e variância.
- Bagging (bootstrap aggregating): vários modelos são treinados em subconjuntos aleatórios dos dados, reduz a variância (evitando o overfitting) e o resultado é obtido por média - para regressão - ou voto majoritário - para classificação -, além de ser mais robusto e fácil de paralelizar.
- Boosting: modelos treinados sequencialmente (que corrigem erros dos modelos anteriores), reduz viés (tornando a previsão mais precisa), são mais sensíveis a ruidos, entretanto, tem alto desempenho.

Exemplos práticos incluem o Random Forest para Bagging e o AdaBoost, Gradient Boosting ou XGBoost para Boosting. Bagging tende a ser mais robusto a outliers e ruídos, enquanto Boosting pode ser mais sensível, exigindo técnicas de regularização para evitar overfitting. Ambos os métodos, ao combinar várias árvores, sacrificam a interpretabilidade em troca de maior desempenho preditivo.

# Questão 5
Métodos de ensemble baseados em árvore, como Random Forests e Gradiente Boosting, são aplicáveis tanto para problemas de regressão (previsão de valores contínuos) quanto de classificação (previsão de categorias). As principais diferenças residem na configuração do algoritmo, nos critérios de divisão das árvores e nas métricas de avaliação.
- Configuração do algoritmo:
    - Classificação: As árvores são configuradas para prever classes categóricas. Cada nó tenta dividir os dados de forma a maximizar a pureza das classes nos subconjuntos.
    - Regressão: As árvores são ajustadas para prever valores contínuos. Os nós são divididos para minimizar o erro na previsão dos valores numéricos.

- Critérios de divisão das árvores:
    - Classificação: Gini Impurity (Impureza de Gini). Entropy (Entropia ou Ganho de Informação). O objetivo é criar nós que sejam os mais homogêneos possíveis em relação às classes.
    - Regressão: Minimização do Erro Quadrático Médio (MSE) ou Erro Absoluto Médio (MAE). As divisões buscam minimizar a variância dos valores contínuos nos nós filhos.

- Métricas de desempenho:
    - Classificação: Avalia a precisão na previsão das classes com métricas, como acurácia, precisão, recall, F1-scre, matriz de confusão e ROC-AUC.
    - Regressão: Avalia o quão próximo dos valores reais o modelo chega,usando métricas como: erro quadrático médio (MSE), raiz do erro quadrático médio (RMSE), erro absoluto médio (MAE), R² (coeficiente de determinação).

Portanto, embora a estrutura dos algoritmos seja a mesma, a forma como eles dividem os dados e avaliam a performance muda significativamente, dependendo se o problema é de regressão ou classificação.



