# 🧠 Algoritmos Supervisionados

### 🌳 Árvore de Decisão

O objetivo deste módulo é apresentar conceitualmente os **principais algoritmos de classificação** para que possamos desenvolver projetos de *machine learning* que fazem **previsões de categorias ou classes**.

Faremos um projeto explorando o primeiro destes algoritmos, que é o de **árvore de decisão**, onde faremos o **processo completo**, desde o **EDA** até a entrega do modelo através de uma aplicação para inferência *batch*.


# 🤖 O que é um algoritmo de classificação?

Os **algoritmos de classificação** têm como propósito organizar dados de maneira eficaz, sendo empregados em diversas situações. Diferentemente da análise de regressão, que explora relações numéricas, a classificação se destina **a categorizar instâncias em grupos distintos**.

Isso pode ocorrer de diversas formas:
- **Classificação binária**: divide os dados em duas categorias;
- **Classificação multi-classe**: lida com múltiplas categorias;
- **Classificação multi-rótulo** (*multi-label*): trata de múltiplas categorias por instância.

> 📌 *Essa diversidade de abordagens permite a aplicação dos algoritmos em uma ampla gama de casos*, como:
- Identificação de spam (*classificação binária*);
- Diagnóstico médico de diferentes doenças (*classificação multi-classe*);
- Categorização de documentos com múltiplos temas (*classificação multi-label*).

---

A escolha criteriosa do método de classificação **depende da natureza específica do problema e da estrutura dos dados envolvidos**.

Seja na identificação de padrões em imagens ou na segmentação de clientes para estratégias de marketing personalizado, os algoritmos de classificação desempenham um papel vital na análise de dados, **possibilitando a tomada de decisões fundamentadas e a compreensão de padrões no mundo real**.


# 🌟 Um passeio pelos algoritmos de classificação

## 🌳 Árvore de Decisão
As árvores de decisão dividem o conjunto de dados em subconjuntos com base em características, criando uma estrutura de árvore onde as folhas representam as classes.  
Cada nó interno representa uma decisão baseada em uma característica.

**🟣 Exemplo de Uso:**  
Diagnóstico médico, como a previsão de doenças com base em sintomas.

---

## 📈 Regressão Logística
A regressão logística é um método de classificação que estima a probabilidade de uma instância pertencer a uma classe específica.  
Utiliza uma função para mapear a saída linear para o intervalo 0 e 1, interpretada como a probabilidade da classe positiva.

**🟣 Exemplo de Uso:**  
Identificação de e-mails como spam ou não spam com base em características como palavras-chave e comprimento do texto.

---

## 🧮 Naive Bayes
Baseado no teorema de Bayes, o Naive Bayes assume independência condicional entre as características.  
É eficaz e rápido, sendo especialmente útil em conjuntos de dados com muitas características.

**🟣 Exemplo de Uso:**  
Classificação de opiniões de clientes entre positivas, negativas ou neutras (*Análise de Sentimentos*).
``

---

## 🔍 K Nearest Neighbors (KNN)
O KNN classifica uma instância com base nas classes das instâncias vizinhas mais próximas, utilizando uma **métrica de distância** (como a euclidiana).  
A instância é atribuída à classe mais comum entre seus *k* vizinhos mais próximos.

**🟣 Exemplo de Uso:**  
Sistemas de Recomendação para empresas de varejo digital.

---

## ✴️ SVM (Support Vector Machines)
As *Support Vector Machines* procuram encontrar o **hiperplano que melhor separa** as instâncias de diferentes classes, **maximizando a margem** entre elas.  
Podem ser estendidas para problemas de classificação **binária** e **multi-classe**.

**🟣 Exemplo de Uso:**  
Classificação de documentos em categorias, como notícias, esportes e entretenimento.


# 🌳 O que é uma Árvore de Decisão?

Uma **árvore de decisão** é um modelo de *aprendizado de máquina* que representa uma  
**estrutura hierárquica de decisões**, baseada em características dos dados.

---

## 🧠 Como funciona?

1. **Início pela variável mais relevante:**  
   A árvore começa com a **escolha da variável que melhor separa os dados**,  
   utilizando métricas como:

   - 🔹 *Ganho de Informação*  
   - 🔹 *Índice de Gini*

   Essas métricas ajudam a **avaliar a pureza das divisões**.

2. **Divisões sucessivas:**  
   A cada **nó de decisão**, a variável escolhida **gera ramos** que continuam o  
   processo de subdivisão dos dados.

3. **Chegando nas folhas:**  
   O processo continua até atingir as **folhas**, que representam as **decisões finais ou classes**.

4. **Objetivo principal:**  
   Minimizar a **entropia** ou **impureza**, criando uma estrutura que **captura padrões complexos** nos dados.

---

## 📊 Estrutura da Árvore


---

## 🧩 Termos Importantes

| Termo           | Significado                                         |
|----------------|-----------------------------------------------------|
| **Root Node**   | Onde a divisão começa                              |
| **Decision Node** | Nó intermediário que decide qual caminho seguir   |
| **Leaf Node**   | Resultado final / Classe atribuída                 |
| **Branch**      | Caminho entre os nós                               |
| **Maximum Depth** | Profundidade máxima da árvore                    |

---

> 💡 As árvores de decisão são populares pela **facilidade de interpretação** e  
> **capacidade de lidar com dados categóricos e numéricos**.

---

## 🔍 Entropia e Ganho de Informação

A **entropia** é uma medida de *impureza* em um conjunto de dados.  
O **ganho de informação** é usado para decidir como dividir os dados  
em cada nó da árvore, visando **reduzir a entropia**.  

📌 Em termos simples, o objetivo é **criar divisões mais homogêneas**.

---

## ✂️ Corte (*Pruning*)

O **corte** é uma técnica utilizada para evitar o **sobreajuste** (*overfitting*) da árvore.  
Às vezes, as árvores se tornam muito complexas e se ajustam demais aos dados de treino.  

🪓 O corte consiste em **podar ramos da árvore**, melhorando sua capacidade de **generalizar**  
para novos dados.

---

## 🌲 Profundidade da Árvore

A **profundidade** refere-se à quantidade de **níveis** ou **perguntas** feitas até se chegar a uma decisão.  

- Árvores **muito profundas** → risco de sobreajuste  
- Árvores **muito rasas** → risco de não capturar padrões complexos  

🎯 O ideal é buscar um equilíbrio entre **complexidade** e **generalização**.

---

## 🧩 Variáveis Categóricas e Numéricas

As árvores de decisão lidam com diferentes tipos de variáveis de maneira distinta:

- 🔸 **Variáveis Categóricas:**  
  A árvore faz perguntas como:  
  *"É igual a X?"* ou *"Pertence à categoria Y?"*

- 🔹 **Variáveis Numéricas:**  
  A árvore pergunta:  
  *"É maior que X?"* ou *"Está no intervalo Y–Z?"*

---

## 🎯 Grid Search / Random Search

**Grid Search** e **Random Search** são técnicas usadas para encontrar os melhores **hiperparâmetros** para um modelo.

🔍 Elas testam diferentes **combinações de parâmetros**, escolhendo aquelas com melhor desempenho,  
muitas vezes utilizando **validação cruzada** para garantir a qualidade da avaliação.
