# **Tipos de Algoritmos de Machine Learning**

## **1. Regressão Linear**
A Regressão Linear é um tipo básico e amplamente utilizado de análise preditiva. O objetivo principal é examinar se um conjunto de variáveis preditoras faz um bom trabalho ao prever uma variável de resultado (dependente) e identificar quais variáveis são preditores significativos dessa variável de resultado, além de entender como essas variáveis impactam a variável de resultado.

### **Características Principais:**
- **Propósito:** Avaliar o relacionamento entre variáveis.
- **Estimativa:** Estima o valor de uma variável dependente (`y`) a partir dos valores das variáveis independentes (`x`).
- **Tipo de Dados:** Ideal para variáveis contínuas com alguma correlação.
- **Formulação:** A equação linear simples é `y = c + b*x`, onde `c` é a constante (intercepto) e `b` é o coeficiente de regressão.
- **Coeficiente R-Square:** Mede o quão próximos os dados estão da linha de regressão. Quanto maior o valor (entre 0 e 1), melhor o ajuste.

### **Vantagens:**
- Baixo custo.
- Veloz.
- Fácil de compreender.
- Excelente para relações lineares.

### **Desvantagens:**
- Possui várias suposições que precisam ser validadas.
- Sensível a outliers.
- Pode não ser ideal para dados complexos.

### **Exemplos de Algoritmos Famosos:**
- **Regressão Linear Simples**
- **Regressão Linear Múltipla**
- **Regressão Ridge e Lasso** (variantes para regularização)

### **Aplicações:**
- Previsão de vendas.
- Análise de tendências.
- Modelagem financeira.

---

## **2. Classificação Multiclasse**
A Classificação Multiclasse, também conhecida como Classificação Multinomial, é a tarefa de classificar instâncias em uma de três ou mais classes. Quando há mais de duas classes, o problema é de classificação multiclasse.

### **Características Principais:**
- **Propósito:** Classificar instâncias em mais de duas classes.
- **Aplicação:** Útil em situações onde há múltiplas categorias possíveis, como categorização de produtos.
- **Algoritmo Exemplo:** Árvore de Decisão.

### **Vantagens:**
- Fácil de interpretar e explicar.
- Funciona com valores faltantes (algoritmo de Árvore de Decisão).
- Rápido (algoritmo de Árvore de Decisão).

### **Desvantagens:**
- Acurácia limitada.
- Bias (viés) pode ocorrer com frequência.
- Não funciona bem com muitas variáveis preditoras.

### **Exemplos de Algoritmos Famosos:**
- **Árvore de Decisão**
- **Random Forest** (também usado para classificação binária)
- **Support Vector Machines (SVM)** com extensão para multiclasse
- **k-Nearest Neighbors (k-NN)**

### **Aplicações:**
- Aprovação de crédito (com mais de 2 status possíveis).
- Categorização de produtos ou serviços (com mais de 2 status possíveis).
- Previsão de resultado de jogos e apostas (com mais de 2 status possíveis).

---

## **3. Classificação Binária**
A Classificação Binária é uma estratégia de aprendizado supervisionado usada quando queremos prever uma entre duas classes possíveis. Se houver mais de 2 classes, o problema será de Classificação Multiclasse.

### **Características Principais:**
- **Propósito:** Classificar instâncias em uma de duas classes possíveis.
- **Aplicação:** Útil em situações onde há apenas duas categorias possíveis, como aprovação de crédito.

### **Vantagens:**
- Normalmente oferece boa acurácia.
- Funciona muito bem de forma paralelizada com algoritmos baseados em árvore de decisão.

### **Desvantagens:**
- Pode ser um pouco mais lento para treinar o modelo.
- Bias (viés) pode ocorrer com frequência.

### **Exemplos de Algoritmos Famosos:**
- **Logistic Regression** (Regressão Logística)
- **Support Vector Machines (SVM)**
- **Random Forest**
- **Naive Bayes**

### **Aplicações:**
- Aprovação de crédito (com 2 status possíveis).
- Pesquisa científica.
- Diagnóstico médico.
- Categorização de produtos ou serviços (com 2 status possíveis).

---

## **4. Classificação Binária Probabilística**
A Classificação Binária Probabilística é uma forma específica de classificação binária onde o objetivo é prever a probabilidade de uma instância pertencer a uma das duas classes possíveis. Algoritmos probabilísticos, como o Naive Bayes e a Regressão Logística, são comumente utilizados para esse fim.

### **Características Principais:**
- **Propósito:** Estimar a probabilidade de uma instância pertencer a uma classe específica.
- **Aplicação:** Útil em situações onde, além de classificar, precisamos entender a confiança da classificação.
- **Algoritmos Comuns:** Naive Bayes, Regressão Logística.

### **Vantagens:**
- Rápido e simples.
- Funciona bem mesmo com valores faltantes.
- Oferece probabilidades de cada resultado, permitindo uma análise mais detalhada.

### **Desvantagens:**
- Pode ser menos eficaz quando as variáveis preditoras não são independentes (no caso do Naive Bayes).
- Desempenho pode ser limitado com muitas variáveis numéricas (no caso do Naive Bayes).

### **Exemplos de Algoritmos Famosos:**
- **Naive Bayes**
- **Logistic Regression** (Regressão Logística)
- **Bayesian Networks**

### **Aplicações:**
- Filtro de Spam.
- Diagnóstico médico.
- Modelagem de risco de crédito.

---

## **5. Clusterização**
A Clusterização é uma estratégia diferente do que vimos anteriormente. Quando não temos a variável de saída, não podemos usar aprendizado supervisionado (regressão ou classificação). Nesse caso, nosso objetivo é agrupar os dados por similaridade e, então, precisamos de um algoritmo de aprendizado não supervisionado, como o algoritmo K-Means.

### **Características Principais:**
- **Propósito:** Agrupar dados por similaridade.
- **Aplicação:** Útil para segmentação de dados em grupos similares sem supervisão.

### **Vantagens:**
- Rápido.
- Eficiente quando se tem muitas variáveis.

### **Desvantagens:**
- O valor de `k` precisa ser conhecido previamente.
- O valor inicial de `k` tem influência nos clusters criados.

### **Exemplos de Algoritmos Famosos:**
- **K-Means**
- **Hierarchical Clustering**
- **DBSCAN (Density-Based Spatial Clustering of Applications with Noise)**
- **Gaussian Mixture Models (GMM)**

### **Aplicações:**
- Agrupamento preliminar antes de se aplicar técnicas de classificação.
- Clusterização geográfica.
- Segmentação de clientes.
- Agrupamento de dados.

