## Problemas de Classificação

### Problemas de classificação envolvem a previsão de categorias ou rótulos para novas observações com base em um conjunto de dados de treinamento. Ao contrário dos problemas de regressão, que prevêem valores contínuos, os problemas de classificação prevêem rótulos discretos.

----------------------------------------------------------------------------------------------

## Exemplos de Aplicação no Nosso Dataset

### No contexto do dataset do SPAECE 2018, podemos formular problemas de classificação para predizer uma categoria baseada em outras features. Por exemplo:

#### **Previsão de Performance Acadêmica:** Classificar os alunos em categorias de desempenho com base em suas características e respostas ao questionário.
#### **Previsão de Abandono Escolar:** Classificar se um aluno tem probabilidade de abandonar a escola com base nas características demográficas e educacionais.

----------------------------------------------------------------------------------------------------------------------------------

## Modelos para Problemas de Classificação

### 1-Árvores de Decisão (Decision Trees)
#### **Vantagens:** Fácil de interpretar e visualizar, não requer muita preparação de dados, pode capturar relações não lineares.
#### **Desvantagens:** Pode se tornar complexa e sobreajustada facilmente, especialmente com muitos dados.

### 2-Support Vector Machines (SVM)
#### **Vantagens:** Eficaz em espaços de alta dimensão, usa um subconjunto de pontos de dados no conjunto de suporte, bom para margens claras de separação.
#### **Desvantagens:** Não escala bem com grandes datasets, sensível à escolha dos hiperparâmetros.

### 3-K-Nearest Neighbors (KNN)
#### **Vantagens:** Simples de implementar, não requer treinamento explícito, flexível ao escolher a função de distância.
#### **Desvantagens:** Computacionalmente intensivo para grandes datasets, sensível ao ruído nos dados.

### 4-Naive Bayes
#### **Vantagens:** Simples e rápido de treinar, eficaz para grandes datasets, funciona bem com dados categóricos.
#### **Desvantagens:** Assume independência entre as features, o que pode não ser verdadeiro.

### 5-Perceptron Multicamadas (MLP)

#### **Vantagens:** Capazes de capturar relações não lineares complexas, eficaz para dados com muitas features e classes, altamente flexível.
#### **Desvantagens:** Requer mais dados e poder computacional, mais difícil de interpretar e ajustar, sensível à escolha dos hiperparâmetros e à arquitetura da rede.

---------------------------------------------------------------------------

## Métricas para Avaliação de Modelos de Regressão

### Ao avaliar modelos de classificação, é importante escolher métricas de desempenho apropriadas para entender como o modelo está se saindo em diferentes aspectos. As métricas e métodos de avaliação que iremos aplicar serão:

### **1. Acurácia (Accuracy)**
#### **Definição:** A porcentagem de previsões corretas sobre o total de previsões.
#### **Fórmula:** $(TP+TN)/(TP+TN+FP+FN)$
#### **Uso:** Boa métrica quando as classes estão balanceadas.
#### **Limitações:** Pode ser enganosa em datasets desequilibrados, onde uma classe é muito mais frequente que outra.

### **2. Precisão (Precision)**
#### **Definição:** A proporção de verdadeiros positivos (TP) sobre o total de previsões positivas (TP + FP).
#### **Fórmula:** $TP/(TP+FP)$
#### **Uso:** Importante quando o custo de um falso positivo é alto.
#### **Limitações:** Pode ser baixa se houver muitos falsos positivos.

### **3. Revocação (Recall) ou Sensibilidade (Sensitivity)**
#### **Definição:** A proporção de verdadeiros positivos sobre o total de verdadeiros positivos e falsos negativos (TP + FN).
#### **Fórmula:** $TP/(TP+FN)$
#### **Uso:** Importante quando o custo de um falso negativo é alto.
#### **Limitações:** Pode ser baixa se houver muitos falsos negativos.

### **4. F1-Score**
#### **Definição:** A média harmônica entre precisão e revocação.
#### **Fórmula:** $F1 = 2 \times \frac{\text{Precisão} \times \text{Revocação}}{\text{Precisão} + \text{Revocação}}$
#### **Uso:** Útil quando há um trade-off entre precisão e revocação e uma visão equilibrada é necessária.
#### **Limitações:** Não considera o verdadeiro negativo na fórmula.

### **5. Matriz de Confusão (Confusion Matrix)**
#### **Definição:** Uma tabela que mostra as previsões do modelo contra os valores reais divididos em verdadeiros positivos, falsos positivos, verdadeiros negativos e falsos negativos.
#### **Uso:** Oferece uma visão detalhada do desempenho do modelo.
#### **Limitações:** Pode ser difícil de interpretar para conjuntos de dados muito grandes ou com muitas classes.

-------------------------------------------------------------------------------------------