# Para saber mais

## 1 - Classificação multiclasse
Antes de começar a falar de classificação multiclasse, vamos relembrar como funciona a classificação binária?

Imagine que você tem um monte de frutas e precisa separá-las em duas categorias: frutas vermelhas e frutas amarelas. Isso é uma classificação binária, onde temos apenas duas categorias.

Agora, imagine que você tem um cesto de frutas diversificado, contendo maçãs, bananas, laranjas, morangos e uvas. Mas desta vez, cada uma dessas frutas pertence a uma categoria diferente, e sua tarefa é classificar cada fruta na categoria apropriada. Isso é o que chamamos de classificação multiclasse!

A classificação multiclasse é como ter várias tarefas de classificação binária ao mesmo tempo. Você vai separar as maçãs das bananas, das laranjas, dos morangos e das uvas.

À medida que avançarmos, você perceberá que esse tipo de classificação é mais complexo e desafiador em comparação com a classificação binária. Um dos desafios que enfrentamos é o desbalanceamento de classes.

Em conjuntos de dados multiclasse, as classes podem não ter o mesmo número de exemplos. Isso pode resultar em um desequilíbrio de classes, onde algumas categorias têm significativamente mais exemplos do que outras. Esse desequilíbrio pode impactar negativamente o desempenho do modelo, pois ele pode se inclinar em direção às categorias majoritárias.

Durante nosso curso, você aprenderá como abordar esse problema e como avaliar as métricas de desempenho quando lidamos com mais de duas categorias.

No próximo vídeo, daremos início ao processo de carregamento dos dados!

Espero você lá!

## 2 - Origem dos dados
Nos vídeos anteriores, carregamos e conduzimos análises preliminares dos dados, e é fundamental ressaltar que esses dados são reais, provenientes do Instituto Politécnico de Portalegre, uma instituição de ensino superior em Portugal.

Este conjunto de dados abrange uma ampla gama de informações, incluindo dados demográficos, socioeconômicos e macroeconômicos, dados capturados no momento da matrícula dos estudantes, bem como no final dos primeiros e segundos semestres.

As fontes de dados são diversas, incluindo fontes internas da instituição, como o Sistema de Gestão Acadêmica (AMS) e o Sistema de Apoio à Atividade Docente (PAE), bem como dados da Direção Geral do Ensino Superior (DGES) relacionados ao ingresso no ensino superior por meio do Concurso Nacional de Acesso ao Ensino Superior (CNAES). Além disso, dados macroeconômicos foram incorporados a partir da Base de Dados Portugal Contemporâneo (PORDATA).

Estes dados são representativos dos registros de estudantes matriculados no período entre os anos letivos de 2008/2009 (após a implementação do Processo de Bolonha no ensino superior europeu) e 2018/2019. Eles abrangem 17 cursos de graduação em diversas áreas do conhecimento, como agronomia, design, educação, enfermagem, jornalismo, gestão, serviço social e tecnologias.

Se você tiver interesse em uma compreensão mais profunda desses dados e conhecer os estudos realizados com eles, recomendamos a leitura do artigo disponibilizado pelos próprios autores do dataset:
- [Predicting Student Dropout and Academic Success](https://www.mdpi.com/2306-5729/7/11/146#app2-data-07-00146)

## 3 - Como funciona o Random Forest Classifier?
Imagine que você está tentando tomar uma decisão difícil, como escolher qual filme ou série assistir. Quem nunca passou por isso abrindo a página de uma plataforma de streaming, né?

Para ajudar a escolher o que você assistir, você pode pedir conselhos a várias pessoas diferentes, como seus amigos, familiares e até mesmo consultar páginas de crítica de cinema. Depois de pedir essas dicas você vai perceber que cada pessoa pode ter uma opinião diferente sobre qual filme ou série é melhor.

Mas o que isso tem a ver com o que estamos aprendendo aqui? O modelo Random Forest funciona de maneira semelhante, mas em vez de pedir conselhos a pessoas, ele pede conselhos a muitas "árvores de decisão". Agora, o que são essas árvores de decisão?

### Árvores de decisão
Uma árvore de decisão é como um conjunto de regras que ajudam a tomar uma decisão. Por exemplo, imagine que você deseja prever se um dia será ensolarado ou chuvoso com base em informações como temperatura, umidade e vento. A árvore de decisão pode começar com uma pergunta, como "A temperatura é maior que 25 graus?". Se a resposta for sim, a árvore seguirá um ramo e fará outra pergunta, como "A umidade é menor que 30%?". Se a resposta for sim, a árvore pode concluir que o dia será ensolarado.

Você já se perguntou como é a estrutura de uma árvore de decisão em aprendizado de máquina? De maneira interessante, ela se assemelha a uma árvore na natureza, com suas partes fundamentais: raiz, ramos e folhas. Na figura a seguir temos um esquema de como isso é estruturado:

![image.png](attachment:image.png)

Podemos observar as seguintes estruturas:

**Nó Raiz (Root Node):**
- Este é o ponto de partida da árvore de decisão.
- Representa o conjunto de dados de entrada completo.
- A primeira pergunta é feita neste nó para dividir os dados em subconjuntos.

**Nós Internos (Internal Nodes):**
- São os nós intermediários entre o nó raiz e as folhas.
- Cada nó interno contém uma pergunta sobre uma feature específica.
- Os nós internos dividem os dados em subconjuntos com base nas respostas às perguntas.

**Folhas (Leaf Nodes):**
- São os nós finais da árvore de decisão.
- Não contêm perguntas, apenas resultados ou previsões.
- Cada folha representa uma classe.

Maravilha! Entendemos o que é uma árvore de decisão e como é sua estrutura, mas como várias árvores dessas conseguem tomar decisões?

### Como o Random Forest toma decisões
O que o modelo Random Forest faz é criar muitas dessas árvores de decisão, cada uma com suas próprias regras. No nosso exemplo do filme/série, cada pessoa tem sua própria opinião sobre o melhor filme, e cada árvore de decisão tem suas próprias regras com base nos dados que ela viu.

Aqui está o truque: em vez de confiar em apenas uma árvore de decisão, o Random Forest pede a opinião de todas as árvores e faz uma "votação". Cada árvore "vota" na sua decisão. No final, a decisão que recebe mais votos é escolhida como a resposta final do modelo.

Isso torna o Random Forest muito robusto e preciso. Ele pode lidar com uma variedade de situações e evitar decisões erradas que uma única árvore de decisão poderia tomar. É como se você estivesse pedindo a opinião de muitas pessoas diferentes e tomando a decisão com base na maioria.

### Qual é a matemática por trás disso?
Mas e aí, como o modelo vai tomando as decisões?

Existem dois critérios chamados **“Gini”** e **“Entropy”** (Entropia), que o Random Forest utiliza para tomar decisões sobre como dividir os dados durante a construção de cada árvore de decisão. Por padrão o scikit-learn utiliza o parâmetro `criterion='gini'`, mas é possível alterar para `entropy`.

> Você pode consultar quais são os parâmetros default (padrão) na [documentação da biblioteca](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html)

Vamos entender como esses critérios funcionam?
- **Gini:** mede a impureza dos dados em um nó da árvore. Quanto menor o valor do Gini, mais puro (homogêneo) é o nó. Então, um gini impurity é calculado para todas as possíveis divisões em um nó, e a divisão que resulta em um Gini menor é escolhida. Em outras palavras, o algoritmo tenta separar os dados de forma que as classes fiquem mais segregadas possível.
- **Entropy:** é uma medida da desordem ou incerteza nos dados. Quanto maior a entropia, mais desorganizados estão os dados. Durante a construção da árvore, o algoritmo busca dividir os dados de forma que a entropia seja menor. Isso significa que ele tenta organizar os dados de forma a reduzir a incerteza nas previsões.

No caso dos nossos dados, o critério utilizado foi o Gini, já que o parâmetro que define isso não foi alterado. Que tal aprofundarmos nossa compreensão por meio de uma representação visual dos dados em questão? A seguir, apresentamos uma das árvores de decisão pertencentes ao modelo Random Forest. Neste exemplo, vale ressaltar que a profundidade da árvore (max_depth) foi limitada a apenas 3 níveis, visando a tornar o processo mais acessível de compreender:

![image-2.png](attachment:image-2.png)

Começamos nossa árvore com um caixa central na parte superior: "Curso_enfermagem <= 0.5", que neste caso é a condição usada para dividir os dados na raiz da árvore. Isso significa que a árvore está tomando a variável "Curso_enfermagem" e verificando se ela é menor ou igual a 0,5. Se essa condição for verdadeira para um ponto de dados, ele seguirá para um dos ramos da árvore; caso contrário, seguirá para o outro ramo.

Além disso, temos as seguintes informações nesta caixa da raiz da árvore:
- **gini = 0.604**, representa o valor do critério gini. Quanto mais próximo de zero o valor do índice Gini, mais puro é o nó, o que significa que a divisão dos dados foi bem-sucedida em separar as classes. No nosso caso, o valor de 0.604 indica que ainda existe alguma impureza nos dados na raiz da árvore, mas isso é esperado já que temos três classes que estão desbalanceadas.
- **samples = 1777** indica o número total de pontos de dados que chegaram a esse nó.
- **value = [904, 1456, 460]** mostra a distribuição das três classes nos dados que chegaram a esse nó. No nosso caso, há 904 pontos de dados classificados como "Desistente", 1456 como "Graduado" e 460 como "Matriculado".
- Finalmente, **class = Graduado** indica a classe predominante nesse nó. Isso significa que, com base na divisão da árvore até agora, a classe "Graduado" é a mais comum nesse ponto da árvore.

Depois disso, temos ramificações a partir da raiz que levam a um novo nó na árvore, onde uma nova condição é aplicada para continuar a dividir os dados. Essa divisão continua até que os critérios de parada sejam atingidos ou até que não haja mais ganho de informação significativo na divisão dos dados.

Por fim, várias árvores são geradas e combinadas através da votação por maioria, resultando em um modelo robusto e preciso de classificação, capaz de lidar com uma variedade de problemas complexos de forma eficaz.

## 4 - Matriz de confusão para classificação multiclasse
Uma matriz de confusão é como se fosse uma tabela que nos permite avaliar o desempenho de um modelo de classificação, comparando suas previsões com os valores reais. Enquanto na classificação binária tínhamos apenas quatro quadrantes para representar o desempenho do modelo, a matriz de confusão se torna ainda mais informativa quando tratamos de problemas de classificação multiclasse.

A seguir, apresentamos uma matriz de confusão normalizada obtida a partir de um modelo Random Forest treinado com dados médicos de pacientes que apresentam diversas patologias de pele. Observe que esta matriz é maior devido à presença de seis diferentes classes de patologias. No entanto, não se preocupe, pois a abordagem para interpretar uma matriz de confusão permanece consistente, independentemente do número de classes envolvidas.

Vamos interpretá-la???

![image.png](attachment:image.png)

Comece concentrando sua atenção na **diagonal principal**, pois ela apresenta os acertos do modelo para cada classe. Quanto maiores os valores na diagonal principal, melhor o modelo está performando.

No exemplo fornecido, podemos observar que os valores máximos estão na diagonal principal para as classes 1, 3, 5 e 6. Isso indica que o modelo teve uma taxa de acerto de 100% nessas classes.

Entretanto, é importante notar que as classes 2 e 4 apresentam valores fora da diagonal principal, indicando que o modelo cometeu erros na classificação dessas classes. Para a classe 2, a taxa de acerto é de 77%, o que significa que aproximadamente 77% das instâncias dessa classe foram classificadas corretamente. Para a classe 4, o desempenho foi melhor, com uma taxa de acerto de 91%.

Fora da diagonal principal nós temos os Falsos positivos (FP) e Falsos negativos (FN). Portanto, esses valores fora da diagonal principal indicam onde o modelo está cometendo erros.

Lembrando que Falsos positivos são os casos em que o modelo previu incorretamente uma classe que não era a verdadeira. Enquanto isso, os Falsos negativos são os casos em que o modelo não conseguiu prever a classe verdadeira.

Na análise da matriz de confusão, observamos que a classe 2 apresenta aproximadamente 8% dos dados erroneamente classificados como pertencentes à classe 1, enquanto aproximadamente 15% dos exemplos foram erroneamente categorizados como pertencentes à classe 4. Esses resultados indicam uma tendência do modelo em confundir a classe 2 com as classes 1 e 4, o que pode requerer uma investigação adicional e possíveis ajustes no modelo.

Por outro lado, ao examinarmos a classe 4, notamos que aproximadamente 9% dos dados foram incorretamente classificados como pertencentes à classe 2. Isso sugere uma possível dificuldade do modelo em distinguir entre as classes 2 e 4, o que também requer atenção para melhorar a precisão das previsões.

Além de utilizar a matriz de confusão para avaliar o desempenho de um modelo de classificação multiclasse, podemos aprofundar nossa análise e obter uma visão mais completa do desempenho do modelo por meio de um relatório de métricas disponibilizado pela biblioteca Scikit-Learn.

## 5 - Técnicas de balanceamento
Em muitos problemas de aprendizagem de máquina, os conjuntos de dados podem conter classes desbalanceadas, ou seja, uma classe pode ter muito mais exemplos do que outra, como você pode ver no caso do projeto que estamos desenvolvendo aqui. Isso pode ser problemático, pois os modelos de machine learning tendem a ser tendenciosos em direção às classes majoritárias, ignorando as classes minoritárias. Imagine um problema de detecção de fraudes em transações financeiras, onde a classe de transações fraudulentas é geralmente muito menor do que a classe de transações legítimas. Se nós não tratarmos esse desequilíbrio, nosso modelo pode ter um desempenho ruim na detecção de fraudes, que é o que mais nos interessa.

No contexto específico do nosso projeto, enfrentamos a tarefa ainda mais desafiadora de classificar três classes, tornando a situação ainda mais complexa.

E como podemos resolver esse problema? Existem duas técnicas que vamos explorar a seguir!

### Superamostragem (Oversampling)
A **superamostragem** é uma técnica que busca equilibrar as classes majoritárias e minoritárias **aumentando o número de exemplos na classe minoritária**. Foi exatamente isso que fizemos no vídeo anterior, quando utilizamos o [SMOTE](https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.SMOTE.html) (Synthetic Minority Oversampling TEchnique) para balancear os dados de treino.

Após realizar o balanceamento ficamos com o mesmo número de amostras para cada classe, pois o SMOTE criou novas amostras de forma sintética. Ele faz isso selecionando aleatoriamente um exemplo da classe minoritária e, em seguida, selecionando aleatoriamente um ou mais de seus vizinhos mais próximos para gerar novos exemplos.

Além do SMOTE, existem vários métodos comuns de superamostragem (oversampling) que podem ser usados para equilibrar classes desbalanceadas em conjuntos de dados de aprendizado de máquina. Aqui estão alguns dos métodos mais utilizados:

- **Duplicação:** Este é o método mais simples de superamostragem, no qual você simplesmente duplica aleatoriamente exemplos da classe minoritária até que haja um equilíbrio com a classe majoritária. Embora seja fácil de implementar, pode levar ao overfitting em conjuntos de dados pequenos.
- **ADASYN (Adaptive Synthetic Sampling - Amostragem Sintética Adaptativa):** O ADASYN é uma extensão do SMOTE que adapta a geração de exemplos sintéticos com base na densidade das regiões de dados. Ele coloca mais ênfase na geração de exemplos para regiões onde a classe minoritária é mais densa, tornando-o mais eficaz quando a distribuição dos dados é altamente desbalanceada.
- **SMOTE-ENN:** Combina o SMOTE com uma etapa de subamostragem para remover exemplos sintéticos que podem ser mal classificados. Isso ajuda a melhorar a qualidade dos exemplos sintéticos gerados pelo SMOTE.

E falando em subamostragem, vamos entender melhor o que é isso a seguir!

### Subamostragem (Undersampling)
A **subamostragem** é outra técnica de balanceamento que visa equilibrar as classes **reduzindo o número de exemplos na classe majoritária**. Isso pode ser feito aleatoriamente, removendo exemplos da classe majoritária até que o número de exemplos em ambas as classes seja aproximadamente igual. A subamostragem também pode ser feita de maneira estratégica, identificando quais exemplos da classe majoritária são menos informativos e removendo-os. No entanto, a subamostragem tem o potencial de descartar informações valiosas e deve ser usada com cuidado.

Alguns métodos utilizados nessa técnica são:
- **Tomek Links:** Esse método identifica pares de exemplos próximos, um pertencente à classe majoritária e outro à classe minoritária, e remove os exemplos da classe majoritária. Isso é feito para criar uma fronteira de decisão mais clara entre as classes, melhorando a capacidade do modelo de classificar corretamente a classe minoritária.
- **ENN (Edited Nearest Neighbors):** O ENN remove exemplos da classe majoritária que são mal classificados pelos vizinhos mais próximos. Isso é feito para eliminar exemplos que podem estar mais próximos da classe minoritária e são classificados incorretamente.
- **NearMiss:** É um algoritmo que possui diferentes métodos de subamostragem que selecionam exemplos com base na distância dos exemplos da classe majoritária aos exemplos da classe minoritária.

Para se aprofundar ainda mais nessas técnicas de balanceamento você pode acessar os seguintes links da documentação da biblioteca imbalanced-learn:

- [Over-sampling methods](https://imbalanced-learn.org/stable/references/over_sampling.html)
- [Under-sampling methods](https://imbalanced-learn.org/stable/references/under_sampling.html)

## 6 - Como funciona a validação cruzada?
Acabamos de realizar a validação cruzada, mas vamos nos aprofundar um pouco mais nesse assunto?

A validação cruzada (*Cross-validation*) é uma técnica utilizada em machine learning para avaliar o desempenho de um modelo de forma mais robusta e confiável. Em vez de simplesmente dividir o conjunto de dados em apenas um conjunto de treinamento e um conjunto de teste, a validação cruzada envolve dividir o conjunto de dados em várias partes (chamadas de *folds*) e executar o processo de treinamento e teste em cada uma dessas partes. Essa divisão em conjuntos de treinamento e teste pode ser feita de várias maneiras, sendo o *K-Fold Cross-Validation* e o *Stratified K-Fold Cross-Validation* duas abordagens comumente utilizadas.

No **K-Fold Cross-Validation**, o conjunto de dados é dividido em K partes iguais (chamadas de folds). O modelo é treinado K vezes, cada vez usando K-1 folds como conjunto de treinamento e 1 fold como conjunto de teste. O desempenho do modelo é calculado como a média dos resultados obtidos em cada iteração.

Já no **Stratified K-Fold Cross-Validation**, a divisão dos dados em folds é feita de forma a preservar a proporção de classes em cada fold. Isso é especialmente útil quando se lida com problemas de classificação em que as classes não estão balanceadas no conjunto de dados. O objetivo é garantir que cada fold represente adequadamente a distribuição de classes do conjunto de dados original.

No vídeo anterior nós realizamos a validação cruzada da seguinte forma:

```
from sklearn.model_selection import cross_validate, StratifiedKFold

skf = StratifiedKFold(n_splits=5, shuffle=True, random_state=0)
cv_resultados = cross_validate(pipeline, X, y, cv=skf, scoring='recall_weighted')
```

Onde o StratifiedKFold divide o conjunto de dados em 5 partes (definido por *n_splits*), garantindo que a distribuição das classes alvo seja preservada em cada fold com o argumento `shuffle=True`.

Depois disso, a função `cross_validate` aplica essa estratégia de validação cruzada ao modelo “pipeline”, usando “X” e “y”, que foram definidos quando separamos os dados em treino e teste. Ela calcula o desempenho do modelo usando a métrica “recall_weighted” (recall ponderado) e retorna os resultados, que podem ser usados para avaliar quão bem o modelo está funcionando em relação à essa métrica.

Para fornecer uma explicação mais clara sobre a validação cruzada, podemos utilizar uma figura adaptada da [documentação](https://scikit-learn.org/stable/modules/cross_validation.html) da biblioteca scikit-learn. Nessa figura, temos uma representação visual do processo de validação cruzada. A figura começa mostrando o conjunto de dados completo em cinza. Em seguida, uma porção maior dos dados é separada em verde para ser usada como conjunto de treinamento, enquanto uma porção menor é destacada em azul como conjunto de teste. Essa é a abordagem que utilizamos anteriormente, onde treinamos os modelos com parte dos dados e realizamos as predições com a porção de teste. Depois disso, a figura apresenta 5 blocos em cinza, denominados Fold 1, Fold 2, Fold 3, Fold 4 e Fold 5. Esses blocos representam a divisão dos dados em partes chamadas de folds na validação cruzada.

![image.png](attachment:image.png)

A validação cruzada realiza o **processo em etapas**, em que cada parte dos dados é utilizada como conjunto de teste uma vez, enquanto as outras partes são usadas para treinamento. Isso é ilustrado na figura pelos splits. No primeiro split, o Fold 1 é usado como conjunto de teste, enquanto os Folds 2, 3, 4 e 5 são utilizados como conjunto de treinamento. Em seguida, no segundo split, o Fold 2 é usado como teste e os outros folds como treinamento. Esse processo se repete até que todos os splits tenham sido realizados.

Essa abordagem de dividir os dados em folds e realizar múltiplos splits nos permite obter estimativas mais robustas do desempenho do modelo, pois avaliamos seu desempenho em diferentes conjuntos de teste. Dessa forma, podemos ter uma visão mais confiável de como o modelo se comporta.

Se você quiser saber ainda mais sobre a validação cruzada e os diferentes iteradores que existem para realizar essa técnica, consulte a [documentação da biblioteca scikit-learn](https://scikit-learn.org/stable/modules/cross_validation.html) no item 3.1.2. Cross validation iterators.

## 7 - Expandindo suas habilidades
Para aprofundar ainda mais a aplicação dos conceitos que exploramos aqui, gostaríamos de compartilhar algumas sugestões de conjuntos de dados adicionais nos quais podemos aplicar a técnica de classificação multiclasse, permitindo que você desenvolva projetos e continue aprimorando suas habilidades de forma contínua.

Os datasets descritos abaixo estão disponíveis no [Kaggle](https://www.kaggle.com/), uma plataforma online que oferece uma ampla gama de conjuntos de dados, competições de ciência de dados e recursos educacionais para entusiastas e profissionais da área:

- [Classificação de espécies de flores](https://www.kaggle.com/datasets/arshid/iris-flower-dataset): é um conjunto de dados amplamente utilizado na área de aprendizado de máquina e classificação. Ele consiste em 150 amostras de flores Iris, divididas igualmente em três espécies diferentes: Iris setosa, Iris versicolor e Iris virginica. Cada amostra é descrita por quatro características botânicas: comprimento e largura das sépalas e pétalas.
- [Classificação de falhas de máquina em uma indústria](https://www.kaggle.com/datasets/shivamb/machine-predictive-maintenance-classification/data): é um conjunto de dados sintético sobre a manutenção de máquinas na indústria, onde é feita a classificação do tipo da falha encontrada, com base em características do funcionamento dos equipamentos.
- [Classificação do estágio de uma doença](https://www.kaggle.com/datasets/fedesoriano/cirrhosis-prediction-dataset): esse conjunto de dados contém informações coletadas do estudo de uma clínica sobre cirrose biliar primária (CBP) do fígado. O objetivo é prever em qual estágio da doença o paciente está.
- [Classificação de doenças de pele](https://www.kaggle.com/datasets/olcaybolat1/dermatology-dataset-classification): conjunto de dados que possui diversas características clínicas de pacientes para classificar doenças "eritematoescamosas", que consistem em descamação da pele.
- [Classificação de clientes para uma campanha de marketing](https://www.kaggle.com/datasets/kaushiksuresh147/customer-segmentation): a equipe de vendas de uma empresa automobilística implementou uma estratégia de segmentação de clientes, dividindo-os em quatro grupos distintos, rotulados como A, B, C e D. Esta abordagem segmentada provou ser altamente eficaz, resultando em um desempenho positivo. Agora, planejam aplicar a mesma estratégia aos novos mercados que estão explorando e já identificaram um conjunto de 2.627 potenciais clientes. O objetivo é classificar esses novos clientes em um dos quatro segmentos previamente definidos.

Ao explorar outros conjuntos de dados, você terá a chance de aplicar os conceitos de classificação multiclasse de forma significativa. Desenvolver projetos não apenas consolidará seu entendimento, mas também permitirá que você aprimore suas habilidades de resolução de problemas e análise de dados de maneira contínua.