# Para saber mais

## 1- Método holdout
No momento de validar modelos de classificação, precisamos checar se o modelo está de fato generalizando, ou seja, se está compreendendo o padrão dos dados e classificando corretamente dados novos. A estratégia mais simples para avaliar essa generalização, conhecida como holdout, consiste em dividir os dados em duas partes: um conjunto de dados de treinamento e outro de teste. O conjunto de treinamento é utilizado para treinar o modelo, enquanto o conjunto de teste é usado para avaliar o desempenho do modelo em dados não vistos anteriormente.

Com o auxílio da imagem abaixo, analise a exemplificação do método holdout em funcionamento:

![image-2.png](attachment:image-2.png)

Em alguns casos, especialmente quando se realiza ajustes finos nos parâmetros do modelo, é útil ter um conjunto de validação adicional. Nesse caso, a divisão é feita em três partes: conjunto de treino, conjunto de validação e conjunto de teste. O conjunto de validação é usado na comparação de diferentes modelos, na seleção do modelo mais adequado e no ajuste dos hiperparâmetros. Enquanto isso, o conjunto de teste continua sendo utilizado para avaliar o desempenho final do modelo escolhido, após todo o processo de ajuste.

Por isso, quanto mais se utiliza os mesmos dados para tomar decisões sobre configurações de melhorias no modelo ou escolha de hiperparâmetros, mais comprometida se torna a confiabilidade desses resultados ao serem generalizados para dados novos e não vistos. Isso ocorre pois as melhorias são feitas a partir desses dados de validação.

É possível perceber que as melhorias aplicadas desempenham um papel fundamental para resolver o problema. Entretanto, para assegurar que o desempenho do modelo permaneça consistente em relação aos dados do mundo real, que não foram vistos no treinamento ou no aprimoramento dos modelos, a estratégia da divisão entre 3 conjuntos de dados, como se pode analisar na imagem a seguir, oferece um bom direcionamento final, já que indica se o modelo escolhido está viesado ou não em relação aos dados de validação.

![image.png](attachment:image.png)

## 2 - Entendendo a matriz de confusão
Para obter uma avaliação mais completa do desempenho de modelos de classificação, podemos utilizar uma ferramenta conhecida como matriz de confusão. Essa matriz oferece vantagens à pessoa cientista de dados, pelo fato de permitir entender qual a quantidade de erros e acertos das previsões de um modelo. Ao invés de uma taxa de acerto geral, a matriz é capaz de fornecer informações em uma visualização para cada uma das categorias da variável alvo.

Pense em um sistema de segurança de um prédio que utiliza câmeras para identificar pessoas entrando. A "matriz de confusão" se torna valiosa, pois possibilita verificar quantas vezes o sistema acertou ao identificar corretamente as pessoas autorizadas, quantas vezes acusou erroneamente pessoas e quantas vezes deixou passar pessoas não autorizadas. Com esses números, é possível ajustar o sistema para minimizar falsos positivos e negativos, melhorando sua precisão na detecção de visitantes.

Na representação geral de uma matriz de confusão, para mais detalhes analise a imagem a seguir, as linhas da matriz correspondem aos valores reais da base de dados, enquanto as colunas correspondem aos valores previstos pelo modelo de classificação. As categorias da variável alvo são representadas pelo valor 0 (ausência do atributo), também chamado de negativo, e pelo valor 1 (presença do atributo), também chamado de positivo.

![image.png](attachment:image.png)

Cada elemento da matriz é identificado por um nome de acordo com o cruzamento entre a previsão e o valor real. A diagonal principal da matriz, que está destacada pela cor verde, representa os elementos que tem a previsão igual ao valor real, portanto são os acertos do modelo. Já a diagonal secundária, que está destacada pela cor vermelha, representa os elementos com previsões diferentes do valor real, portanto são os erros do modelo. A descrição de cada um dos elementos é a seguinte:
- **Verdadeiros Negativos (VN)**: Quando o valor real for 0 e a predição também for 0. Indica que o modelo classificou corretamente os valores da classe negativa.
- **Falsos Positivos (FP)**: Quando o valor real for 0 e a predição for 1. Indica que o modelo classificou erroneamente um elemento da classe negativa como se fosse da classe positiva.
- **Falsos Negativos (FN)**: Quando o valor real for 1 e a predição for 0. Indica que o modelo classificou erroneamente um elemento da classe positiva como se fosse da classe negativa.
- **Verdadeiros Positivos (VP)**: Quando o valor real for 1 e a predição também for 1. Indica que o modelo classificou corretamente os valores da classe positiva.

Esses valores são muito úteis para uma análise mais aprofundada do modelo de classificação. Isso permite identificar as capacidades e limitações da predição, se há um equilíbrio entre os acertos e erros ou se o resultado está tendencioso para uma classe em detrimento da outra. Com isso, é nítido que a matriz de confusão é uma ferramenta muito mais completa do que a métrica de acurácia, que representa apenas a porcentagem de acerto do modelo, sem considerar as classes de maneira isolada.

## 3 - Quando usar cada métrica
Avaliar de forma adequada o desempenho de um modelo de machine learning é essencial para assegurar que o modelo está solucionando o problema de negócio que precisa ser resolvido. Existem diversas métricas que podem ser utilizadas para avaliar o desempenho dos modelos de classificação, cada uma delas possui vantagens e limitações. Essas métricas são calculadas a partir da comparação entre as classificações feitas pelo modelo e os valores reais da base de dados. Portanto, podem ser extraídas a partir de uma matriz de confusão. As principais métricas de classificação são:

### Acurácia
É a métrica mais comum e básica em problemas de classificação. É utilizada para medir a proporção de dados previstos corretamente pelo modelo em relação ao total dos dados. Essa métrica é útil quando as classes da variável alvo estão balanceadas, ou seja, quando existe uma quantidade equilibrada de dados para cada classe e uma importância equivalente de classificação entre as categorias. Como exemplo de utilização, temos o **reconhecimento de dígitos manuscritos**. Podemos utilizar imagens de caracteres de letras e números para treinar um modelo de classificação para identificar corretamente a escrita. Como cada letra ou número não tem uma importância maior do que as demais, a acurácia se torna uma boa métrica para medir a capacidade do modelo em classificar corretamente os dígitos.

Abaixo, podemos analisar o cálculo da acurácia a partir da matriz de confusão. Ela é calculada somando os acertos do modelo (VN + VP) e dividindo por todos os acertos e erros (VP+VN+FP+FN).

![image.png](attachment:image.png)

### Revocação (recall)
Mede a proporção de dados positivos que foram corretamente identificados pelo modelo, ou seja, revela a capacidade do modelo em evitar a classificação incorreta de dados positivos como negativos. É usada quando o risco ou custo de classificar falsos negativos é alto. Por exemplo, em casos de **diagnóstico de doenças graves**, em que é fundamental detectar corretamente a presença da doença.

Abaixo podemos constatar o cálculo do recall a partir da matriz de confusão. O recall só leva em consideração os valores positivos reais, ou seja, os valores da segunda linha da matriz. Ele é calculado a partir da divisão entre Verdadeiros Positivos (VP) pela soma de todos os positivos reais (VP + FN):

![image-2.png](attachment:image-2.png)

### Precisão
Mede a proporção de dados classificados como positivos que são realmente positivos, ou seja, revela a capacidade do modelo em evitar a classificação incorreta de dados negativos como positivos. É usada quando o risco ou custo de classificar falsos positivos é alto, por exemplo em casos de **seleção de ações no mercado financeiro**, onde o importante é selecionar ações que tenham grande probabilidade de retorno, abaixando a quantidade de ações ruins (falsos positivos) mesmo que outras boas ações não tenham sido detectadas pelo modelo (falso negativo). A precisão também é importante no exemplo de **detecção de doenças**, onde queremos evitar que pacientes saudáveis sejam erroneamente classificados como doentes.

Abaixo podemos analisar o cálculo da precisão a partir da matriz de confusão. A precisão só leva em consideração os valores positivos previstos pelo modelo, ou seja, os valores da segunda coluna da matriz. Ela é calculada a partir da divisão entre Verdadeiros Positivos (VP) pela soma de todos os positivos previstos (VP + FP):

![image-3.png](attachment:image-3.png)

### F1-Score
Fornece um equilíbrio entre o recall e a precisão, sendo útil quando as classes da variável alvo estão desbalanceadas, ou seja, quando há uma quantidade de dados muito diferente para cada classe. Além disso, é aplicável quando o risco ou custo de falsos positivos e de falsos negativos é alto simultaneamente. Em casos de **detecção de tumores em pacientes**, é preciso ter um equilíbrio entre evitar erros na detecção de tumores quando a pessoa realmente os possui e evitar erros ao informar que uma pessoa possui um tumor quando na realidade ela não possui.

O cálculo do F1-Score é feito a partir da média harmônica entre a precisão e o recall. Portanto, equivale a 2 vezes a precisão pelo recall, dividido pela soma entre a precisão e o recall:

![image-4.png](attachment:image-4.png)

A escolha da métrica de classificação adequada depende do problema que está sendo resolvido e de cada cenário. Nos casos em que as classes estão balanceadas e possuem importância semelhante, a acurácia pode ser uma boa métrica inicial. Porém, quando as classes estão desequilibradas ou os erros têm custos diferentes, métricas como precisão, recall e f1-score são mais indicadas.

## 4 - Outros métodos de validação
Além da validação cruzada com [`KFold`](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.KFold.html) tradicional e estratificada, existem outros tipos de validação que podem ser utilizados em projetos de machine learning. A escolha da utilização dependerá das características dos dados do projeto. Vamos explorar mais adiante três novas abordagens de separação dos dados usados para simular o processo de aprendizagem em dados futuros.

### GroupKFold
O método [`GroupKFold`](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GroupKFold.html) é uma variação da validação cruzada KFold tradicional e é utilizado quando os dados possuem alguma estrutura de grupo ou dependência que não deve ser quebrada, geralmente uma característica em uma das colunas da base de dados.

Essa abordagem utiliza uma estratégia de separação dos dados para que os registros pertencentes a um grupo específico sejam mantidas juntas durante as divisões do KFold, garantindo que não sejam separadas entre os conjuntos de treinamento e validação. Isso é útil para evitar possíveis vieses e garantir que o modelo generalize para grupos desconhecidos, ou seja. Mesmo que não tenha um dado do grupo no conjunto de treinamento, o modelo precisará ter um bom desempenho ao prever o resultado para os dados daquele grupo.

### Leave-p-out
O método [`Leave-p-out`](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.LeavePOut.html) funciona de maneira diferente do método KFold. Ao invés de dividir o conjunto de dados em uma quantidade fixada de conjuntos, será escolhida uma quantidade 'p' de elementos para serem deixados de fora do treinamento. Os dados serão treinados em todo o restante e validados apenas nos 'p' elementos. Esse processo é repetido até que todos os dados sejam utilizados como dados de validação. O resultado final pode ser considerado a média dos resultados obtidos nos modelos, assim como é feito na validação cruzada tradicional.

Isso proporciona uma validação bem mais completa, já que considera todas as combinações possíveis de dados de treino e validação. Porém, é muito mais custosa computacionalmente, já que serão criados muitos modelos e isso aumenta a quantidade conforme o conjunto de dados seja muito grande e o valor escolhido para 'p' seja pequeno.

### Leave-one-out
O método [`Leave-one-out`](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.LeaveOneOut.html) é uma forma especial do Leave-p-out, onde é escolhido o valor de p=1. Dessa maneira, apenas uma amostra é reservada para validação e todos os outros dados são escolhidos para treinamento. Esse processo é repetido para todas as amostras da base de dados. Isso significa que, se houver 1000 linhas na base de dados, serão treinados 1000 modelos distintos.

É de se esperar que esse método demanda muito computacionalmente, pela criação de um modelo para cada linha da base de dados. Portanto, ele é indicado somente nos casos em que a base de dados é muito pequena. Nessas situações, é interessante utilizar a maior quantidade de dados possível para treinamento, para que o modelo consiga entender o padrão dos dados. Outra estratégia de validação cruzada removeria muitos dados que seriam úteis no treino.

Caso deseje saber mais sobre outros métodos de validação disponíveis na biblioteca Scikit-Learn, você pode consultar a [documentação Validação cruzada: avaliando o desempenho do estimador](https://scikit-learn.org/stable/modules/cross_validation.html).

Caso queira criar uma visualização para ter um melhor entendimento de como foi realizada a divisão dos dados em algum projeto, seja com o KFold, StratifiedKFold ou GroupKFold, você pode explorar a documentação [Visualizando o comportamento de validação cruzada no scikit-learn](https://scikit-learn.org/stable/auto_examples/model_selection/plot_cv_indices.html).

## 5 - Balanceamento de dados
Em problemas de classificação, podemos nos deparar com bases de dados em que a variável alvo contenha classes muito desbalanceadas, ou seja, contendo categorias com frequências muito diferentes. Ao treinar um modelo com a variável desbalanceada, pode ser que o padrão dos dados para a classe dominante se sobressaia em relação aos da classe com menor frequência, gerando um modelo com desempenho muito baixo para classificar a classe de menor frequência.

Para contornar esses problemas gerados pela base de dados desbalanceada, podemos recorrer a duas soluções que consistem em equilibrar os dados da variável alvo: **undersampling** e **oversampling**. Essas estratégias são úteis para que o modelo consiga compreender melhor o padrão dos dados, mas é importante destacar que elas também possuem desvantagens e ressalvas que precisamos analisar antes de utilizá-las.

### Oversampling
A estratégia de oversampling consiste em aumentar a quantidade de dados da classe que possui menor frequência até que tenha a mesma quantidade da classe de maior frequência. Dessa maneira, o modelo se atentará mais para o padrão dos dados da classe que tinha menor frequência a princípio e poderá diferenciar melhor as duas classes.

Para aumentar a quantidade de dados precisamos gerar novos registros na base de dados. É possível utilizar um oversampling aleatório para duplicar registros de maneira randômica ou usar uma técnica como o SMOTE para gerar dados sintéticos com um padrão próximo dos dados existentes. A desvantagem dessa estratégia é a possibilidade de overfitting do modelo, principalmente ao ser utilizado o oversampling aleatório. Nesse caso, o modelo pode se especializar demais no padrão dos dados que são muito parecidos ou idênticos, já que são copiados ou gerados sinteticamente.

### Undersampling
A estratégia de undersampling é contrária ao oversampling, e consiste em reduzir a quantidade de dados da classe que possui maior frequência até que tenha a mesma quantidade da classe de menor frequência. Dessa forma, o modelo não dará atenção somente aos dados de maior quantidade e poderá diferenciar melhor as duas classes.

Para reduzir a quantidade de dados, precisamos remover ou deletar registros existentes. É possível utilizar um undersampling aleatório para selecionar os registros que serão mantidos ou usar técnicas que selecionam ou removem dados a partir de um padrão estabelecido. A principal desvantagem da estratégia de undersampling é a de remover dados que podem ser muito importantes para o entendimento do problema, principalmente quando essa remoção é feita sem nenhum critério, como é o caso do undersampling aleatório.

Ambas as estratégias são válidas para a tentativa de melhorar o desempenho de um modelo de classificação, mas devemos ficar atentos ao utilizá-las devido aos pontos negativos que são inerentes a cada um dos métodos. Em qualquer projeto que seja utilizado alguma dessas ferramentas, deve ser feita uma análise para identificar se de fato elas ajudaram ou atrapalharam o desempenho do modelo de classificação.

## 6 - Biblioteca imblearn
A classificação de dados desbalanceados pode se tornar uma tarefa bem desafiadora, já que a abordagem tradicional de treinar um modelo usando esses dados leva frequentemente a resultados muito insatisfatórios, em que o modelo tende a favorecer a classe com maior quantidade de dados em detrimento da outra.

Para lidar com esse tipo de situação, a biblioteca [imbalanced-learn](https://imbalanced-learn.org/stable/index.html), abreviada como `imblearn`, oferece diversas técnicas e ferramentas com intuito de equilibrar a distribuição das categorias da variável alvo e melhorar o desempenho de modelos de machine learning. As técnicas consistem em algoritmos de reamostragem de oversampling, undersampling e algoritmos que combinam as duas estratégias simultaneamente.

Alguns dos algoritmos de oversampling da biblioteca:
- [RandomOversampler](https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.RandomOverSampler.html)
- [SMOTE](https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.SMOTE.html)
- [ADASYN](https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.ADASYN.html)
- [KMeansSMOTE](https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.KMeansSMOTE.html)

Alguns dos algoritmos de undersampling da biblioteca:
- [RandomUnderSampler](https://imbalanced-learn.org/stable/references/generated/imblearn.under_sampling.RandomUnderSampler.html)
- [NearMiss](https://imbalanced-learn.org/stable/references/generated/imblearn.under_sampling.NearMiss.html)
- [ClusterCentroids](https://imbalanced-learn.org/stable/references/generated/imblearn.under_sampling.ClusterCentroids.html)
- [TomekLinks](https://imbalanced-learn.org/stable/references/generated/imblearn.under_sampling.TomekLinks.html)

Algoritmos que combinam as duas técnicas de oversampling e undersampling:
- [SMOTEENN](https://imbalanced-learn.org/stable/references/generated/imblearn.combine.SMOTEENN.html)
- [SMOTETomek](https://imbalanced-learn.org/stable/references/generated/imblearn.combine.SMOTETomek.html)

Além das técnicas de balanceamento de dados, a biblioteca fornece ferramentas para construção de [pipelines de dados](https://imbalanced-learn.org/stable/references/pipeline.html), [algoritmos de machine learning](https://imbalanced-learn.org/stable/references/ensemble.html) para dados desbalanceados e cálculos de [métricas de desempenho de modelos](https://imbalanced-learn.org/stable/references/metrics.html).

## 7 - versões do NearMiss
O desequilíbrio de classes é um problema comum em tarefas de classificação em machine learning, como diagnósticos médicos, detecção de fraudes e detecção de anomalias, onde a frequência da ocorrência de um evento é muito baixa em relação ao todo. Uma das estratégias para lidar com esse problema de dados desequilibrados é o undersampling, que visa reduzir o número de amostras da classe com maior frequência.

Dentre os algoritmos de undersampling, podemos citar o NearMiss, que consiste em selecionar amostras da categoria em maior quantidade que possuem um padrão próximo da categoria com menor quantidade, no intuito de preservar informações importantes para a modelagem do problema. Por utilizar um critério de seleção das amostras, esse método é bem mais recomendado que a utilização de um undersampling puramente aleatório, que pode eliminar informações relevantes dos dados.

Para selecionar as amostras, esse algoritmo utiliza um método conhecido como vizinho mais próximo. Esse método é aplicado em 3 passos:
- **1º passo**: são calculadas distâncias entre todas as amostras da classe com maior frequência e da classe com menor frequência.
- **2º passo**: em seguida, para cada amostra da classe de menor frequência, são selecionadas n amostras da classe de maior frequência; por padrão esse número é 3 e vem daí o nome de vizinhos mais próximos. São selecionados 3 vizinhos mais próximos para cada amostra da classe de menor frequência.
- **3º passo**: a partir dos elementos que foram selecionados, ocorre um novo processo de seleção para que fique com a mesma quantidade de elementos da classe de menor frequência. Essa seleção final possui 3 diferentes versões:

NearMiss versão 1: é calculada uma média entre as distâncias dos 3 vizinhos mais próximos de cada amostra da classe de maior frequência e são escolhidos aqueles que possuírem a menor média de distância.

NearMiss versão 2: é calculada uma média entre as distâncias dos 3 vizinhos mais distantes de cada amostra da classe de maior frequência e são escolhidos aqueles que possuírem a menor média de distância.

NearMiss versão 3: é dividido em duas etapas. Primeiramente, para cada elemento da classe de menor frequência, M vizinhos mais próximos são escolhidos e armazenados, por padrão o M também é de 3 vizinhos. Depois é calculada a média das distâncias entre os elementos armazenados e os elementos da classe de menor frequência e são escolhidos aqueles que possuírem maior média de distância.

Caso queira saber mais sobre as versões do NearMiss, consulte a documentação do imbalanced-learn:
- [Formulação matemática do NearMiss](https://imbalanced-learn.org/dev/under_sampling.html#mathematical-formulation)