# **Programa de Pós-Graduação em Computação - INF/UFRGS**



### Disciplina CMP263 - Aprendizagem de Máquina
#### *Aluno: Henrique Krausburg Correa (henrique@inf.ufrgs.br)*
#### *Profa. Mariana Recamonde-Mendoza (mrmendoza@inf.ufrgs.br)*
<br>

***Observação:*** *Este notebook é disponibilizado aos alunos como complemento às aulas  e aos slides preparados pela professora. Desta forma, os principais conceitos são apresentados no material teórico fornecido. O objetivo deste notebook é reforçar os conceitos e demonstrar questões práticas no uso de algoritmos e estratégias de avaliação em Aprendizado de Máquina.*



# **Tópico: Introdução à avaliação de modelos com Holdout**


**Objetivos da atividade:**
-  Entender o funcionamento da técnica de holdout para avaliação de modelos.
- Comparar o desempenho de dois algoritmos, Naive Bayes e KNN, em uma tarefa de classificação.
- Aplicar métricas de avaliação como acurácia, precisão, recall, observando a matriz de confusão.
- Implementar uma estratégia básica para seleção de hiperparâmetros para o KNN, interpretando os resultados.
- Analisar o impacto de aspectos como dimensão dos dados, aleatoriedade na divisão de dados e repetições na avaliação de modelos com Holdout.

## Fazendo a divisão dos dados com Holdout de 3 vias (treino/validação/teste)

> 1. Considere um cenário com 5 instâncias no conjunto de treinamento e  95 instâncias no conjunto de teste. O quão boa você acha que é a capacidade de generalização do modelo que provavelmente treinaremos?

Péssima. A qualidade das predições está relácionado (mas não limitado) a:
- Quantidades de instâncias no conjunto de treinamento (quanto mais, melhor)
- Quantidade de atributos
- Complexidade do algorítmo
- Distribuição das classes nos conjuntos de treino e teste

Em um conjunto de treinamento pequeno, teríamos um dos extremos:
- Underfitting: Não tem dados suficientes para o modelo aprender a resolver o problema
- Overfitting: O treino resume-se a memorizar ruído. Incapaz de generalizar para novos casos.

> 2. Sua resposta para 1 muda se tivermos 500 instâncias de treinamento e 9500 instâncias de teste?

Certamente. O que interessa é a quantidade de dados necessários para resolver um problema. Adotar uma proporção entre instância de treinamento e teste sem um critério definido não produz benefícios.

Caso de uso:
- Utiliza-se um algorítmo simples para predição
- Generaliza rápido com poucas instâncias (logarítmico)
- Deseja-se uma forte avaliação de desempenho do modelo quando o erro "custa caro"

> 3.  Considere um cenário com 95 instâncias no conjunto de treinamento e 5 instâncias no conjunto de teste. O valor de desempenho do teste ainda é uma boa estimativa do poder de generalização?

Não, pois haveria chance de todas as instâncias conter dados repetidos do conjunto de treino. Isto prejudica avaliar o poder de generalização.  

> 4. Sua resposta para 3 muda se tivermos 9500 instâncias de treinamento e 500 instâncias de teste?

Sim. Esta divisão pode ser adequada para cenários de poucas classes que sejam fáceis de classificar.

## Pré-processamento: Normalizando os dados

> Com base nos resultados, qual dos dois modelos apresentou melhor desempenho geral no conjunto de teste, Naïve Bayes ou kNN? Em quais classes o kNN obteve melhor sensibilidade (recall) e precisão do que o Naive Bayes, ou vice versa?

O modelo KNN em que K=5 obteve melhor precisão e recall ao inferir a classe 1 (Benigno) em relação ao Naive Bayes

## Analisando o impacto da divisão aleatória de dados no desempenho dos modelos




> Observe a variação do valor de *random_state* na divisão dos dados e os respectivos resultados do desempenho na classificação. Como isso afeta os resultados? Explique o impacto de diferentes divisões dos dados de treino/validação/teste no desempenho dos modelos.

O exemplo demonstra que o treino de um modelo está sujeito à vies introduzido por amostragem de dados. Diferentes ***random_states*** podem gerar divisões com distribuições de classes ou características distintas. Isto pode favorecer ou penalizar o modelo dependendo da sua "sorte" na amostragem. Os algorítmos podem apresentar uma progressão de aprendizado:

- Gulosa: Rápido aprendizado nas primeiras instâncias. Podem estabilizar cedo demais e deixam de explorar oportunidades de melhoria.
- Conservadora: Demoram para convergir para um resultado satisfatório. Demanda mais instâncias para treinar. Busca por um resultado ótimo.

Portanto, um modelo pode obter um excelente resultado na validação, porém um desempenho inferior no teste final. 

> Por que é importante repetir os experimentos várias vezes, variando o random_state? O que a repetição traz em termos de confiabilidade dos resultados?

Ao repetir experimentos, embaralhando as condições iniciais dos conjuntos de dados, estamos testando a maturidade do processo de desenvolvimento utilizado para construir o modelo. Isto responde questionamentos como:

- Escolhemos o algorítmo correto para o problema de domínio?
- O quão robusto é o modelo frente ao viés no conjunto de dados?
- Precisamos realizar algum ajuste / mitigação no modelo?

Repetir os experimentos permite obter uma estimativa mais confiável do desempenho médio do modelo.


## Analisando o impacto do tamanho do conjunto de teste na avaliação de desempenho dos modelos



> Conforme o tamanho do conjunto de teste aumenta, como muda a variância no desempenho do modelo? Por que esse comportamento ocorre? 

A variância no desempenho do modelo diminuí a medida que o tamanho do conjunto de teste aumenta. Isto ocorre devido a quantidade de instâncias disponíveis, permitindo testar a capacidade de generalização do modelo para dados desconhecidos.

> Ao comparar a amplitude (diferença entre o máximo e o mínimo) do desempenho em diferentes tamanhos de conjunto de teste, o que você observa? 

A amplitude tende a ser maior em conjuntos de testes pequenos, menor em conjuntos grandes.

> Qual é a relação entre o tamanho do teste e a amplitude dos resultados?

A amplitude dos resultados é inversamente proporcional ao tamanho do teste. Baixa amplitude e variância representam estabilidade e confiança na avaliação de desempenho do modelo.

> Se a variância dos resultados de acurácia for muito alta, o que isso pode indicar sobre o seu modelo ou sobre a forma como os dados estão sendo divididos?

Significa que o modelo possui ótimo desempenho para alguns conjuntos de teste, porém péssimo para outros. São sinais que indicam:

- Poucos dados para avaliar o desempenho do modelo
- Sensiblidade do modelo ao viés de particionamento
- Potêncial desbalanceamento de classe no particionamento dos dados

## Analisando o impacto do tamanho do conjunto de treino na avaliação de desempenho dos modelos



> Mantendo o conjunto de teste fixo, que mudança ou tendência observamos no desempenho dos modelos conforme mais dados de treino são utilizados?

Observa-se que o desempenho aumenta proporcional a quantidade de dados adicionadas ao conjunto de treinamento

> Como a amplitude (diferença entre o máximo e o mínimo) do desempenho varia com o tamanho do conjunto de treino?

Tanto a amplitude quanto a variância diminuem ao passo que o conjunto de treino aumenta, sinalizando a estabilização do sistema.

> O que isso nos diz sobre a confiabilidade do modelo com tamanhos pequenos de conjunto de treino?

Baixa confiabilidade para modelos com poucas instâncias de treino disponíveis. O resultado é um underfit, pois o modelo não conseguiu aprender a resolver o problema de domínio e precisa de mais amostras para melhorar sua precisão.
