# Introdução à seleção de modelos

A seleção de modelos é uma etapa crítica no processo de aprendizado de máquina e ciência de dados. Ela envolve escolher o algoritmo mais adequado que se ajusta aos seus dados e ao problema que você está tentando resolver. Escolher o modelo correto pode ajudar a produzir previsões mais precisas e insights mais profundos a partir dos dados. Além disso, ajuda a economizar tempo e recursos computacionais, permitindo focar em outros aspectos importantes do projeto.


Vamos verificar os principais algoritmos de Machine Learning organizados por tipo. Os indicados com estrela são os mais utilizados e já vistos ou citados em algum momento no curso.

![algoritmos_machine_learning.png](attachment:0dcc35a4-7503-4434-b768-9f5e30c22625.png)

A seleção entre esses modelos deve ser baseada na natureza dos dados, na complexidade do problema, nos requisitos de interpretabilidade, no tempo de treinamento e na capacidade de generalização. Algumas técnicas, como o aprendizado profundo, requerem grandes volumes de dados e recursos computacionais substanciais, enquanto outras, como a regressão linear, podem ser aplicadas rapidamente a conjuntos de dados menores e menos complexos. Experimentação e validação cruzada são muitas vezes necessárias para encontrar o melhor modelo para um problema específico.


## Trade-off viés-variância

O trade-off viés-variância é um conceito fundamental que descreve o desempenho de um modelo em termos de duas propriedades:

- **Viés**: Erro devido a suposições errôneas no algoritmo. Modelos de alto viés são muito simples para capturar padrões complexos, o que pode levar ao subajuste.
- **Variância**: Erro devido à sensibilidade a flutuações nos dados de treinamento. Modelos de alta variância capturam ruído nos dados de treinamento, o que pode levar ao sobreajuste.

O objetivo é encontrar um equilíbrio, onde tanto o viés quanto a variância são minimizados, permitindo que o modelo generalize bem para dados não vistos. 



Por exemplo, considere os 100 pontos a seguir. Você considera que eles possuem um comportamento linear? E se utilizarmos uma regressão polinomial de grau 2? E de grau 3? E graus ainda maiores? Qual modelo você escolheria?

![trade_off_veis_variancia.png](attachment:02801793-12c6-4299-a546-4b6c4f7586f5.png)

Se dividirmos os 100 pontos em grupos de treino e de teste, podemos treinar diferentes modelos de regressão, com polinômios de grau 1, 3 e 20 e considerar o $R^2$ de cada um deles para os dados de treino. O $R^2$ é uma medida de qualidade do ajuste, que varia de 0 a 1, sendo 1 o melhor ajuste possível. 

![trade_off_vies_variancia_treino.png](attachment:67f06162-95ea-4cb4-b7c9-54d04a118d07.png)

Agora, vamos avaliar os modelos com os dados de teste:

![trade_off_vies_variancia_teste.png](attachment:e77841f4-501c-4ab1-b34c-d3f18b650f53.png)

Observe como o valor de $R^2$ diminui para o polinômio de maior grau. Isso é um indicativo de que o modelo está sofrendo de overfitting. Para o grau 1, o modelo é muito simples e não consegue capturar a relação entre as variáveis. Para o grau 20, o modelo é muito complexo e acaba decorando os dados de treino, não conseguindo generalizar para dados novos. Assim, o modelo de grau 3 parece ser o mais adequado para esse problema.

Veja na figura abaixo os modelos com todos os pontos de treino e teste.

![trade_off_vies_variancia_treino_e_teste.png](attachment:4066f9fa-2d31-401e-bbee-d825681e43fd.png)