# 5.5. Generalização em Aprendizado Profundo



Lembramos que ajustar os dados de treinamento era apenas uma meta intermediária. Nossa verdadeira busca sempre foi descobrir padrões gerais com base nos quais pudéssemos fazer previsões precisas mesmo em novos exemplos extraídos da mesma população subjacente.

 Em sua essência, o aprendizado de máquina é uma disciplina estatística e desejamos otimizar a perda de treinamento apenas na medida em que algum princípio estatístico (conhecido ou desconhecido) leve os modelos resultantes a generalizarem-se além do conjunto de treinamento.

 Pelo lado positivo, verifica-se que redes neurais profundas treinadas por descida gradiente estocástica generalizam notavelmente bem em uma miríade de problemas de previsão, abrangendo a visão computacional; processamento de linguagem natural; dados de séries temporais; sistemas de recomendação; registros eletrônicos de saúde; dobramento de proteínas; aproximação de função de valor em videogames e jogos de tabuleiro; e vários outros domínios. 

 

# 5.5.1. Revisitando Overfitting e Regularização

Qualquer algoritmo de aprendizagem generaliza melhor em dados com certas distribuições, e pior com outras distribuições. Assim, dado um conjunto de formação finito, um modelo baseia-se em certos pressupostos: para alcançar um desempenho de nível humano, pode ser útil identificar preconceitos indutivos que reflectem a forma como os humanos pensam sobre o mundo.

A diferença entre nosso ajuste nos dados de treinamento e nosso ajuste nos dados de teste é chamada de lacuna de generalização e quando é grande, dizemos que nossos modelos se ajustam demais aos dados de treinamento.

![image.png](attachment:d60550a9-5d81-401e-980e-779cf5d000f2.png)

Ainda mais estranho, muitas vezes acontece que, apesar de ajustarmos perfeitamente os dados de treinamento, podemos reduzir ainda mais o erro de generalização, tornando o modelo ainda mais expressivo , por exemplo, adicionando camadas, nós ou treinando para um número maior de épocas. Mais estranho ainda, o padrão que relaciona a lacuna de generalização com a complexidade do modelo (conforme capturado, por exemplo, na profundidade ou largura das redes) pode ser não monotônico, com maior complexidade prejudicando no início, mas posteriormente ajudando em um futuro próximo. chamado padrão de “descida dupla”.

__Assim, o praticante de aprendizagem profunda possui um conjunto de truques, alguns dos quais aparentemente restringem o modelo de alguma forma e outros que aparentemente o tornam ainda mais expressivo, e todos os quais, em certo sentido, são aplicados para mitigar o sobreajuste.__

Para complicar ainda mais as coisas, embora as garantias fornecidas pela teoria clássica da aprendizagem possam ser conservadoras mesmo para os modelos clássicos, __elas parecem impotentes para explicar porque é que as redes neurais profundas generalizam__. 



# 5.5.2. Inspiração da não parametria

Ao abordar o aprendizado profundo pela primeira vez, é tentador pensar neles como modelos paramétricos. Afinal, os modelos possuem milhões de parâmetros. Quando atualizamos os modelos, atualizamos seus parâmetros. Quando salvamos os modelos, gravamos seus parâmetros no disco. 

Embora as redes neurais tenham claramente parâmetros, em alguns aspectos pode ser mais proveitoso pensar nelas como se comportando como modelos não paramétricos. Os métodos não paramétricos tendem a ter um nível de complexidade que aumenta à medida que aumenta a quantidade de dados disponíveis.

De certa forma, como as redes neurais são excessivamente parametrizadas, possuindo muito mais parâmetros do que os necessários para ajustar os dados de treinamento, elas tendem a interpolar os dados de treinamento (ajustando-os perfeitamente) e, portanto, comportam-se, em alguns aspectos, mais como modelos não paramétricos. 



# 5.5.3. Parada antecipada

Embora as redes neurais profundas sejam capazes de ajustar rótulos arbitrários, mesmo quando os rótulos são atribuídos incorretamente ou aleatoriamente ( Zhang et al. , 2021 ) , essa capacidade só surge após muitas iterações de treinamento.

Parada antecipada, uma técnica clássica para regularizar redes neurais profundas.

A maneira mais comum de determinar o critério de parada é monitorar o erro de validação durante o treinamento (normalmente verificando uma vez após cada época) e interromper o treinamento quando o erro de validação não tiver diminuído mais do que uma pequena quantidade
por um certo número de épocas. Isso às vezes é chamado de critério de paciência.

Além do potencial para levar a uma melhor generalização na definição de rótulos ruidosos, outro benefício da parada antecipada é a economia de tempo. Uma vez atendido o critério de paciência, pode-se encerrar o treinamento. 



# 5.5.4. Métodos clássicos de regularização para redes profundas

A Seção 3.7 introduziu um método denominado decaimento de peso, que consiste em adicionar um termo de regularização à função de perda para penalizar grandes valores dos pesos.

Dependendo de qual norma de peso é penalizada, esta técnica é conhecida como regularização de crista (por l2 penalidade) ou regularização de laço (para um l1 pena). 

Nas implementações de aprendizagem profunda, a redução de peso continua sendo uma ferramenta popular. No entanto, os pesquisadores notaram que os pontos fortes típicos de l2 regularização são insuficientes para evitar que as redes interpolem os dados ( Zhang et al. , 2021 ) e, portanto, os benefícios, se interpretados como regularização, só podem fazer sentido em combinação com o critério de parada antecipada. 

Assim, os regularizadores clássicos permanecem populares em implementações de aprendizagem profunda, mesmo que a fundamentação teórica para a sua eficácia possa ser radicalmente diferente.

Notavelmente, os pesquisadores de aprendizagem profunda também desenvolveram técnicas popularizadas inicialmente em contextos clássicos de regularização, como adicionar ruído às entradas do modelo. 



# 5.5.5. Resumo

Ao contrário dos modelos lineares clássicos, que tendem a ter menos parâmetros que os exemplos, as redes profundas tendem a ser superparametrizadas e, para a maioria das tarefas, são capazes de se ajustar perfeitamente ao conjunto de treinamento. Este regime de interpolação desafia muitas intuições arraigadas. Funcionalmente, as redes neurais parecem modelos paramétricos. Mas pensar neles como modelos não paramétricos pode, por vezes, ser uma fonte de intuição mais confiável. 

No entanto, estes métodos raramente diminuem a complexidade o suficiente para que a teoria clássica explique a generalização de redes profundas, e por que certas escolhas levam a uma generalização melhorada permanece, na maior parte, uma enorme questão em aberto, apesar dos esforços concertados de muitos investigadores brilhantes.

# Exercícios

# Ex. 2. Why might early stopping be considered a regularization technique?

While early stopping is not a direct modification of the loss function like other traditional regularization techniques (e.g., weight decay or dropout), its effect on controlling model complexity and improving generalization aligns with the goals of regularization. It is important to note that early stopping should be used cautiously, as stopping too early can result in underfitting, and stopping too late can lead to overfitting the validation set.

# Ex. 3. How do researchers typically determine the stopping criterion?
Researchers typically determine the stopping criterion for early stopping based on a variety of methods and heuristics. The choice of stopping criterion can depend on factors such as the dataset, the model architecture, the optimization algorithm, and the computational resources available. Here are some common approaches used by researchers to determine the stopping criterion:

- Validation Set Performance:
A common heuristic is to stop training when the validation loss has not improved for a certain number of consecutive epochs.

It’s important to strike a balance between stopping training early to prevent overfitting and allowing the model to converge to a meaningful solution.

# Ex. 4. What important factor seems to differentiate cases when early stopping leads to big improvements in generalization?

One important factor that seems to differentiate cases where early stopping leads to significant improvements in generalization is the timing of when the model starts to overfit the training data. 

- Balancing Between Underfitting and Overfitting:
In machine learning, there’s a trade-off between underfitting (high bias) and overfitting (high variance). Early stopping aims to strike a balance between these two extremes.

- Generalization Gap:
The generalization gap refers to the difference between a model’s performance on the training data and its performance on unseen validation or test data. When early stopping leads to significant improvements in generalization, it indicates that the model’s generalization gap was relatively large. By stopping early, the gap is reduced, implying that the model’s performance on unseen data becomes closer to its performance on the training data.

In summary, the timing of when the model starts to overfit the training data is a crucial factor in determining whether early stopping leads to substantial improvements in generalization. Stopping at the right point, just before the model begins to overfit, helps ensure that the model captures the true underlying patterns in the data while avoiding fitting noise and random fluctuations.

# Ex. 5. Beyond generalization, describe another benefit of early stopping.

Beyond improving generalization, another benefit of early stopping is the potential to save computational resources and time during the training process.

- Hyperparameter Tuning Efficiency: Early stopping can enhance the efficiency of hyperparameter tuning. During hyperparameter search, you can avoid spending excessive time on models that show signs of not improving after a certain point, focusing your efforts on more promising configurations.

- Avoiding Overfitting Quickly: Early stopping can help you prevent overfitting efficiently.
