# 4.7. Mudança de Meio Ambiente e Distribuição

Nas seções anteriores, trabalhamos em diversas aplicações práticas de aprendizado de máquina, ajustando modelos a uma variedade de conjuntos de dados. E, no entanto, nunca paramos para contemplar de onde vieram os dados ou o que planejamos fazer com os resultados dos nossos modelos.

Às vezes, os modelos parecem ter um desempenho maravilhoso conforme medido pela precisão do conjunto de testes, mas falham catastroficamente na implantação quando a distribuição dos dados muda repentinamente. 

Felizmente, sob algumas suposições restritas sobre a forma como os nossos dados poderão mudar no futuro, algoritmos baseados em princípios podem detectar mudanças e, por vezes, até adaptar-se em tempo real, melhorando a precisão do classificador original.



# 4.7.1.1. Mudança de covariável (Covariate/Features Shift) - x

- covariates (features)

Suponha que o conjunto de treinamento consiste em fotos, enquanto o conjunto de teste contém apenas desenhos animados. O treinamento em um conjunto de dados com características substancialmente diferentes do conjunto de teste pode significar problemas na ausência de um plano coerente sobre como se adaptar ao novo domínio.

# 4.7.1.2. Mudança de etiqueta/rótulo (Label Shift) - y

A mudança de rótulo descreve o problema inverso.

Por exemplo, podemos querer prever diagnósticos dados os seus sintomas (ou outras manifestações) (__features__), mesmo que a prevalência relativa dos diagnósticos (__Label__) mude ao longo do tempo. A mudança de rótulo é a suposição apropriada aqui porque as doenças causam sintomas.



# 4.7.1.3. Mudança de conceito (Concept Shift)

Também podemos encontrar o problema relacionado da mudança de conceito , que surge quando as próprias definições dos rótulos podem mudar. Isso parece estranho – um gato é um gato , não? No entanto, outras categorias estão sujeitas a alterações no uso ao longo do tempo. Os critérios de diagnóstico para doenças mentais, o que é considerado moda, e os cargos, estão todos sujeitos a consideráveis mudanças de conceito.

# 4.7.2. Exemplos de mudança de distribuição

# 4.7.2.1. Diagnóstico Médico

Imagine que você deseja projetar um algoritmo para detectar câncer. Você coleta dados de pessoas saudáveis e doentes e treina seu algoritmo. Funciona bem, proporcionando alta precisão e você conclui que está pronto para uma carreira de sucesso em diagnósticos médicos. Não tão rápido.

As distribuições que deram origem aos dados de treinamento e aquelas que você encontrará na natureza podem diferir consideravelmente.

# 4.7.2.2. Carros autônomos

Digamos que uma empresa queira aproveitar o aprendizado de máquina para desenvolver carros autônomos. Um componente chave aqui é um detector de beira de estrada. Como é caro obter dados anotados reais, eles tiveram a ideia (inteligente e questionável) de usar dados sintéticos de um mecanismo de renderização de jogos como dados de treinamento adicionais. Isso funcionou muito bem em “dados de teste” extraídos do mecanismo de renderização. Infelizmente, dentro de um carro de verdade foi um desastre. No final das contas, a beira da estrada foi renderizada com uma textura muito simplista. Mais importante ainda, toda a beira da estrada foi renderizada com a mesma textura e o detector de beira de estrada aprendeu sobre esse “recurso” muito rapidamente.

# 4.7.2.3. Distribuições Não Estacionárias

Uma situação muito mais sutil surge quando a distribuição muda lentamente (também conhecida como distribuição não estacionária ) e o modelo não é atualizado adequadamente. Abaixo estão alguns casos típicos.

Treinamos um modelo de publicidade computacional e depois deixamos de atualizá-lo com frequência (por exemplo, esquecemos de incorporar que um novo dispositivo obscuro chamado iPad acabou de ser lançado).

Construímos um filtro de spam. Funciona bem na detecção de todos os spams que vimos até agora. Mas então os spammers ficam espertos e criam novas mensagens que se parecem com tudo o que já vimos antes.

Construímos um sistema de recomendação de produtos. Funciona durante todo o inverno, mas continua recomendando chapéus de Papai Noel muito depois do Natal.

# 4.7.2.4. Mais anedotas

Construímos um detector facial. Funciona bem em todos os benchmarks. Infelizmente, ele falha nos dados de teste – os exemplos problemáticos são close-ups onde o rosto preenche a imagem inteira (nenhum desses dados estava no conjunto de treinamento).

Construímos um mecanismo de busca na web para o mercado dos EUA e queremos implantá-lo no Reino Unido.


# 4.7.3. Correção da mudança de distribuição

Como discutimos, há muitos casos em que as distribuições de treinamento e teste são diferentes. Em alguns casos, temos sorte e os modelos funcionam apesar da covariável, do rótulo ou da mudança de conceito. Noutros casos, podemos fazer melhor empregando estratégias baseadas em princípios para lidar com a mudança.



# 4.7.3.2. Correção de deslocamento covariável

![image.png](attachment:ca51fa01-bc10-4832-bf71-7961cfe25e47.png)

![image.png](attachment:65f98008-5da1-4ee2-87d1-b0a97ca41644.png)

# 4.7.3.3. Correção de mudança de rótulo

No aprendizado profundo, as entradas tendem a ser objetos de alta dimensão, como imagens, enquanto os rótulos costumam ser objetos mais simples, como categorias.



# 4.7.3.4. Correção de mudança de conceito

Nesses casos, podemos usar a mesma abordagem que usamos para treinar redes para fazê-las se adaptarem às mudanças nos dados. Em outras palavras, usamos os pesos da rede existentes e simplesmente executamos algumas etapas de atualização com os novos dados, em vez de treinar do zero.



# 4.7.4. Uma taxonomia de problemas de aprendizagem

- 4.7.4.1. Aprendizagem em lote (Batch Learning)
  
Por exemplo, podemos treinar um detector de gatos com base em muitas fotos de cães e gatos. Depois de treiná-lo, nós o enviamos como parte de um sistema inteligente de visão computacional catdoor que permite apenas a entrada de gatos. Ele é então instalado na casa do cliente e nunca mais é atualizado (exceto em circunstâncias extremas).

  
- 4.7.4.2. Aprendizagem online
  
Por exemplo, precisamos de prever o preço das ações de amanhã, o que nos permite negociar com base nessa estimativa e, no final do dia, descobrir se a nossa estimativa nos trouxe lucro. Em outras palavras, no aprendizado online , temos o seguinte ciclo onde estamos melhorando continuamente nosso modelo a partir de novas observações:
  
![image.png](attachment:d8cb1ec9-d5d4-4474-8d48-dcab242acf1f.png)

- 4.7.4.3. Bandits

Os bandidos são um caso especial do problema acima. Embora na maioria dos problemas de aprendizagem tenhamos uma função continuamente parametrizada f
 onde queremos aprender seus parâmetros (por exemplo, uma rede profunda), num problema de bandidos só temos um número finito de armas que podemos puxar, ou seja, um número finito de ações que podemos tomar. Não é muito surpreendente que para este problema mais simples possam ser obtidas garantias teóricas mais fortes em termos de otimalidade. Nós o listamos principalmente porque esse problema é frequentemente tratado (de forma confusa) como se fosse um ambiente de aprendizagem distinto.

- 4.7.4.4. Control

Recentemente, a teoria de controle (por exemplo, variantes PID) também tem sido usada para ajustar automaticamente hiperparâmetros para obter melhor qualidade de desembaraço e reconstrução e melhorar a diversidade do texto gerado e a qualidade de reconstrução das imagens geradas

- 4.7.4.5. Aprendizagem por Reforço

No caso mais geral de um ambiente com memória, podemos encontrar situações em que o ambiente tenta cooperar connosco (jogos cooperativos, em particular jogos de soma diferente de zero), ou outras em que o ambiente tenta vencer. Xadrez, Go, Gamão ou StarCraft são alguns dos casos de aprendizagem por reforço . Da mesma forma, podemos querer construir um bom controlador para carros autônomos. 

- 4.7.4.6. Considerando o Meio Ambiente

Uma distinção importante entre as diferentes situações acima é que uma estratégia que poderia ter funcionado totalmente no caso de um ambiente estacionário, pode não funcionar totalmente num ambiente que pode se adaptar. A velocidade e a maneira como o ambiente muda determinam, em grande medida, o tipo de algoritmos que podemos utilizar. Esses tipos de conhecimento são cruciais para o aspirante a cientista de dados lidar com mudanças de conceito, ou seja, quando o problema que está sendo resolvido pode mudar com o tempo.




# 4.7.5. Justiça, responsabilidade e transparência no aprendizado de máquina

Por fim, é importante lembrar que, ao implantar sistemas de aprendizado de máquina, você não está apenas otimizando um modelo preditivo; normalmente, você está fornecendo uma ferramenta que será usada para automatizar decisões (parcial ou totalmente). Estes sistemas técnicos podem impactar a vida dos indivíduos que estão sujeitos às decisões resultantes. O salto da consideração de previsões para a tomada de decisões levanta não só novas questões técnicas, mas também uma série de questões éticas que devem ser cuidadosamente consideradas.

Entre outras consequências desta mudança de âmbito, descobriremos que a precisão raramente é a medida correta.

Freqüentemente, os vários mecanismos pelos quais as previsões de um modelo são acopladas aos seus dados de treinamento não são levados em consideração no processo de modelagem. Isto pode levar ao que os investigadores chamam de ciclos de feedback descontrolados 

As notícias que um indivíduo encontra devem ser determinadas pelo conjunto de páginas do Facebook que ele curtiu ? Esses são apenas alguns dos muitos dilemas éticos urgentes que você pode encontrar em uma carreira em aprendizado de máquina.

# 4.7.6. Resumo

Em muitos casos, os conjuntos de treinamento e teste não vêm da mesma distribuição. Isso é chamado de mudança de distribuição. O risco é a expectativa de perda de toda a população de dados extraídos de sua verdadeira distribuição.

Devemos ter em conta esta possibilidade ao construir modelos e continuar a monitorizar sistemas vivos, abertos à possibilidade de que os nossos modelos e o ambiente fiquem emaranhados de formas imprevistas.

# Exercícios:

4. __Besides distribution shift, what else could affect how the empirical risk approximates the risk?__

Several factors can affect how well the empirical risk approximates the true risk in machine learning models beyond distribution shift:

- Sample Size: The size of the training dataset plays a crucial role in how well the empirical risk approximates the risk. Smaller sample sizes may lead to higher variance and less accurate risk estimation.

- Sample Quality: The quality of the training data matters. If the training dataset contains noise, outliers, or mislabeled examples, the empirical risk may be skewed.

- Bias and Fairness: If the training dataset is biased in terms of representation or contains biased labels, it can lead to biased models and inaccurate risk estimates, especially when deployed in different contexts.

- Feature Quality: The quality and relevance of features used in the model affect the model’s ability to generalize to new data. Irrelevant or redundant features can contribute to overfitting.

- Model Complexity: Highly complex models can fit the training data closely but may not generalize well to new data, leading to overfitting.

- Regularization: Regularization techniques, such as L1 and L2 regularization, can influence the model’s ability to generalize and impact how the empirical risk approximates the true risk.

- Data Augmentation: Augmenting the training data through techniques like rotation, translation, or flipping can help improve generalization and reduce overfitting.

- Hyperparameters: Choices of hyperparameters, such as learning rate, batch size, and regularization strength, can significantly impact model performance and risk estimation.

- Model Selection: The selection of the model architecture (e.g., linear regression, neural networks, etc.) affects generalization. Different models have different biases and assumptions about the data.

- Hyperparameter Tuning: The process of tuning hyperparameters can impact how well the model generalizes. Over-tuning on the validation set may lead to poor generalization on new data.

- Data Leakage: Leakage of information from the test set into the training process can lead to optimistic risk estimates.

- Ensemble Methods: Combining predictions from multiple models can often lead to better generalization and risk estimation.

- Evaluation Metrics: The choice of evaluation metrics can impact how well the model’s risk is estimated. Different metrics may emphasize different aspects of performance.

It’s essential to consider all these factors when building and evaluating machine learning models to ensure that the empirical risk accurately reflects the model’s true risk on unseen data.