# Machine Learning, Overfitting e Cross-Validation

Prof. Daniel de Abreu Pereira Uhr

## Conteúdo

* Machine Learning
* Overfitting
* Cross-Validation

## Referências

**Principais:**
* Microsoft EconML: https://econml.azurewebsites.net/
* UBER CausalML: https://causalml.readthedocs.io/en/latest/
* Microsoft DoWhy: https://microsoft.github.io/dowhy/
* Google CausalImpact: https://google.github.io/CausalImpact/CausalImpact.html
* Prophet: https://facebook.github.io/prophet/
* Statsmodels: https://www.statsmodels.org/stable/index.html
* Scikit-learn: https://scikit-learn.org/stable/index.html
* XGBoost: https://xgboost.readthedocs.io/en/latest/
* LightGBM: https://lightgbm.readthedocs.io/en/latest/
* CatBoost: https://catboost.ai/

## Machine Learning

Machine Learning é uma área da Inteligência Artificial que estuda métodos computacionais para aprender a partir de dados. O aprendizado é feito por meio de algoritmos que constroem modelos matemáticos a partir de dados de treinamento. Esses modelos são usados para fazer previsões ou tomar decisões sem serem explicitamente programados.

Os modelos de Machine Learning são divididos em duas categorias principais: supervisionados e não supervisionados.

### Aprendizado Supervisionado

No aprendizado supervisionado, o algoritmo é treinado em um conjunto de dados rotulados, ou seja, cada exemplo de treinamento é um par de entrada-saída. O objetivo é aprender uma função que mapeia as entradas para as saídas.

Os principais tipos de problemas de aprendizado supervisionado são classificação e regressão.

#### Classificação

Na classificação, o objetivo é prever a classe de uma instância de entrada. Por exemplo, um modelo de classificação pode ser treinado para prever se um e-mail é spam ou não spam.

#### Regressão

Na regressão, o objetivo é prever um valor contínuo. Por exemplo, um modelo de regressão pode ser treinado para prever o preço de uma casa com base em suas características.

### Aprendizado Não Supervisionado

No aprendizado não supervisionado, o algoritmo é treinado em um conjunto de dados não rotulados, ou seja, não há saídas associadas a cada exemplo de treinamento. O objetivo é encontrar padrões nos dados, como grupos de instâncias semelhantes.

Os principais tipos de problemas de aprendizado não supervisionado são clustering e redução de dimensionalidade.

#### Clustering

No clustering, o objetivo é agrupar instâncias semelhantes em clusters. Por exemplo, um algoritmo de clustering pode ser usado para agrupar clientes com base em suas compras.

#### Redução de Dimensionalidade

Na redução de dimensionalidade, o objetivo é reduzir a dimensionalidade dos dados, mantendo o máximo de informação possível. Por exemplo, um algoritmo de redução de dimensionalidade pode ser usado para visualizar dados em um espaço de menor dimensão.

## Overfitting

Overfitting é um problema comum em Machine Learning, no qual um modelo se ajusta demais aos dados de treinamento e não generaliza bem para novos dados. Isso pode levar a um desempenho ruim do modelo em dados de teste.

Existem várias maneiras de evitar o overfitting:



Regularização é uma técnica usada em estatística, econometria e aprendizado de máquina para prevenir overfitting e melhorar a capacidade de generalização de um modelo. Ela funciona adicionando uma penalidade à função de perda do modelo, desincentivando coeficientes muito grandes ou complexidades excessivas.


**Por que Regularização é Necessária?**

Quando um modelo é muito flexível (e.g., possui muitos parâmetros ou uma arquitetura muito complexa), ele pode ajustar o ruído dos dados de treino em vez de capturar apenas os padrões relevantes. Isso leva a um bom desempenho nos dados de treino, mas uma performance ruim em dados novos (overfitting).

Regularização força o modelo a ser mais simples, penalizando ajustes muito extremos nos parâmetros.

**Como funciona a Regularização?**

Regularização modifica a função de perda adicionando um termo que penaliza a complexidade do modelo. Esse termo de penalização depende dos coeficientes $\beta$ do modelo.


1. Função de perda padrão (sem regularização): 

No caso de uma regressão linear, a função de perda geralmente é o erro quadrático médio (MSE):

$$L(\beta) = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2$$


2. Função de perda com regularização:

Ao adicionar um termo de regularização, a função de perda se torna:

$$L(\beta) = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 + \lambda R(\beta)$$

* R(β): Termo de regularização que mede a complexidade do modelo.
* $λ>0$: Hiperparâmetro que controla a intensidade da penalização.