# Machine Learning, Overfitting e Cross-Validation

Prof. Daniel de Abreu Pereira Uhr

## Conteúdo

* Machine Learning
* Overfitting
* Cross-Validation

## Referências

**Principais:**
* Microsoft EconML: https://econml.azurewebsites.net/
* UBER CausalML: https://causalml.readthedocs.io/en/latest/
* Microsoft DoWhy: https://microsoft.github.io/dowhy/
* Google CausalImpact: https://google.github.io/CausalImpact/CausalImpact.html
* Prophet: https://facebook.github.io/prophet/
* Statsmodels: https://www.statsmodels.org/stable/index.html
* Scikit-learn: https://scikit-learn.org/stable/index.html
* XGBoost: https://xgboost.readthedocs.io/en/latest/
* LightGBM: https://lightgbm.readthedocs.io/en/latest/
* CatBoost: https://catboost.ai/

## Machine Learning

Machine Learning é uma área da Inteligência Artificial que estuda métodos computacionais para aprender a partir de dados. O aprendizado é feito por meio de algoritmos que constroem modelos matemáticos a partir de dados de treinamento. Esses modelos são usados para fazer previsões ou tomar decisões sem serem explicitamente programados.

Os modelos de Machine Learning são divididos em duas categorias principais: supervisionados e não supervisionados.

### Aprendizado Supervisionado

No aprendizado supervisionado, o algoritmo é treinado em um conjunto de dados rotulados, ou seja, cada exemplo de treinamento é um par de entrada-saída. O objetivo é aprender uma função que mapeia as entradas para as saídas.

Os principais tipos de problemas de aprendizado supervisionado são classificação e regressão.

#### Classificação

Na classificação, o objetivo é prever a classe de uma instância de entrada. Por exemplo, um modelo de classificação pode ser treinado para prever se um e-mail é spam ou não spam.

#### Regressão

Na regressão, o objetivo é prever um valor contínuo. Por exemplo, um modelo de regressão pode ser treinado para prever o preço de uma casa com base em suas características.

### Aprendizado Não Supervisionado

No aprendizado não supervisionado, o algoritmo é treinado em um conjunto de dados não rotulados, ou seja, não há saídas associadas a cada exemplo de treinamento. O objetivo é encontrar padrões nos dados, como grupos de instâncias semelhantes.

Os principais tipos de problemas de aprendizado não supervisionado são clustering e redução de dimensionalidade.

#### Clustering

No clustering, o objetivo é agrupar instâncias semelhantes em clusters. Por exemplo, um algoritmo de clustering pode ser usado para agrupar clientes com base em suas compras.

#### Redução de Dimensionalidade

Na redução de dimensionalidade, o objetivo é reduzir a dimensionalidade dos dados, mantendo o máximo de informação possível. Por exemplo, um algoritmo de redução de dimensionalidade pode ser usado para visualizar dados em um espaço de menor dimensão.

## Overfitting

Overfitting é um problema comum em Machine Learning, no qual um modelo se ajusta demais aos dados de treinamento e não generaliza bem para novos dados. Isso pode levar a um desempenho ruim do modelo em dados de teste.

Existem várias maneiras de evitar o overfitting:



Regularização é uma técnica usada em estatística, econometria e aprendizado de máquina para prevenir overfitting e melhorar a capacidade de generalização de um modelo. Ela funciona adicionando uma penalidade à função de perda do modelo, desincentivando coeficientes muito grandes ou complexidades excessivas.


**Por que Regularização é Necessária?**

Quando um modelo é muito flexível (e.g., possui muitos parâmetros ou uma arquitetura muito complexa), ele pode ajustar o ruído dos dados de treino em vez de capturar apenas os padrões relevantes. Isso leva a um bom desempenho nos dados de treino, mas uma performance ruim em dados novos (overfitting).

Regularização força o modelo a ser mais simples, penalizando ajustes muito extremos nos parâmetros.

**Como funciona a Regularização?**

Regularização modifica a função de perda adicionando um termo que penaliza a complexidade do modelo. Esse termo de penalização depende dos coeficientes $\beta$ do modelo.


1. Função de perda padrão (sem regularização): 

No caso de uma regressão linear, a função de perda geralmente é o erro quadrático médio (MSE):

$$L(\beta) = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2$$


2. Função de perda com regularização:

Ao adicionar um termo de regularização, a função de perda se torna:

$$L(\beta) = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 + \lambda R(\beta)$$

* R(β): Termo de regularização que mede a complexidade do modelo.
* $λ>0$: Hiperparâmetro que controla a intensidade da penalização.

In [None]:
from sklearn.model_selection import cross_val_predict
from sklearn.metrics import mean_squared_error
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor

# Definir as variáveis
X = ['casada', 'mage', 'medu', 'fhisp', 'mhisp', 'foreign', 'alcohol', 'deadkids', 'nprenatal', 'mrace', 'frace', 'fage', 'fedu']
D = "D"
y = "Y"
folds = 5

# RandomForest - Estimando m_D e m_y
rf_model_D = RandomForestRegressor(n_estimators=100)
D_res_rf = df[D] - cross_val_predict(rf_model_D, df[X], df[D], cv=folds)

rf_model_y = RandomForestRegressor(n_estimators=100)
y_res_rf = df[y] - cross_val_predict(rf_model_y, df[X], df[y], cv=folds)

# GradientBoosting - Estimando m_D e m_y
gb_model_D = GradientBoostingRegressor(n_estimators=100)
D_res_gb = df[D] - cross_val_predict(gb_model_D, df[X], df[D], cv=folds)

gb_model_y = GradientBoostingRegressor(n_estimators=100)
y_res_gb = df[y] - cross_val_predict(gb_model_y, df[X], df[y], cv=folds)

# Calculando o MSE para cada modelo
mse_D_rf = mean_squared_error(df[D], df[D] - D_res_rf)  # Random Forest para D
mse_y_rf = mean_squared_error(df[y], df[y] - y_res_rf)  # Random Forest para y

mse_D_gb = mean_squared_error(df[D], df[D] - D_res_gb)  # Gradient Boosting para D
mse_y_gb = mean_squared_error(df[y], df[y] - y_res_gb)  # Gradient Boosting para y

# Exibir os resultados de MSE
print("MSE for D - Random Forest:", mse_D_rf)
print("MSE for y - Random Forest:", mse_y_rf)
print("MSE for D - Gradient Boosting:", mse_D_gb)
print("MSE for y - Gradient Boosting:", mse_y_gb)

Comparação para $D$ (Variável de Tratamento):

* Random Forest MSE: 0.1506
* Gradient Boosting MSE: 0.1323

Aqui, o Gradient Boosting tem um desempenho melhor na predição de $D$, pois seu MSE é menor. Isso significa que ele foi mais eficiente na captura da relação entre as variáveis explicativas $X$ e o tratamento $D$, resultando em resíduos menores.

Comparação para $Y$
* Random Forest MSE: 352060.35
* Gradient Boosting MSE: 309063.98

Novamente, o Gradient Boosting apresenta um MSE menor na predição de $y$, indicando que ele conseguiu capturar melhor a relação entre as variáveis explicativas  $X$ e o resultado $Y$, quando comparado ao Random Forest.

Agora vamos fazer de forma geral a análise para diversos modelos e verificar qual o melhor baseados no critério de erro quadrado médio. 

In [None]:
from sklearn.model_selection import cross_val_predict
from sklearn.metrics import mean_squared_error
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.linear_model import Lasso, Ridge, ElasticNet
from sklearn.neural_network import MLPRegressor
from sklearn.svm import SVR

# Definir os modelos que vamos testar
models = {
    "RandomForest": RandomForestRegressor(n_estimators=100),
    "GradientBoosting": GradientBoostingRegressor(n_estimators=100),
    "Lasso": Lasso(alpha=0.1),
    "Ridge": Ridge(alpha=1.0),
    "ElasticNet": ElasticNet(alpha=0.1, l1_ratio=0.5),
    "MLP": MLPRegressor(hidden_layer_sizes=(50,), max_iter=1000),
    "SVR": SVR()
}

# Definir as variáveis
X = ['casada', 'mage', 'medu', 'fhisp', 'mhisp', 'foreign', 'alcohol', 'deadkids', 'nprenatal', 'mrace', 'frace', 'fage', 'fedu']
D = "D"
y = "Y"
folds = 5

# Dicionário para armazenar os MSE de cada modelo para D e y
mse_results = {}

# Loop para ajustar os modelos e calcular os MSE para D e y
for name, model in models.items():
    # Estimativa de D com validação cruzada
    D_res = df[D] - cross_val_predict(model, df[X], df[D], cv=folds)
    # Estimativa de y com validação cruzada
    y_res = df[y] - cross_val_predict(model, df[X], df[y], cv=folds)
    
    # Calcular MSE para D e y
    mse_D = mean_squared_error(df[D], df[D] - D_res)
    mse_y = mean_squared_error(df[y], df[y] - y_res)
    
    # Armazenar os resultados
    mse_results[name] = {"MSE for D": mse_D, "MSE for y": mse_y}

# Exibir os resultados
for model_name, mse in mse_results.items():
    print(f"Model: {model_name}")
    print(f"  MSE for D: {mse['MSE for D']}")
    print(f"  MSE for y: {mse['MSE for y']}\n")


Para os resíduos de $D$: O Gradient Boosting é o modelo preferido, pois ele obteve o menor MSE para prever a variável de tratamento.

Para os resíduos de $y$: O Lasso foi o melhor em prever o resultado.

Vou aumentar o número fold para 8 e verificar se os resultados mudam. Esse aumento de 5 para 8 folds é importante para garantir que o modelo seja treinado em uma amostra maior, o que pode melhorar a precisão das previsões. Além de ser uma prática para verificar a robustez dos resultados.

In [None]:
from sklearn.model_selection import cross_val_predict
from sklearn.metrics import mean_squared_error
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.linear_model import Lasso, Ridge, ElasticNet
from sklearn.neural_network import MLPRegressor
from sklearn.svm import SVR

# Definir os modelos que vamos testar
models = {
    "RandomForest": RandomForestRegressor(n_estimators=100),
    "GradientBoosting": GradientBoostingRegressor(n_estimators=100),
    "Lasso": Lasso(alpha=0.1),
    "Ridge": Ridge(alpha=1.0),
    "ElasticNet": ElasticNet(alpha=0.1, l1_ratio=0.5),
    "MLP": MLPRegressor(hidden_layer_sizes=(50,), max_iter=1000),
    "SVR": SVR()
}

# Definir as variáveis
X = ['casada', 'mage', 'medu', 'fhisp', 'mhisp', 'foreign', 'alcohol', 'deadkids', 'nprenatal', 'mrace', 'frace', 'fage', 'fedu']
D = "D"
y = "Y"
folds = 8

# Dicionário para armazenar os MSE de cada modelo para D e y
mse_results = {}

# Loop para ajustar os modelos e calcular os MSE para D e y
for name, model in models.items():
    # Estimativa de D com validação cruzada
    D_res = df[D] - cross_val_predict(model, df[X], df[D], cv=folds)
    # Estimativa de y com validação cruzada
    y_res = df[y] - cross_val_predict(model, df[X], df[y], cv=folds)
    
    # Calcular MSE para D e y
    mse_D = mean_squared_error(df[D], df[D] - D_res)
    mse_y = mean_squared_error(df[y], df[y] - y_res)
    
    # Armazenar os resultados
    mse_results[name] = {"MSE for D": mse_D, "MSE for y": mse_y}

# Exibir os resultados
for model_name, mse in mse_results.items():
    print(f"Model: {model_name}")
    print(f"  MSE for D: {mse['MSE for D']}")
    print(f"  MSE for y: {mse['MSE for y']}\n")