<a href="https://colab.research.google.com/github/MathMachado/DSWP/blob/master/Notebooks/Bias_vs_Variance.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Bias x Variance
* Ao construirmos modelo de Machine Learning, nosso objetivo é construir um modelo performático (boa acurácia, por exemplo) para estimar a variável-target e que possua baixo viés (Bias) e baixa variância (Variance).
* É um trade-off: se você reduzir Bias, vai aumentar a variância; se você reduzir a variância, vai aumentar o bias.
* Bias (viés) e Variance (variância) são os principais parâmetros a serem ajustados durante o treinamento de um modelo de aprendizado de máquina.
* Quando falamos sobre predição dos modelos de Machine Learning, os erros podem ser decompostos em dois componentes:
    * erro produzido/devido ao bias (viés);
    * erro produzido/devido à variância.

## Erro produzido pelo Bias (underfitting)
* É a distância entre as previsões do modelo ($\hat{y}$) e os valores reais ($y$). Esse tipo de erro acontece quando o algoritmo simplifica muito o modelo e não aprende os padrões pois **não levou em consideração todas as features**.
* Bias é a habilidade do modelo em capturar os padrões presentes nos dados de treinamento.

* **Como detectar Bias do seu modelo**?
    * Para detectar o Bias, calcule o erro do modelo no dataframe de treinamento. Quando o modelo possui um erro (dataframe de treinamento) alto, é sinal de alto Bias.

* **Como reduzir Bias**: adicionar mais features, mas encontre um equilíbrio entre Bias e Variância.

![Bias](https://github.com/MathMachado/Materials/blob/master/Bias.PNG?raw=true)

Fonte: [Bias-Variance tradeoff in Machine Learning models: A practical example](https://towardsdatascience.com/bias-variance-tradeoff-in-machine-learning-models-a-practical-example-cf02fb95b15d)

## Erro produzido pela Variância (overfitting)
* Erro ocasionado quando o modelo se especializa nos dados de treinamento a ponto de memorizá-los ao invés de aprender com eles. 
* Este tipo de modelo com alta variância não é flexível para generalizar os dados do dataframe de teste/validação.
* Mede o quão longe as estimativas/previsões estão da média de todas as previsões no dataframe de teste.
* **Como detectar Variance do seu modelo**?
    * Calcule os erros do modelo no dataframe de teste. Quando o modelo tem alto erro (no dataframe de teste), é um sinal de alta variância.
* **Como reduzir Variance**?
    * Uma maneira de reduzir a variação é construir o modelo com mais dados de treinamento. O modelo terá mais exemplos para aprender e melhorar sua capacidade de generalizar suas previsões.
    * Se não há muitos dados disponíveis para construir o modelo:
        * Alternativa 1: experimente construir modelos usando [Bootstrap aggregating](https://en.wikipedia.org/wiki/Bootstrap_aggregating), geralmente chamada de **bagging**.
        * Alternativa 2: Experimente Feature Selection para selecionar os melhores features ou Principal Components Analysis, que são técnicas para reduzir a dimensionalidade.

![Variance](https://github.com/MathMachado/Materials/blob/master/Variance.PNG?raw=true)

Fonte: [Bias-Variance tradeoff in Machine Learning models: A practical example](https://towardsdatascience.com/bias-variance-tradeoff-in-machine-learning-models-a-practical-example-cf02fb95b15d)

O exemplo abaixo foi extraído de https://medium.com/towards-artificial-intelligence/bias-variance-tradeoff-illustration-using-pylab-202943bf4c78.

In [None]:
import pylab
import numpy as np
import matplotlib.pyplot as plt

In [None]:
#create the dataset
t = np.linspace(0, 1, 11)
h = np.array([1.67203, 1.79792, 2.37791,2.66408,2.11245, 2.43969,1.88843, 1.59447,1.79634,1.07810,0.21066])

In [None]:
plt.figure(figsize=(15,5))
# fig 1
plt.subplot(131)
#perform linear fit using pylab
degree = 1
model=pylab.polyfit(t,h,degree)
est_h=pylab.polyval(model,t)
#calculating R-squared value
R2 = 1 - ((h-est_h)**2).sum()/((h-h.mean())**2).sum()
#plot of observed and modeled data
pylab.scatter(t,h, c='b', label='observed')
pylab.plot(t,est_h, c='r', label='predicted:' + ' R2' '='+ ' ' + str(round(R2,4)))
pylab.xlabel('t(s)')
pylab.ylabel('h(m)')
pylab.title('linear model is not good (underfit)')
pylab.legend()

# fig 2
plt.subplot(132)
#perform quadratic fit using pylab
degree = 2
model=pylab.polyfit(t,h,degree)
est_h=pylab.polyval(model,t)
#calculating R-squared value
R2 = 1 - ((h-est_h)**2).sum()/((h-h.mean())**2).sum()
#plot of observed and modeled data
pylab.scatter(t,h, c='b', label='observed')
pylab.plot(t,est_h, c='r', label='predicted:' + ' R2' '='+ ' ' + str(round(R2,4)))
pylab.xlabel('t(s)')
pylab.ylabel('h(m)')
pylab.title('quadratic model is what we need')
pylab.legend()
# fig 3
plt.subplot(133)
#perform higher-degree fit using pylab
degree = 10
model=pylab.polyfit(t,h,degree)
est_h=pylab.polyval(model,t)
#calculating R-squared value
R2 = 1 - ((h-est_h)**2).sum()/((h-h.mean())**2).sum()
#plot of observed and modeled data
pylab.scatter(t,h, c='b', label='observed')
pylab.plot(t,est_h, c='r', label='predicted:' + ' R2' '='+ ' ' + str(round(R2,4)))
pylab.xlabel('t(s)')
pylab.ylabel('h(m)')
pylab.title('degree=10 captures random error (overfit)')
pylab.legend()
pylab.show()

### Conclusão da figura 1 (Regressão Linear)
* $R^{2} = 0.3953$ --> Baixo
* Se a regressão for um bom modelo, deveríamos ter $R^{2}$ próximo de 1.

### Conclusão da figura 2 (Modelo Quadrático)
* $R^{2} = 0.8895$ --> Alto
* O modelo quadrático é uma opção/alternativa melhor que a regressão linear, pois apresenta melhor $R^{2}$.

### Conclusão da figura 3 (Modelo Polinomial)
* $R^{2} = 1$ --> Alto
* Mas será que esse modelo será capaz de capturar os próximos dados?
* Geralmente, um modelo mais simples, com poucos parâmetros é mais fácil de interpretar e capturar a complexidade presente nos dados.

## A necessidade das amostras de treinamento e teste
* Treinamento: ensina ao modelo como prever a variável-target.
    * Se o modelo for expert em prever o target somente no dataframe de treinamento, então não será útil para prever outros dados.
* Teste: usado para testar a qualidade (acurácia) do modelo. Ou seja, o modelo é bom em prever além dos dados que foram usados no processo de treinamento/aprendizagem.
    * Com o dataframe de teste você concluirá se o modelo generaliza as predições além dos dados de treinamento.

## Exemplo 2
* Exemplo extraído de [Bias-Variance tradeoff in Machine Learning models: A practical example](https://towardsdatascience.com/bias-variance-tradeoff-in-machine-learning-models-a-practical-example-cf02fb95b15d)

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt


In [None]:
dataset_size = 5000
# Generate a random dataset and that follows a quadratic distribution
random_x = np.random.randn(dataset_size)
random_y = ((-5 * random_x ** 4) + (-3 * random_x ** 3) + 10 * random_x ** 2 + 2.5 ** random_x + 0.5).reshape(dataset_size, 1)
# Hold out 20% of the dataset for training
test_size = int(np.round(dataset_size * 0.2, 0))
# Split dataset into training and testing sets
x_train = random_x[:-test_size]
y_train = random_y[:-test_size]
x_test = random_x[-test_size:]
y_test = random_y[-test_size:]
# Plot the training set data
fig, ax = plt.subplots(figsize=(12, 7))
# removing to and right border
ax.spines['top'].set_visible(False)
ax.spines['right'].set_visible(False)
# adding major gridlines
ax.grid(color='grey', linestyle='-', linewidth=0.25, alpha=0.5)
ax.scatter(x_train, y_train, color = '#021E73')
plt.show()

In [None]:
# Fit model
# A first degree polynomial is the same as a simple regression line
linear_regression_model = np.polyfit(x_train, y_train, deg=1)
# Predicting values for the test set
linear_model_predictions = np.polyval(linear_regression_model, x_test)
# Plot linear regression line
fig, ax = plt.subplots(figsize=(12, 7))
# removing to and right border
ax.spines['top'].set_visible(False)
ax.spines['right'].set_visible(False)
# adding major gridlines
ax.grid(color='grey', linestyle='-', linewidth=0.25, alpha=0.5)
ax.scatter(random_x, random_y, color='#021E73')
plt.plot(x_test, linear_model_predictions, color='#F2B950', linewidth=3)
plt.show()

In [None]:
# A few auxiliary methods
def get_bias(predicted_values, true_values):
    return np.round(np.mean((predicted_values - true_values) ** 2), 0)

def get_variance(values):
    return np.round(np.var(values), 0)

def get_metrics(target_train, target_test, model_train_predictions, model_test_predictions):
    training_mse = mean_squared_error(target_train, model_train_predictions)
    test_mse = mean_squared_error(target_test, model_test_predictions)
    bias = get_bias(model_test_predictions, target_test)
    variance = get_variance(model_test_predictions)
    return [training_mse, test_mse, bias, variance]

In [None]:
from sklearn.metrics import mean_squared_error

In [None]:
# Fit simple linear regression model
# A first degree polynomial is the same as a simple regression line
linear_regression_model = np.polyfit(x_train, y_train, deg=1)
# Predicting values for the test set
linear_model_predictions = np.polyval(linear_regression_model, x_test)
# Predicting values for the training set
training_linear_model_predictions = np.polyval(linear_regression_model, x_train)
# Calculate for simple linear model
# 1. Training set MSE
# 2. Test set MSE
# 3. Bias
# 4. Variance
linear_training_mse, linear_test_mse, linear_bias, linear_variance = get_metrics(y_train, y_test, training_linear_model_predictions, linear_model_predictions)
print('Simple linear model')
print('Training MSE %0.f' % linear_training_mse)
print('Test MSE %0.f' % linear_test_mse)
print('Bias %0.f' % linear_bias)
print('Variance %0.f' % linear_variance)

In [None]:
#############################
# Fit 2nd degree polynomial #
#############################
# Fit model
polynomial_2nd_model = np.polyfit(x_train, y_train, deg=2)
# Used to plot the predictions of the polynomial model and inspect coefficients
p_2nd = np.poly1d(polynomial_2nd_model.reshape(1, 3)[0])
print('Coefficients %s\n' % p_2nd)
# Predicting values for the test set
polynomial_2nd_predictions = np.polyval(polynomial_2nd_model, x_test)
# Predicting values for the training set
training_polynomial_2nd_predictions = np.polyval(polynomial_2nd_model, x_train)
# Calculate for 2nd degree polynomial model
# 1. Training set MSE
# 2. Test set MSE
# 3. Bias
# 4. Variance
polynomial_2nd_training_mse, polynomial_2nd_test_mse, polynomial_2nd_bias, polynomial_2nd_variance = get_metrics(y_train, y_test, training_polynomial_2nd_predictions, polynomial_2nd_predictions)
print('2nd degree polynomial')
print('Training MSE %0.f' % polynomial_2nd_training_mse)
print('Test MSE %0.f' % polynomial_2nd_test_mse)
print('Bias %0.f' % polynomial_2nd_bias)
print('Variance %0.f' % polynomial_2nd_variance)
# Plot 2nd degree polynomial
fig, ax = plt.subplots(figsize=(12, 7))
# removing to and right border
ax.spines['top'].set_visible(False)
ax.spines['right'].set_visible(False)
# Adding major gridlines
ax.grid(color='grey', linestyle='-', linewidth=0.25, alpha=0.5)
x_linspace = np.linspace(min(random_x), max(random_x), num=len(polynomial_2nd_predictions))
plt.scatter(random_x, random_y, color='#021E73')
plt.plot(x_linspace, p_2nd(x_linspace), '-', color='#F2B950', linewidth=3)
plt.show()

In [None]:
#############################
# Fit 3rd degree polynomial #
#############################
print('3rd degree polynomial')
# Fit model
polynomial_3rd_model = np.polyfit(x_train, y_train, deg=3)
# Used to plot the predictions of the polynomial model and inspect coefficients
p_3rd = np.poly1d(polynomial_3rd_model.reshape(1, 4)[0])
print('Coefficients %s' % p_3rd)
# Predict values for the test set
polynomial_3rd_predictions = np.polyval(polynomial_3rd_model, x_test)
# Predict values for the training set
training_polynomial_3rd_predictions = np.polyval(polynomial_3rd_model, x_train)
# Calculate for 3rd degree polynomial model
# 1. Training set MSE
# 2. Test set MSE
# 3. Bias
# 4. Variance
polynomial_3rd_training_mse, polynomial_3rd_test_mse, polynomial_3rd_bias, polynomial_3rd_variance = get_metrics(y_train, y_test, training_polynomial_3rd_predictions, polynomial_3rd_predictions)
print('\nTraining MSE %0.f' % polynomial_3rd_training_mse)
print('Test MSE %0.f' % polynomial_3rd_test_mse)
print('Bias %0.f' % polynomial_3rd_bias)
print('Variance %0.f' % polynomial_3rd_variance)

# Plot 3rd degree polynomial
fig, ax = plt.subplots(figsize=(12, 7))
# removing to and right border
ax.spines['top'].set_visible(False)
ax.spines['right'].set_visible(False)
# Adding major gridlines
ax.grid(color='grey', linestyle='-', linewidth=0.25, alpha=0.5)
x_linspace = np.linspace(min(random_x), max(random_x), num=len(polynomial_3rd_predictions))
plt.scatter(random_x, random_y, color='#021E73')
plt.plot(x_linspace, p_3rd(x_linspace), '-', color='#F2B950', linewidth=3)
plt.show()

### Conclusão
* Podemos ver o trade-off entre Bias e Variance. Conforme aumentamos a complexidade de um modelo, o viés diminuiu, enquanto a variância aumentou.
![Bias_vs_Variance](https://github.com/MathMachado/Materials/blob/master/Bias_vs_Variance.PNG?raw=true)