<a href="https://colab.research.google.com/github/WagnerMiron/introducao_a_ciencia_de_dados/blob/main/04-bias-variance-tradeoff-lab.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Understanding Bias and Variance Tradeoff


## 1. Introduction
In this notebook, we will explore the concepts of bias and variance, which are crucial in understanding the performance of machine learning models. We will demonstrate these concepts using synthetic data, simple linear regression models, and cross-validation.

## 2. Importing Libraries

In [None]:
import numpy as np # Importa a biblioteca NumPy para operações matemáticas e arrays
import pandas as pd  # Importa a biblioteca pandas para manipulação de dados
import matplotlib.pyplot as plt # Importa matplotlib para criação de gráficos
from sklearn.linear_model import LinearRegression # Importa o modelo de Regressão Linear
from sklearn.preprocessing import PolynomialFeatures # Importa para criar características polinomiais
from sklearn.metrics import mean_squared_error # Importa a função para calcular o erro quadrático médio (MSE)
from sklearn.model_selection import train_test_split # Importa a função para dividir os dados em treino e teste
from mlxtend.evaluate import bias_variance_decomp # Importa a função para decompor viés e variância do modelo

## 3. Creating Synthetic Data

In [None]:
# Function to generate synthetic data
def generate_synthetic_data(n_samples=100, noise=1.0, random_seed=42): # Define uma função chamada generate_synthetic_data com três parâmetros: n_samples=100: Número de amostras a serem geradas igual a 100; noise=1.0: A quantidade de ruído a ser adicionado aos dados igual a 1; random_seed=42: Gerador de números aleatórios valor padrão é 42.
    np.random.seed(random_seed) # Define a semente aleatória
    X = np.linspace(0, 100, n_samples).reshape(-1, 1) # Gera uma matriz de amostras igualmente espaçadas entre 0 e 100
    true_function = -0.0001 * X**3 + 0.01 * X**2 + 0.1 * X + 1 # Define a função verdadeira para gerar os valores de y
    y = true_function + np.random.normal(scale=noise, size=X.shape) # Adiciona ruído normal aos valores gerados pela função verdadeira
    return X, y, true_function # Retorna os dados de entrada (X), os valores de saída (y) e a função verdadeira

# Generate synthetic data
X, y, true_function = generate_synthetic_data(n_samples=100, noise=2.0)  # Chama a função para gerar dados com 100 amostras e ruído de 2.0

In [None]:
# Splitting data into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # Divide os dados em conjuntos de treinamento e teste, com 20% dos dados reservados para teste

## 4. Simple Linear Regression Model

In [None]:
# Training a simple linear regression model
lin_reg = LinearRegression() # Cria uma instância do modelo de Regressão Linear
lin_reg.fit(X_train, y_train) # Treina o modelo usando os dados de treinamento


# Predictions
y_train_pred = lin_reg.predict(X_train) # Faz previsões para os dados de treinamento
y_test_pred = lin_reg.predict(X_test) # Faz previsões para os dados de teste

In [None]:
# Plotting the results
plt.scatter(X_train, y_train, color='blue', label='Training data') # Plota os dados de treinamento como pontos azuis
plt.scatter(X_test, y_test, color='green', label='Testing data') # Plota os dados de teste como pontos verdes
plt.plot(X_train, y_train_pred, color='red', label='Linear regression') # Plota a linha de regressão linear em vermelho
plt.xlabel('Feature') # Define o rótulo do eixo x como 'Feature'
plt.ylabel('Target') # Define o rótulo do eixo y como 'Target'
plt.title('Linear Regression Model') # Define o título do gráfico como 'Linear Regression Model'
plt.legend() # Adiciona a legenda ao gráfico
plt.show() # Exibe o gráfico

In [None]:
# Calculating training and testing errors
train_error = mean_squared_error(y_train, y_train_pred)  # Calcula o erro quadrático médio (MSE) para os dados de treinamento
test_error = mean_squared_error(y_test, y_test_pred) # Calcula o erro quadrático médio (MSE) para os dados de teste
print(f'Training Error: {train_error}') # Exibe o erro de treinamento
print(f'Testing Error: {test_error}') # Exibe o erro de teste

In this case, why training MSE is greater than test MSE?

## 5. Polynomial Regression Models

In [None]:
# Fit and plot polynomial models of different degrees
degrees = [1, 2, 3, 15]  # Lista dos graus dos polinômios a serem ajustados
colors = ['orange', 'red', 'black', 'cyan'] # Lista de cores para cada grau de polinômio
predictions = [] # Lista para armazenar previsões dos modelos polinomiais

for degree, color in zip(degrees, colors): # Itera sobre os graus dos polinômios e as cores correspondentes
    poly_features = PolynomialFeatures(degree=degree, include_bias=False) # Cria características polinomiais para o grau especificado
    X_poly = poly_features.fit_transform(X) # Transforma os dados de entrada em características polinomiais
    model = LinearRegression() # Cria uma instância do modelo de Regressão Linear
    model.fit(X_poly, y) # Ajusta o modelo aos dados polinomiais
    y_poly_pred = model.predict(X_poly)  # Faz previsões usando o modelo ajustado
    predictions.append(y_poly_pred) # Adiciona as previsões à lista de previsões
    plt.plot(X, y_poly_pred, label=f'Degree {degree}', color=color) # Plota as previsões do modelo polinomial no gráfico

# Plot the synthetic data and the true function
plt.scatter(X, y, facecolors='none', edgecolors='black', label='Data') # Plota os dados sintéticos como pontos com borda preta
plt.plot(X, true_function, label='True Function', color='blue') # Plota a função verdadeira em azul
plt.xlabel('Feature (X)') # Define o rótulo do eixo x como 'Feature (X)'
plt.ylabel('Target (Y)') # Define o rótulo do eixo y como 'Target (Y)'
plt.title('Data and Polynomial Fits')  # Define o título do gráfico como 'Data and Polynomial Fits'
plt.legend() # Adiciona a legenda ao gráfico
plt.show() # Exibe o gráfico

## 6. Bias-Variance Tradeoff

The bias-variance tradeoff is a fundamental concept in machine learning. It describes the tradeoff between two sources of error that affect the performance of a model:

- **Bias**: Error due to overly simplistic assumptions in the learning algorithm. High bias can cause the model to miss the relevant relations between features and target outputs (underfitting).
- **Variance**: Error due to too much complexity in the learning algorithm. High variance can cause the model to model the random noise in the training data (overfitting).

To visualize the bias-variance tradeoff, we can plot the training and testing errors for models of varying complexity.

In [None]:
# Calculate and plot training and test MSE
train_errors = [] # Inicializa uma lista para armazenar os erros quadráticos médios (MSE) para os dados de treinamento
test_errors = [] # Inicializa uma lista para armazenar os erros quadráticos médios (MSE) para os dados de teste
flexibility = [] # Inicializa uma lista para armazenar os graus dos polinômios (flexibilidade) usados nos modelos

for degree in range(1, 21):  # Itera sobre os graus dos polinômios de 1 a 20
    poly_features = PolynomialFeatures(degree=degree, include_bias=False) # Cria características polinomiais para o grau atual
    X_train_poly = poly_features.fit_transform(X_train) # Transforma os dados de treinamento em características polinomiais
    X_test_poly = poly_features.fit_transform(X_test) # Transforma os dados de teste em características polinomiais

    model = LinearRegression() # Cria uma instância do modelo de Regressão Linear
    model.fit(X_train_poly, y_train) # Ajusta o modelo aos dados de treinamento polinomiais

    y_train_pred = model.predict(X_train_poly) # Faz previsões para os dados de treinamento polinomiais
    y_test_pred = model.predict(X_test_poly) # Faz previsões para os dados de teste polinomiais

    train_errors.append(mean_squared_error(y_train, y_train_pred)) # Calcula e armazena o MSE para os dados de treinamento
    test_errors.append(mean_squared_error(y_test, y_test_pred)) # Calcula e armazena o MSE para os dados de teste
    flexibility.append(degree) # Adiciona o grau do polinômio à lista de flexibilidade

plt.plot(flexibility, train_errors, label='Training MSE', color='gray', marker='o') # Plota o MSE de treinamento em função do grau do polinômio
plt.plot(flexibility, test_errors, label='Test MSE', color='red', marker='o') # Plota o MSE de teste em função do grau do polinômio
plt.xlabel('Flexibility (Polynomial Degree)') # Define o rótulo do eixo x como 'Flexibility (Polynomial Degree)'
plt.ylabel('Error') # Define o rótulo do eixo y como 'Error'
plt.title('Bias-Variance Tradeoff') # Define o título do gráfico como 'Bias-Variance Tradeoff'
plt.xticks(flexibility)  # Define os valores do eixo x com os graus dos polinômios
plt.legend() # Adiciona a legenda ao gráfico
plt.grid(True, which='both', linestyle='--', linewidth=0.5) # Adiciona uma grade ao gráfico com linhas tracejadas
plt.show() # Exibe o gráfico com todos os elementos plotados

## 7. Conclusion

In this notebook, we explored the concepts of bias and variance and demonstrated how they affect the performance of machine learning models. We trained linear and polynomial regression models on synthetic data and visualized the bias-variance tradeoff.

Understanding and managing the bias-variance tradeoff is crucial for building models that generalize well to new, unseen data. By balancing bias and variance, we can achieve better performance and more reliable predictions.