<a href="https://colab.research.google.com/github/lboccato86/EA614/blob/master/solucao/roteiro_atividade_03_v2_EA991_1s2025.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Atividade 03 - Regressão

Nesta atividade, vamos aplicar um conjunto de modelos de regressão ao problema de prever o número de passageiros.

Para isso, podemos utilizar o *dataset* disponível no Kaggle: https://www.kaggle.com/datasets/yasserh/air-passengers-forecast-dataset

![](https://raw.githubusercontent.com/Masterx-AI/Project_Forecasting_Air_Passengers__/main/ap.jpg)

Este *dataset* é formado por uma série temporal. O objetivo será o de utilizar o problema de regressão para realizar uma predição futura.

Se desejar usar um dataset ainda mais desafiador, alternativamente, é possível utilizar o *dataset* do Kaggle: https://www.kaggle.com/datasets/yyxian/u-s-airline-traffic-data

Esses dados usam valores de 2003 a 2023, sofrendo efeitos da pandemia, que podem ser mais difíceis de modelar. Nesse caso, é necessário fazer o download do *dataset* e ajustar o código a seguir, que carrega o primeiro *dataset*.


In [None]:
""" Importando os pacotes necessários """

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

## Preâmbulo: Carregando o *dataset* (arquivo .csv) para o Drive



In [None]:
""" Carregando o dataset do Github para trabalhar autonomamente no Colab """

import requests
from pathlib import Path

# Caminho para a pasta que conterá o dataset
data_path = Path("data/")

# Se o diretório ainda não existe, criamos e baixamos o dataset
if data_path.is_dir():
    print(f"O diretório {data_path} já existe")
else:
    print(f"Diretório {data_path} não localizado, criando um ...")
    data_path.mkdir(parents=True, exist_ok=True)

    with open(data_path / "airline-passengers.csv", "wb") as f:
        request = requests.get("https://github.com/EA991-Lab/utils/raw/main/data/airline-passengers.csv")
        print("Baixando os dados ...")
        f.write(request.content)

Com isso, o arquivo de dados estará disponível no Drive para uso através do caminho "data/airline-passengers.csv".


## Parte 1: Conhecendo o *dataset* e os detalhes do problema

a) Faça uma breve descrição do *dataset*, apontando quantidade de amostras. Faça um plot da série temporal para visualizá-la.

b) Como estamos lidando com uma série temporal e gostaríamos de realizar uma previsão de valores futuros, tanto as amostras de entrada X, quanto da saída Y fazem parte do "mesmo atributo". Nesse caso a divisão aleatória usual que separa treino e teste não pode ser aplicada. Devemos reservar apenas um trecho futuro para ser o teste, como ilustrado a seguir

![](https://miro.medium.com/v2/resize:fit:828/format:webp/1*_wlOp86EnmpOd2k_kGbnNA.png)

Com base nisso, faça a divisão de amostras em conjunto de treino e de teste. Se desejar, veja o pacote https://www.sktime.net/en/v0.19.2/api_reference/auto_generated/sktime.forecasting.model_selection.temporal_train_test_split.html

c) Além disso, gostaríamos de utilizar um janelamento do dado de forma que, dado *n* valores passados, gostaríamos de prever o valor seguinte. Nesse sentido, as amostras devem ser organizadas conforme o exemplo a seguir:

![](https://miro.medium.com/v2/resize:fit:828/format:webp/1*KsvjYITIbT1zxY6fdhi3Bg.png)

O janelamento pode ser feito utilizando bibliotecas (veja por exemplo https://www.sktime.net/en/v0.20.0/api_reference/auto_generated/sktime.forecasting.model_selection.SlidingWindowSplitter.html) ou implementado a partir dos comandos básicos em Python. Atente-se apenas ao fato de que o tamanho da janela será um hiperparâmetro.

Aplique o janelamento (janelas de tamanho *n*) no conjunto de treino e de teste.

d) Se necessário, crie um conjunto de validação e normalize os dados.

## Parte 2: Treinamento e avaliação da regressão linear

e) Aplique os modelos:
- Regressão Linear (https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html)  
- Ridge Regression variando alpha (https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Ridge.html)
- Lasso Regression variando alpha (https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Lasso.html)
- ElasticNet variando alpha e l1_ratio (https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.ElasticNet.html)
  
  

Selecione o modelo com os melhores hiperparâmetros e obtenha o desempenho no conjunto de teste em termos do MSE, RMSE e R². Comente qual foi o modelo com melhor desempenho.


## Parte 3: Treinamento e avaliação do KNN

https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsRegressor.html

f) Mostre em um gráfico a variação da mesma métrica de desempenho no conjunto de validação em função do número de vizinhos ($k$). Comente.

g) Descreva sucintamente a metodologia empregada e apresente os resultados obtidos no conjunto de teste pela melhor configuração do modelo, incluindo: MSE, RMSE e R².


## Parte 4: Treinamento e avaliação da Árvore para Regressão

https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeRegressor.html

h) Mostre o desempenho no conjunto de validação variando o critério (*criterion*) e a profundidade máxima (*max_depth*). Comente.

i) Descreva sucintamente a metodologia empregada e apresente os resultados obtidos no conjunto de teste pela melhor configuração do modelo, incluindo: MSE, RMSE e R².


## Parte 5: Treinamento e avaliação da SVR

https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVR.html

g) Apresente uma curva de variação de uma métrica de desempenho nos dados de validação em função da largura da função *kernel* considerando a opção de *kernel* Gaussiano (ou `rbf`). Comente.

h) Descreva sucintamente a metodologia empregada e apresente os resultados obtidos no conjunto de teste pela melhor configuração do modelo, incluindo: MSE, RMSE e R².

## Parte 6: Alteração no Tamanho da Janela

Use outro tamanho de janela e repita a análise dos modelos.