# Practical Work: Time Series Forecasting in Retail

## Objective:

For this practical work, students are tasked with selecting a department from a store located in one of the states provided in the [M5 Competition dataset](https://www.sciencedirect.com/science/article/pii/S0169207021001187#:~:text=The%20objective%20of%20the%20M5,the%20uncertainty%20around%20these%20forecasts), studied in class.

The M5 dataset made available by Walmart comprises 3049 items categorized under Hobbies, Foods, and Household. These categories are further divided into a total of seven departments. Specifically, the Foods category is subdivided into three distinct departments (Foods1, Foods2, and Foods3), while both the Hobbies and Household categories are each subdivided into two departments (Hobbies1, Hobbies2, Household1, and Household2). These items are available for sale across 10 stores located in three states: California (CA), Texas (TX), and Wisconsin (WI). The state of California encompasses four stores (CA1, CA2, CA3, and CA4), whereas the states of Texas and Wisconsin each have three stores (TX1, TX2, and TX3; WI1, WI2, and WI3, respectively). The dataset covers a period of 5.4 years, from 29 January 2011 to 19 June 2016, on a daily basis, totaling 1969 days.

The primary goal is to employ various time series forecasting methods, specifically from baseline models, statistical models, machine learning models, and neural forecasting models. The assessment will be based on thorough Exploratory Data Analysis (EDA), the selection of appropriate evaluation metrics for robust model comparison, and the presentation of both point forecasts and probabilistic forecasts from the best-performing model.

## Instructions:

### 1. Data Selection:
   - Choose a department from a store in one of the states available in the M5 Competition dataset.
   - Download and preprocess the time series data for analysis.

### 2. Exploratory Data Analysis (EDA):
   - Conduct a comprehensive EDA of the selected time series data.
   - Explore the patterns, trends, and seasonality present in the data.
   - Identify any anomalies that may influence forecasting.

### 3. Model Selection:
   - Select at least two forecasting methods from each of the following categories:
      - Baseline models
      - Statistical models
      - Machine learning models
      - Neural forecasting models

### 4. Model Implementation and Evaluation:
   - Implement the selected forecasting methods in Python using a Jupyter notebook.
   - Evaluate each model's performance using appropriate evaluation metrics.
   - Compare the models based on their accuracy, robustness, and ability to capture the inherent patterns in the data.

### 5. Presentation of Results:
   - Present the point forecasts generated by the best-performing model.
   - Showcase the probabilistic forecasts, illustrating the model's uncertainty in predicting future values.
   - Provide visualizations and clear explanations to support the findings.

### 6. Documentation and Code Quality:
   - Document the entire process, including data preprocessing, model implementation, and evaluation.
   - Ensure code readability, use meaningful comments, and adhere to best practices in Python programming.

## Assessment Criteria:
- **Exploratory Data Analysis (EDA):** 10 points
- **Model Selection and Implementation:** 30 points
- **Evaluation Metrics and Model Comparison:** 30 points
- **Presentation of Results:** 20 points
- **Documentation and Code Quality:** 10 points

## Submission Guidelines:
- Submit a well-documented Jupyter notebook containing all code, visualizations, and explanations.
- Include a summary of the key findings and insights gained from the forecasting exercise.

**Remember to identify all group members by name and student ID number on the first page of your Jupyter Notebook report, and ensure you clearly identify the department you are addressing within the report.**

# **EM PORTUGUÊS:**

Neste trabalho prático, os alunos devem selecionar um departamento de uma loja localizada num dos estados fornecidos no conjunto de dados da Competição M5, estudado em aula.

O conjunto de dados M5, disponibilizado pela Walmart, inclui 3049 produtos classificados nas categorias Hobbies, Foods e Household. Estas categorias estão divididas num total de sete departamentos. Especificamente, a categoria Foods está subdividida em três departamentos distintos (Foods1, Foods2 e Foods3), enquanto as categorias Hobbies e Household estão subdivididas em dois departamentos cada (Hobbies1, Hobbies2, Household1 e Household2). Estes produtos estão disponíveis para venda em 10 lojas localizadas em três estados: Califórnia (CA), Texas (TX) e Wisconsin (WI). O estado da Califórnia inclui quatro lojas (CA1, CA2, CA3 e CA4), enquanto os estados do Texas e do Wisconsin têm três lojas cada (TX1, TX2 e TX3; WI1, WI2 e WI3, respetivamente). O conjunto de dados abrange um período de 5,4 anos, de 29 de janeiro de 2011 a 19 de junho de 2016, com uma frequência diária, totalizando 1969 dias.

O objetivo principal é aplicar vários métodos de previsão de séries temporais, nomeadamente modelos de referência (baseline), modelos estatísticos, modelos de machine learning e modelos de previsão com redes neurais. A avaliação terá por base uma Análise Exploratória de Dados (EDA) completa, a escolha de métricas de avaliação adequadas para uma comparação robusta dos modelos, e a apresentação de previsões pontuais e probabilísticas do modelo com melhor desempenho.

Instruções:
1. Seleção de Dados:
Escolhe um departamento de uma loja num dos estados disponíveis no conjunto de dados da Competição M5.

Faz o download e pré-processamento dos dados da série temporal para análise.

2. Análise Exploratória de Dados (EDA):
Realiza uma EDA completa da série temporal selecionada.

Explora padrões, tendências e sazonalidades presentes nos dados.

Identifica quaisquer anomalias que possam influenciar as previsões.

3. Seleção de Modelos:
Seleciona pelo menos dois métodos de previsão de cada uma das seguintes categorias:

Modelos de referência (baseline)

Modelos estatísticos

Modelos de machine learning

Modelos de previsão com redes neurais

4. Implementação e Avaliação dos Modelos:
Implementa os métodos de previsão selecionados em Python, usando um notebook Jupyter.

Avalia o desempenho de cada modelo com métricas de avaliação adequadas.

Compara os modelos com base na sua precisão, robustez e capacidade de captar os padrões inerentes aos dados.

5. Apresentação dos Resultados:
Apresenta as previsões pontuais geradas pelo modelo com melhor desempenho.

Mostra as previsões probabilísticas, ilustrando a incerteza do modelo ao prever valores futuros.

Fornece visualizações e explicações claras para apoiar as conclusões.

6. Documentação e Qualidade do Código:
Documenta todo o processo, incluindo o pré-processamento dos dados, implementação dos modelos e avaliação.

Garante a legibilidade do código, utiliza comentários relevantes e segue boas práticas de programação em Python.

Critérios de Avaliação:
Análise Exploratória de Dados (EDA): 10 pontos

Seleção e Implementação de Modelos: 30 pontos

Métricas de Avaliação e Comparação de Modelos: 30 pontos

Apresentação dos Resultados: 20 pontos

Documentação e Qualidade do Código: 10 pontos

Diretrizes para Entrega:
Submete um notebook Jupyter bem documentado contendo todo o código, visualizações e explicações.

Inclui um resumo com as principais conclusões e insights obtidos no exercício de previsão.

Lembra-te de identificar todos os membros do grupo com nome e número de estudante na primeira página do relatório no Jupyter Notebook, e garante que o departamento escolhido está claramente identificado no relatório.