# Bootcamp: Construa seu Portfólio em Ciência de Dados

### Autora: Yanna Cavalcanti

### Data: August 2023

---

## Projeto: Previsão de Demanda de Produtos para Empresa de Manufatura Global

#### Indústria e mercado

Este projeto está inserido na indústria de manufatura e logística, com foco em demanda de produtos. Pode se enquadrar em diversos setores e possuem diversos exemplos no Brasil. Aqui destacamos Whirpool (dona da Brastemp e Consul), Eletrolux, LG, Samsung, dentre outras.

#### Contexto

Como cientista de dados, você foi contratado por uma empresa de manufatura com operações globais. A empresa fornece uma variedade de produtos em várias categorias e possui quatro centros de distribuição principais para atender diferentes regiões. Devido à diversidade de locais de fabricação ao redor do mundo, o processo de envio de produtos da fábrica para os centros de distribuição pode levar mais de um mês. A empresa busca melhorar suas previsões de demanda para os próximos meses nos diferentes centros de distribuição, com o objetivo de otimizar o planejamento e a logística de distribuição.

#### Objetivo
Seu objetivo é desenvolver um modelo de previsão (ou *forecasting*) de demanda que permita à empresa estimar a demanda mensal de produtos com precisão para os próximos 12 meses. O foco está em prever a demanda de cada produto **nos diferentes centros de distribuição**. A empresa acredita que previsões precisas podem trazer diversos benefícios, incluindo otimização de estoque, planejamento de produção mais eficiente e redução de custos operacionais.

Uma vez que os dados podem ser muito ruidosos e de baixa qualidade, você vai testar dois tipos de abordagem para a solução desse problema:

* 1) Previsão do total de produtos para todos os centros e distribuição proporcional dessa previsão geral por centro: nessa abordagem, tentamos reduzir o ruído através da agregação, mas podemos perder informação granular dos específicas de cada centro
* 2) Previsão com um modelo por centro: nesse caso, ganhamos em especificidade, mas estamos mais sujeitos a dados ruidosos que possam vir a comprometer o desempenho em algum centro.

Cada vez que um produto falta em um centro, a empresa avalia um custo médio de 10 USD. Cada vez que um produto sobra, o custo é de 5 USD. Basicamente, a empresa prefere prevenir a falta mais que a superproducão, já que os produtos não são perecíveis. Você vai estimar os custos de cada uma das abordagens para escolher a que proporciona menor custo para cada centro de distribuição. Esses custos incluem transporte, armazenamento, possíveis perdas de venda, segurança, avarias, etc.

#### Dataset

- **Dataset Source:** [Kaggle](https://www.kaggle.com/datasets/felixzhao/productdemandforecasting)

- **Dataset Description:**

Cada registro no banco de dados descreve a ordem de venda de um produto. Os atributos são definidos da seguinte forma:


* Product_Code: O código unico de cada produto
* Warehouse: Centro de Distibuição
* Product_Category: Categoria, ao qual o produto se refere.
* Date: A data ao qual o cliente precida do produto
* Order_Demand: Quantidade de produtos necessários


<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Bootcamp:-Construa-seu-Portfólio-em-Ciência-de-Dados" data-toc-modified-id="Bootcamp:-Construa-seu-Portfólio-em-Ciência-de-Dados-1">Bootcamp: Construa seu Portfólio em Ciência de Dados</a></span><ul class="toc-item"><li><ul class="toc-item"><li><span><a href="#Autora:-Yanna-Cavalcanti" data-toc-modified-id="Autora:-Yanna-Cavalcanti-1.0.1">Autora: Yanna Cavalcanti</a></span></li><li><span><a href="#Data:-August-2023" data-toc-modified-id="Data:-August-2023-1.0.2">Data: August 2023</a></span></li></ul></li><li><span><a href="#Projeto:-Previsão-de-Demanda-de-Produtos-para-Empresa-de-Manufatura-Global" data-toc-modified-id="Projeto:-Previsão-de-Demanda-de-Produtos-para-Empresa-de-Manufatura-Global-1.1">Projeto: Previsão de Demanda de Produtos para Empresa de Manufatura Global</a></span><ul class="toc-item"><li><ul class="toc-item"><li><span><a href="#Indústria-e-mercado" data-toc-modified-id="Indústria-e-mercado-1.1.0.1">Indústria e mercado</a></span></li><li><span><a href="#Contexto" data-toc-modified-id="Contexto-1.1.0.2">Contexto</a></span></li><li><span><a href="#Objetivo" data-toc-modified-id="Objetivo-1.1.0.3">Objetivo</a></span></li><li><span><a href="#Dataset" data-toc-modified-id="Dataset-1.1.0.4">Dataset</a></span></li></ul></li></ul></li><li><span><a href="#EDA-e-pré-processamento" data-toc-modified-id="EDA-e-pré-processamento-1.2">EDA e pré-processamento</a></span><ul class="toc-item"><li><ul class="toc-item"><li><span><a href="#Tarefa:-Obtenha-as-informações-tipo-e-quantidade-de-valores-não-nulos-por-coluna-com-.info()" data-toc-modified-id="Tarefa:-Obtenha-as-informações-tipo-e-quantidade-de-valores-não-nulos-por-coluna-com-.info()-1.2.0.1"><strong>Tarefa</strong>: Obtenha as informações tipo e quantidade de valores não-nulos por coluna com .info()</a></span></li><li><span><a href="#Tarefa:-Conte-quantos-NaNs-há-por-coluna-com-.isna().sum()" data-toc-modified-id="Tarefa:-Conte-quantos-NaNs-há-por-coluna-com-.isna().sum()-1.2.0.2"><strong>Tarefa</strong>: Conte quantos NaNs há por coluna com .isna().sum()</a></span></li><li><span><a href="#Pergunta:-Qual-é-o-resumo-da-situação-dos-dados-que-temos?" data-toc-modified-id="Pergunta:-Qual-é-o-resumo-da-situação-dos-dados-que-temos?-1.2.0.3"><strong>Pergunta</strong>: Qual é o resumo da situação dos dados que temos?</a></span></li><li><span><a href="#Resposta:" data-toc-modified-id="Resposta:-1.2.0.4"><strong>Resposta</strong>:</a></span></li><li><span><a href="#Pergunta:-Todas-as-variáveis-estão-correspondento-ao-seu-melhor-tipo?-Muitas-figuram-como-object.-Há-alguma-que-precisa-ser-modificada?" data-toc-modified-id="Pergunta:-Todas-as-variáveis-estão-correspondento-ao-seu-melhor-tipo?-Muitas-figuram-como-object.-Há-alguma-que-precisa-ser-modificada?-1.2.0.5"><strong>Pergunta</strong>: Todas as variáveis estão correspondento ao seu melhor tipo? Muitas figuram como object. Há alguma que precisa ser modificada?</a></span></li><li><span><a href="#Resposta:" data-toc-modified-id="Resposta:-1.2.0.6"><strong>Resposta</strong>:</a></span></li><li><span><a href="#Tarefa-Selecione-as-variáveis-Date,--Order_Demand-e-Warehouse" data-toc-modified-id="Tarefa-Selecione-as-variáveis-Date,--Order_Demand-e-Warehouse-1.2.0.7"><strong>Tarefa</strong> Selecione as variáveis Date,  Order_Demand e Warehouse</a></span></li><li><span><a href="#Tarefa:-Converta-a-variável-Date-para-datetime64-usando-a-função-do-pandas-.to_datetime()." data-toc-modified-id="Tarefa:-Converta-a-variável-Date-para-datetime64-usando-a-função-do-pandas-.to_datetime().-1.2.0.8"><strong>Tarefa:</strong> Converta a variável Date para <em>datetime64</em> usando a função do pandas <em>.to_datetime()</em>.</a></span></li><li><span><a href="#Tarefa:-Aplique-a-função-de-conversão-pd.to_numeric()-com-a-opção-*errors='raise'-para-a-variável-Order_Demand." data-toc-modified-id="Tarefa:-Aplique-a-função-de-conversão-pd.to_numeric()-com-a-opção-*errors='raise'-para-a-variável-Order_Demand.-1.2.0.9"><strong>Tarefa:</strong> Aplique a função de conversão <em>pd.to_numeric() com a opção *errors='raise'</em> para a variável Order_Demand.</a></span></li><li><span><a href="#Pergunta:-O-que-aconteceu?-Houve-algum-erro-reportado?" data-toc-modified-id="Pergunta:-O-que-aconteceu?-Houve-algum-erro-reportado?-1.2.0.10"><strong>Pergunta</strong>: O que aconteceu? Houve algum erro reportado?</a></span></li><li><span><a href="#Tarefa:-Visualize-a-posição-descrita-no-codigo-do-erro-no-dataset-utilizando-a-função-iloc[]" data-toc-modified-id="Tarefa:-Visualize-a-posição-descrita-no-codigo-do-erro-no-dataset-utilizando-a-função-iloc[]-1.2.0.11"><strong>Tarefa:</strong> Visualize a posição descrita no codigo do erro no dataset utilizando a função <em>iloc[]</em></a></span></li><li><span><a href="#Tarefa:-Vamos-corrigir-o-aparecimento-dos-valores-entre-parêntesis-como-ex:-&quot;(1)&quot;.-Utilize-a-função-str.strip()-aplicada-a-coluna-Order_Demand-para-remover-todos-os-parênteses.-Depois-reaplique-a-função-pd.to_numeric()-como-anteriormente-para-converter-os-valores." data-toc-modified-id="Tarefa:-Vamos-corrigir-o-aparecimento-dos-valores-entre-parêntesis-como-ex:-&quot;(1)&quot;.-Utilize-a-função-str.strip()-aplicada-a-coluna-Order_Demand-para-remover-todos-os-parênteses.-Depois-reaplique-a-função-pd.to_numeric()-como-anteriormente-para-converter-os-valores.-1.2.0.12"><strong>Tarefa:</strong> Vamos corrigir o aparecimento dos valores entre parêntesis como ex: "(1)". Utilize a função <em>str.strip()</em> aplicada a coluna Order_Demand para remover todos os parênteses. Depois reaplique a função <em>pd.to_numeric()</em> como anteriormente para converter os valores.</a></span></li><li><span><a href="#Tarefa:-Visualize-uma-amostra-dos-dados-que-contenham-datas-da-coluna-Date-nulos." data-toc-modified-id="Tarefa:-Visualize-uma-amostra-dos-dados-que-contenham-datas-da-coluna-Date-nulos.-1.2.0.13"><strong>Tarefa:</strong> Visualize uma amostra dos dados que contenham datas da coluna <em>Date</em> nulos.</a></span></li><li><span><a href="#Pergunta:-Qual-é-a-proporção-de-nulos-referente-ao-total-dos-dados?-Podemos-imputar-de-alguma-forma-o-valor-dos-nulos?" data-toc-modified-id="Pergunta:-Qual-é-a-proporção-de-nulos-referente-ao-total-dos-dados?-Podemos-imputar-de-alguma-forma-o-valor-dos-nulos?-1.2.0.14"><strong>Pergunta</strong>: Qual é a proporção de nulos referente ao total dos dados? Podemos imputar de alguma forma o valor dos nulos?</a></span></li><li><span><a href="#Resposta:" data-toc-modified-id="Resposta:-1.2.0.15"><strong>Resposta</strong>:</a></span></li><li><span><a href="#Tarefa:-Remova-do-dataset-todas-as-amostras-que-contenham-nulos-na-coluna-Date" data-toc-modified-id="Tarefa:-Remova-do-dataset-todas-as-amostras-que-contenham-nulos-na-coluna-Date-1.2.0.16"><strong>Tarefa:</strong> Remova do dataset todas as amostras que contenham nulos na coluna <em>Date</em></a></span></li><li><span><a href="#Tarefa:-Vizualize-a-série-temporal-do-produto-usando-um-gráfico-de-linha." data-toc-modified-id="Tarefa:-Vizualize-a-série-temporal-do-produto-usando-um-gráfico-de-linha.-1.2.0.17"><strong>Tarefa:</strong> Vizualize a série temporal do produto usando um gráfico de linha.</a></span></li><li><span><a href="#Tarefa:-Vizualize-os-últimos-60-pontos-da-série-temporal-do-produto-usando-um-gráfico-de-linha." data-toc-modified-id="Tarefa:-Vizualize-os-últimos-60-pontos-da-série-temporal-do-produto-usando-um-gráfico-de-linha.-1.2.0.18"><strong>Tarefa:</strong> Vizualize os últimos 60 pontos da série temporal do produto usando um gráfico de linha.</a></span></li><li><span><a href="#Pergunta:-O-que-conseguimos-constatar-da-série?-Qual-é-a-frequência-mínima?-Diária?-Mensal?-Existe-alguma-granularidade-que-faça-mais-sentido?-É-necessário-fazer-alguma-agregação-temporal?" data-toc-modified-id="Pergunta:-O-que-conseguimos-constatar-da-série?-Qual-é-a-frequência-mínima?-Diária?-Mensal?-Existe-alguma-granularidade-que-faça-mais-sentido?-É-necessário-fazer-alguma-agregação-temporal?-1.2.0.19"><strong>Pergunta</strong>: O que conseguimos constatar da série? Qual é a frequência mínima? Diária? Mensal? Existe alguma granularidade que faça mais sentido? É necessário fazer alguma agregação temporal?</a></span></li><li><span><a href="#Resposta:" data-toc-modified-id="Resposta:-1.2.0.20"><strong>Resposta</strong>:</a></span></li><li><span><a href="#Tarefa:-Crie-um-dataframe-chamdo-data_m-com-a-série-temporal-re-amostrada-para-a-frequência-mensal." data-toc-modified-id="Tarefa:-Crie-um-dataframe-chamdo-data_m-com-a-série-temporal-re-amostrada-para-a-frequência-mensal.-1.2.0.21"><strong>Tarefa:</strong> Crie um dataframe chamdo data_m com a série temporal re-amostrada para a frequência mensal.</a></span></li><li><span><a href="#Tarefa:-Vizualize-a-série-temporal-do-produto-usando-um-gráfico-de-linha." data-toc-modified-id="Tarefa:-Vizualize-a-série-temporal-do-produto-usando-um-gráfico-de-linha.-1.2.0.22"><strong>Tarefa:</strong> Vizualize a série temporal do produto usando um gráfico de linha.</a></span></li><li><span><a href="#Pergunta:-O-que-conseguimos-constatar-da-série?-A-frequência-escolhida-é-aderente?-Existe-algum-padrão-visível?" data-toc-modified-id="Pergunta:-O-que-conseguimos-constatar-da-série?-A-frequência-escolhida-é-aderente?-Existe-algum-padrão-visível?-1.2.0.23"><strong>Pergunta</strong>: O que conseguimos constatar da série? A frequência escolhida é aderente? Existe algum padrão visível?</a></span></li><li><span><a href="#Resposta" data-toc-modified-id="Resposta-1.2.0.24"><strong>Resposta</strong></a></span></li><li><span><a href="#Tarefa:-Filtre-a-série-temporal-para-que-o-ultimo-ponto-corresponda-ao-mes-de-Dezembro-de-2016-e-o-primeiro-ponto-não-seja-inferior-a-Janeiro-de-2012-e-visualize-a-série." data-toc-modified-id="Tarefa:-Filtre-a-série-temporal-para-que-o-ultimo-ponto-corresponda-ao-mes-de-Dezembro-de-2016-e-o-primeiro-ponto-não-seja-inferior-a-Janeiro-de-2012-e-visualize-a-série.-1.2.0.25"><strong>Tarefa:</strong> Filtre a série temporal para que o ultimo ponto corresponda ao mes de Dezembro de 2016 e o primeiro ponto não seja inferior a Janeiro de 2012 e visualize a série.</a></span></li></ul></li><li><span><a href="#Decomposição-de-Séries-Temporais" data-toc-modified-id="Decomposição-de-Séries-Temporais-1.2.1">Decomposição de Séries Temporais</a></span><ul class="toc-item"><li><span><a href="#Principais-Elementos-da-Decomposição-de-Séries-Temporais" data-toc-modified-id="Principais-Elementos-da-Decomposição-de-Séries-Temporais-1.2.1.1">Principais Elementos da Decomposição de Séries Temporais</a></span></li><li><span><a href="#Tipos-de-Séries-Temporais:-Aditivas-e-Multiplicativas" data-toc-modified-id="Tipos-de-Séries-Temporais:-Aditivas-e-Multiplicativas-1.2.1.2">Tipos de Séries Temporais: Aditivas e Multiplicativas</a></span></li><li><span><a href="#Tarefa:-Importe-a-função-[seasonal_decompose()]" data-toc-modified-id="Tarefa:-Importe-a-função-[seasonal_decompose()]-1.2.1.3"><strong>Tarefa:</strong> Importe a função [<em>seasonal_decompose()</em>]</a></span></li><li><span><a href="#Tarefa:-Realize-a-decomposição-da-série-temporal-utilizando-a-função-seasonal_decompose()-da-biblioteca-statsmodels-e-visualize-os-gráficos." data-toc-modified-id="Tarefa:-Realize-a-decomposição-da-série-temporal-utilizando-a-função-seasonal_decompose()-da-biblioteca-statsmodels-e-visualize-os-gráficos.-1.2.1.4"><strong>Tarefa:</strong> Realize a decomposição da série temporal utilizando a função <a href="https://www.statsmodels.org/stable/generated/statsmodels.tsa.seasonal.seasonal_decompose.html" rel="nofollow" target="_blank"><em>seasonal_decompose()</em></a> da biblioteca statsmodels e visualize os gráficos.</a></span></li><li><span><a href="#Pergunta:-O-que-podemos-ver-nessas-curvas?" data-toc-modified-id="Pergunta:-O-que-podemos-ver-nessas-curvas?-1.2.1.5"><strong>Pergunta</strong>: O que podemos ver nessas curvas?</a></span></li><li><span><a href="#Resposta:" data-toc-modified-id="Resposta:-1.2.1.6"><strong>Resposta</strong>:</a></span></li></ul></li><li><span><a href="#A-Importância-das-Curvas-de-Autocorrelação-e-Autocorrelação-Parcial-no-Estudo-de-Séries-Temporais" data-toc-modified-id="A-Importância-das-Curvas-de-Autocorrelação-e-Autocorrelação-Parcial-no-Estudo-de-Séries-Temporais-1.2.2">A Importância das Curvas de Autocorrelação e Autocorrelação Parcial no Estudo de Séries Temporais</a></span><ul class="toc-item"><li><span><a href="#Autocorrelação-(ACF):" data-toc-modified-id="Autocorrelação-(ACF):-1.2.2.1">Autocorrelação (ACF):</a></span></li><li><span><a href="#Autocorrelação-Parcial-(PACF):" data-toc-modified-id="Autocorrelação-Parcial-(PACF):-1.2.2.2">Autocorrelação Parcial (PACF):</a></span></li><li><span><a href="#Tarefa:-Visualize-as-funções-de-autocorrelação-e-autocorrelação-parcial-utilizando-a-biblioteca-statsplot-e-as-funções-plot_acf()-e-plot_pacf()" data-toc-modified-id="Tarefa:-Visualize-as-funções-de-autocorrelação-e-autocorrelação-parcial-utilizando-a-biblioteca-statsplot-e-as-funções-plot_acf()-e-plot_pacf()-1.2.2.3"><strong>Tarefa:</strong> Visualize as funções de autocorrelação e autocorrelação parcial utilizando a biblioteca statsplot e as funções <a href="https://www.statsmodels.org/dev/generated/statsmodels.tsa.stattools.acf.html" rel="nofollow" target="_blank">plot_acf()</a> e <a href="https://www.statsmodels.org/dev/generated/statsmodels.tsa.stattools.pacf.html" rel="nofollow" target="_blank">plot_pacf()</a></a></span></li><li><span><a href="#Pergunta:-O-que-podemos-interpretar-com-essas-curvas?" data-toc-modified-id="Pergunta:-O-que-podemos-interpretar-com-essas-curvas?-1.2.2.4"><strong>Pergunta</strong>: O que podemos interpretar com essas curvas?</a></span></li><li><span><a href="#Resposta:" data-toc-modified-id="Resposta:-1.2.2.5"><strong>Resposta</strong>:</a></span></li></ul></li></ul></li><li><span><a href="#Previsão-da-demanda-total" data-toc-modified-id="Previsão-da-demanda-total-1.3">Previsão da demanda total</a></span><ul class="toc-item"><li><ul class="toc-item"><li><span><a href="#Tarefa:-Crie-um-objeto-TimeSeries-utilizando-a-função-.from_dataframe()-da-biblioteca-darts.TimeSeries-para-ler-o-dataframe-com-nossa-série-temporal" data-toc-modified-id="Tarefa:-Crie-um-objeto-TimeSeries-utilizando-a-função-.from_dataframe()-da-biblioteca-darts.TimeSeries-para-ler-o-dataframe-com-nossa-série-temporal-1.3.0.1"><strong>Tarefa:</strong> Crie um objeto <em>TimeSeries</em> utilizando a função <a href="https://unit8co.github.io/darts/generated_api/darts.timeseries.html" rel="nofollow" target="_blank"><em>.from_dataframe()</em></a> da biblioteca darts.TimeSeries para ler o dataframe com nossa série temporal</a></span></li><li><span><a href="#Tarefa:-Separe-um-conjunto-de-dados-com-12-meses-atuais-para-teste-e-o-resto-para-treino." data-toc-modified-id="Tarefa:-Separe-um-conjunto-de-dados-com-12-meses-atuais-para-teste-e-o-resto-para-treino.-1.3.0.2"><strong>Tarefa:</strong> Separe um conjunto de dados com 12 meses atuais para teste e o resto para treino.</a></span></li></ul></li><li><span><a href="#Modelos-para-Séries-Temporais" data-toc-modified-id="Modelos-para-Séries-Temporais-1.3.1">Modelos para Séries Temporais</a></span><ul class="toc-item"><li><span><a href="#Modelos-de-Previsão-Baseados-em-Séries-Temporais:" data-toc-modified-id="Modelos-de-Previsão-Baseados-em-Séries-Temporais:-1.3.1.1">Modelos de Previsão Baseados em Séries Temporais:</a></span></li><li><span><a href="#Modelos-de-Previsão-Baseados-em-Regressão:" data-toc-modified-id="Modelos-de-Previsão-Baseados-em-Regressão:-1.3.1.2">Modelos de Previsão Baseados em Regressão:</a></span></li><li><span><a href="#Tarefa:-Selecione-5-modelos-para-o-treinamento-utilizando-a-biblioteca-Darts:-ExponentialSmoothing,-AutoArima,-Prophet-e-LightGBMModel." data-toc-modified-id="Tarefa:-Selecione-5-modelos-para-o-treinamento-utilizando-a-biblioteca-Darts:-ExponentialSmoothing,-AutoArima,-Prophet-e-LightGBMModel.-1.3.1.3"><strong>Tarefa:</strong> Selecione 5 modelos para o treinamento utilizando a biblioteca <a href="https://unit8co.github.io/darts/generated_api/darts.models.forecasting.html" rel="nofollow" target="_blank">Darts</a>: ExponentialSmoothing, AutoArima, Prophet e LightGBMModel.</a></span></li></ul></li><li><span><a href="#Validação-cruzada-em-séries-temporais" data-toc-modified-id="Validação-cruzada-em-séries-temporais-1.3.2">Validação cruzada em séries temporais</a></span></li><li><span><a href="#Avaliando-a-Precisão-das-Previsões" data-toc-modified-id="Avaliando-a-Precisão-das-Previsões-1.3.3">Avaliando a Precisão das Previsões</a></span><ul class="toc-item"><li><span><a href="#Erro-Percentual-Absoluto-Médio-(MAPE---Mean-Absolute-Percentage-Error):" data-toc-modified-id="Erro-Percentual-Absoluto-Médio-(MAPE---Mean-Absolute-Percentage-Error):-1.3.3.1">Erro Percentual Absoluto Médio (MAPE - Mean Absolute Percentage Error):</a></span></li><li><span><a href="#Tarefa:-Realize-a-validação-cruzada-para-cada-um-dos-modelos-utilizando-a-função-.backtest()-da-biblioteca-Darts-passando-o-dado-de-treinamento-que-separamos-e-com-horizonte-de-forecast-de-12-meses-e-com-métrica-sendo-MAPE-e-veja-qual-é-o-modelo-que-tem-melhor-performance-nos-dados." data-toc-modified-id="Tarefa:-Realize-a-validação-cruzada-para-cada-um-dos-modelos-utilizando-a-função-.backtest()-da-biblioteca-Darts-passando-o-dado-de-treinamento-que-separamos-e-com-horizonte-de-forecast-de-12-meses-e-com-métrica-sendo-MAPE-e-veja-qual-é-o-modelo-que-tem-melhor-performance-nos-dados.-1.3.3.2"><strong>Tarefa:</strong> Realize a validação cruzada para cada um dos modelos utilizando a função <a href="https://unit8co.github.io/darts/quickstart/00-quickstart.html#Backtesting:-simulate-historical-forecasting" rel="nofollow" target="_blank">.backtest()</a> da biblioteca Darts passando o dado de treinamento que separamos e com horizonte de forecast de 12 meses e com métrica sendo MAPE e veja qual é o modelo que tem melhor performance nos dados.</a></span></li><li><span><a href="#Tarefa:-Ajuste-(fit)-o-modelo-que-melhor-performou-no-backtest-nos-dados-de-treino-utilizando-a-função-.fit()-da-biblioteca-darts-e-realize-a-previsão-dos-proximos-12-meses-utilizando-a-função-.predict()-passando-como-parâmetro-o-numero-de-observações-futuras-que-queremos-prever-(aqui-12)." data-toc-modified-id="Tarefa:-Ajuste-(fit)-o-modelo-que-melhor-performou-no-backtest-nos-dados-de-treino-utilizando-a-função-.fit()-da-biblioteca-darts-e-realize-a-previsão-dos-proximos-12-meses-utilizando-a-função-.predict()-passando-como-parâmetro-o-numero-de-observações-futuras-que-queremos-prever-(aqui-12).-1.3.3.3"><strong>Tarefa:</strong> Ajuste (fit) o modelo que melhor performou no backtest nos dados de treino utilizando a função <em>.fit()</em> da biblioteca darts e realize a previsão dos proximos 12 meses utilizando a função <em>.predict()</em> passando como parâmetro o numero de observações futuras que queremos prever (aqui 12).</a></span></li><li><span><a href="#Tarefa:-Visualize-na-mesma-figura-a-série-temporal-completa-e-a-previsão-utilizando-para-cada-um-a-função-.plot()." data-toc-modified-id="Tarefa:-Visualize-na-mesma-figura-a-série-temporal-completa-e-a-previsão-utilizando-para-cada-um-a-função-.plot().-1.3.3.4"><strong>Tarefa:</strong> Visualize na mesma figura a série temporal completa e a previsão utilizando para cada um a função <em>.plot()</em>.</a></span></li><li><span><a href="#Tarefa:-Visualize-na-mesma-figura-a-série-temporal-completa-e-todas-as-previsões-de-todos-os-modelos-utilizando-para-cada-um-a-função-.plot()." data-toc-modified-id="Tarefa:-Visualize-na-mesma-figura-a-série-temporal-completa-e-todas-as-previsões-de-todos-os-modelos-utilizando-para-cada-um-a-função-.plot().-1.3.3.5"><strong>Tarefa:</strong> Visualize na mesma figura a série temporal completa e todas as previsões de todos os modelos utilizando para cada um a função <em>.plot()</em>.</a></span></li></ul></li></ul></li><li><span><a href="#Previsão-de-demanda-por-centro-de-distribuição" data-toc-modified-id="Previsão-de-demanda-por-centro-de-distribuição-1.4">Previsão de demanda por centro de distribuição</a></span><ul class="toc-item"><li><ul class="toc-item"><li><span><a href="#Tarefa:-Crie-e-visualize-séries-temporais-que-represente-o-total-de-produtos-para-cada-uma-das-4-Warehouses-utilizando-a-agregação-mensal-e-onde-o-ultimo-ponto-corresponda-ao-mes-de-Dezembro-de-2016-e-o-primeiro-ponto-não-seja-inferior-a-Janeiro-de-2012." data-toc-modified-id="Tarefa:-Crie-e-visualize-séries-temporais-que-represente-o-total-de-produtos-para-cada-uma-das-4-Warehouses-utilizando-a-agregação-mensal-e-onde-o-ultimo-ponto-corresponda-ao-mes-de-Dezembro-de-2016-e-o-primeiro-ponto-não-seja-inferior-a-Janeiro-de-2012.-1.4.0.1"><strong>Tarefa:</strong> Crie e visualize séries temporais que represente o total de produtos para cada uma das 4 Warehouses utilizando a agregação mensal e onde o ultimo ponto corresponda ao mes de Dezembro de 2016 e o primeiro ponto não seja inferior a Janeiro de 2012.</a></span></li><li><span><a href="#Tarefa:-Separe-um-dataframe-para-cada-Warehouse-e-transforme-os-dataframes-em-objetos-TimeSeries-da-biblioteca-Darts-e-crie-também-os-datasets-de-treino-e-de-teste-(esse-ultimo-com-12-meses)" data-toc-modified-id="Tarefa:-Separe-um-dataframe-para-cada-Warehouse-e-transforme-os-dataframes-em-objetos-TimeSeries-da-biblioteca-Darts-e-crie-também-os-datasets-de-treino-e-de-teste-(esse-ultimo-com-12-meses)-1.4.0.2"><strong>Tarefa:</strong> Separe um dataframe para cada Warehouse e transforme os dataframes em objetos <em>TimeSeries</em> da biblioteca Darts e crie também os datasets de treino e de teste (esse ultimo com 12 meses)</a></span></li></ul></li><li><span><a href="#Previsão-de-demanda-por-centro-de-distribuição:-Abordagem-Proporcional-(Top-Down)" data-toc-modified-id="Previsão-de-demanda-por-centro-de-distribuição:-Abordagem-Proporcional-(Top-Down)-1.4.1">Previsão de demanda por centro de distribuição: Abordagem Proporcional (Top-Down)</a></span><ul class="toc-item"><li><span><a href="#Tarefa:-Para-os-dados-de-treino,-construa-um-gráfico-mostrando-o-percentual-de-demanda-de-cada-Warehouse-com-relação-à-demanda-total-por-mês" data-toc-modified-id="Tarefa:-Para-os-dados-de-treino,-construa-um-gráfico-mostrando-o-percentual-de-demanda-de-cada-Warehouse-com-relação-à-demanda-total-por-mês-1.4.1.1"><strong>Tarefa:</strong> Para os dados de treino, construa um gráfico mostrando o percentual de demanda de cada Warehouse com relação à demanda total por mês</a></span></li><li><span><a href="#Pergunta:-Esse-valor-é-constante?-Temos-alguma-tendência?-Temos-dependência-temporal-definida?-O-que-poderíamos-utilizar-para-representar-um-valor-por-série-temporal?" data-toc-modified-id="Pergunta:-Esse-valor-é-constante?-Temos-alguma-tendência?-Temos-dependência-temporal-definida?-O-que-poderíamos-utilizar-para-representar-um-valor-por-série-temporal?-1.4.1.2"><strong>Pergunta</strong>: Esse valor é constante? Temos alguma tendência? Temos dependência temporal definida? O que poderíamos utilizar para representar um valor por série temporal?</a></span></li><li><span><a href="#Resposta:" data-toc-modified-id="Resposta:-1.4.1.3"><strong>Resposta</strong>:</a></span></li><li><span><a href="#Tarefa:-Para-cada-Warehouse,-calcule-a-média-do-percentual-de-demanda-mensal-com-relação-ao-total-e-salve-esses-valores-proporcionais" data-toc-modified-id="Tarefa:-Para-cada-Warehouse,-calcule-a-média-do-percentual-de-demanda-mensal-com-relação-ao-total-e-salve-esses-valores-proporcionais-1.4.1.4"><strong>Tarefa:</strong> Para cada Warehouse, calcule a média do percentual de demanda mensal com relação ao total e salve esses valores proporcionais</a></span></li><li><span><a href="#Tarefa:-Para-cada-série-temporal-de-Warehouse,-utilizando-o-conjunto-de-teste,-calcule-o-valor-da-projeção-percentual-multiplicando-o-valor-salvo-acima-com-o-valor-previsto-do-total-para-o-conjunto-de-teste." data-toc-modified-id="Tarefa:-Para-cada-série-temporal-de-Warehouse,-utilizando-o-conjunto-de-teste,-calcule-o-valor-da-projeção-percentual-multiplicando-o-valor-salvo-acima-com-o-valor-previsto-do-total-para-o-conjunto-de-teste.-1.4.1.5"><strong>Tarefa:</strong> Para cada série temporal de Warehouse, utilizando o conjunto de teste, calcule o valor da projeção percentual multiplicando o valor salvo acima com o valor previsto do total para o conjunto de teste.</a></span></li></ul></li><li><span><a href="#Previsão-de-demanda-por-centro-de-distribuição:-Abordagem-Individual" data-toc-modified-id="Previsão-de-demanda-por-centro-de-distribuição:-Abordagem-Individual-1.4.2">Previsão de demanda por centro de distribuição: Abordagem Individual</a></span><ul class="toc-item"><li><span><a href="#Tarefa:-Utilizando-a-modelagem-similar-ao-anterior-(função-backtest),-horizonte-de-12-meses-e-start-em-len(train)-24-meses.-Descrubra,-para-cada-Warehouse,-qual-é-o-modelo-que-melhor-performou-na-cross-validação-e-qual-sua-métrica." data-toc-modified-id="Tarefa:-Utilizando-a-modelagem-similar-ao-anterior-(função-backtest),-horizonte-de-12-meses-e-start-em-len(train)-24-meses.-Descrubra,-para-cada-Warehouse,-qual-é-o-modelo-que-melhor-performou-na-cross-validação-e-qual-sua-métrica.-1.4.2.1"><strong>Tarefa:</strong> Utilizando a modelagem similar ao anterior (função backtest), horizonte de 12 meses e start em <em>len(train)-24 meses</em>. Descrubra, para cada Warehouse, qual é o modelo que melhor performou na cross-validação e qual sua métrica.</a></span></li></ul></li></ul></li><li><span><a href="#Comparando-os-modelos" data-toc-modified-id="Comparando-os-modelos-1.5">Comparando os modelos</a></span><ul class="toc-item"><li><ul class="toc-item"><li><span><a href="#Tarefa:-Para-cada-série-temporal-de-Warehouse,-calcule-os-erros-absolutos-totais-entre-o-conjunto-de-teste-e-as-predições-dos-dois-modelos.-Visualize-as-figuras-das-projeções." data-toc-modified-id="Tarefa:-Para-cada-série-temporal-de-Warehouse,-calcule-os-erros-absolutos-totais-entre-o-conjunto-de-teste-e-as-predições-dos-dois-modelos.-Visualize-as-figuras-das-projeções.-1.5.0.1"><strong>Tarefa:</strong> Para cada série temporal de Warehouse, calcule os erros absolutos totais entre o conjunto de teste e as predições dos dois modelos. Visualize as figuras das projeções.</a></span></li><li><span><a href="#Pergunta:-O-que-podemos-concluir?-Qual-das-duas-abordagens-trás-o-melhor-resultado-diante-das-métricas-de-avaliação-expostas?" data-toc-modified-id="Pergunta:-O-que-podemos-concluir?-Qual-das-duas-abordagens-trás-o-melhor-resultado-diante-das-métricas-de-avaliação-expostas?-1.5.0.2"><strong>Pergunta</strong>: O que podemos concluir? Qual das duas abordagens trás o melhor resultado diante das métricas de avaliação expostas?</a></span></li><li><span><a href="#Resposta:" data-toc-modified-id="Resposta:-1.5.0.3"><strong>Resposta</strong>:</a></span></li></ul></li><li><span><a href="#Cálculo-de-impacto-financeiro-e-escolha-do-melhor-modelo" data-toc-modified-id="Cálculo-de-impacto-financeiro-e-escolha-do-melhor-modelo-1.5.1">Cálculo de impacto financeiro e escolha do melhor modelo</a></span><ul class="toc-item"><li><span><a href="#Tarefa:-Agora-compare-os-custos-totais-para-todos-os-centros-com-o-modelo-agregado-e-os-modelos-individuais-por-centro-e-compare-os-percentualmente" data-toc-modified-id="Tarefa:-Agora-compare-os-custos-totais-para-todos-os-centros-com-o-modelo-agregado-e-os-modelos-individuais-por-centro-e-compare-os-percentualmente-1.5.1.1"><strong>Tarefa</strong>: Agora compare os custos totais para todos os centros com o modelo agregado e os modelos individuais por centro e compare-os percentualmente</a></span></li><li><span><a href="#Pergunta:-Que-modelo-é-preferível-para-cada-centro?" data-toc-modified-id="Pergunta:-Que-modelo-é-preferível-para-cada-centro?-1.5.1.2"><strong>Pergunta</strong>: Que modelo é preferível para cada centro?</a></span></li><li><span><a href="#Resposta:" data-toc-modified-id="Resposta:-1.5.1.3"><strong>Resposta</strong>:</a></span></li></ul></li></ul></li><li><span><a href="#Conclusão-e-pontos-chave" data-toc-modified-id="Conclusão-e-pontos-chave-1.6">Conclusão e pontos-chave</a></span></li></ul></li></ul></div>

Primeiro, vamos instalar a biblioteca darts, que será utilizada no case

In [1]:
!pip install u8darts &> /dev/null

## EDA e pré-processamento

Primeiro vamos checar se o dataset está na pasta importando a biblioteca "os".

In [2]:
import os 
    
os.listdir("../input/productdemandforecasting/")

['Historical Product Demand.csv']

Agora, vamos ler o dataset com "pandas".

In [3]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns


# Carregar o conjunto de dados
data_raw = pd.read_csv("../input/productdemandforecasting/Historical Product Demand.csv")



Verificando as primeiras linhas dos dados

In [None]:
data_raw.head()

#### **Tarefa**: Obtenha as informações tipo e quantidade de valores não-nulos por coluna com .info()

#### **Tarefa**: Conte quantos NaNs há por coluna com .isna().sum()

#### **Pergunta**: Qual é o resumo da situação dos dados que temos?

#### **Resposta**:


#### **Pergunta**: Todas as variáveis estão correspondento ao seu melhor tipo? Muitas figuram como object. Há alguma que precisa ser modificada?

#### **Resposta**:

#### **Tarefa** Selecione as variáveis Date,  Order_Demand e Warehouse

#### **Tarefa:** Converta a variável Date para *datetime64* usando a função do pandas *.to_datetime()*.
[pd.to_datetime()](https://pandas.pydata.org/docs/reference/api/pandas.to_datetime.html)

#### **Tarefa:** Aplique a função de conversão *pd.to_numeric() com a opção *errors='raise'* para a variável Order_Demand.

#### **Pergunta**: O que aconteceu? Houve algum erro reportado?

#### **Tarefa:** Visualize a posição descrita no codigo do erro no dataset utilizando a função *iloc[]*

#### **Tarefa:** Vamos corrigir o aparecimento dos valores entre parêntesis como ex: "(1)". Utilize a função *str.strip()* aplicada a coluna Order_Demand para remover todos os parênteses. Depois reaplique a função *pd.to_numeric()* como anteriormente para converter os valores.

#### **Tarefa:** Visualize uma amostra dos dados que contenham datas da coluna *Date* nulos.

#### **Pergunta**: Qual é a proporção de nulos referente ao total dos dados? Podemos imputar de alguma forma o valor dos nulos?

#### **Resposta**: 


#### **Tarefa:** Remova do dataset todas as amostras que contenham nulos na coluna *Date*

#### **Tarefa:** Vizualize a série temporal do produto usando um gráfico de linha.

**Dica**: Utilize a função *.set_index()* do pandas para atribuir a variável *Date* ao index do dataframe (eixo x) e use a função *.plot()* para visualizar a curva de linha.

#### **Tarefa:** Vizualize os últimos 60 pontos da série temporal do produto usando um gráfico de linha.

**Dica** Utilize as funções *.sort_index()* e *.tail(60)* do pandas de forma concatenada para ordernar o dataframe e selecionar os 60 pontos finais

#### **Pergunta**: O que conseguimos constatar da série? Qual é a frequência mínima? Diária? Mensal? Existe alguma granularidade que faça mais sentido? É necessário fazer alguma agregação temporal?

#### **Resposta**:


#### **Tarefa:** Crie um dataframe chamdo data_m com a série temporal re-amostrada para a frequência mensal.

**Dica** Utilize as [.*resample()*](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.resample.html) do pandas com a opção 'M' de Mensal e, como função de agregação, utilize a função *.sum()* de forma concatenada.

#### **Tarefa:** Vizualize a série temporal do produto usando um gráfico de linha.

#### **Pergunta**: O que conseguimos constatar da série? A frequência escolhida é aderente? Existe algum padrão visível?

#### **Resposta**


#### **Tarefa:** Filtre a série temporal para que o ultimo ponto corresponda ao mes de Dezembro de 2016 e o primeiro ponto não seja inferior a Janeiro de 2012 e visualize a série.

### Decomposição de Séries Temporais

A decomposição de séries temporais é uma técnica essencial na análise de dados sequenciais, que busca entender a estrutura subjacente dos dados, identificando os principais elementos que compõem uma série ao longo do tempo. Essa técnica é amplamente utilizada em várias áreas, incluindo economia, finanças, ciências ambientais e previsão de demanda, entre outras.

#### Principais Elementos da Decomposição de Séries Temporais

A decomposição de séries temporais busca identificar e separar os seguintes elementos que compõem a série:

##### Tendência: 

A tendência é o padrão geral da série ao longo do tempo, mostrando a direção geral do movimento dos dados. Pode ser crescente, decrescente ou estável. Identificar a tendência ajuda a entender o comportamento de longo prazo da série.

##### Sazonalidade: 

A sazonalidade representa padrões cíclicos que se repetem em intervalos regulares, geralmente associados a fatores como estações do ano, meses, semanas ou dias da semana. É importante para prever variações que ocorrem em períodos específicos.


##### Resíduos (ou Erros): 

Os resíduos são as flutuações aleatórias e não explicadas pelos componentes anteriores. Eles representam o ruído presente na série e são uma parte natural de qualquer decomposição.

![image.png](attachment:2e3b3edd-2f67-4469-9ed2-16152ad7cc51.png)

#### Tipos de Séries Temporais: Aditivas e Multiplicativas

Há dois tipos de séries temporais : aditivas e multiplicativas.

##### Séries Temporais Aditivas: 
Nesse tipo de série, as observações podem ser representadas como a soma de diferentes componentes: tendência, sazonalidade, ciclos e resíduos. O padrão da série não é afetado pela magnitude dos valores e a adição ou subtração de uma constante resultará em uma série similar, deslocada verticalmente.

##### Séries Temporais Multiplicativas: 
Nesse tipo de série, os elementos são multiplicados para formar a série. Os componentes incluem tendência, sazonalidade, ciclos e resíduos, mas a característica distintiva é que a magnitude dos valores influencia o padrão da série. Multiplicar ou dividir por uma constante altera significativamente a série.


![image.png](attachment:8edcc791-6507-4794-9c6a-2552bff60578.png)


#### **Tarefa:** Importe a função [*seasonal_decompose()*]

#### **Tarefa:** Realize a decomposição da série temporal utilizando a função [*seasonal_decompose()*](https://www.statsmodels.org/stable/generated/statsmodels.tsa.seasonal.seasonal_decompose.html) da biblioteca statsmodels e visualize os gráficos.

#### **Pergunta**: O que podemos ver nessas curvas?

#### **Resposta**:


### A Importância das Curvas de Autocorrelação e Autocorrelação Parcial no Estudo de Séries Temporais

As curvas de autocorrelação e autocorrelação parcial são ferramentas fundamentais no estudo de séries temporais. Elas nos permitem identificar padrões de correlação e dependência entre as observações ao longo do tempo, fornecendo insights valiosos sobre a estrutura dos dados e auxiliando na modelagem e previsão dessas séries. Vamos entender o conceito de cada uma delas:

#### Autocorrelação (ACF):

A [autocorrelação](https://en.wikipedia.org/wiki/Autocorrelation) é uma medida que avalia a correlação entre uma observação em uma série temporal e suas observações anteriores, com diferentes defasagens de tempo. Em outras palavras, ela mede a similaridade entre os valores passados da série e o valor atual. O resultado é uma curva de autocorrelação, que exibe os coeficientes de correlação entre a série original e suas defasagens (lags).

A curva de autocorrelação nos ajuda a identificar padrões de sazonalidade ou dependência temporal nas séries temporais. Se houver picos significativos na curva de autocorrelação em determinados lags, isso indica que há correlação positiva ou negativa entre as observações separadas por esses lags. Essas informações são cruciais para selecionar a ordem de um modelo ARIMA (Média Móvel Integrada Auto-Regressiva) e para entender o efeito de sazonalidades e tendências na série.

#### Autocorrelação Parcial (PACF):

A [autocorrelação parcial](https://en.wikipedia.org/wiki/Partial_autocorrelation_function) é uma extensão da autocorrelação que mede a correlação entre duas observações, controlando os efeitos de todas as observações intermediárias. Em outras palavras, a autocorrelação parcial exclui a correlação explicada pelas defasagens intermediárias e foca exclusivamente na relação direta entre as observações. Isso nos ajuda a identificar os lags mais relevantes para a modelagem da série, especialmente quando há influência de lags múltiplos.

A curva de autocorrelação parcial é útil para determinar a ordem do componente autoregressivo (AR) em um modelo ARIMA. Ela também ajuda a identificar cortes bruscos após certos lags, o que pode indicar que aquele lag específico é relevante para explicar a variabilidade na série.

#### **Tarefa:** Visualize as funções de autocorrelação e autocorrelação parcial utilizando a biblioteca statsplot e as funções [plot_acf()](https://www.statsmodels.org/dev/generated/statsmodels.tsa.stattools.acf.html) e [plot_pacf()](https://www.statsmodels.org/dev/generated/statsmodels.tsa.stattools.pacf.html)

#### **Pergunta**: O que podemos interpretar com essas curvas?

#### **Resposta**:


## Previsão da demanda total

Primeiro, vamos fazer a previsão considerando todos os produtos e todos os centros de distribuicão. Essa previsão será utilizada para fornecer uma estimativa de cada centro a partir de uma regra de proporcionalidade simples.

#### **Tarefa:** Crie um objeto *TimeSeries* utilizando a função [*.from_dataframe()*](https://unit8co.github.io/darts/generated_api/darts.timeseries.html) da biblioteca darts.TimeSeries para ler o dataframe com nossa série temporal

#### **Tarefa:** Separe um conjunto de dados com 12 meses atuais para teste e o resto para treino.

**Dica**: Use colchetes para separar.

### Modelos para Séries Temporais

Na busca por prever eventos futuros e tomar decisões informadas, os modelos de previsão desempenham um papel crucial. Dois dos principais tipos de modelos utilizados para esse fim são os modelos baseados em **séries temporais** e os modelos baseados em **regressão**. Ambos os enfoques têm suas próprias abordagens distintas para capturar padrões nos dados e gerar previsões precisas. Vamos explorar esses dois tipos de modelos em detalhes, considerando suas características, usos e diferenças.


#### Modelos de Previsão Baseados em Séries Temporais:
Imagine que você esteja lidando com dados que são coletados em intervalos regulares ao longo do tempo, como vendas mensais, dados climáticos diários ou preço de ações semanais. Os modelos de previsão baseados em séries temporais são especialmente eficazes nesses casos. Esses modelos levam em consideração a estrutura temporal dos dados, buscando identificar padrões, tendências sazonais e ciclos que influenciam o comportamento futuro da série.

Entre os modelos mais comuns de previsão baseados em séries temporais estão: **Média Móvel Simples**, **ARIMA**, **Suavização Exponencial** e **Prophet**.


##### Exponential Smoothing (Suavização Exponencial):

Exponential Smoothing (Suavização Exponencial) é uma técnica amplamente utilizada na análise de séries temporais para previsões e suavização de dados. Ela pertence à categoria de métodos de previsão que se baseiam em ponderações exponenciais decrescentes, onde os dados mais recentes recebem um peso maior na previsão do que os dados mais antigos. Esse método é particularmente útil quando a série temporal apresenta padrões de tendência e sazonalidade. Existem três principais versões do método de Exponential Smoothing:

-  **Exponential Smoothing Simples (SES - Simple Exponential Smoothing)**: 

Esta é a versão mais básica do método e é adequada para séries temporais que não apresentam tendências ou sazonalidade. A previsão futura é calculada como uma combinação ponderada entre a observação mais recente e a previsão anterior. A fórmula para o SES é:

$\text{Previsão}^{t+1} = \alpha * \text{Observação}^{t} + (1 - \alpha) * \text{Previsão}^{t}$

Onde $\alpha$ (alfa) é o fator de suavização que varia entre 0 e 1, determinando o peso dado à observação mais recente.

-  **Exponential Smoothing com Tendência (Holt's Exponential Smoothing)**: 

Essa versão leva em consideração a possibilidade de existência de uma tendência nos dados. Além dos termos de previsão e observação, um termo de tendência também é introduzido na fórmula. Isso permite que o método capture padrões de crescimento ou decrescimento na série temporal. A fórmula para o Exponential Smoothing com Tendência é:

$\text{Previsão}^{t+1} = \alpha * \text{Observação}^{t} + (1 - \alpha) * (\text{Previsão}^{t} + \text{Tendência}^{t})$

$\text{Tendência}^{t+1} = \beta * (\text{Previsão}^{t+1} - \text{Previsão}^{t})  + (1 - \beta) * \text{Tendência}^{t}$

Onde $\alpha$ controla a suavização da observação e $\beta$ controla a suavização da tendência.

-  **Exponential Smoothing com Tendência e Sazonalidade (Holt-Winters Exponential Smoothing)**: 

Esta é a versão mais completa do método e considera tanto a tendência quanto a sazonalidade. Além dos termos anteriores, há um termo para a componente sazonal. Isso torna essa versão adequada para séries temporais que exibem padrões sazonais recorrentes. A fórmula do Exponential Smoothing com Tendência e Sazonalidade é mais complexa e envolve a atualização de três componentes: previsão, tendência e sazonalidade.

$\text{Previsão}^{t+1} = \alpha * \text{Observação}^{t} + (1 - \alpha) * (\text{Previsão}^{t} + \text{Tendência}^{t}) + \text{Sazonalidade}^{t-m+1}$

$\text{Tendência}^{t+1} = \beta * (\text{Previsão}^{t+1} - \text{Previsão}^{t})  + (1 - \beta) * \text{Tendência}^{t}$

$\text{Sazonalidade}^{t+1} = \beta * (\text{Observação}^{t} - \text{Previsão}^{t+1})  + (1 - \gamma) * \text{Sazonalidade}^{t-m+1}$

Onde $\alpha$ controla a suavização da observação, $\beta$ controla a suavização da tendência, $\gamma$ controla a suavização da sazonalidade e m é o período sazonal (número de observações por período sazonal).


Em todas as versões, os parâmetros $\alpha$, $\beta$ e $\gamma$ (caso da suavização com sazonalidade) devem ser escolhidos de forma apropriada para cada série temporal. A seleção adequada desses parâmetros influencia significativamente na qualidade das previsões. Isso pode ser feito por meio de técnicas de otimização, como a busca pelo menor erro de previsão em um conjunto de dados históricos.


##### ARIMA e suas variações

A família de modelos ARIMA (Autoregressive Integrated Moving Average) e suas extensões, como ARMA (Autoregressive Moving Average) e SARIMA (Seasonal ARIMA), constituem um conjunto poderoso de técnicas de análise e previsão de séries temporais. Esses modelos foram desenvolvidos para capturar padrões e dependências presentes em dados sequenciais, como séries temporais financeiras, econômicas, climáticas e muitas outras. Eles são fundamentais para entender e explorar as tendências, sazonalidades e comportamentos subjacentes em uma série temporal.

A principal motivação por trás desses modelos é a capacidade de descrever o comportamento de uma série temporal por meio de relações entre seus próprios valores passados (no caso dos modelos autorregressivos - AR), os termos de erro passados (nos modelos de média móvel - MA) e, em algumas versões, combinações de ambos (nos modelos ARMA). Além disso, esses modelos podem incorporar componentes de diferenciação, seja para tornar a série estacionária (ARIMA) ou para lidar com padrões sazonais (SARIMA).

-  **Modelo AR (Autoregressive - Autorregressivo)**:
O modelo AR é usado para modelar a relação entre uma observação e seus valores passados. Ele assume que o valor atual da série temporal é uma combinação linear de seus valores anteriores, ponderados por coeficientes. A fórmula do Modelo AR(p) é:

$ X_t = \phi_1 X_{t-1} + \phi_2 X_{t-2} + \ldots + \phi_p X_{t-p} + \varepsilon_t $

Onde $X_t$ é a observação no tempo $t$, $c$ é uma constante, $\phi_{1 \cdots p}$ são os coeficientes autorregressivos e $\varepsilon_t$ é o termo de erro no tempo $t$.

-  **Modelo MA (Moving Average - Média Móvel)**:
O modelo MA é usado para modelar a relação entre uma observação e os erros passados (termos de erro). Ele assume que o valor atual da série temporal é uma combinação linear de termos de erro anteriores. A fórmula do Modelo MA(q) é:

$X_t = \mu + \theta_1 \varepsilon_{t-1} + \theta_2 \varepsilon_{t-2} + \ldots + \theta_q \varepsilon_{t-q}$

Onde $X_t$ é a observação no tempo $t$, $\mu$ é a média da série temporal, $\varepsilon_t$ é termo de erro no tempo $t$ e $\theta_{1 \cdots q}$ são os coeficientes da média móvel.

-  **Modelo ARMA (Autoregressive Moving Average - Autorregressivo de Média Móvel)**:
O modelo ARMA combina componentes autorregressivas e de média móvel em um único modelo, permitindo capturar padrões de dependência linear em valores passados e termos de erro passados. A fórmula do Modelo ARMA(p, q):

$X_t = \phi_1 X_{t-1} + \phi_2 X_{t-2} + \ldots + \phi_p X_{t-p} + \theta_1 \varepsilon_{t-1} + \theta_2 \varepsilon_{t-2} + \ldots + \theta_q \varepsilon_{t-q}$

-  **Modelo ARIMA (Autoregressive Integrated Moving Average - Autorregressivo de Média Móvel com Diferenciação)**:
O modelo ARIMA é uma extensão do modelo ARMA que também incorpora um componente de diferenciação, usado para tornar a série temporal estacionária, eliminando tendências e sazonalidade. A fórmula do Modelo ARIMA(p, d, q):

$(1 - \phi_1 B - \phi_2 B^2 - \ldots - \phi_p B^p) (1 - B)^d X_t = c + (1 + \theta_1 B + \theta_2 B^2 + \ldots + \theta_q B^q) \varepsilon_t $

Onde $B$ é o operador de diferença.

-  **Modelo SARIMA (Seasonal ARIMA - ARIMA Sazonal)**:
O modelo SARIMA é uma extensão do modelo ARIMA que também considera componentes sazonais.

$(1 - \phi_1 B - \phi_2 B^2 - \ldots - \phi_p B^p) (1 - B)^d (1 - \Phi_1 B^s - \Phi_2 B^{2s} - \ldots - \Phi_P B^{Ps}) (1 - B^s)^D X_t = c + (1 + \theta_1 B + \theta_2 B^2 + \ldots + \theta_q B^q) (1 + \Theta_1 B^s + \Theta_2 B^{2s} + \ldots + \Theta_Q B^{Qs}) \varepsilon_t$

Onde $s$ é o período sazonal.

Para todos esses modelos, a seleção adequada das ordens dos modelos (como os parâmetros $p,d,q,P,D,Q,s$) é crucial para obter previsões precisas. 

##### Prophet

O método Prophet, desenvolvido pelo Facebook, é uma abordagem eficaz para a previsão de séries temporais que se destaca por sua facilidade de uso e flexibilidade. Projetado para lidar com séries temporais que apresentam sazonalidade, feriados e mudanças abruptas nos padrões, o Prophet é amplamente adotado para previsões em áreas como marketing, finanças, economia e operações.

Suas principais Características e Componentes do Prophet são:

**Componentes Sazonais e Feriados**: permite modelar sazonalidades diárias, semanais e anuais, além de feriados que podem impactar a série temporal. Esses eventos sazonais e de feriados são modelados como componentes adicionais que contribuem para as previsões.

**Flexibilidade**: Capaz de acomodar uma variedade de séries temporais, incluindo aquelas com lacunas nos dados e valores ausentes. Também lida bem com valores extremos e mudanças repentinas nos padrões.

**Modelagem de Tendência**: Incorpora componentes de tendência tanto linear quanto não linear. Essas tendências permitem capturar mudanças graduais ou abruptas nas séries temporais.

A formula do modelo Prophet é baseada em um modelo aditivo que combina tendência, sazonalidade e efeitos de feriados para prever uma série temporal. Ele utiliza uma abordagem de decomposição, que separa a série em componentes de tendência, sazonalidade e feriados, permitindo a modelagem individual de cada parte. Sua equação geral é dada por:

$y(t)=g(t)+s(t)+h(t)+\epsilon_t$
 

Onde: $y(t)$ é o valor observado no tempo t (pode ser hora, dia, mes, etc), $g(t)$ representa a tendência, $s(t)$ representa a sazonalidade, $h(t)$ captura os efeitos de feriados e $\epsilon_t$ é o termo de erro.

#### Modelos de Previsão Baseados em Regressão:
Quando há uma relação conhecida ou suspeita entre uma variável de saída e uma ou mais variáveis de entrada, os modelos de previsão baseados em regressão são empregados. Aqui, a ideia é que essa relação, seja ela linear ou não, possa ser usada para projetar valores futuros.

Alguns exemplos de modelos baseados em regressão incluem: **Regressão Linear** e **Métodos de Ensamble (XGboost, Catboost, LightGBM, RandomForest)**, **Redes Neurais**.

#### **Tarefa:** Selecione 5 modelos para o treinamento utilizando a biblioteca [Darts](https://unit8co.github.io/darts/generated_api/darts.models.forecasting.html): ExponentialSmoothing, AutoArima, Prophet e LightGBMModel.

**AutoArima**: É uma implementação de um método de pesquisa por parâmetros do modelo SARIMA

**LightGBM**: É uma variação do método de Gradient Boosting, similar ao XGboosting


**Dica**: Para os modelos de regressão, como eles não se baseam em séries temporais, devemos criar variáveis para eles compreenderem essa dependência. A biblioteca Darts permite de forma bem fácil criar essas variáveis. Uma delas é utilizar versões retardadas da entrada, o que chamamos de *lags*. Esses *lags* podem ser melhor selecionados a partir da função de autocorrelação que vimos anteriormente. Adicione como parâmetro *lags=[-3]* ou outro que prefeir nos modelos de Regressão escolhidos (LightGBMModel e  LinearRegressionModel)

**Obs**: Voce pode adicionar outros se preferir.

### Validação cruzada em séries temporais

A validação cruzada em séries temporais tem um princípio parecido com a validacão cruzada regular. Porém, os conjuntos de treino e teste são separados utilizando o tempo, de forma que o conjunto de teste é sempre **posterior** ao conjunto de treino, sem overlaps.
Abaixo, um exemplo de backtest com refit (quando testamos em uma porção e em seguida, associamos essa porção ao treino para testar na porcão subsequente)

![image](https://joaquinamatrodrigo.github.io/skforecast/0.8.1/img/backtesting_refit.gif)


### Avaliando a Precisão das Previsões

A eficácia de um modelo de previsão é frequentemente medida por meio de métricas que avaliam o quão bem ele se ajusta aos dados observados e quão confiáveis são suas projeções para o futuro. Várias métricas são usadas para quantificar essa precisão e permitir uma avaliação objetiva do desempenho do modelo. Aqui vamos focar na seguinte:

#### Erro Percentual Absoluto Médio (MAPE - Mean Absolute Percentage Error):
O MAPE expressa o erro médio como uma porcentagem do valor real. Isso torna a métrica mais interpretável e útil para avaliar a precisão em termos relativos, especialmente quando se lida com diferentes escalas de dados.



#### **Tarefa:** Realize a validação cruzada para cada um dos modelos utilizando a função [.backtest()](https://unit8co.github.io/darts/quickstart/00-quickstart.html#Backtesting:-simulate-historical-forecasting) da biblioteca Darts passando o dado de treinamento que separamos e com horizonte de forecast de 12 meses e com métrica sendo MAPE e veja qual é o modelo que tem melhor performance nos dados.

**Dica 1**: Utilize o parâmetro *start=len(train)-24*, ou 2 anos para o inicio do teste.

**Dica 2**: Utilize o parâmetro *forecast_horizon=12* para indicar que queremos a previsão de 12 meses

**Dica 3** Utilize o parâmetro *last_points_only=False*

**Dica 4** Utilize o parâmetro *metric=mape* sendo mape importado da biblioteca darts *from darts.metrics import mape*

#### **Tarefa:** Ajuste (fit) o modelo que melhor performou no backtest nos dados de treino utilizando a função *.fit()* da biblioteca darts e realize a previsão dos proximos 12 meses utilizando a função *.predict()* passando como parâmetro o numero de observações futuras que queremos prever (aqui 12).

#### **Tarefa:** Visualize na mesma figura a série temporal completa e a previsão utilizando para cada um a função *.plot()*. 

**Dica**: *series.plot(label='data')

#### **Tarefa:** Visualize na mesma figura a série temporal completa e todas as previsões de todos os modelos utilizando para cada um a função *.plot()*. 

**Dica**: Você pode usar um loop for

## Previsão de demanda por centro de distribuição

Precisamos fazer a previsão de demanda dos centros de distribuicão (Warehouses) para entender como podemos otimizar os custos logisticos e de estocagem dos produtos. Aqui iremos prever a demanda total para cada uma das Warehouses. Utilizaremos o mesmo processo realizado para o total de produtos, mas dessa vez, com uma série temporal por centro.

#### **Tarefa:** Crie e visualize séries temporais que represente o total de produtos para cada uma das 4 Warehouses utilizando a agregação mensal e onde o ultimo ponto corresponda ao mes de Dezembro de 2016 e o primeiro ponto não seja inferior a Janeiro de 2012.

Use *.groupby()* e *.resample('M')* para a agregação mensal por centro de distribuição

#### **Tarefa:** Separe um dataframe para cada Warehouse e transforme os dataframes em objetos *TimeSeries* da biblioteca Darts e crie também os datasets de treino e de teste (esse ultimo com 12 meses)

### Previsão de demanda por centro de distribuição: Abordagem Proporcional (Top-Down)

O processo de previsão Top-Down, ou proporcionalizado, também encontrado como reconciliação hierárquica Top-Down, é uma importante ferramenta para podermos ir além do obvio. Geralmente, dados mais agrupados tendem a ter mais padrões definidos que dados menos agrupados. Isso ocorre pois, no geral, temos mais amostras para reduzir o percentual da informação do percentual de ruído. Dessa maneira, podemos nos beneficiar do potencial de projeção de um dado mais agrupado para projetar um dado mais granular.

#### **Tarefa:** Para os dados de treino, construa um gráfico mostrando o percentual de demanda de cada Warehouse com relação à demanda total por mês
**Dica**: Divida a série temporal de uma Warehouse pelo total ponto a ponto

#### **Pergunta**: Esse valor é constante? Temos alguma tendência? Temos dependência temporal definida? O que poderíamos utilizar para representar um valor por série temporal?

#### **Resposta**: 

#### **Tarefa:** Para cada Warehouse, calcule a média do percentual de demanda mensal com relação ao total e salve esses valores proporcionais

**Lembrete**: Use apenas os dados de treino para isso.
**Dica**: Você pode usar *.mean()*

#### **Tarefa:** Para cada série temporal de Warehouse, utilizando o conjunto de teste, calcule o valor da projeção percentual multiplicando o valor salvo acima com o valor previsto do total para o conjunto de teste.

**Lembrete** Use apenas os dados de teste para isso.

### Previsão de demanda por centro de distribuição: Abordagem Individual

Em oposição ao modelo Top-Down, a abordagem individual é onde fazemos projeções indivualmente e independente para cada uma das séries temporais de menor agregação. Nessa abordagem, temos como premissa que, as vezes, a relação entre a informação no baixo nível e no alto nível são bem diferentes, o que impossibilita a transferência, com exito, da informação de cima para baixo em granularidade.


#### **Tarefa:** Utilizando a modelagem similar ao anterior (função backtest), horizonte de 12 meses e start em *len(train)-24 meses*. Descrubra, para cada Warehouse, qual é o modelo que melhor performou na cross-validação e qual sua métrica.

## Comparando os modelos

Vamos comparar os modelos de série temporal individual e o modelo obtido a partir da proporção do modelo de demanda total da companhia.

#### **Tarefa:** Para cada série temporal de Warehouse, calcule os erros absolutos totais entre o conjunto de teste e as predições dos dois modelos. Visualize as figuras das projeções.

#### **Pergunta**: O que podemos concluir? Qual das duas abordagens trás o melhor resultado diante das métricas de avaliação expostas?

#### **Resposta**:

### Cálculo de impacto financeiro e escolha do melhor modelo

Para cada série temporal, você vai calcular o custo total, considerando que quando a previsão é menor que o real, o custo é de 10 USD por unidade e quando a previsão é maior que o real, o custo é de 5 USD a unidade.

#### **Tarefa**: Agora compare os custos totais para todos os centros com o modelo agregado e os modelos individuais por centro e compare-os percentualmente

#### **Pergunta**: Que modelo é preferível para cada centro?

#### **Resposta**:

## Conclusão e pontos-chave

Agora, considere que a abordagem agregada era a abordagem baseline da empresa antes de investirem nesse projeto de melhoria. O CEO não estava confiante em investir em um novo modelo, pois ele acredita no "simples e efetivo". O que você diria para ele no final deste projeto?



**Resposta**:

**Faça suas considerações finais**:
