# Exploratory Data Analysis (EDA)

## Discovery do Problema

**Problema:** Um e-commerce estava recebendo diversas reclamações no SAC referentes a produtos que não estavam sendo entregues ou que apareciam como indisponível durante longos períodos de tempo

**Discovery - Stakeholders**
- Clientes: Não recebiam os produtos
- Área de negócios: Diziam que era problema sistêmico, não era possível entender quantos produtos ainda não foram entregues
- Área de tecnologia: Problema de integração já foi arrumado, o pedido apenas não era enviado pelo time de logística
- Área de logística: Tinham caminhões/carros disponíveis para entregas, o problema era de disponibilidade do produto

**Causas**
- Disponibilização de produtos no ecommerce que não tinha estoque
- Falta de previsibilidade de quais produtos precisavam ter mais estoque (raiz)

**Soluções**
- Resolver problema sistêmico de produtos disponíveis, mas sem estoque e criar maior visibilidade para o time de negócios/logística
- Otimização do estoque com base na demanda (raiz)

**Ganhos**
- Aumento do faturamento por diminuir a quantidade de compras canceladas por indisponibilidade
- Melhorar indicadores do time de logística/negócios, otimizando todo o trabalho

Base de dados retirada de: https: // www.kaggle.com/datasets/kyanyoga/sample-sales-data


In [None]:
df

## Processo Estocástico

Família de variáveis aleatórias representando a evolução de um sistema de valores com o tempo.


### Exemplos
- Sequência aleatória
- Cadeia de Markov
- Processo de Poisson
- Propagação de Epidêmia
- Ruído Branco (white-noise)
- Passeio Aleatório

### Sequência Aleatória

Considerando $\{X_n, n=1,2,...\}$ uma sequência de variáveis aleatórias no espaço $\Omega$.

Para todo $n\geq1$, podemos escrever

$$P(X_1=a_1,...,X_n=a_n) = P(X_1=a_1)P(X_2=a_2|X_1=a_1)...P(X_n=a_n|X_1=a_1,...,X_{n-1}=a_{n-1})$$

### Cadeia de Markov
![https://upload.wikimedia.org/wikipedia/commons/thumb/2/2b/Markovkate_01.svg/220px-Markovkate_01.svg.png](https://upload.wikimedia.org/wikipedia/commons/thumb/2/2b/Markovkate_01.svg/220px-Markovkate_01.svg.png)

$$P(X_{n+1} = x | X_0, X_1, X_2, ..., X_n) = P(X_{n+1} = x | X_n)$$

Probabilidade de um evento acontecer, dado um evento anterior

## Análise gráfica

### Propriedades de Séries Temporais

- **Tendência (T)**: indica o seu comportamento ao longo do tempo, ou seja, se é **crescente**, **decrescente** ou **estável**. Além disso, a tendência indica também a velocidade destas mudanças.

- **Ciclos (C)**: são  **oscilações de subida e de queda nas séries**, de forma **suave e repetida**, ao longo da componente de tendência. Os movimentos cíclicos tendem a ser irregulares.

- **Sazonalidade (S)**: são **oscilações de subida e de queda que sempre ocorrem em um determinado período do ano, do mês, da semana ou do dia**. Estes movimentos são facilmente previsíveis, ocorrendo em **intervalos regulares de tempo**.

- **Ruído Aleatório ($\epsilon$)**: ou erro no período **t** são variações irregulares ou flutuações inexplicáveis, resultado de fatos fortuitos e inesperados.

Algumas ilustrações:


<img src="https://i2.wp.com/itfeature.com/wp-content/uploads/2014/06/Component-of-Time-Series-Data.jpg?resize=661%2C599" width=600>

#### Decomposição sazonal

**Sazonalidade Multiplicativa**

## Séries Estacionárias e Não Estacionárias

<img src="https://cdn-images-1.medium.com/max/1600/1*U2m5Eq7ScLnf2kG5mnQsKQ.png" width=800>

A diferença entre uma série temporal __estacionária__ e __não estacionária__ é que para as séries estacionárias, o valor de __média__ e __variância__ da série é __constante__ ao longo do tempo, diferente do caso das 'series não estacionárias.<br><br>

<img src="https://miro.medium.com/max/2580/1*tkx0_wwQ2JT7pSlTeg4yzg.png" width=800>
<br>

Uma forma para sabermos de fato se a nossa série temporal condiz com a condição de ser estacionária, utilizaremos um teste de hipótese chamado de __Teste de Dickey-Fuller Aumentado__.

## Transformação da curva em Estacionária

**Função logarítmica**

## Transformação de Séries

Dado que a Série Temporal pode __não ser estacionária__, podemos aplicar algumas transformações que possa auxiliar na manipulação dos nosso dados e assim deixar a série o mais próxima de ser estacionária.<br><br>

[Neste Link](https://people.duke.edu/~rnau/411home.htm) da Duke University, têm-se um guia bem detalhado para os diversos passo a passo em todo o processo de _Time Series Forecasting_, inclusive sobre os tipos de transformações que podem ser feitas:

- Calcular o __log__ de todas as observações:

- Calcular a __raíz quadrada__ de todas as observações:

- Calcular a __raíz cúbica__ de todas as observações:

- Calculando as __diferenças__ entre as observações:

## Métricas Móveis

Podemos calcular algumas métricas em relação a uma janela de tempo em dias, meses e etc, de acordo com o período de tempo definido para a base de dados. Vamos calcular as métricas móveis utilizando a função `rolling`:

Forecasting

https://towardsdatascience.com/time-series-forecast-in-python-using-sarimax-and-prophet-c970e6056b5b

https://towardsdatascience.com/time-series-forecasting-with-arima-sarima-and-sarimax-ee61099e78f6