- Introdução
- Análise geral
- Histograma
- Medidas de tendência central
- 2.1. Média
- 2.2. Mediana
- 2.3. Moda
- Medidas de dispersão
- 3.1. Variância
- 3.2. Desvio padrão
- Medidas de posição
- 4.1. Quartis
- Outliers
- Teste de normalidade
- 6.1. Histograma com linha de distribuição
- 6.2. Teste Shapiro-Wilk
- Série temporal
- Definição
- Média móvel
- Decomposição da série temporal
- Modelagem do dados
- 4.1. Normalidade e transformação
- 4.1.1. Normalidade
- 4.1.2. Transformação
- 4.2. Estacionariedade e diferenciação
- 4.2.1. Estacionariedade
- 4.2.2. Diferenciação
- 4.3. Autocorrelação
- 4.3.1. Função de autocorrelação (ACF)
- 4.3.2. Função de autocorrelação parcial (PACF)
- 4.1. Normalidade e transformação
- Modelos de série temporal
- 5.1. ARIMA (AutoRegression Integrated Moving Average)
- 5.1.1. Criação e comparação entre modelos ARIMA
- 5.2. Holt Winters
- 5.2.1 Criação do modelo Holt Winters
- 5.1. ARIMA (AutoRegression Integrated Moving Average)
- Previsão série temporal
- 6.1. ARIMA
- 6.2. Holt Winters
- Performance dos modelos
- 7.1. ARIMA
- Referências Bibliográficas
historicamente, a indústria automobilística possui um expressivo peso na economia e no desenvolvimento do país. Seja pela sua capacidade de criar demanda para uma grande cadeia de indústrias paralelas ou para gerar empregos, as montadoras sempre foram um segmento bastante valorizado no Brasil e no mundo.Dada essa importância, iremos analisar os dados da vendas de comerciais leves, também conhecidos como pequenos caminhões de carga, também conhecidos com furgões ou vans, que, segundo a definição do site icaminhões,
os comerciais leves são os veículos de carga com peso acima de 3.000 quilos a, no máximo, 7 toneladas. A presença dos furgões nos grandes centros urbanos do Brasil vem tornando-se cada vez maior por conta das crescentes restrições à circulação dos caminhões.Os dados das vendas foram coletados pela Federação Nacional da Distribuição de Veículos Automotores e mantidos/atualizados pelo banco central do Brasil (BCB), cujo link pode ser acessado por aqui, os dados de venda são referentes ao meses dos anos de 1990 até 2021, no momento que foi feita a requisição dos dados.
Medidas de dispersão são parâmetros estatísticos usados para determinar o grau de variabilidade dos dados de um conjunto de valores. A utilização desses parâmetros tornam a análise de uma amostra mais confiável, visto que as variáveis de tendência central (média, mediana, moda) muitas vezes encondem a homogeneidade ou não dos dados As medidas de dispersão mais utilizadas são variância e desvio padrão. GOUVEIA, Rosimar.
A variância é determinada pela média dos quadrados das diferenças entre cada uma das observações e a média aritmética da amostra. GOUVEIA, Rosimar.No conjunto de dados analisado, a variância foi de 271.004.287,7 unidades² no período, ou seja, a quantidade das vendas mensais do conjunto são bastante heterogêneas.
O desvio padrão é definido como a raiz quadrada da variância. Desta forma, a unidade de medida do desvio padrão será a mesma da unidade de medida dos dados, o que não acontece com a variância. GOUVEIA, Rosimar.No conjunto de dados analisado, o desvio padrão de comerciais vendidos durante o período é de 16.462 unidades, mostrando uma grande dispersão dos dados.
Metrics | Values |
---|---|
count | 384.0 |
mean | 28988.0 |
std | 16462.0 |
min | 5531.0 |
25% | 17830.0 |
50% | 24031.0 |
75% | 35933.0 |
max | 79746.0 |
1) Amplitude dos dados de venda, que é a diferença entre o valor máximo e valor mínimo, é muito grande, ocasionando uma maior variação dos dados, confirmando também através do desvio padrão.
2) O retângulo contém 50% de vendas de todo o período, juntamente com a sua mediana. Como esta está mais próxima do primeiro quartil, é correto afirmar que os dados estão são positivamente assimétricos, ou seja, as vendas estão com um comportamento de uma distribuição assimétrica positiva. Saber o tipo de distribuição dos dados é muito importante mais a frente na hora de fazer possíveis inferências estatísticas.
3) Existem muitos outliers presente no boxplot, sendo necessário averiguar o porquê desse tipo de comportamento deles.
- Por que nesses anos houveram as maiores vendas de comerciais leves?
year | count | mean | std | min | 25% | 50% | 75% | max |
---|---|---|---|---|---|---|---|---|
2011 | 8.0 | 68871.25 | 4629.76 | 64826.0 | 65165.0 | 67406.0 | 71428.25 | 78089.0 |
2012 | 9.0 | 69903.67 | 6586.35 | 63926.0 | 64524.0 | 66073.0 | 77127.00 | 79746.0 |
2013 | 10.0 | 71081.30 | 3815.98 | 65155.0 | 68999.0 | 70939.5 | 73527.75 | 77572.0 |
Agora respondendo a pergunta feita anteriormente:
data | count | mean | std | min | 25% | 50% | 75% | max |
---|---|---|---|---|---|---|---|---|
1990 | 12.0 | 10702.67 | 3346.55 | 5531.0 | 8114.25 | 11233.0 | 13208.00 | 15328.0 |
1991 | 12.0 | 10689.92 | 2460.11 | 5978.0 | 9143.00 | 10855.5 | 12243.25 | 15026.0 |
1992 | 12.0 | 10328.25 | 2285.60 | 6048.0 | 9458.75 | 11398.0 | 11641.50 | 12596.0 |
1993 | 12.0 | 14400.50 | 2067.73 | 11062.0 | 13321.50 | 14083.5 | 15099.50 | 18203.0 |
1994 | 12.0 | 17794.92 | 3152.20 | 13216.0 | 16146.00 | 17913.5 | 19203.50 | 25138.0 |
1995 | 12.0 | 19688.00 | 2684.78 | 16665.0 | 18555.25 | 18999.0 | 19775.25 | 27148.0 |
1996 | 12.0 | 22416.17 | 2695.13 | 16487.0 | 20785.75 | 22803.5 | 24926.00 | 25171.0 |
1997 | 12.0 | 24459.58 | 3316.36 | 18779.0 | 22298.75 | 25015.0 | 26642.75 | 29935.0 |
1998 | 12.0 | 20970.75 | 3005.79 | 16483.0 | 18378.00 | 20318.0 | 23567.25 | 25420.0 |
1999 | 12.0 | 14310.58 | 2762.29 | 9068.0 | 11611.50 | 15379.0 | 15776.00 | 17698.0 |
2000 | 12.0 | 17304.17 | 5133.15 | 9414.0 | 14355.50 | 18224.0 | 20084.50 | 26881.0 |
2001 | 12.0 | 22820.42 | 2304.91 | 19380.0 | 20567.75 | 22969.5 | 24301.50 | 26490.0 |
2002 | 12.0 | 20052.83 | 1996.12 | 16472.0 | 18709.50 | 20708.0 | 21206.25 | 22981.0 |
2003 | 12.0 | 17846.42 | 1663.46 | 15856.0 | 16939.00 | 17249.5 | 18237.00 | 21845.0 |
2004 | 12.0 | 18369.00 | 3111.63 | 13665.0 | 17172.25 | 18004.0 | 19962.75 | 25599.0 |
2005 | 12.0 | 20940.17 | 2652.57 | 16164.0 | 19851.50 | 21235.0 | 22193.50 | 26308.0 |
2006 | 12.0 | 22854.42 | 2888.10 | 17991.0 | 21309.75 | 22970.0 | 25148.50 | 27459.0 |
2007 | 12.0 | 30410.33 | 5987.99 | 20824.0 | 27223.25 | 30022.5 | 36262.25 | 38719.0 |
2008 | 12.0 | 39644.42 | 5142.76 | 32279.0 | 35163.50 | 39941.0 | 42994.75 | 47969.0 |
2009 | 12.0 | 44161.58 | 6207.78 | 31540.0 | 41336.75 | 46173.0 | 46905.75 | 54459.0 |
2010 | 12.0 | 56448.08 | 8680.21 | 41847.0 | 52945.25 | 57830.0 | 59929.50 | 73539.0 |
2011 | 12.0 | 64941.58 | 7396.32 | 49807.0 | 61015.50 | 65055.0 | 68756.50 | 78089.0 |
2012 | 12.0 | 66041.42 | 9071.54 | 50703.0 | 62069.75 | 64578.0 | 72657.00 | 79746.0 |
2013 | 12.0 | 68400.25 | 7347.69 | 51024.0 | 65962.75 | 70564.0 | 72857.25 | 77572.0 |
2014 | 12.0 | 44466.00 | 3610.28 | 38739.0 | 41989.75 | 44904.0 | 45935.75 | 50650.0 |
2015 | 12.0 | 29517.25 | 4470.29 | 23376.0 | 26972.75 | 29154.5 | 32399.00 | 37720.0 |
2016 | 12.0 | 24849.58 | 3429.00 | 18424.0 | 23608.00 | 25210.0 | 27184.75 | 29121.0 |
2017 | 12.0 | 26361.92 | 3783.38 | 20017.0 | 24715.25 | 26981.5 | 28518.00 | 32865.0 |
2018 | 12.0 | 30701.17 | 4109.21 | 21857.0 | 28640.25 | 31322.5 | 33146.75 | 35887.0 |
2019 | 12.0 | 33078.92 | 3571.01 | 26861.0 | 31374.50 | 34468.0 | 35637.00 | 36642.0 |
2020 | 12.0 | 27935.50 | 9218.84 | 11857.0 | 23507.00 | 28842.0 | 36708.50 | 38118.0 |
2021 | 12.0 | 34710.17 | 2970.62 | 30135.0 | 32487.25 | 35109.0 | 36685.25 | 38821.0 |
O que ficou evidente nesse gráfico foram que de 2007 a 2013 houve um crescimento muito acelerado na venda dos comerciais leves, cujo alguns motivos, como a redução da alíquota do IPI, falado anteriormente, favoreceram, e muito, nas vendas, e o ano de 2013 podemos afirmar que foi o ano dourado de vendas dos comerciais leves.
Teste de Shapiro-Wilk
Critério: Nível de significancia de 0.05 ou 5% (mais utilizado)
Se p > 0.05 (distribuição normal)
Estatística do teste: 0.8769716024398804
Valor p: 6.209090978297413e-17
Tendência → São mudanças graduais em longo prazo, podendo ser uma tendência crescente (ascendente), decrescente (descendente) ou não haver tendência.
Sazonalidade → São oscilações ascendentes e descendentes que ocorrem em um determinado período. Um exemplo disso são o número de voos durante a época de verão, onde nesse período é comum o aumento por causa das férias, festividades de final de ano, etc.
Resíduo → Apresenta movimentos ascendentes e descendentes da série após a retirada do efeito de tendência ou sazonal (sequência de variáveis aleatórias). Os resíduos tem suma importância na hora da montagem dos modelos de série temporais, já que indicam se os modelos estão bem ajustados ou não.
Existem 2 tipos de modelos de decomposição da série temporal:
-
Aditivo → Série temporal (Zt) é o resultado da soma da tendência (Tt), sazonalidade (St) e resíduo (Rt)
Zt = Tt + St + Rt
-
Multiplicativo → Série temporal (Zt) é o resultado da soma da tendência (Tt), sazonalidade (St) e resíduo (Rt)
Zt = Tt x St x Rt
Esse teste de normalidade (item 6) já foi visto anteriormente, com o teste de Shapiro-Wilk (item 6.2), juntamente com o histograma da série temporal. A diferença agora é a presença de mais uma nova ferramenta para a visualização da normalidade: gráfico QQ-plot.
-
Transformação log
A transformação mais utilizada, indicada para distribuição assimétrica positiva e variação crescente com a média, só podendo ser utilizado caso os dados da série temporal sejam somente positivos. Sua função é tirar o logaritmo de cada dado da série temporal, pode-se usar qualquer tipo de logaritmo, sendo os mais utilizados o logaritmo natural e o logaritmo na base 10.
-
Transformação exponencial
Caso a série temporal possuam dados zerados e/ou negativos, usa-se a transformação exponencial, que resume-se a tirar a raiz cúbica ou quadrada dos dados.
-
Transformação Box-Cox
Também existe a transformação Box-Cox, onde a série temporal só pode possuir valores positivos, igual a transformação utilizando log.
Teste de Shapiro-Wilk
Critério: Nível de significância de 0.05 ou 5% (mais utilizado)
Se p > 0.05 (distribuição normal)
Estatística do teste: 0.9842071533203125
Valor p: 0.0004322609747759998
Por exemplo, séries temporais com sazonalidade não são estacionárias, porque a média não é constante ao longo do tempo. Quando ocorrem mudanças repentinas na série temporal tem-se séries temporais não estacionárias explosivas (Por exemplo, crescimento de bactérias).
Existem vários testes estatísticos para determinar a estacionariedade da série temporal, como KPSS, Dickey-Fuller, Phillips-Perron, dentre outros. E para confirmar a estacionariedade, optou-se por utilizar o teste estatístico como o KPSS, por exemplo. Abaixo veremos os resultados do teste para a série temporal após transformação:
Teste de estacionariedade KPSS
H0 - Não estacionária: estatística do teste > valor crítico
HA - Estacionária: estatística do teste < valor crítico
Estatística do teste: 1.3152953918238164
Valor p: 0.01
Número de lags: 17
Valores críticos:
10% : 0.3470
5% : 0.4630
2.5% : 0.5740
1% : 0.7390
Pode-se fazer quantas diferenciações forem necessárias para obter a estacionariedade, a ressalva está em ter cuidado para que a diferenciação não afete a interdependência da série. Normalmente são feitas até 2 diferenciações para as series temporais para deixar a série temporal estacionária, chamando-as de primeira e segunda ordem, respectivamente.
A diferenciação remove os sinais de tendência e sazonalidade e reduz a variância. Abaixo veremos o resultado da série temporal após a diferenciação dos dados:
Teste de estacionariedade KPSS
H0 - Não estacionária: estatística do teste > valor crítico
HA - Estacionária: estatística do teste < valor crítico
Estatística do teste: 0.054780214818354
Valor p: 0.1
Número de lags: 17
Valores críticos:
10% : 0.3470
5% : 0.4630
2.5% : 0.5740
1% : 0.7390
A análise de autocorrelação é um pressuposto para se criar modelos de previsões, sendo que as correlações podem ser positivas, negativas ou nem existir correlação. Exemplo: As vendas de temporada das férias de verão deste ano está muito parecida com as vendas das temporadas dos últimos 5 anos.
Alguns testes para avaliação da autocorrelação são o ACF e PACF, função de autocorrelação e função de autocorrelação parcial, respectivamente.
A função de autocorrelação parcial (PACF) analisa os dados (lags) de forma (aleatória). Abaixo veremos o gráfico PACF da série temporal com 60 lags:
- Autoregressivo (AR):
Indica que a variável é regressada em seus valores anteriores. - Integrado (I):
Indica que os valores de dados foram substituídos com a diferença entre seus valores e o seus valores anteriores, também conhecido como diferenciação dos dados. - Média móvel (MA):
Indica que o erro de regressão é uma combinação linear dos termos de erro dos valores passados. Diferentemente da média móvel da série temporal, que cria uma série com a média dos dados em relação ao tempo de referência.
Para saber qual é o melhor modelo, existem algumas métricas que ajudam a comparar os modelos ARIMA com os mais variados componentes para ver qual se adequou melhor aos dados da série temporal, como o critério de informação Akaide (AIC), o critério de informação Akaide corrigido (AICc) e o critério de informação bayesiano (BIC). Sem mostrar e entrar em detalhes nas fórmulas de cada critério, o AIC e BIC são os mais utilizados para avaliar modelos ARIMA, sendo o AIC o mais utilizado. Em relação ao entendimento da métrica, quanto menor a pontuação do AIC ou BIC para aquele modelo, melhor ele é. Adiante veremos abaixo qual melhor modelo que o auto ARIMA escolheu para os dados da nossa série temporal:
Aqui vale explicar um detalhe na geração dos modelos pelo auto ARIMA. O auto ARIMA utiliza o modelo SARIMA, onde o S significa sazonalidade (seasonal), e ele possui os parâmetros (P, D, Q), representados pelo segundo parênteses.
Após escolhido o melhor modelo para a série, fazer uma avaliação do modelo. Então é necessário verificar os resíduos do modelo ARIMA criado e avaliar a sua diferenciação, distribuição normal e suas autocorrelações, tanto o ACF quanto o PACF. Primeiro, veremos o gráfico dos resíduos com o gráfico dele logo abaixo.
Teste de Shapiro-Wilk
Critério: Nível de significancia de 0.05 ou 5% (mais utilizado)
Se p > 0.05 (distribuição normal)
Estatística do teste: 0.9461087584495544
Valor p: 2.1602641897544572e-10
O algoritmo Holt-Winters é uma das técnicas de previsão mais populares para séries temporais. Apesar de existir há décadas, ele ainda é muito utilizado em aplicativos voltados para fins de detecção de anomalias e, especialmente, na previsão de tempo. Esse modelo é uma extensão do modelo de Holt (suavização exponencial dupla), desenvolvido por Winter.
A sua capacidade de previsão é simples, mas muito poderosa. Ele pode lidar com muitos padrões sazonais complicados, simplesmente encontrando o valor central e adicionando os efeitos de inclinação e sazonalidade.
Após a criação do modelo, vamos ver como ficou o gráfico dos resíduos do modelo holt.
Como podemos ver os resíduos apresentam uma certa média constante e pouco variância, podendo classificar como estacionário, o que é um ótimo sinal.
Mês | Previsão |
---|---|
2022-01 | 29514.948573 |
2022-02 | 28332.532434 |
2022-03 | 28825.908879 |
2022-04 | 25403.549854 |
2022-05 | 25970.662541 |
2022-06 | 28103.429204 |
2022-07 | 30234.319222 |
2022-08 | 30763.331739 |
2022-09 | 31169.497074 |
2022-10 | 31407.004738 |
2022-11 | 30551.534070 |
2022-12 | 31749.768442 |
Mês | Previsão |
---|---|
2022-01 | 32412.044410 |
2022-02 | 30646.213676 |
2022-03 | 35822.400243 |
2022-04 | 34268.472785 |
2022-05 | 36578.115410 |
2022-06 | 37296.518775 |
2022-07 | 39748.597617 |
2022-08 | 41920.907259 |
2022-09 | 39576.452632 |
2022-10 | 40219.229248 |
2022-11 | 38063.531715 |
2022-12 | 40885.036544 |
Mês | Venda real | Previsão |
---|---|---|
2021-01 | 31753 | 30958.297605 |
2021-02 | 30133 | 29187.646743 |
2021-03 | 35169 | 29832.958061 |
2021-04 | 36444 | 25609.860645 |
2021-05 | 32729 | 26328.451158 |
2021-06 | 36269 | 29001.528222 |
2021-07 | 38821 | 31719.617550 |
2021-08 | 38700 | 32420.722501 |
2021-09 | 33274 | 32966.889715 |
2021-10 | 30761 | 33297.392491 |
2021-11 | 35049 | 32222.728306 |
2021-12 | 37409 | 33788.423950 |
Métrica | Erro |
---|---|
MAE | 4.520,77 |
RMSE | 5.466,89 |
Mês | Venda real | Previsão |
---|---|---|
2021-01 | 31753 | 31347.600254 |
2021-02 | 30133 | 29643.080527 |
2021-03 | 35169 | 34638.996226 |
2021-04 | 36444 | 33139.359569 |
2021-05 | 32729 | 35368.257807 |
2021-06 | 36269 | 36061.483800 |
2021-07 | 38821 | 38427.414152 |
2021-08 | 38700 | 40523.141724 |
2021-09 | 33274 | 38261.327563 |
2021-10 | 30761 | 38881.474711 |
2021-11 | 35049 | 36801.584246 |
2021-12 | 37409 | 39523.819260 |
Métrica | Erro |
---|---|
MAE | 2.230,72 |
RMSE | 3.168,24 |