<font size="10" color="black">Séries Temporais</font>

Eduardo Chaves Ferreira

## O que será tratado no curso



Análise Temporal 



## Importação de bibliotecas usadas nos exemplos

In [None]:
'''
As bibliotecas usadas são:
random
statistic
numpy.random
scipy.stats
pandas
matplotlib
statsmodels
pandas-profiling
'''

import numpy as np
import matplotlib.pyplot as plt
import math
import random
import pandas as pd
import scipy.stats as stat

import os

path = os.environ['PATH']

if path.startswith('C'):
    IN_KAGGLE = False
else:
    IN_KAGGLE = True

## Mantendo a reprodutibilidade dos resultados

Antes da geração de números aleatórios é importante inicializar o gerador de números para que os resultados sejam os mesmos

In [None]:
# Para uso com funções da biblioteca standard (ex random.randint)
random.seed(1)
# Para uso com funções da biblioteca numpy (ex np.random.randint)
np.random.seed(1)

# Quando for passada como parâmetro a seed
random_state = 1

## Funções gerais usadas nos exemplos

In [None]:
# Permutação: possibilidades de colocação de n objetos em n posições = n!
def permutacao (n):
    return math.factorial(n)

# Arranjo: p objetos em n posições, ordem importa = n!/(n-p)!
def arranjo (n,p):
    return math.factorial(n)/math.factorial(n-p)

# Combinação: p objetos em n posições, ordem não importa = n!/(n-p)!p!
def combinacao (n,p):
    return math.factorial(n)/(math.factorial(n-p)*math.factorial(p))

# Variações possíveis havendo n slots e p possibilidades para cada um
def possibilidades(n,p):
    return p**n

<font size="6" color="red">Análise Temporal</font>

Análise de séries temporais está fora do escopo deste trabalho.

A questão aqui colocada é simplesmente a verificação se os dados coletados estão variando no tempo ou não, ou seja, se a série é estacionária.

Mais formalmente colocando, a maioria das análises feitas até o momento pressupõe que as variáveis aleatórias (amostras) sejam iid, independentes e identicamente distribuídas. Caso as variáveis coletadas sofram mudança ao longo do tempo, deixarão de ser identicamente distribuídas (oriundas da mesma distribuição), o que invalida os testes apresentados.

Vejamos um exemplo onde uma distribuição normal é afetada pela passagem do tempo:


In [None]:
mean = 0
std = 1
repeticoes=1000

rv_norm = stat.norm(loc=mean, scale=std)
populacao_norm = rv_norm.rvs(size=repeticoes, random_state=random_state)

mean_ = np.mean(populacao_norm)
std_ = np.std(populacao_norm)

print('População normal, média {}, desvio padrão {}'.format(mean_, std_))

populacao_norm += np.linspace(0.0,5*std,repeticoes)

mean_ = np.mean(populacao_norm)
std_ = np.std(populacao_norm)

print('População normal alterada, média {}, desvio padrão {}'.format(mean_, std_))

rv = norm(loc=mean_, scale=std_)

intervalo = np.linspace(mean_-3*std_,mean_+3*std_, num=50)



fig, axs = plt.subplots(1, 2, figsize=(14,6))

axs[0].plot(populacao_norm,'.')
axs[0].grid(True)
axs[0].set_title('populacao_norm')

axs[1].hist(populacao_norm, density=True, facecolor='g', alpha=0.75, bins=50)
axs[1].plot(intervalo, rv.pdf(intervalo), 'k-', label='pdf')
axs[1].grid(True)
axs[1].set_title('populacao_norm')

plt.show()

In [None]:
tamanho_serie = len(populacao_norm) 
mean_ = np.mean(populacao_norm[0:int(tamanho_serie/2)])
print('Média da primeira metade da população {}'.format(mean_))
mean_ = np.mean(populacao_norm[int(tamanho_serie/2):])
print('Média da segunda metade da população {}'.format(mean_))

O indicador de não estacionariedade e a variação da média ao longo do tempo.

Neste exemplo, tanto a simples plotagem dos dados (esquerda), como a distribuição de probabilidade (direita) dão indícios de não estacionariedade. Há testes estatísticos para verificação de estacionariedade (ex. Dickey-Fuller).

Neste caso, devem ser usadas técnicas de análise de séries temporais para eliminação da tendência temporal e, só então, fazer a análise da série estacionária resultante.

In [None]:
# Hipótese nula: não é estacionária
# p>0.05 não rejeita hipótese nula

from statsmodels.tsa.stattools import adfuller
result = adfuller(populacao_norm)
print('ADF Statistic: %f' % result[0])
print('p-value: %f' % result[1])

<font size="6" color="red">Anexo I - Funções Úteis</font>

## Gerando números aleatórios


In [None]:
# Gerando int - biblioteca python standard
print(random.randrange(100, 1000, 2))
print(random.randint(100, 1000))

# Gerando int - biblioteca numpy
print(np.random.randint(100, 1000,2))

# Gerando float - biblioteca python standard
print(random.random())
print(random.uniform(100, 1000))
print(random.normalvariate(1, 1))

# Gerando float - biblioteca numpy
print(np.random.random(5))
print(np.random.randn(5))

np.random.random_sample(size=100)

## Gerando números não aleatórios

In [None]:
print(np.linspace(0.0,1.0,11))
print(np.arange(0.0,10.0,3))
print(np.logspace(0.0,10.0,3))


## Escolha

In [None]:
# Escolha com reposição
# usando numpy np.random.choice(10,size=10,replace=True)


faces = list(range(1,7))
lancamentos = 600
pesos = [1/6,1/6,0.5/6,0.5/6,2/6,1/6]
resultados = random.choices(population=faces, weights=pesos, k=lancamentos)
#print(resultados)
for i in faces:
    print('Face {}, peso {}, vezes {}'.format(i,pesos[i-1],resultados.count(i)))

In [None]:
# Escolha sem reposição
# usando numpy np.random.choice(10,size=10,replace=False)


lista = list(range(1,7))
random.sample(population=lista, k=len(lista))


## Embaralhamento

In [None]:
# Embaralhamento
# usando numpy np.random.choices

lista = list(range(1,7))
random.shuffle(lista)
lista

<font size="6" color="red">Anexo II - Referências</font>

Tutoriais

https://www.youtube.com/watch?v=Iq9DzN6mvYA

https://machinelearningmastery.com/how-to-generate-random-numbers-in-python/

http://nbviewer.jupyter.org/url/norvig.com/ipython/Probability.ipynb

https://www.youtube.com/watch?v=KhAUfqhLakw

https://www.analyticsvidhya.com/blog/2017/09/6-probability-distributions-data-science/

https://www.datacamp.com/community/tutorials/python-statistics-data-science

https://machinelearningmastery.com/


Distribuições de probabilidade

http://blog.cloudera.com/blog/2015/12/common-probability-distributions-the-data-scientists-crib-sheet/

http://www.math.wm.edu/~leemis/chart/UDR/UDR.html

Cursos

https://courses.edx.org/courses/course-v1:UCSanDiegoX+DSE210x+1T2018/course/#block-v1:UCSanDiegoX+DSE210x+1T2018+type@chapter+block@c1c0e5a497924a40b800bf69e96b4004

Documentação bibliotecas Python

https://docs.python.org/3/library/statistics.html

https://docs.python.org/3/library/random.html

Documentação bibliotecas SciPy

https://docs.scipy.org/doc/scipy/reference/stats.html

Documentação bibliotecas NumPy

https://docs.scipy.org/doc/numpy/reference/routines.random.html

https://docs.scipy.org/doc/numpy/reference/routines.statistics.html

Dataframe

http://pandas.pydata.org/pandas-docs/version/0.13/visualization.html
