Na palestra de hoje, veremos as séries temporais e datas funcionalmente em pandas. Manipular datas e horas é bastante flexível no Pandas e, portanto, nos permite realizar mais análises, como análises de séries temporais, sobre as quais falaremos em breve. Na verdade, o pandas foi originalmente criado por Wed McKinney para lidar com dados de data e hora quando ele trabalhava como consultor de fundos de hedge.

In [2]:
import pandas as pd
import numpy as np

#Timestamp

In [3]:
# Pandas tem quatro classes principais relacionadas ao tempo. Timestamp, DatetimeIndex, Period e PeriodIndex. Primeiro,
#vamos ver o TimeStamp, ele representa um unico timeStamp e associa valores a pontos no tempo.

# Por exemplo, vamos criar um timestamp usando uma string 01/09/2019 10:05AM, e aqui temos nosso timestamp.
# Timestamp é intercambiável com o datetime do Python na maioria dos casos.
pd.Timestamp('9/1/2019 10:05AM')

Timestamp('2019-09-01 10:05:00')

In [4]:
# Também podemos criar um timestamp passando vários parâmetros como ano, mês, data, hora,
# minuto, separadamente
pd.Timestamp(2019, 12, 20, 0, 0)

Timestamp('2019-12-20 00:00:00')

In [5]:
# Timestamp também possui alguns atributos úteis, como isoweekday(), que mostra o dia da semana do timestamp
# note que 1 representa segunda-feira e 7 representa domingo
pd.Timestamp(2019, 12, 20, 0, 0).isoweekday()


5

In [6]:
# Você pode extrair o ano, mês, dia, hora, minuto, segundo específico de um carimbo de data/hora
pd.Timestamp(2019, 12, 20, 5, 2,23).second

23

# Period

In [7]:
# Suponha que não estivéssemos interessados ​​em um ponto específico no tempo e, em vez disso, queríamos um intervalo de tempo. Este é o lugar onde
# a classe Período entra em jogo. Período representa um único intervalo de tempo, como um dia ou mês específico.

# Aqui estamos criando um período que é janeiro de 2016,
pd.Period('1/2016')

Period('2016-01', 'M')

In [8]:
# Você notará quando imprimirmos que a granularidade do período é M para mês, já que essa foi a
# melhor peça granulada que fornecemos. Aqui está um exemplo de um período que é 5 de março de 2016.
pd.Period('3/5/2016')

Period('2016-03-05', 'D')

In [9]:
# Objetos de período representam o período de tempo completo que você especifica. A aritmética no período é muito fácil e
# intuitivo, por exemplo, se quisermos saber 5 meses após janeiro de 2016, simplesmente mais 5
pd.Period('1/2016') + 5

Period('2016-06', 'M')

In [10]:
# Pelo resultado, você pode ver que temos junho de 2016. Se quisermos descobrir dois dias antes de 5 de março de 2016,
# basta subtrair 2
pd.Period('3/5/2016') - 2

Period('2016-03-03', 'D')

In [11]:
# A chave aqui é que o objeto de período encapsula a granularidade para aritmética

# DatetimeIndex and PeriodIndex

In [12]:
#o index de um Timestamp é DatetimeIndex. Vejamos um exemplo rápido. Primeiro, vamos criar nosso exemplo
# série t1, usaremos TimeStamp de 1, 2 e 3 de setembro de 2016. Quando analisamos a série, cada
# Timestamp é o índice e tem um valor associado a ele, neste caso, a, b e c.
t1 = pd.Series(list('abc'), [pd.Timestamp('2016-09-01'), pd.Timestamp('2016-09-02'), 
                             pd.Timestamp('2016-09-03')])
t1

2016-09-01    a
2016-09-02    b
2016-09-03    c
dtype: object

In [13]:
#olhando seu tipo vemos que ele é um datetime index
type(t1.index)

pandas.core.indexes.datetimes.DatetimeIndex

In [14]:
#agora vamos cria um usando period index
t2 = pd.Series(list('def'), [pd.Period('2016-09'), pd.Period('2016-10'), 
                             pd.Period('2016-11')])
t2

2016-09    d
2016-10    e
2016-11    f
Freq: M, dtype: object

In [15]:
#olhando seu tipo vemos que ele é um PeriodIndex
type(t2.index)

pandas.core.indexes.period.PeriodIndex

# Converting to Datetime


In [16]:
# Agora, vamos ver como converter para Datetime. Suponha que temos uma lista de datas como strings e queremos
#cria um novo dataframe

# Vou tentar vários formatos de data diferentes
d1 = ['2 June 2013', 'Aug 29, 2014', '2015-06-26', '7/12/16']

# e mais alguns dados aleatorios 
ts3 = pd.DataFrame(np.random.randint(10, 100, (4,2)), index=d1, 
                   columns=list('ab'))
ts3

Unnamed: 0,a,b
2 June 2013,73,56
"Aug 29, 2014",26,89
2015-06-26,99,92
7/12/16,37,29


In [17]:
# Usando pandas to_datetime, os pandas tentarão convertê-los para Datetime e colocá-los em um formato padrão.
ts3.index = pd.to_datetime(ts3.index)
ts3

Unnamed: 0,a,b
2013-06-02,73,56
2014-08-29,26,89
2015-06-26,99,92
2016-07-12,37,29


In [18]:
# to_datetime também() tem opções para alterar a ordem de análise de data. Por exemplo, nós
# podemos passar o argumento dayfirst = True para analisar a data na data europeia.
pd.to_datetime('4.7.12', dayfirst=True)

Timestamp('2012-07-04 00:00:00')

# Timedelta

In [19]:
# Timedeltas são diferenças de tempos. Isso não é o mesmo que um período, mas conceitualmente semelhante. Por
# exemplo, se quisermos calcular a diferença entre 3 de setembro e 1º de setembro, obtemos um Timedelta de
# dois dias.
pd.Timestamp('9/3/2016')-pd.Timestamp('9/1/2016')

Timedelta('2 days 00:00:00')

In [20]:
# Também podemos fazer algo como encontrar a data e a hora de 12 dias e três horas após 2 de setembro,
# às 8h10.
pd.Timestamp('9/2/2016 8:10AM') + pd.Timedelta('12D 3H')

Timestamp('2016-09-14 11:10:00')

# Offset

In [21]:
#Offset é semelhante ao timedelta, mas segue regras específicas de duração do calendário. Offset permite flexibilidade
# em termos de tipos de intervalos de tempo. Além de hora, dia, semana, mês, etc também tem dia útil, final de
# mês, início do semestre etc.

# Vamos criar um timestamp e ver que dia é esse
pd.Timestamp('9/4/2016').weekday()

6

In [22]:
# Agora podemos adicionar o timestamp com uma semana de antecedência
pd.Timestamp('9/4/2016') + pd.offsets.Week()

Timestamp('2016-09-11 00:00:00')

In [23]:
# Agora vamos tentar fazer o final do mês, então teríamos o último dia de setembro
pd.Timestamp('9/4/2016') + pd.offsets.MonthEnd()

Timestamp('2016-09-30 00:00:00')

# Working with Dates in a Dataframe

In [24]:
# Em seguida, vamos ver alguns truques para trabalhar com datas em um DataFrame. Suponha que queremos olhar para nove
# medições, feitas quinzenalmente, todos os domingos, a partir de outubro de 2016. Usando date_range, podemos criar isso
# DatetimeIndex. Em data_range, temos que especificar a data inicial ou final. Se não for explicitamente
# especificado, por padrão, a data é considerada a data de início. Então temos que especificar o número de períodos, e
# uma frequência. Aqui, definimos como "2W-SUN", que significa quinzenalmente no domingo
dates = pd.date_range('10-01-2016', periods=9, freq='2W-SUN')
dates

DatetimeIndex(['2016-10-02', '2016-10-16', '2016-10-30', '2016-11-13',
               '2016-11-27', '2016-12-11', '2016-12-25', '2017-01-08',
               '2017-01-22'],
              dtype='datetime64[ns]', freq='2W-SUN')

In [25]:
# Existem muitas outras frequências que você pode especificar. Por exemplo, você pode fazer o dia útil
pd.date_range('10-01-2016', periods=9, freq='B')

DatetimeIndex(['2016-10-03', '2016-10-04', '2016-10-05', '2016-10-06',
               '2016-10-07', '2016-10-10', '2016-10-11', '2016-10-12',
               '2016-10-13'],
              dtype='datetime64[ns]', freq='B')

In [27]:
# Ou você pode fazer trimestralmente, com início do trimestre em junho
pd.date_range('04-01-2016', periods=12, freq='QS-JUN')

DatetimeIndex(['2016-06-01', '2016-09-01', '2016-12-01', '2017-03-01',
               '2017-06-01', '2017-09-01', '2017-12-01', '2018-03-01',
               '2018-06-01', '2018-09-01', '2018-12-01', '2019-03-01'],
              dtype='datetime64[ns]', freq='QS-JUN')

In [28]:

# Agora, vamos voltar ao nosso exemplo semanal no domingo e criar um DataFrame usando essas datas e algums
# dados randomicos e veja o que podemos fazer com eles.
dates = pd.date_range('10-01-2016', periods=9, freq='2W-SUN')
df = pd.DataFrame({'Count 1': 100 + np.random.randint(-5, 10, 9).cumsum(),
                  'Count 2': 120 + np.random.randint(-5, 10, 9)}, index=dates)
df

Unnamed: 0,Count 1,Count 2
2016-10-02,106,122
2016-10-16,112,117
2016-10-30,117,119
2016-11-13,121,121
2016-11-27,129,118
2016-12-11,127,117
2016-12-25,130,122
2017-01-08,128,122
2017-01-22,134,119


In [36]:
# Primeiro, podemos verificar em que dia da semana uma data específica é. Por exemplo, aqui podemos ver que todas as datas
# em nosso índice são em um domingo. Que corresponde à frequência que definimos
df.index.day_name() #anteriormente era df.index.weekday_name

Index(['Sunday', 'Sunday', 'Sunday', 'Sunday', 'Sunday', 'Sunday', 'Sunday',
       'Sunday', 'Sunday'],
      dtype='object')

In [38]:
# Também podemos usar diff() para encontrar a diferença entre o valor de cada data.
df.diff()

Unnamed: 0,Count 1,Count 2
2016-10-02,,
2016-10-16,6.0,-5.0
2016-10-30,5.0,2.0
2016-11-13,4.0,2.0
2016-11-27,8.0,-3.0
2016-12-11,-2.0,-1.0
2016-12-25,3.0,5.0
2017-01-08,-2.0,0.0
2017-01-22,6.0,-3.0


In [39]:
# Suponha que queremos saber qual é a contagem média para cada mês em nosso DataFrame. Podemos fazer isso usando
# redimensionamento. A conversão de uma frequência mais alta para uma frequência mais baixa é chamada de downsampling (falaremos sobre
# isso daqui a pouco)
df.resample('M').mean()

Unnamed: 0,Count 1,Count 2
2016-10-31,111.666667,119.333333
2016-11-30,125.0,119.5
2016-12-31,128.5,119.5
2017-01-31,131.0,120.5


In [40]:
# Agora vamos falar sobre indexação e fatiamento de data e hora, que é um recurso maravilhoso do DataFrame do pandas.
# Por exemplo, podemos usar indexação parcial de strings para encontrar valores de um determinado ano,
df['2017']

  This is separate from the ipykernel package so we can avoid doing imports until


Unnamed: 0,Count 1,Count 2
2017-01-08,128,122
2017-01-22,134,119


In [41]:
#ou de um determinado mes 
df['2016-12']

  


Unnamed: 0,Count 1,Count 2
2016-12-11,127,117
2016-12-25,130,122


In [42]:
# Ou podemos até dividir um intervalo de datas Por exemplo, aqui queremos apenas os valores de dezembro de 2016
# em diante.
df['2016-12':]

Unnamed: 0,Count 1,Count 2
2016-12-11,127,117
2016-12-25,130,122
2017-01-08,128,122
2017-01-22,134,119
