# TUTORIAL: TIME SERIES WITH PANDAS

Tutorial baseado no libro [Python for Data Analysis: 11 Time Series](https://wesmckinney.com/book/time-series)

As series temporais compoñense dun conxunto de medicións dunha variable de xeito regular ao largo dun período de tempo.  Ex: financias, economía, ecoloxía, saúde...

A maioría de series temporais ten unha frecuencia fixa, é dicir, hai unha medida de dato en intervalos regular de tempo seguindo algunha regra, como cada 15 segundos, 5 minutos, unha vez ao mes.

A forma de anotar as series temporais dependerá da aplicación, algunhas das mais comunes empregan:

- ***Timestamps*** (marca de tempo): instantes de tempo específicos
- **Períodos fixos**: por exemplo o mes enteiro de xaneiro de 2017, o ano entero de 2020.
- **Intervalos de tempo**: indicando un *timestamp* inicial e final. Períodos poden ser pensados coma un caso especial de intervalos. 
- **Experimento o tempo transcorrido**: cada *timestamp* é unha medida de tempo relativo a un inicio particular comezando desde 0.

In [1]:
import numpy as np
import pandas as pd
from datetime import datetime

A librería estándar de Python inclúe tipos de datos para *data* y *time data*, así como para a funcionalidade de calendario: ``datetime``, ``time``, ``calendar``.

In [2]:
from datetime import datetime, date, time

# datetime

now = datetime.now()
print("Exemplo de datetime: " + str(now))
print("Exemplo de ano e mes datetime : " + str(now.year) + " " + str(now.month))

# calendar
print("Exemplo de calendario (dia): " + str(date.today().day))

# time
hour = time(20, 15, 10)
print("Exemplo de h/m/s: " + str(hour))


Exemplo de datetime: 2025-02-24 16:17:00.508167
Exemplo de ano e mes datetime : 2025 2
Exemplo de calendario (dia): 24
Exemplo de h/m/s: 20:15:10


- ``datetime.timedelta``, o simplemente ``timedelta``, representa a diferenza temporal entre dous obxectos ``datetime``.
- ``datetime`` garda tanto as datas coma os tempos co precisión de microsegundos. 

In [3]:
delta = datetime(2012, 1, 7, 1) - datetime(2011, 1, 7, 0, 30)

print("Dias de diferenza " + str(delta.days))
print("Segundos de diferenza " + str(delta.seconds))

Dias de diferenza 365
Segundos de diferenza 1800


- Podedes sumar (restar) un ``timedelta`` a un obxecto ``datetime`` para producir un novo obxecto desprazado:

In [18]:
from datetime import timedelta

start = datetime(2011, 1, 7)
print(start)

new_time = start + timedelta(12)

print(new_time)


2011-01-07 00:00:00
2011-01-19 00:00:00


Tipos no módulo ``datetime``

| Type | Description|
|------|------------|
|``date`` |	Garda datas de calendario  (ano, mes, día) usando o calendario Gregoriano|
|``time`` |	Garda o tempo dun día como horas, minutos, segundos e microsegundos|
|``datetime`` |	Garda tanto datas como tempo|
|``timedelta`` | A diferenza entre dous valores ``datetime`` (como días, secundos e microsegundos)|
|``tzinfo`` | Tipo base para gardar información de fuso horario|


## Conversión entre *String* e *Datetime*

Podedes usar a función ``strftime`` para especificar o formato dunha data e convertila a ``str``.

Para realizar o caso oposto podedes usar a función ``datetime.strptime``

A seguente Tabla amosa o formato de ``datetime``:
 |Type | 	Description |
|------|------------|
|%Y |	Four-digit year|
|%y |	Two-digit year|
|%m |	Two-digit month [01, 12]|
|%d |	Two-digit day [01, 31]|
|%H |	Hour (24-hour clock) [00, 23]|
|%I |	Hour (12-hour clock) [01, 12]|
|%M |	Two-digit minute [00, 59]|
|%S |	Second [00, 61] (seconds 60, 61 account for leap seconds)|
|%f |	Microsecond as an integer, zero-padded (from 000000 to 999999)|
|%j |	Day of the year as a zero-padded integer (from 001 to 336)|
|%w |	Weekday as an integer [0 (Sunday), 6]|
|%u |	Weekday as an integer starting from 1, where 1 is Monday.|
|%U |	Week number of the year [00, 53]; Sunday is considered the first day of the week, and days before the first Sunday of the year are “week 0”|
|%W |	Week number of the year [00, 53]; Monday is considered the first day of the week, and days before the first Monday of the year are “week 0”|
|%z |	UTC time zone offset as +HHMM or -HHMM; empty if time zone naive|
|%Z |	Time zone name as a string, or empty string if no time zone|
|%F |	Shortcut for %Y-%m-%d (e.g., 2012-4-18)|
|%D | 	Shortcut for %m/%d/%y (e.g., 04/18/12)|

In [31]:
# Datetime to string
stamp = datetime(2011, 1, 3)
print(stamp)
print(stamp.strftime("Date: %Y-%m Hora %H"))

# String to Datetime

value = "2011-01-03 13-30-13"
print(datetime.strptime(value, "%Y-%m-%d %H-%M-%S"))

value = "DATA 2011-01-03 HORA 13-30-13"
print(datetime.strptime(value, "DATA %Y-%m-%d HORA %H-%M-%S"))


2011-01-03 00:00:00
Date: 2011-01 Hora 00
2011-01-03 13:30:13
2011-01-03 13:30:13


 Con ``pandas`` podedes usar a función ``pd.to_datetime`` co mesmo formato.

In [111]:

# pandas.to_datetime
datestrs = ["2011_07_06"]
d = pd.to_datetime(datestrs, format="%Y_%m_%d") #pd.DatetimeIndex
d

DatetimeIndex(['2011-07-06'], dtype='datetime64[ns]', freq=None)

## Xerando rangos de data

Con ``pandas.date_range`` podemos crear un obxecto ``pd.DatetimeIndex`` especificando unha lonxitude e unha frecuencia o simplemente unha data de inicio e de fin. 


In [None]:
range_a = pd.date_range("2012-04-01", "2012-06-01", freq="D")
print(range_a)

range_b = pd.date_range(start="2012-04-01", periods=20, freq="ME")
print(range_b)

print(range_b.year)

DatetimeIndex(['2012-04-01', '2012-04-02', '2012-04-03', '2012-04-04',
               '2012-04-05', '2012-04-06', '2012-04-07', '2012-04-08',
               '2012-04-09', '2012-04-10', '2012-04-11', '2012-04-12',
               '2012-04-13', '2012-04-14', '2012-04-15', '2012-04-16',
               '2012-04-17', '2012-04-18', '2012-04-19', '2012-04-20',
               '2012-04-21', '2012-04-22', '2012-04-23', '2012-04-24',
               '2012-04-25', '2012-04-26', '2012-04-27', '2012-04-28',
               '2012-04-29', '2012-04-30', '2012-05-01', '2012-05-02',
               '2012-05-03', '2012-05-04', '2012-05-05', '2012-05-06',
               '2012-05-07', '2012-05-08', '2012-05-09', '2012-05-10',
               '2012-05-11', '2012-05-12', '2012-05-13', '2012-05-14',
               '2012-05-15', '2012-05-16', '2012-05-17', '2012-05-18',
               '2012-05-19', '2012-05-20', '2012-05-21', '2012-05-22',
               '2012-05-23', '2012-05-24', '2012-05-25', '2012-05-26',
      

## Time Series Basics

Un tipo básico de obxecto de Serie Temporal en Pandas é unha [``pd.Series``](https://pandas.pydata.org/docs/reference/api/pandas.Series.html) indexado por *timestamps*.

``pd.Series``: é similar a un ``numpy.array`` pero co etiquetas de índice.

In [61]:
dates = [datetime(2011, 1, 2), datetime(2011, 1, 5),
         datetime(2011, 1, 7), datetime(2011, 1, 8),
         datetime(2011, 1, 10), datetime(2011, 1, 12)]

ts = pd.Series(np.random.standard_normal(6), index=dates)
 
print(ts) # pd.Series
print(ts.index) # pd.DatetimeIndex 
print(ts.values) # np.ndarray


2011-01-02   -0.252926
2011-01-05   -0.432823
2011-01-07   -1.079353
2011-01-08   -0.127091
2011-01-10    0.520076
2011-01-12    1.007882
dtype: float64
DatetimeIndex(['2011-01-02', '2011-01-05', '2011-01-07', '2011-01-08',
               '2011-01-10', '2011-01-12'],
              dtype='datetime64[ns]', freq=None)
[-0.25292589 -0.43282255 -1.07935286 -0.12709073  0.52007636  1.00788236]


### Indexing

Podedes acceder ao valor dunha posicion concreta da serie temporal indexando polo seu *timestamp*:

In [65]:
stamp = ts.index[0]
print(stamp)
print(ts[stamp])
print(ts[datetime(2011, 1, 2)])
print(ts["2011-01-02"])


2011-01-02 00:00:00
-0.2529258925483762
-0.2529258925483762
-0.2529258925483762


### Selection, Subsetting 

In [5]:
longer_ts = pd.Series(np.random.standard_normal(1000), index=pd.date_range("2000-01-01", periods=1000, freq='D')) # 1000 days
longer_ts

2000-01-01   -1.123477
2000-01-02    0.169634
2000-01-03   -0.717209
2000-01-04    1.085334
2000-01-05   -0.210338
                ...   
2002-09-22    0.552758
2002-09-23   -0.121697
2002-09-24   -2.715405
2002-09-25   -0.973076
2002-09-26    0.091774
Freq: D, Length: 1000, dtype: float64

In [71]:
longer_ts["2001"] # specify year
longer_ts["2001-05"] # specify year and month
longer_ts[datetime(2000, 10, 1):datetime(2001, 1, 10)] # range datetime

2000-10-01   -0.372598
2000-10-02   -0.610303
2000-10-03   -0.750448
2000-10-04    0.029771
2000-10-05   -2.504550
                ...   
2001-01-06   -0.879589
2001-01-07   -0.583611
2001-01-08    1.010065
2001-01-09   -0.287605
2001-01-10    1.146034
Freq: D, Length: 102, dtype: float64

## Group By

Coa funcion [``groupby``](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html) de pandas pódese agroupar datos e realizar operaciones en esos grupos. Ex: (media, sumatorio, máximo, mínimo...)

In [7]:
total_mean = longer_ts.mean()
print(total_mean)
year_mean = longer_ts.groupby([longer_ts.index.year]).mean()
print(year_mean)

# Tamén podedes agrupar varios campos á vez:
month_max = longer_ts.groupby([longer_ts.index.year, longer_ts.index.month]).max()
#print(month_max)


0.025471517751642997
2000   -0.005073
2001    0.029607
2002    0.061419
dtype: float64


In [10]:
# Exemplo de uso de groupby cun DataFrame
cidades = ["coruna", "ferrorl", "lugo", "ourense", "pontevedra", "santiago", "vigo"]

df = pd.DataFrame({
    "Cidade": np.random.choice(cidades, 2000),
    "Prezo Venta": np.random.randint(50000, 2000000, 2000)},
    #"Fecha": pd.date_range("2010-01-01", periods=2000)},
    index = pd.date_range("2010-01-01", periods=2000)
)# Neste caso estamos establecendo a data como o índice do dataframe

# Fixa unha columna do DataFrame coma index.
#df = df.set_index("Fecha")

#print(df)

# Calcula o maximo valor do campo "Prezo Venta" para un mesmo ano.
prezo_max_anuais = df.groupby(df.index.year).max()["Prezo Venta"]  # pd.DataFrame
print(prezo_max_anuais)

# Calcula o maximo valor do campo "Prezo Venta" para un mesmo ano e para cada cidade.
prezo_max_anuais_per_cidad = df.groupby([df.index.year, "Cidade"]).max()["Prezo Venta"]  # pd.DataFrame
#print(prezo_max_anuais_per_cidad)

# Calcula a media do campo "Prezo Venta" para cada mes e para cada cidade.
prezo_medios_mensuais = df.groupby([df.index.year, df.index.month, "Cidade"])["Prezo Venta"].mean()  # pd.DataFrame
#print(prezo_medios_mensuais)



2010    1998399
2011    1996995
2012    1999972
2013    1999292
2014    1993097
2015    1992967
Name: Prezo Venta, dtype: int32


### Grouby con MultiIndex
Si temos un DataFrame con MultiIndex podemos usar groupby(level=0) para indicar por exemplo que queremos agroupar polo primer campo do Index

In [11]:
arrays = [['Falcon', 'Falcon', 'Parrot', 'Parrot'],
          ['Captive', 'Wild', 'Captive', 'Wild']]

index = pd.MultiIndex.from_arrays(arrays, names=('Animal', 'Type'))

df = pd.DataFrame({'Max Speed': [390., 350., 30., 20.]}, index=index)
#df

df.groupby(level=0).mean() # é equivalente a usar df.groupby("Animal").mean()

Unnamed: 0_level_0,Max Speed
Animal,Unnamed: 1_level_1
Falcon,370.0
Parrot,25.0
