<p><font size="6"><b>Pandas: Working with time series data</b></font></p>

---

In [2]:
%matplotlib notebook
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

pd.options.display.max_rows = 8

# Introducción: `datetime` module

Python estándar contiene el módulo `datetime` para manejar con datos de fecha y hora:

In [None]:
import datetime

In [None]:
dt = datetime.datetime(year=2016, month=12, day=19, hour=13, minute=30)
dt

In [None]:
print(dt) # .day,...

In [None]:
print(dt.strftime("%d %B %Y"))

# Dates and times in pandas

## The ``Timestamp`` object


Pandas tiene sus propios objetos de fecha y hora, que son compatibles con los objetos estándar `datetime`, pero brindan más funcionalidad para trabajar.

El objeto `Timestamp` también se puede construir a partir de una cadena:

In [None]:
ts = pd.Timestamp('2016-12-19')
ts

Al igual que con los objetos `datetime.datetime`, hay varios atributos útiles disponibles en el` Timestamp`. Por ejemplo, podemos obtener el mes:

In [None]:
ts.month

In [None]:
ts + pd.Timedelta('5 days')

### Parsing datetime strings

![](http://imgs.xkcd.com/comics/iso_8601.png)


Desafortunadamente, cuando trabaja con datos del mundo real, se encuentra con muchos formatos de `datetime` diferentes. La mayoría de las veces, cuando tienes que lidiar con ellos, vienen en formato de texto, p. Ej. desde un archivo `CSV`. Para trabajar con esos datos en Pandas, primero tenemos que * analizar * las cadenas en objetos reales de `marca de tiempo`.

<div class="alert alert-info">
<b>REMEMBER</b>: <br><br>

desde fechas con formato de cadena hasta objetos de marca de tiempo: función `to_datetime`
</div>



In [None]:
pd.to_datetime("2016-12-09")

In [None]:
pd.to_datetime("09/12/2016")

In [None]:
pd.to_datetime("09/12/2016", dayfirst=True)

In [None]:
pd.to_datetime("09/12/2016", format="%d/%m/%Y")

Una descripción detallada de cómo especificar la cadena de `formato`, consulte la tabla en la documentación de Python: https://docs.python.org/3.5/library/datetime.html#strftime-and-strptime-behavior

## `Timestamp` data in a Series or DataFrame column

In [None]:
s = pd.Series(['2016-12-09 10:00:00', '2016-12-09, 11:00:00', '2016-12-09 12:00:00'])

La función `to_datetime` también se puede utilizar para convertir una serie completa de cadenas:

In [None]:
ts = pd.to_datetime(s)

In [None]:
ts

Observe el tipo de datos de esta serie: el dtype `datetime64 [ns]`. Esto indica que tenemos una serie de valores de fecha y hora reales.


Los mismos atributos que en una sola `Timestamp`s también están disponibles en una serie con datos de fecha y hora, utilizando el acceso **` .dt` **:

In [None]:
ts.dt.hour

In [None]:
ts.dt.weekday

Para construir rápidamente algunos datos de series de tiempo regulares, la función [`` pd.date_range ''] (http://pandas.pydata.org/pandas-docs/stable/generated/pandas.date_range.html) es útil:

In [None]:
pd.Series(pd.date_range(start="2016-01-01", periods=10, freq='3H'))

# Time series data: `Timestamp` in the index

## River discharge example data

Para la siguiente demostración de la funcionalidad de la serie temporal, utilizamos una muestra de datos de descarga de Maarkebeek (Flandes) con valores promediados de 3 horas, derivados del [sitio web Waterinfo] (https://www.waterinfo.be/).

In [1]:
data = pd.read_csv("data/flowdata.csv")

NameError: name 'pd' is not defined

In [None]:
data.head()

Ya sabemos cómo analizar una columna de fecha con Pandas:

In [None]:
data['Time'] = pd.to_datetime(data['Time'])

Con `set_index ('datetime')`, establecemos la columna con valores de fecha y hora como índice, lo que puede hacerse tanto con `Series` como con` DataFrame`.

In [None]:
data = data.set_index("Time")

In [None]:
data

Los pasos anteriores se proporcionan como funcionalidad incorporada de `read_csv`:

In [None]:
data = pd.read_csv("data/flowdata.csv", index_col=0, parse_dates=True)

<div class="alert alert-info">
<b>REMEMBER</b>: <br><br>

`pd.read_csv` proporciona una gran cantidad de funciones integradas para admitir este tipo de transacciones al leer un archivo. Consulte la ayuda de la función read_csv ...

</div>

## The DatetimeIndex

Cuando nos aseguramos de que el DataFrame tenga un `DatetimeIndex`, la funcionalidad relacionada con la serie temporal estará disponible:

In [None]:
data.index

De manera similar a una serie con datos de fecha y hora, hay algunos atributos de los valores de marca de tiempo disponibles:

In [None]:
data.index.day

In [None]:
data.index.dayofyear

In [None]:
data.index.year

El método `plot` también adaptará sus etiquetas (cuando haces zoom, puedes ver los diferentes niveles de detalle de las etiquetas de fecha y hora):

In [None]:
data.plot()

Tenemos demasiados datos para graficar con sensatez en una figura. Veamos cómo podemos seleccionar fácilmente parte de los datos o agregar los datos a otras resoluciones de tiempo en las siguientes secciones.

## Selecting data from a time series

Podemos usar la indexación basada en etiquetas en una serie temporal como se esperaba:

In [None]:
data[pd.Timestamp("2012-01-01 09:00"):pd.Timestamp("2012-01-01 19:00")]

Pero, por conveniencia, la indexación de una serie temporal también funciona con cadenas:

In [None]:
data["2012-01-01 09:00":"2012-01-01 19:00"]

Una característica interesante es la **indexación de "cadena parcial"**, donde podemos hacer un corte implícito proporcionando una cadena de fecha y hora parcial.

P.ej. todos los datos de 2013:

In [None]:
data['2013']

Normalmente, esperaría que esto acceda a una columna llamada '2013', pero en cuanto a un DatetimeIndex, los pandas también intentan interpretarlo como un segmento de fecha y hora.

O todos los datos de enero a marzo de 2012:

In [None]:
data['2012-01':'2012-03']

<div class="alert alert-success">

<b>EXERCISE</b>:

 <ul>
  <li> seleccione todos los datos a partir de 2012 </li>
</ul>
</div>

In [None]:
data['2012':]

<div class="alert alert-success">

<b>EXERCISE</b>:

 <ul>
  <li> seleccione todos los datos en enero para todos los años diferentes </li>
</ul>
</div>

In [None]:
data[data.index.month == 1]

<div class="alert alert-success">

<b>EXERCISE</b>:

 <ul>
  <li> seleccione todos los datos en enero para todos los años diferentes </li>
</ul>
</div>

In [None]:
data['months'] = data.index.month
data[data['months'].isin([1, 2, 3])]

In [None]:
data = data.drop("months", axis=1)

<div class="alert alert-success">

<b>EXERCISE</b>:

 <ul>
  <li> seleccione todos los datos "diurnos" (entre las 8 y las 20 horas) para todos los días </li>
</ul>
</div>

In [None]:
data[(data.index.hour > 8) & (data.index.hour < 20)]

In [None]:
data.between_time('08:00', '20:00')

## The power of pandas: `resample`

Un método muy poderoso es **`resample`: convertir la frecuencia de la serie temporal** (por ejemplo, de datos por hora a datos diarios).

La serie de tiempo tiene una frecuencia de 1 hora. Quiero cambiar esto a diario:

In [None]:
data.resample('D').mean().head()

<div class="alert alert-danger">

<b>NOTE</b>:

 <ul>
  <li>con versiones anteriores de pandas, <code>data.resample('D').mean()</code> fue expresado como  <code>data.resample('D', how='mean')</code>.</li>
</ul>
</div>

También se pueden especificar otros métodos matemáticos:

In [None]:
data.resample('D').max().head()

<div class="alert alert-info">
<b>REMEMBER</b>: <br><br>

La cadena para especificar la nueva frecuencia de tiempo: http://pandas.pydata.org/pandas-docs/stable/timeseries.html#offset-aliases <br> <br>

    Estas cadenas también se pueden combinar con números, por ejemplo, `'10D'` ...

</div>



In [None]:
data.resample('A').mean().plot() # 10D

<div class="alert alert-success">

<b>EXERCISE</b>:

 <ul>
  <li> trazar la desviación estándar mensual de las columnas </li>
</ul>
</div>

In [None]:
data.resample('M').std().plot() # 'A'

<div class="alert alert-success">

<b>EXERCISE</b>:

 <ul>
  <li>plot the monthly mean and median values for the years 2011-2012 for 'L06_347'<br><br></li>
</ul>

    **Nota** Puede crear una nueva figura con `fig, ax = plt.subplots ()` y agregar cada una de las gráficas al objeto `ax` creado (consulte la documentación de la función de gráfica de pandas)
</div>

In [None]:
fig, ax = plt.subplots()
data.loc['2011':'2012', 'L06_347'].resample('M').mean().plot(ax=ax)
data.loc['2011':'2012', 'L06_347'].resample('M').median().plot(ax=ax)
ax.legend(["mean", "median"])

In [None]:
data.loc['2011':'2012', 'L06_347'].resample('M').agg(['mean', 'median']).plot()

<div class="alert alert-success">

<b>EXERCISE</b>:

 <ul>
  <li> trazar el valor promedio mensual mínimo y máximo diario de la columna "LS06_348" </li>
</ul>
</div>

In [None]:
daily = data['LS06_348'].resample('D').mean() # daily avergaes calculated

In [None]:
daily.resample('M').agg(['min', 'max']).plot() # monthly minimum and maximum values of these daily averages

<div class="alert alert-success">
<b>EXERCISE</b>:

 <ul>
  <li> haga un diagrama de barras de la media de las estaciones en el año de 2013 (Observación: cree un objeto `fig, ax = plt.subplots ()` y agregue el diagrama al ax creado </li>
</ul>

</div>

In [None]:
fig, ax = plt.subplots()
data['2013'].mean().plot(kind='barh', ax=ax)

<div class="alert alert-success">
<b>EXERCISE</b>:

 <ul>
   <li> Calcule el patrón anual típico con resolución mensual (gráfico del promedio mensual típico a lo largo de los años) </li>
</ul>

</div>

In [None]:
data.groupby(data.index.month).mean().plot()