<p><img alt="Colaboratory logo" height="140px" src="https://upload.wikimedia.org/wikipedia/commons/archive/f/fb/20161010213812%21Escudo-UdeA.svg" align="left" hspace="10px" vspace="0px"></p>

# **Diplomado de Análisis de datos y Machine Learning en Python**


El presente diplomado hace parte del centro de Big Data de la facultad de ciencias exactas y naturales (FCEN) de la Universidad de Antioquia.

## **Sesión 19**

## **Contenido**
- <a href="#ser"> Series de tiempo</a><br>
  - <a href="#ind"> Indexación basada en el tiempo</a><br>
  - <a href="#vis"> Visualización de datos de series temporales`</a><br>
  - <a href="#est"> Estacionalidad</a><br>
  - <a href="#rem"> Remuestreo</a><br>
  - <a href="#ven"> Ventanas móviles</a><br>
  - <a href="#ten"> Tendencias</a><br>

<p><a name="ser"></a></p>

# **Series de tiempo**

En su definición más amplia, una serie de tiempo es un conjunto de puntos de datos u observaciones tomadas en momentos específicos. Normalmente a intervalos iguales (por ejemplo, cada hora, cada día, cada semana, cada trimestre, cada año, etc.). 

Las series temporales suelen utilizarse para predecir sucesos futuros basándose en sucesos o valores observados anteriormente, o simplemente para descubrir patrones. Nos centraremos principalmente en los aspectos de manipulación y visualización de datos del análisis de series temporales.

En general, las series temporales suelen tener las siguientes características:

* **Tendencias**: Se refiere al movimiento de una serie hacia valores relativamente más altos o más bajos durante un largo período de tiempo. 

* **Estacionalidad:** Se refiere a un patrón que se repite dentro de un período de tiempo fijo.

* **Irregularidad:** También se denomina ruido. La irregularidad tiene una duración corta. 


In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# configuracion de las graficas
sns.set(rc={'figure.figsize': (13, 4), 'legend.fontsize': 10})

# configuracion de los dataframes
pd.set_option("display.max_columns", None)

Utilizaremos un conjunto de datos con información del número de pasajeros en una aerolínea durante cierto periodo de tiempo

In [None]:
fname = "https://raw.githubusercontent.com/omarcastano/MLutilities/main/MLutilities/datasets/international-airline-passengers.csv"
df = pd.read_csv(fname, names=["date", "n_passengers"], skiprows=[0])
df.head()

Vemos que cada registro está separado temporalmente por un mes.

Como ya hemos visto, Pandas tiene algunas funciones incorporadas asociadas al tipo de dato `datetime` que facilitan el trabajo, lo que hace a Pandas una herramienta muy adecuada para realizar un análisis de series de tiempo

In [None]:
# transformar al tipo adecuado

Un aspecto útil de tener la fechas como índices es que podemos acceder a los diferentes atributos/métodos temporales directamente del índice, sin necesidad del atributo de acceso `dt`.

Por ejemplo, añadamos algunas columnas más que contengan el año, el mes y el día de la semana

In [None]:
# definir como indice

In [None]:
# definir columnas de dia, mes y año

<p><a name="ind"></a></p>

## **Indexación basada en el tiempo**

Una de las características más potentes y convenientes de las series temporales de pandas es la indexación basada en el tiempo, utilizando fechas y horas para organizar y acceder intuitivamente a nuestros datos. Con la indexación basada en el tiempo, podemos utilizar cadenas con formato de fecha/hora para seleccionar datos en nuestro DataFrame con el atributo de acceso `loc`. La indexación funciona de forma similar a la indexación estándar basada en etiquetas, pero con algunas características adicionales.

Seleccionemos una fecha particular

In [None]:
# seleccionar una fecha 

También podemos realizar operaciones de *slicing*. Al igual que con la indexación regular con `loc`, se incluyen el punto final

In [None]:
# seleccionar entre dos fechas

Otra característica muy útil de las series temporales de pandas es la indexación parcial, donde podemos seleccionar todas las fechas/horas que coincidan parcialmente con una cadena dada. 

In [None]:
# seleccionar un año

In [None]:
# seleccionar datos con fecha anterior a un año 

In [None]:
# seleccionar el mes de un año

<p><a name="vis"></a></p>

## **Visualización de datos de series temporales**

Con pandas y matplotlib, podemos visualizar fácilmente nuestros datos de series temporales, utilizando el método `plot`

In [None]:
# grafico de linea: numero de pasajeros por año

In [None]:
# grafico de linea: numero de pasajeros entre 1950 y 1960

<p><a name="est"></a></p>

## **Estacionalidad**

Vamos a explorar más a fondo la estacionalidad de nuestros datos con gráficos de caja, utilizando la función `boxplot` de seaborn para agrupar los datos por diferentes períodos de tiempo y mostrar las distribuciones de cada grupo. 

In [None]:
# numero de pasajeros por mes

In [None]:
# numero de pasajeros por dia

<p><a name="rem"></a></p>

## **Remuestreo**

A menudo resulta útil remuestrear los datos de las series de tiempo a una frecuencia menor o mayor 

* El remuestreo a una frecuencia más baja (downsampling) suele implicar una operación de agregación (por ejemplo, calcular los totales de ventas mensuales a partir de datos diarios). 

* El remuestreo a una frecuencia más alta (upsampling) es menos común y a menudo implica la interpolación u otro método de relleno de datos (por ejemplo, la interpolación de datos meteorológicos por hora a intervalos de 10 minutos para la entrada en un modelo científico) [(Referencia)]((https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.interpolate.html))


Nos centraremos en el *downsampling*. El método `resample` del DataFrame, divide el `DatetimeIndex` en intervalos de tiempo y agrupa los datos por intervalos de tiempo. Podemos definir estos intervalos por frecuencia. Las frecuencias disponibles en pandas incluyen horaria ('H'), diaria d ('D'), semanal ('W'), mensual ('M'), entre [otras](https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html). .

In [None]:
# agrupar por periodos de seis meses

Este método devuelve un objeto similar a un objeto GroupBy, en el que podemos aplicar algún método de agregación al grupo de datos para cada bin de tiempo.


In [None]:
# agrupar por periodos de seis meses y calcular la media

In [None]:
# forma serie original

In [None]:
# forma serie remuestreada

In [None]:
# grafico de linea: numero de pasajeros por año entre los años 1958 y 1960



Ahora vamos a remuestrear los datos a una frecuencia de un año, agregando con los totales de la suma en lugar de la media.

In [None]:
# agrupar anualmente y tomar la suma

In [None]:
# visualizar con grafico de barras

**Nota:** *A diferencia de la agregación con `mean`, que establece la salida a `NaN` para cualquier período con todos los datos nulos, el comportamiento por defecto de `sum` devolverá `0` como la suma de los datos nulos.* 

*Podemos utilizar el kwarg `min_count` en `sum` para cambiar este comportamiento. Con este controlamos el número mínimo de valores válidos para que el resultado sea válido: Si hay menos de `min_count` valores no nulos, el resultado será `NaN`.*



<p><a name="ven"></a></p>

## **Ventanas móviles**

Las operaciones de ventanas móviles son otra transformación importante para los datos de las series temporales. Al igual que el *downsampling*, las ventanas móviles dividen los datos en ventanas temporales y los datos de cada ventana se agregan con una función de agregación. Sin embargo, a diferencia del *downsampling*, en el que los intervalos de tiempo no se solapan y la salida tiene una frecuencia inferior a la de entrada, las ventanas móviles se solapan y "ruedan" a lo largo de la misma frecuencia que los datos, por lo que la serie temporal transformada tiene la misma frecuencia que la serie temporal original.

Para construir ventanas móviles, utilizamos el método `rolling`, indicando la ventana `window` sobre la cual queremos actuar. 

Calculemos el promedio móvil en una ventana de 6 meses 

In [None]:
# promedio móvil en una ventana de 6 meses

![](https://i.imgur.com/Rt8HQrj.png)

Podemos utilizar el kwarg `center=True` para que se tome el punto medio de cada ventana, y no el final

In [None]:
# promedio móvil en una ventana de 6 meses



Para visualizar las diferencias entre la media móvil y el remuestreo, grafiquemos las tres series temporales (original, remuestreada y media movil) entre 1950 y 1952 para ver sus diferencias

In [None]:
# graficos de linea

**Nota:** *Podemos utilizar el kwarg `min_periods` del método `rolling` para definir el número mínimo de registros en una ventana que deben tener un valor, de lo contrario se asignará a un valor nulo*.

<p><a name="ten"></a></p>

## **Tendencias**

Los datos de las series temporales suelen presentar una variabilidad lenta y gradual, además de una variabilidad de mayor frecuencia, como la estacionalidad y el ruido. Una forma fácil de visualizar estas tendencias es con medias móviles a diferentes escalas de tiempo.

Una media móvil tiende a suavizar una serie temporal promediando las variaciones en frecuencias mucho más altas que el tamaño de la ventana y promediando cualquier estacionalidad en una escala de tiempo igual al tamaño de la ventana. Esto permite explorar las variaciones de baja frecuencia en los datos.

Calculemos el promedio móvil anual y visualicemos el resultado

In [None]:
# promedio móvil anual

In [None]:
# grafico de linea

Podemos ver que la media móvil de 1 año ha suavizado la estacionalidad anual, y nos muestra que la tendencia a largo plazo del número de pasajeros es creciente

**Ejercicio:** 

* Cargue el siguiente conjunto de datos, el cual contiene información de consumo y producción de energía en Alemania:

 * **Date**: Fecha en el formato (yyyy-mm-dd)
 * **Consumption**: Consumo de energía en GWh
 * **Wind**: Producción de energía eólica en GWh
 * **Solar**: Producción de energía solar en GWh
 * **Wind+Solar**: Suma de la producción de energía eólica y solar en GWh

* Convierta los datos al tipo adecuado ¿Con qué frecuencia aparecen las fechas?

* A partir de la fecha, defina tres nuevas columnas que contengan el año, el mes y el día de la semana. Estas columnas deben tener los nombres de los días de la semana y de los meses, no los números asociados.

* Grafique en el consumo de energía y la producción de energía eólica y solar en diferentes conjuntos de ejes (compartiendo el eje x), utilizando gráficos de dispersión. ¿Qué patrones observa?



* Grafique el consumo de energía en el año 2017, y durante enero y febrero de ese mismo año ¿Qué patrones observa?

* Grafique con un boxplot el consumo de energía y la producción de energía solar y eólica por mes. ¿Qué puede concluir respecto a la estacionalidad?

* Realice lo mismo del punto anterior pero ahora grupando por días de la semana

* Remuestree a una frecuencia semanal (1W) y tome la media. Grafique la producción de energía solar junto con este remuestreo semanal, entre enero y julio del 2017

* Remuestree a una frecuencia mensual y tome la suma. Grafique esta nueva serie temporal con un gráfico de línea para `Consumption` y un gráfico de área (df.plot.area) para `Wind` y `Solar`. ¿Qué puede concluir?

* Remuestree a una frecuencia anual y tome la suma. Divida la producción de energía eólica + solar con el consumo de energía y grafique el resultado, a partir del año 2012, en un gráfico de barras. ¿Qué puede concluir?

* Calcule los promedios móviles en ventanas de 7 días y un año. Realice un grafico de línea para el consumo de energía original junto con estos promedios moviles. ¿Qué puede concluir?

* Grafique el promedio movil anual para `Consumption`, `Wind` y `Solar`. ¿Qué puede concluir?