### 1.) Datetime, Date and Timedelta

In [1]:
import pandas as pd
import numpy as np

from datetime import datetime, date, timedelta

In [2]:
x = datetime.now()
print(x)

2022-11-12 10:43:20.911000


In [3]:
print(x.year)
print(x.month)
print(x.day)
print(x.hour)
print(x.minute)
print(x.second)

2022
11
12
10
43
20


In [4]:
print(x.strftime("%B"))
print(x.strftime("%b"))
print(x.strftime("%A"))
print(x.strftime("%p"))
print(x.strftime("%c"))
print(x.strftime("%x"))

November
Nov
Saturday
AM
11/12/22 10:43:20
11/12/22


In [5]:
x = date(2022,12,1)
print(x)

2022-12-01


In [6]:
print(x.year)
print(x.month)
print(x.day)

2022
12
1


In [12]:
print("Fecha Original: ", x)

print("Fecha - 10 days: ", x - timedelta(days=10))
print("Fecha + 1 weeks: ", x + timedelta(weeks = 1))
print("Fecha - (2 days + 4 weeks): ", x - timedelta(days = 2, weeks = 4))

('Fecha Original: ', datetime.date(2022, 12, 1))
('Fecha - 10 days: ', datetime.date(2022, 11, 21))
('Fecha + 1 weeks: ', datetime.date(2022, 12, 8))
('Fecha - (2 days + 4 weeks): ', datetime.date(2022, 11, 1))


### 2.) Time Series en Pandas

Los más fundamentales de estos objetos de fecha/hora son los objetos Timestamp y DatetimeIndex. Si bien estos objetos de clase se pueden invocar directamente, es más común usar la función pd.to_datetime(), que puede analizar una amplia variedad de formatos. Pasar una sola fecha a pd.to_datetime() produce una marca de tiempo; pasar una serie de fechas de forma predeterminada produce un DatetimeIndex:

In [13]:
dates = pd.to_datetime([datetime(2022, 7, 3), '4th of July, 2022','2022-Jul-6', '07-07-2022', '20220708'])
dates

DatetimeIndex(['2022-07-03', '2022-07-04', '2022-07-06', '2022-07-07',
               '2022-07-08'],
              dtype='datetime64[ns]', freq=None)

In [14]:
dates = pd.to_datetime([datetime(2022, 12, 3), '4th of December, 2022','2022-Dec-6', '12-07-2022', '20230101'])
dates

DatetimeIndex(['2022-12-03', '2022-12-04', '2022-12-06', '2022-12-07',
               '2023-01-01'],
              dtype='datetime64[ns]', freq=None)

In [15]:
dates.to_period('D')

PeriodIndex(['2022-12-03', '2022-12-04', '2022-12-06', '2022-12-07',
             '2023-01-01'],
            dtype='period[D]', freq='D')

In [18]:
dates.to_period('W') 

PeriodIndex(['2022-11-28/2022-12-04', '2022-11-28/2022-12-04',
             '2022-12-05/2022-12-11', '2022-12-05/2022-12-11',
             '2022-12-26/2023-01-01'],
            dtype='period[W-SUN]', freq='W-SUN')

In [19]:
dates.to_period('Y')

PeriodIndex(['2022', '2022', '2022', '2022', '2023'], dtype='period[A-DEC]', freq='A-DEC')

TimedeltaIndex se crea, por ejemplo, cuando se resta una fecha de otra:

In [20]:
dates - dates[0]

TimedeltaIndex(['0 days', '1 days', '3 days', '4 days', '29 days'], dtype='timedelta64[ns]', freq=None)

##### Regular sequences: pd.date_range()

In [21]:
pd.date_range('2022-10-03', '2022-10-13')

DatetimeIndex(['2022-10-03', '2022-10-04', '2022-10-05', '2022-10-06',
               '2022-10-07', '2022-10-08', '2022-10-09', '2022-10-10',
               '2022-10-11', '2022-10-12', '2022-10-13'],
              dtype='datetime64[ns]', freq='D')

In [22]:
pd.date_range('2022-07-03', periods=8)

DatetimeIndex(['2022-07-03', '2022-07-04', '2022-07-05', '2022-07-06',
               '2022-07-07', '2022-07-08', '2022-07-09', '2022-07-10'],
              dtype='datetime64[ns]', freq='D')

In [23]:
pd.date_range('2022-07-03', periods=8, freq = "M")

DatetimeIndex(['2022-07-31', '2022-08-31', '2022-09-30', '2022-10-31',
               '2022-11-30', '2022-12-31', '2023-01-31', '2023-02-28'],
              dtype='datetime64[ns]', freq='M')

In [24]:
pd.date_range('2022-07', periods=8, freq = "BMS") 

DatetimeIndex(['2022-07-01', '2022-08-01', '2022-09-01', '2022-10-03',
               '2022-11-01', '2022-12-01', '2023-01-02', '2023-02-01'],
              dtype='datetime64[ns]', freq='BMS')

Para crear secuencias regulares de períodos o valores delta de tiempo, las funciones muy similares pd.period_range() y pd.timedelta_range() son útiles. Estos son algunos períodos mensuales:

In [26]:
pd.period_range('2022-07', periods=8, freq = "Y")

PeriodIndex(['2022', '2023', '2024', '2025', '2026', '2027', '2028', '2029'], dtype='period[A-DEC]', freq='A-DEC')

In [27]:
pd.timedelta_range(0, periods=10, freq = "H")

TimedeltaIndex(['00:00:00', '01:00:00', '02:00:00', '03:00:00', '04:00:00',
                '05:00:00', '06:00:00', '07:00:00', '08:00:00', '09:00:00'],
               dtype='timedelta64[ns]', freq='H')

In [28]:
pd.timedelta_range(0, periods=9, freq = "2H30T")

TimedeltaIndex(['00:00:00', '02:30:00', '05:00:00', '07:30:00', '10:00:00',
                '12:30:00', '15:00:00', '17:30:00', '20:00:00'],
               dtype='timedelta64[ns]', freq='150T')

### Resampling, Shifting, and Windowing (Financial Data)

La capacidad de utilizar fechas y horas como índices para organizar y acceder de forma intuitiva a los datos es una pieza importante de las herramientas de series temporales de Pandas. Los beneficios de los datos indexados en general (alineación automática durante las operaciones, división y acceso intuitivo de datos, etc.) aún se aplican, y Pandas proporciona varias operaciones adicionales específicas de series de tiempo.

In [7]:
from pandas_datareader import data 
import matplotlib.pyplot as plt
import seaborn; seaborn.set()

aapl = data.DataReader("AAPL", "yahoo", 2018, 2022) # Yahoo Finance Data

# Por facilidad trabajamos solo con el precio de cierre 
aapl = aapl['Close']

RemoteDataError: Unable to read URL: https://finance.yahoo.com/quote/AAPL/history?interval=1d&filter=history&frequency=1d&period2=1641113999&period1=1514797200
Response Text:
<!DOCTYPE html>
  <html lang="en-us"><head>
  <meta http-equiv="content-type" content="text/html; charset=UTF-8">
      <meta charset="utf-8">
      <title>Yahoo</title>
      <meta name="viewport" content="width=device-width,initial-scale=1,minimal-ui">
      <meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1">
      <style>
  html {
      height: 100%;
  }
  body {
      background: #fafafc url(https://s.yimg.com/nn/img/sad-panda-201402200631.png) 50% 50%;
      background-size: cover;
      height: 100%;
      text-align: center;
      font: 300 18px "helvetica neue", helvetica, verdana, tahoma, arial, sans-serif;
  }
  table {
      height: 100%;
      width: 100%;
      table-layout: fixed;
      border-collapse: collapse;
      border-spacing: 0;
      border: none;
  }
  h1 {
      font-size: 42px;
      font-weight: 400;
      color: #400090;
  }
  p {
      color: #1A1A1A;
  }
  #message-1 {
      font-weight: bold;
      margin: 0;
  }
  #message-2 {
      display: inline-block;
      *display: inline;
      zoom: 1;
      max-width: 17em;
      _width: 17em;
  }
      </style>
  <script>
    document.write('<img src="//geo.yahoo.com/b?s=1197757129&t='+new Date().getTime()+'&src=aws&err_url='+encodeURIComponent(document.URL)+'&err=%<pssc>&test='+encodeURIComponent('%<{Bucket}cqh[:200]>')+'" width="0px" height="0px"/>');var beacon = new Image();beacon.src="//bcn.fp.yahoo.com/p?s=1197757129&t="+new Date().getTime()+"&src=aws&err_url="+encodeURIComponent(document.URL)+"&err=%<pssc>&test="+encodeURIComponent('%<{Bucket}cqh[:200]>');
  </script>
  </head>
  <body>
  <!-- status code : 404 -->
  <!-- Not Found on Server -->
  <table>
  <tbody><tr>
      <td>
      <img src="https://s.yimg.com/rz/p/yahoo_frontpage_en-US_s_f_p_205x58_frontpage.png" alt="Yahoo Logo">
      <h1 style="margin-top:20px;">Will be right back...</h1>
      <p id="message-1">Thank you for your patience.</p>
      <p id="message-2">Our engineers are working quickly to resolve the issue.</p>
      </td>
  </tr>
  </tbody></table>
  </body></html>

In [4]:
import matplotlib.pyplot as plt
import seaborn; seaborn.set()
import yfinance as yf

from yahoofinancials import YahooFinancials

aapl = yf.download("AAPL",2018, 2022) # Yahoo Finance Data

# Por facilidad trabajamos solo con el precio de cierre 
aapl = aapl['Close']

ImportError: No module named yfinance

In [None]:
%matplotlib inline

aapl._____();

Una necesidad común de datos de series temporales es volver a muestrear a una frecuencia más alta o más baja. Puedes hacer esto usando el método resample(), o el método mucho más simple asfreq(). La principal diferencia entre los dos es que resample() es fundamentalmente una agregación de datos, mientras que asfreq() es fundamentalmente una selección de datos.

In [None]:
aapl.plot(alpha=0.6, style='-')
aapl.________('W').mean().plot(style=':')
aapl.________('BMS').plot(style='--');
plt.legend(['input', 'resample', 'asfreq'],
loc='upper left');


In [None]:
aapl.max

Para el muestreo ascendente, resample() y asfreq() son en gran medida equivalentes, aunque resample tiene muchas más opciones disponibles. En este caso, el valor predeterminado para ambos métodos es dejar vacíos los puntos muestreados, es decir, llenos con valores NA.

In [None]:
fig, ax = plt.subplots(2, sharex=True)

data = aapl.iloc[:10]
data.asfreq('D').plot(ax=ax[0], marker='o')
data.asfreq('D', ________).plot(ax=ax[1], style='-o')
data.asfreq('D', ________).plot(ax=ax[1], style='--o')
ax[1].legend(["back-fill", "forward-fill"]);


##### Time-shifts

Otra operación común específica de series de tiempo es el desplazamiento de datos en el tiempo. Pandas tiene dos métodos estrechamente relacionados para calcular esto: shift() y tshift(). En resumen, la diferencia entre ellos es que shift() cambia los datos, mientras que tshift() cambia el índice. En ambos casos, el cambio se especifica en múltiplos de la frecuencia.

In [None]:
fig, ax = plt.subplots(3, sharey=True, figsize=(10,10))

aapl = aapl.asfreq('D', method='pad')
aapl.plot(ax=ax[0])
aapl._______(100).plot(ax=ax[1])
aapl._______(100).plot(ax=ax[2])

# legends and annotations
local_min = pd.to_datetime('2020-03-20')
offset = pd.Timedelta(100, 'D')

ax[0].legend(['input'], loc=2)
ax[0].get_xticklabels()[2].set(weight='heavy', color='red')
ax[0].axvline(local_min, alpha=0.3, color='red')

ax[1].legend(['shift(100)'], loc=2)
ax[1].get_xticklabels()[2].set(weight='heavy', color='red')
ax[1].axvline(local_min + offset, alpha=0.3, color='red');

ax[2].legend(['tshift(100)'], loc=2)
ax[2].get_xticklabels()[2].set(weight='heavy', color='red')
ax[2].axvline(local_min + offset, alpha=0.3, color='red');


Un contexto común para este tipo de cambio es calcular las diferencias a lo largo del tiempo. Por ejemplo, usamos valores desplazados para calcular el retorno de la inversión de un año para las acciones de Google a lo largo del conjunto de datos

In [None]:
ROI = 100 * (aapl._______(-365) / aapl - 1)
ROI.plot()
plt.ylabel('% Return on Investment');

##### Rolling Windows

Las estadísticas continuas son un tercer tipo de operación específica de serie temporal implementada por Pandas. Esto se puede lograr a través del atributo rolling() de los objetos Series y DataFrame, que devuelve una vista similar a la que vimos con la operación groupby. Esta vista continua pone a disposición una serie de operaciones de agregación de forma predeterminada.

Por ejemplo, aquí está la media móvil centrada en un año y la desviación estándar de los precios de las acciones de AAPL:

In [None]:
rolling = aapl._______(365, center=True)
data = pd.DataFrame({'input': aapl,
'one-year rolling_mean': _______.mean(),
'one-year rolling_std': _______.std()})

ax = data.plot(style=['-', '--', ':'])
ax.lines[0].set_alpha(0.3)


### 3.) Ejercicio práctico

In [None]:
data = pd.read_csv('Fremont_Bridge_Bicycle_Counter.csv', index_col='Date', parse_dates=True)
data.head()

Podemos obtener una idea del conjunto de datos al visualizarlo. Comencemos graficando los datos sin procesar:

Las ~86,000 muestras por hora son demasiado densas para que podamos entenderlas. Podemos obtener más información volviendo a muestrear los datos en una cuadrícula más gruesa. Remuestreemos por semana

In [None]:
weekly = data._______('W').sum()
weekly.plot(style=[ '-', '--',':'])
plt.ylabel('Weekly bicycle count');

Otra forma que resulta útil para agregar los datos es usar una media móvil, utilizando la función pd.rolling_mean(). Aquí haremos una media móvil de 30 días de nuestros datos, asegurándonos de centrar la ventana

In [None]:
daily = data._______('D').sum()
daily._______(30, center=True).sum().plot(style=[ '-', '--',':'])
plt.ylabel('mean hourly count');

In [None]:
daily._______(50, center=True, _______='gaussian').sum(std=10).plot(style=['-', '--',':']);

In [None]:
by_time = data._______(data.index.time).mean()
hourly_ticks = 4 * 60 * 60 * np.arange(6)
by_time.plot(xticks=_______, style=['-', '--',':']);

In [None]:
by_weekday = data.groupby(data.index._______).mean()
by_weekday.index = ['Mon', 'Tues', 'Wed', 'Thurs', 'Fri', 'Sat', 'Sun']
by_weekday.plot(style=['-', '--',':']);

In [None]:
weekend = np.where(data.index._______ < 5, 'Weekday', 'Weekend')
by_time = data._______([weekend, data.index.time]).mean()

fig, ax = plt.subplots(1, 2, figsize=(14, 5))

by_time.loc['Weekday'].plot(ax=ax[0], title='Weekdays', xticks=_______, style=['-', '--',':'])
by_time.loc['Weekend'].plot(ax=ax[1], title='Weekends', xticks=_______, style=['-', '--',':']);