# Datetime en Pandas DataFrame

In [None]:
import pandas as pd
import numpy as np



### 1. Fechas y horas en Python
Los objetos básicos de Python para trabajar con fechas y horas residen en el módulo incorporado ``datetime``.
Junto con el módulo de terceros ``dateutil``, puedes utilizarlo para realizar rápidamente una serie de funciones útiles sobre fechas y horas.
Por ejemplo, puedes construir manualmente una fecha utilizando el tipo ``datetime``:

In [None]:
from datetime import datetime
datetime(year = 2015, month = 7, day = 4)

O, utilizando el módulo ``dateutil``, puedes analizar fechas a partir de una gran variedad de formatos de cadena:

In [None]:
# https://dateutil.readthedocs.io/en/stable/parser.html#functions
from dateutil import parser
print(parser.parse("4th of July, 2015"))
print(parser.parse("07/04/2015"))
print(parser.parse("07/04/2015", dayfirst=True))

In [None]:
print(parser.parse("7/4/2015"))
print(parser.parse("07-04-2015"))
print(parser.parse("2015-07-04"))

Una vez que tienes un objeto ``datetime``, puedes hacer cosas como imprimir el día de la semana:


In [None]:
# https://docs.python.org/3/library/datetime.html#strftime-and-strptime-behavior
datetime(year = 2015, month = 7, day = 4).strftime('%A')

### 2. Dates y Times en numpy

In [None]:
import numpy as np
date = np.array('2015-07-04', dtype = np.datetime64)
date

In [None]:
np.array('07-04-2015', dtype = np.datetime64)

Una vez que tenemos esta fecha formateada, además, podemos hacer rápidamente operaciones vectoriales sobre ella:

In [None]:
date

In [None]:
np.arange(14)

In [None]:
dates = date + np.arange(12)
dates

In [None]:
dates[0].astype('datetime64[Y]')

Aquí tienes un datetime basado en minutos:

In [None]:
np.datetime64('2015-07-04 12:00:30')

Fíjate en que la zona horaria **se ajusta automáticamente a la hora local del ordenador que ejecuta el código**.
Puedes forzar cualquier unidad deseada utilizando uno de los muchos códigos de formato; por ejemplo, aquí forzaremos un tiempo basado en nanosegundos.

La siguiente tabla, extraída de la [NumPy datetime64 documentation](http://docs.scipy.org/doc/numpy/reference/arrays.datetime.html), enumera los códigos de formato disponibles junto con los intervalos de tiempo relativos y absolutos que pueden codificar:

|Code    | Meaning     | Time span (relative) | Time span (absolute)   |
|--------|-------------|----------------------|------------------------|
| ``Y``  | Year	       | ± 9.2e18 years       | [9.2e18 BC, 9.2e18 AD] |
| ``M``  | Month       | ± 7.6e17 years       | [7.6e17 BC, 7.6e17 AD] |
| ``W``  | Week	       | ± 1.7e17 years       | [1.7e17 BC, 1.7e17 AD] |
| ``D``  | Day         | ± 2.5e16 years       | [2.5e16 BC, 2.5e16 AD] |
| ``h``  | Hour        | ± 1.0e15 years       | [1.0e15 BC, 1.0e15 AD] |
| ``m``  | Minute      | ± 1.7e13 years       | [1.7e13 BC, 1.7e13 AD] |
| ``s``  | Second      | ± 2.9e12 years       | [ 2.9e9 BC, 2.9e9 AD]  |
| ``ms`` | Millisecond | ± 2.9e9 years        | [ 2.9e6 BC, 2.9e6 AD]  |
| ``us`` | Microsecond | ± 2.9e6 years        | [290301 BC, 294241 AD] |
| ``ns`` | Nanosecond  | ± 292 years          | [ 1678 AD, 2262 AD]    |
| ``ps`` | Picosecond  | ± 106 days           | [ 1969 AD, 1970 AD]    |
| ``fs`` | Femtosecond | ± 2.6 hours          | [ 1969 AD, 1970 AD]    |
| ``as`` | Attosecond  | ± 9.2 seconds        | [ 1969 AD, 1970 AD]    |

### 3. Fechas y horas en Pandas

#### Argumentos por defecto

In [None]:
df = pd.DataFrame({'date': ['3/10/2000', '3/11/2000', '3/12/2000'],
                   'value': [2, 3, 4]})
df

In [None]:
df.dtypes

In [None]:
df['date'] = pd.to_datetime(df['date'])
df

In [None]:
df.dtypes

#### Formato para el primer día

In [None]:
df = pd.DataFrame({'date': ['3/10/2000', '3/11/2000', '3/12/2000'],
                   'value': [2, 3, 4]})

df['date'] = pd.to_datetime(df['date'], dayfirst=True)
df

#### Formato personalizado 

In [None]:
df = pd.DataFrame({'date': ['2016-6-10 20:30:0', 
                            '2016-7-1 19:45:30', 
                            '2013-10-12 4:5:1'],
                   'value': [2, 3, 4]})

df['date'] = pd.to_datetime(df['date'], format="%Y-%m-%d %H:%M:%S")
df

#### Trabajando con error de análisis

In [None]:
df = pd.DataFrame({'date': ['3/10/2000', 'a/11/2000', '3/12/2000'],
                   'value': [2, 3, 4]})

df['date'] = pd.to_datetime(df['date'])

In [None]:
df = pd.DataFrame({'date': ['3/10/2000', 'a/11/2000', '3/12/2000'],
                   'value': [2, 3, 4]})

df['date'] = pd.to_datetime(df['date'], errors = 'ignore')
df.dtypes

In [None]:
df = pd.DataFrame({'date': ['3/10/2000', 'a/11/2000', '3/12/2000'],
                   'value': [2, 3, 4]})

df['date'] = pd.to_datetime(df['date'], errors = 'coerce')
df

In [None]:
df.dtypes

In [None]:
print(df.at[0, 'date'])
print(df.at[1, 'date'])

### 4. Ensamblar una fecha y hora a partir de varias columnas

In [None]:
df = pd.DataFrame({'year': [2015, 2016],
                   'month': [2, 3],
                   'day': [4, 5]})

df

In [None]:
df['date'] = pd.to_datetime(df)

In [None]:
df

In [None]:
df.dtypes

### 5. Obtener año, mes y día

In [None]:
df = pd.DataFrame({'name': ['Tom', 'Andy', 'Lucas'],
                 'DoB': ['08-05-1997', '04-28-1996', '12-16-1995']})

df['DoB'] = pd.to_datetime(df['DoB'])
df

In [None]:
df['year'] = df['DoB'].dt.year
df['month'] = df['DoB'].dt.month
df['day'] = df['DoB'].dt.day
df

In [None]:
df.dtypes

### 6. Obtener la semana del año, el día de la semana y el año bisiesto

In [None]:
df['week_of_year'] = df['DoB'].dt.isocalendar().week
df['day_of_week'] = df['DoB'].dt.dayofweek
df['is_leap_year'] = df['DoB'].dt.is_leap_year
df

In [None]:
dw_mapping={
    0: 'Monday', 
    1: 'Tuesday', 
    2: 'Wednesday', 
    3: 'Thursday', 
    4: 'Friday',
    5: 'Saturday', 
    6: 'Sunday'
} 
df['day_of_week_name']=df['DoB'].dt.weekday.map(dw_mapping)
df

### 7. Obtener la edad a partir de la fecha de nacimiento

In [None]:
pd.to_datetime('today')

In [None]:
datetime.today()

In [None]:
today = pd.to_datetime('today')
df['age'] = today.year - df['DoB'].dt.year

df

### 8. Mejorar el rendimiento estableciendo la columna de fecha como índice 

In [None]:
df = pd.read_csv('data/city_sales.csv', parse_dates = ['date'])
df

In [None]:
df.describe(include='all')

In [None]:
4*448786

In [None]:
df.dtypes

In [None]:
df = pd.read_csv('data/city_sales.csv', parse_dates = ['date'])
df.set_index(['date'], inplace=True)
df.head()

In [None]:
df = pd.read_csv('data/city_sales.csv', parse_dates = ['date'], index_col = 'date')
df.head()

In [None]:
# Tenemos un DateTimeIndex
df.index

In [None]:
from datetime import datetime
dates = pd.to_datetime([datetime(2015, 7, 3), '4th of July, 2015',
                       '2015-Jul-6', '07-07-2015', '20150708'])
dates

### 9. Seleccionar los datos con un año específico y realizar la agregación

In [None]:
df.loc['2018']

In [None]:
df.loc['2018', 'num'].head()

In [None]:
df.loc['2018'].groupby('city').sum()

### 10. Seleccionar datos con un mes específico o un día específico del mes

In [None]:
df.loc['2018-5'].head()

In [None]:
df.loc['2018-5-1'].head()

In [None]:
cond = df.index.month == 2
df[cond].head()

### 11. Seleccionar datos entre dos fechas

In [None]:
df.loc['2016':'2018']

In [None]:
df.loc['2018-5-2 10' : '2018-5-2 11' ]

In [None]:
df.loc['2018-5-2 10:30' : '2018-5-2 10:45' ]

In [None]:
df.between_time('10:30','10:45')

In [None]:
df.shape

### 12. Operaciones con fechas

In [None]:
df = pd.DataFrame({'name': ['Tom', 'Andy', 'Lucas'],
                 'DoB': ['08-05-1997', '04-28-1996', '12-16-1995']})

df['DoB'] = pd.to_datetime(df['DoB'])
df

In [None]:
from pandas.tseries.offsets import DateOffset, BDay

print(df['DoB'] + DateOffset(days = 5))
print(df['DoB'] + DateOffset(days = -5))
print(df['DoB'] + DateOffset(months = 5))

In [None]:
BDay(10)

In [None]:
print(df['DoB'])
print(df['DoB'] + BDay(10))

In [None]:
df['DoB+10BD'] = df['DoB'] + BDay(10)
df

In [None]:
df['date_diff'] = (df['DoB+10BD'] - df['DoB']).dt.days
df

In [None]:
df.dtypes

### 13. Secuencias Regulares: ``pd.date_range()``

Para hacer más cómoda la creación de secuencias de **fechas regulares**, Pandas ofrece unas cuantas funciones para este propósito: ``pd.date_range()`` para timestamps, ``pd.period_range()`` para periodos, y ``pd.timedelta_range()`` para deltas de tiempo.
Hemos visto que **`range()`` de Python y ``np.arange()``** de NumPy convierten un punto de inicio, un punto final y un tamaño de paso o step opcional en una secuencia.
Del mismo modo, ``pd.date_range()`` acepta una fecha inicial, una fecha final y un código de frecuencia opcional para crear una secuencia regular de fechas.
Por defecto, la frecuencia es de un día:

In [None]:
pd.date_range('2015-07-03', '2015-07-10')

Alternativamente, el intervalo de fechas puede especificarse no con un punto de inicio y un punto final, sino con un punto de inicio y un número de periodos:

In [None]:
pd.date_range('2015-07-03', periods = 8)

El espaciado puede modificarse alterando el argumento ``freq``, que por defecto es ``D``.
Por ejemplo, aquí construiremos un rango de marcas de tiempo horarias:

In [None]:
pd.date_range('2015-01-01', periods = 12, freq='M')

### 14. Trabajando con valores perdidos

In [None]:
# Creamos algunos missings aposta con la rolling window
df = pd.read_csv('data/city_sales.csv', parse_dates=['date'], index_col='date')
df

In [None]:
df['rolling_sum'] = df.rolling(3).sum()
df.head()

In [None]:
df['rolling_sum_back'] = df['rolling_sum'].fillna(method = 'backfill')
df.head()

In [None]:
# Creating the dataframe 
df = pd.DataFrame({"A":[12, 4, 5, None, 1],
                   "B":[None, 2, 54, 3, None],
                   "C":[20, 16, None, 3, 8],
                   "D":[14, 3, None, None, 6]})
  
# Print the dataframe
df

In [None]:
df.interpolate(method = 'linear')

### 15. Resampling, Windowing and Shifting

In [None]:
goog = pd.read_csv('data/GOOG.csv')
goog['Date'] =  pd.to_datetime(goog['Date'])
goog.set_index('Date', inplace=True)
goog



In [None]:
goog.head(10)

In [None]:
goog.info()

In [None]:
# goog = goog['Close']
goog = goog.fillna(method='ffill')
goog

In [None]:
goog['Close'].plot();

In [None]:
goog.resample('BA').mean()

In [None]:
goog.asfreq('BA')

In [None]:
goog.loc['2012-12-31']

In [None]:
import matplotlib.pyplot as plt
plt.figure(figsize=(10,10))
goog['Close'].plot(alpha=0.5, style='-')
goog['Close'].resample('BA').mean().plot(style=':')
goog['Close'].asfreq('BA').plot(style='--');

plt.legend(['input', 'resample', 'asfreq'],
           loc='upper left');

In [None]:
print(goog.resample('BA').mean()[-1:])

In [None]:
print(goog.resample('BA').mean()[-1:])
goog.loc['2020'].mean()

In [None]:
goog.asfreq('BA')

| Code   | Description         | Code   | Description          |
|--------|---------------------|--------|----------------------|
| ``D``  | Calendar day        | ``B``  | Business day         |
| ``W``  | Weekly              |        |                      |
| ``M``  | Month end           | ``BM`` | Business month end   |
| ``Q``  | Quarter end         | ``BQ`` | Business quarter end |
| ``A``  | Year end            | ``BA`` | Business year end    |
| ``H``  | Hours               | ``BH`` | Business hours       |
| ``T``  | Minutes             |        |                      |
| ``S``  | Seconds             |        |                      |
| ``L``  | Milliseonds         |        |                      |
| ``U``  | Microseconds        |        |                      |
| ``N``  | nanoseconds         |        |                      |

In [None]:
goog = goog['Close']

In [None]:
goog.shift(1)

In [None]:
pd.DataFrame({'Data': goog,
             'Data-1': goog.shift(1),
             'Diff': goog - goog.shift(1),
             '%Crec': round(((goog - goog.shift(1))/goog)*100,2)})

In [None]:
# Calcular el ROI de la inversión
ROI = 100 * (goog - goog.shift(261)) / goog.shift(261)
ROI.plot()
plt.ylabel('% Return on Investment');

### 16. Rolling window

In [None]:
rolling = goog.rolling(261, center=True) # 365 - weekends (aprox(52*2))
rolling

In [None]:
rolling.mean()

In [None]:
rolling = goog.rolling(261, center=True)

data = pd.DataFrame({'input': goog,
                     'one-year rolling_mean': rolling.mean(),
                     'one-year rolling_std': rolling.std()})

ax = data.plot(style=['-', '--', ':'])
ax.lines[0].set_alpha(0.3)