# Глава 7. 
## Работа с датой и временем
> <b>7.1 Конвертирование строковых значений в даты

In [5]:
# Загрузить библиотеки
import numpy as np
import pandas as pd

# Создать строки
date_strings = np.array(['03-04-2005 11:35 PM',
                         '23-05-2010 12:01 AM',
                         '04-09-2009 09:09 PM'])

# Конвертировать в метки datetime
[pd.to_datetime(date, format='%d-%m-%Y %I:%M %p') for date in date_strings]

[Timestamp('2005-04-03 23:35:00'),
 Timestamp('2010-05-23 00:01:00'),
 Timestamp('2009-09-04 21:09:00')]

In [4]:
# Конвертировать в метки datetime
[pd.to_datetime(date, format="%d-%m-%Y %I:%M %p", errors="coerce")
for date in date_strings]

[Timestamp('2005-04-03 23:35:00'), Timestamp('2010-05-23 00:01:00'), NaT]

> <b>7.2 Обработка часовых поясов

In [6]:
# Загрузить библиотеку
import pandas as pd

# Создать метку datetime
pd.Timestamp('2017-05-01 06:00:00', tz='Europe/London')

Timestamp('2017-05-01 06:00:00+0100', tz='Europe/London')

In [7]:
# Создать метку datetime
date = pd.Timestamp('2017-05-01 06:00:00')

# Задать часовой пояс
date_in_london = date.tz_localize('Europe/London')

# Показать метку datetime
date_in_london

Timestamp('2017-05-01 06:00:00+0100', tz='Europe/London')

In [8]:
# Изменить часовой пояс
date_in_london.tz_convert('Africa/Abidjan')

Timestamp('2017-05-01 05:00:00+0000', tz='Africa/Abidjan')

In [9]:
# Создать три даты
dates = pd.Series(pd.date_range('2/2/2002', periods=3, freq='M'))

# Задать часовой пояс
dates.dt.tz_localize('Africa/Abidjan')

0   2002-02-28 00:00:00+00:00
1   2002-03-31 00:00:00+00:00
2   2002-04-30 00:00:00+00:00
dtype: datetime64[ns, Africa/Abidjan]

In [10]:
# Загрузить библиотеку
from pytz import all_timezones

# Показать два часовых пояса
all_timezones[0:2]

['Africa/Abidjan', 'Africa/Accra']

> <b>7.3 Выбор дат и времени

In [16]:
# Загрузить библиотеку
import pandas as pd

# Создать фрейм данных
dataframe = pd.DataFrame()

# Создать метки datetime
dataframe['дата'] = pd.date_range('1/1/2001', periods=100000, freq='H')

# Выбрать наблюдения между двумя метками datetime
dataframe[(dataframe['дата'] > '2002-1-1 01:00:00') &
(dataframe['дата'] <= '2002-1-1 04:00:00')]

Unnamed: 0,дата
8762,2002-01-01 02:00:00
8763,2002-01-01 03:00:00
8764,2002-01-01 04:00:00


In [17]:
# Задать индекс
dataframe = dataframe.set_index(dataframe['дата'])

# Выбрать наблюдения между двумя метками datetime
dataframe.loc['2002-1-1 01:00:00':'2002-1-1 04:00:00']

Unnamed: 0_level_0,дата
дата,Unnamed: 1_level_1
2002-01-01 01:00:00,2002-01-01 01:00:00
2002-01-01 02:00:00,2002-01-01 02:00:00
2002-01-01 03:00:00,2002-01-01 03:00:00
2002-01-01 04:00:00,2002-01-01 04:00:00


> <b>7.4 Разбиение данных даты на несколько признаков

In [15]:
# Загрузить библиотеку
import pandas as pd

# Создать фрейм данных
dataframe = pd.DataFrame()

# Создать пять дат
dataframe['дата'] = pd.date_range('1/1/2001', periods=150, freq='W')

# Создать признаки для года, месяца, дня, часа и минуты
dataframe['год']    = dataframe['дата'].dt.year
dataframe['месяц']  = dataframe['дата'].dt.month
dataframe['день']   = dataframe['дата'].dt.day
dataframe['час']    = dataframe['дата'].dt.hour
dataframe['минута'] = dataframe['дата'].dt.minute

# Показать три строки фрейма
dataframe.head(3)

Unnamed: 0,дата,год,месяц,день,час,минута
0,2001-01-07,2001,1,7,0,0
1,2001-01-14,2001,1,14,0,0
2,2001-01-21,2001,1,21,0,0


> <b>7.5 Вычисление разницы между датами

In [18]:
# Загрузить библиотеку
import pandas as pd

# Создать фрейм данных
dataframe = pd.DataFrame()

# Создать два признака datetime
dataframe['Прибыло'] = [pd.Timestamp('01-01-2017'), pd.Timestamp('01-04-2017')]
dataframe['Осталось'] = [pd.Timestamp('01-01-2017'), pd.Timestamp('01-06-2017')]

# Вычислить продолжительность между признаками
dataframe['Осталось'] - dataframe['Прибыло']

0   0 days
1   2 days
dtype: timedelta64[ns]

In [19]:
# Вычислить продолжительность между признаками
pd.Series(delta.days 
          for delta in (dataframe['Осталось'] - dataframe['Прибыло']))

0    0
1    2
dtype: int64

> <b>7.6 Кодирование дней недели

In [20]:
# Загрузить библиотеку
import pandas as pd

# Создать даты
dates = pd.Series(pd.date_range("2/2/2002", periods=3, freq="M"))

# Показать дни недели
dates.dt.weekday_name

0    Thursday
1      Sunday
2     Tuesday
dtype: object

In [21]:
# Показать дни недели
dates.dt.weekday

0    3
1    6
2    1
dtype: int64

> <b>7.7 Создание запаздывающего признака

In [22]:
# Загрузить библиотеку
import pandas as pd

# Создать фрейм данных
dataframe = pd.DataFrame()

# Создать дату
dataframe["даты"] = pd.date_range("1/1/2001", periods=5, freq="D")
dataframe["цена_акций"] = [1.1,2.2,3.3,4.4,5.5]

# Значения с запаздыванием на одну строку
dataframe["цена_акций_в_предыдущий_день"] = dataframe["цена_акций"].shift(1)

# Показать фрейм данных
dataframe

Unnamed: 0,даты,цена_акций,цена_акций_в_предыдущий_день
0,2001-01-01,1.1,
1,2001-01-02,2.2,1.1
2,2001-01-03,3.3,2.2
3,2001-01-04,4.4,3.3
4,2001-01-05,5.5,4.4


> <b>7.8 Использование скользящих временных окон

In [23]:
# Загрузить библиотеку
import pandas as pd

# Создать метки datetime
time_index = pd.date_range("01/01/2010", periods=5, freq="M")

# Создать фрейм данных, задать индекс
dataframe = pd.DataFrame(index=time_index)

# Создать признак
dataframe["цена_акций"] = [1,2,3,4,5]

# Вычислить скользящее среднее 
dataframe.rolling(window=2).mean()

Unnamed: 0,цена_акций
2010-01-31,
2010-02-28,1.5
2010-03-31,2.5
2010-04-30,3.5
2010-05-31,4.5


> <b>7.9 Обработка пропущенных дат во временном ряду

In [27]:
# Загрузить библиотеки
import pandas as pd
import numpy as np

# Создать дату
time_index = pd.date_range("01/01/2010", periods=5, freq="M")

# Создать фрейм данных, задать индекс
dataframe = pd.DataFrame(index=time_index)

# Создать признак с промежутком пропущенных значений
dataframe["продажи"] = [1.0,2.0,np.nan,np.nan,5.0]

# Интерполировать пропущенные значения
dataframe.interpolate()

Unnamed: 0,продажи
2010-01-31,1.0
2010-02-28,2.0
2010-03-31,3.0
2010-04-30,4.0
2010-05-31,5.0


In [28]:
# Создать признак с промежутком пропущенных значений
dataframe["продажи"] = [1.0,2.0,np.nan,np.nan,5.0]

# Прямое заполнение
dataframe.ffill()

Unnamed: 0,продажи
2010-01-31,1.0
2010-02-28,2.0
2010-03-31,2.0
2010-04-30,2.0
2010-05-31,5.0


In [29]:
# Создать признак с промежутком пропущенных значений
dataframe["продажи"] = [1.0,2.0,np.nan,np.nan,5.0]

# Обратное заполнение
dataframe.bfill()

Unnamed: 0,продажи
2010-01-31,1.0
2010-02-28,2.0
2010-03-31,5.0
2010-04-30,5.0
2010-05-31,5.0


In [30]:
# Интерполировать пропущенные значения
dataframe.interpolate(method="quadratic")

Unnamed: 0,продажи
2010-01-31,1.0
2010-02-28,2.0
2010-03-31,3.059808
2010-04-30,4.038069
2010-05-31,5.0


In [31]:
# Интерполировать пропущенные значения
dataframe.interpolate(limit=1, limit_direction="forward")

Unnamed: 0,продажи
2010-01-31,1.0
2010-02-28,2.0
2010-03-31,3.0
2010-04-30,
2010-05-31,5.0
