# Глава 7 Работа с датами и временем

# Конвертирование строковых значений в даты

In [None]:
#дан вектор строк, представляющий даты и время и требуется преобразовать их в данные временных рядов

In [2]:
import pandas as pd
import numpy as np

In [3]:
date_strings = np.array(['03-04-2005 11:35 PM',
                        '23-05-2010 12:01 AM',
                        '04-09-2009 09:09 PM'])

In [4]:
#Конвертировать в метки datetime
[pd.to_datetime(date, format='%d-%m-%Y %I:%M %p') for date in date_strings]

[Timestamp('2005-04-03 23:35:00'),
 Timestamp('2010-05-23 00:01:00'),
 Timestamp('2009-09-04 21:09:00')]

In [5]:
#Конвертировать в метки datetime
[pd.to_datetime(date, format='%d-%m-%Y %I:%M %p', errors="coerce") for date in date_strings]

[Timestamp('2005-04-03 23:35:00'),
 Timestamp('2010-05-23 00:01:00'),
 Timestamp('2009-09-04 21:09:00')]

# Обработка часовых поясов

In [None]:
#дан ряд и требуется добавить или изменить информацию о часовом поясе

In [6]:
import pandas as pd

In [7]:
#создать метку datetime
pd.Timestamp('2017-05-01 06:00:00', tz='Europe/London')

Timestamp('2017-05-01 06:00:00+0100', tz='Europe/London')

In [10]:
date = pd.Timestamp('2017-05-01 06:00:00')

In [11]:
date_in_london = date.tz_localize('Europe/London')
date_in_london

Timestamp('2017-05-01 06:00:00+0100', tz='Europe/London')

In [13]:
#преобразование в другой часовой пояс
date_in_london.tz_convert('Africa/Abidjan')

Timestamp('2017-05-01 05:00:00+0000', tz='Africa/Abidjan')

In [17]:
dates = pd.Series(pd.date_range('4/5/2002', periods=3, freq='M'))
dates.dt.tz_localize('Africa/Abidjan')

0   2002-04-30 00:00:00+00:00
1   2002-05-31 00:00:00+00:00
2   2002-06-30 00:00:00+00:00
dtype: datetime64[ns, Africa/Abidjan]

In [18]:
from pytz import all_timezones

In [21]:
all_timezones[30:50]

['Africa/Kinshasa',
 'Africa/Lagos',
 'Africa/Libreville',
 'Africa/Lome',
 'Africa/Luanda',
 'Africa/Lubumbashi',
 'Africa/Lusaka',
 'Africa/Malabo',
 'Africa/Maputo',
 'Africa/Maseru',
 'Africa/Mbabane',
 'Africa/Mogadishu',
 'Africa/Monrovia',
 'Africa/Nairobi',
 'Africa/Ndjamena',
 'Africa/Niamey',
 'Africa/Nouakchott',
 'Africa/Ouagadougou',
 'Africa/Porto-Novo',
 'Africa/Sao_Tome']

# Выбор дат и времени

In [None]:
#дан вектор дат, и требуется выбрать одну дату или несколько

In [6]:
import pandas as pd
dataframe = pd.DataFrame()
# создать метки datetime
dataframe['date'] = pd.date_range('1/1/2001', periods=100000, freq='H')

In [7]:
# выбрать наблюдения между двумя метками datetime
dataframe[(dataframe['date'] > '2002-1-1 01:00:00') & (dataframe['date'] <= '2002-1-1 04:00:00')]

Unnamed: 0,date
8762,2002-01-01 02:00:00
8763,2002-01-01 03:00:00
8764,2002-01-01 04:00:00


In [None]:
# установить столбец даты как индекс фрейма данных, сделать срез через loc

In [8]:
# задать индекс
dataframe = dataframe.set_index(dataframe['date'])

In [9]:
# выбрать наблюдение между двумя метками datetime
dataframe.loc['2002-1-1 01:00:00':'2002-1-1 04:00:00']

Unnamed: 0_level_0,date
date,Unnamed: 1_level_1
2002-01-01 01:00:00,2002-01-01 01:00:00
2002-01-01 02:00:00,2002-01-01 02:00:00
2002-01-01 03:00:00,2002-01-01 03:00:00
2002-01-01 04:00:00,2002-01-01 04:00:00


# Разбиение данных даты на несколько признаков

In [None]:
# сделать отдельные признаки для года, месяца, дня итд

In [10]:
import pandas as pd
dataframe = pd.DataFrame()

In [11]:
# создать 5 дат
dataframe['дата'] = pd.date_range('1/1/2001', periods=150, freq='W')

In [13]:
dataframe['дата'].head(15)

0    2001-01-07
1    2001-01-14
2    2001-01-21
3    2001-01-28
4    2001-02-04
5    2001-02-11
6    2001-02-18
7    2001-02-25
8    2001-03-04
9    2001-03-11
10   2001-03-18
11   2001-03-25
12   2001-04-01
13   2001-04-08
14   2001-04-15
Name: дата, dtype: datetime64[ns]

In [14]:
# создать признаки для года, месяца, дня и тд
dataframe['год'] = dataframe['дата'].dt.year
dataframe['месяц'] = dataframe['дата'].dt.month
dataframe['день'] = dataframe['дата'].dt.day
dataframe['час'] = dataframe['дата'].dt.hour
dataframe['минута'] = dataframe['дата'].dt.minute

In [15]:
dataframe.head(3)

Unnamed: 0,дата,год,месяц,день,час,минута
0,2001-01-07,2001,1,7,0,0
1,2001-01-14,2001,1,14,0,0
2,2001-01-21,2001,1,21,0,0


# Вычисление разницы между датами

In [None]:
# даны два признака datetime
# требуется для каждого наблюдения рассчитать время между ними

In [16]:
import pandas as pd
dataframe = pd.DataFrame()

In [18]:
dataframe['Прибыло'] = [pd.Timestamp('01-01-2017'), pd.Timestamp('01-04-2017')]
dataframe['Осталось'] = [pd.Timestamp('01-01-2017'), pd.Timestamp('01-06-2017')]

In [19]:
dataframe['Осталось'] - dataframe['Прибыло']

0   0 days
1   2 days
dtype: timedelta64[ns]

In [20]:
# вычислить продолжительность между признаками
pd.Series(delta.days for delta in (dataframe['Осталось'] - dataframe['Прибыло']))

0    0
1    2
dtype: int64

# Кодирование дней недели

In [None]:
#дан вектор дат, требуется узнать день недели для каждой даты

In [1]:
import pandas as pd

In [3]:
dates = pd.Series(pd.date_range('2/2/2002', periods=3, freq='M'))
dates.dt.weekday_name

0    Thursday
1      Sunday
2     Tuesday
dtype: object

In [9]:
dates.dt.month

0    2
1    3
2    4
dtype: int64

In [5]:
pd.date_range('2/2/2002', periods=3, freq='M')

DatetimeIndex(['2002-02-28', '2002-03-31', '2002-04-30'], dtype='datetime64[ns]', freq='M')

In [6]:
dates

0   2002-02-28
1   2002-03-31
2   2002-04-30
dtype: datetime64[ns]

In [10]:
dates.dt.weekday

0    3
1    6
2    1
dtype: int64

# Создание запаздывающего признака

In [None]:
#Требуется создать признак, который запаздывает  на n периодов времени

In [11]:
import pandas as pd
dataframe = pd.DataFrame()

In [12]:
dataframe['даты'] = pd.date_range('1/1/2001', periods=5, freq='D')
dataframe['цена_акций'] = [1.1, 2.2, 3.3, 4.4, 5.5]

In [13]:
dataframe['цена_акций_предыдущий_день'] = dataframe['цена_акций'].shift(1)

In [14]:
dataframe

Unnamed: 0,даты,цена_акций,цена_акций_предыдущий_день
0,2001-01-01,1.1,
1,2001-01-02,2.2,1.1
2,2001-01-03,3.3,2.2
3,2001-01-04,4.4,3.3
4,2001-01-05,5.5,4.4


# Использование скользящих временных окон

In [None]:
#дан временной ряд, требуется рассчитать статистический показатель для скользящего времени

In [15]:
import pandas as pd
time_index = pd.date_range('1/1/2010', periods=5, freq='D')
dataframe = pd.DataFrame(index=time_index)

In [16]:
dataframe['цена_акций'] = [1, 2, 3, 4, 5]

In [17]:
dataframe.rolling(window=2).mean()

Unnamed: 0,цена_акций
2010-01-01,
2010-01-02,1.5
2010-01-03,2.5
2010-01-04,3.5
2010-01-05,4.5


# Обработка пропущенных дат во временном ряду

In [None]:
#В данных временных рядов пропущены значения. Обработать эту ситуацию.

In [19]:
import pandas as pd
import numpy as np
time_index = pd.date_range('1/1/2010', periods=5, freq='M')
dataframe = pd.DataFrame(index=time_index)

In [20]:
dataframe['продажи'] = [1.0, 2.0, np.nan, np.nan, 5.0]

In [21]:
dataframe.interpolate()

Unnamed: 0,продажи
2010-01-31,1.0
2010-02-28,2.0
2010-03-31,3.0
2010-04-30,4.0
2010-05-31,5.0


In [22]:
dataframe.ffill()

Unnamed: 0,продажи
2010-01-31,1.0
2010-02-28,2.0
2010-03-31,2.0
2010-04-30,2.0
2010-05-31,5.0


In [23]:
dataframe.bfill()

Unnamed: 0,продажи
2010-01-31,1.0
2010-02-28,2.0
2010-03-31,5.0
2010-04-30,5.0
2010-05-31,5.0


In [24]:
dataframe.interpolate(method="quadratic")

Unnamed: 0,продажи
2010-01-31,1.0
2010-02-28,2.0
2010-03-31,3.059808
2010-04-30,4.038069
2010-05-31,5.0


In [25]:
dataframe.interpolate(limit=1, limit_direction="forward")

Unnamed: 0,продажи
2010-01-31,1.0
2010-02-28,2.0
2010-03-31,3.0
2010-04-30,
2010-05-31,5.0
