## Конвертирование строковых значений в даты

Дан вектор строк, представляющий даты и время, и требуется преобразовать их в данные временных рядов

In [1]:
import numpy as np
import pandas as pd

# Создать строки
date_string = np.array(['03-04-2005 11:35 PM',
                       '23-05-2010 12:01 AM',
                       '04-09-2009 09:29 PM'])

# Конвертировать в метки datetime
[pd.to_datetime(date, format='%d-%m-%Y %I:%M %p') for date in date_string]

[Timestamp('2005-04-03 23:35:00'),
 Timestamp('2010-05-23 00:01:00'),
 Timestamp('2009-09-04 21:29:00')]

In [2]:
# обработка ошибок
date_string = np.array(['03-04-2005 11:35 PM',
                       '23-05-2010 12:01 AM',
                       '04-09-20090 09:29 PM'])

# Добавить параметр errors для устранения проблем -> неверный формат станет равный NaT(Not a Time)
[pd.to_datetime(date, format='%d-%m-%Y %I:%M %p', errors='coerce') for date in date_string]

[Timestamp('2005-04-03 23:35:00'), Timestamp('2010-05-23 00:01:00'), NaT]

## Обработка часовых поясов

Дан временной ряд, требуется добавить или изменить информацию о часовом поясе

In [3]:
import pandas as pd

pd.Timestamp('2017-05-01 06:00:00', tz='Europe/London')

Timestamp('2017-05-01 06:00:00+0100', tz='Europe/London')

In [4]:
date = pd.Timestamp('2017-05-01 06:00:00')

date_in_london = date.tz_localize('Europe/London')

date_in_london

Timestamp('2017-05-01 06:00:00+0100', tz='Europe/London')

In [5]:
# Изменить часовой пояс
date_in_london.tz_convert('Africa/Abidjan')

Timestamp('2017-05-01 05:00:00+0000', tz='Africa/Abidjan')

In [6]:
# Создать три даты
dates = pd.Series(pd.date_range('2/2/2002',periods=3,freq='M'))
dates

0   2002-02-28
1   2002-03-31
2   2002-04-30
dtype: datetime64[ns]

In [7]:
# Задать часовой пояс
dates.dt.tz_localize('Africa/Abidjan')

0   2002-02-28 00:00:00+00:00
1   2002-03-31 00:00:00+00:00
2   2002-04-30 00:00:00+00:00
dtype: datetime64[ns, Africa/Abidjan]

In [8]:
from pytz import all_timezones

all_timezones

['Africa/Abidjan',
 'Africa/Accra',
 'Africa/Addis_Ababa',
 'Africa/Algiers',
 'Africa/Asmara',
 'Africa/Asmera',
 'Africa/Bamako',
 'Africa/Bangui',
 'Africa/Banjul',
 'Africa/Bissau',
 'Africa/Blantyre',
 'Africa/Brazzaville',
 'Africa/Bujumbura',
 'Africa/Cairo',
 'Africa/Casablanca',
 'Africa/Ceuta',
 'Africa/Conakry',
 'Africa/Dakar',
 'Africa/Dar_es_Salaam',
 'Africa/Djibouti',
 'Africa/Douala',
 'Africa/El_Aaiun',
 'Africa/Freetown',
 'Africa/Gaborone',
 'Africa/Harare',
 'Africa/Johannesburg',
 'Africa/Juba',
 'Africa/Kampala',
 'Africa/Khartoum',
 'Africa/Kigali',
 'Africa/Kinshasa',
 'Africa/Lagos',
 'Africa/Libreville',
 'Africa/Lome',
 'Africa/Luanda',
 'Africa/Lubumbashi',
 'Africa/Lusaka',
 'Africa/Malabo',
 'Africa/Maputo',
 'Africa/Maseru',
 'Africa/Mbabane',
 'Africa/Mogadishu',
 'Africa/Monrovia',
 'Africa/Nairobi',
 'Africa/Ndjamena',
 'Africa/Niamey',
 'Africa/Nouakchott',
 'Africa/Ouagadougou',
 'Africa/Porto-Novo',
 'Africa/Sao_Tome',
 'Africa/Timbuktu',
 'Africa/

## Выбор дат и времени

Дан вектор дат, и требуется выбрать одну дату или несколько

Для решения можно использовать два булевых условия в качестве начальной и конечной дат

In [9]:
import pandas as pd

dataframe = pd.DataFrame()

# Создать метки  DataFrame
dataframe['дата'] = pd.date_range('1/1/2001', periods = 100000, freq = 'H')

# Выбрать наблюдения между двумя метками datetime
dataframe[(dataframe['дата'] > '2002-1-1 01:00:00') & (dataframe['дата'] <= '2002-1-1 04:00:00')]

Unnamed: 0,дата
8762,2002-01-01 02:00:00
8763,2002-01-01 03:00:00
8764,2002-01-01 04:00:00


В качестве альтернативы мы можем установить столбец даты как индекс фрейма данных, а затем сделать срез с помощью метода loc

In [10]:
# Задать индекс
dataframe = dataframe.set_index(dataframe['дата'])

# ВЫбрать наблюдения между двумя метками dataframe
dataframe.loc['2002-1-1 01:00:00':'2002-1-1 04:00:00']

Unnamed: 0_level_0,дата
дата,Unnamed: 1_level_1
2002-01-01 01:00:00,2002-01-01 01:00:00
2002-01-01 02:00:00,2002-01-01 02:00:00
2002-01-01 03:00:00,2002-01-01 03:00:00
2002-01-01 04:00:00,2002-01-01 04:00:00


## Разбиение данных даты на несколько признаков

Дан столбец дат и времени, требуется создать признаки для года, месяца, дня, часа и минуты

In [11]:
import pandas as pd

dataframe = pd.DataFrame()

dataframe['дата'] = pd.date_range('1/1/2001', periods=150, freq = 'W')

dataframe['год'] = dataframe['дата'].dt.year
dataframe['месяц'] = dataframe['дата'].dt.month
dataframe['день'] = dataframe['дата'].dt.day
dataframe['час'] = dataframe['дата'].dt.hour
dataframe['минута'] = dataframe['дата'].dt.minute

dataframe.head()

Unnamed: 0,дата,год,месяц,день,час,минута
0,2001-01-07,2001,1,7,0,0
1,2001-01-14,2001,1,14,0,0
2,2001-01-21,2001,1,21,0,0
3,2001-01-28,2001,1,28,0,0
4,2001-02-04,2001,2,4,0,0


## Вычисление разницы между датами

In [12]:
import pandas as pd

dataframe = pd.DataFrame()

# Создать два признака datetime
dataframe['Прибыло'] = [pd.Timestamp('01-01-2017'), pd.Timestamp('01-04-2017')]
dataframe['Осталось'] = [pd.Timestamp('01-01-2017'), pd.Timestamp('01-06-2017')]

# Вычислить время между признаками
dataframe['Осталось'] - dataframe['Прибыло']

0   0 days
1   2 days
dtype: timedelta64[ns]

In [13]:
pd.Series(delta.days for delta in(dataframe['Осталось'] - dataframe['Прибыло']))

0    0
1    2
dtype: int64

## Кодирование дней недели 

 Дан вектор дат, и требуется узнать день недели для каждой даты

In [17]:
import pandas as pd

dates = pd.Series(pd.date_range("2/2/2002", periods=3,freq="M"))

dates.dt.day

0    28
1    31
2    30
dtype: int64

## Создание запаздывающего признака

Требуется создать признак, который запаздывает на n периодов времени

In [19]:
import pandas as pd

dataframe = pd.DataFrame()

dataframe["даты"] = pd.date_range("1/1/2001", periods=5, freq="D")
dataframe["цена_акции"] = [1.1,2.2,3.3,4.4,5.5]

# Значение с запаздыванием на одну строку
dataframe["цена_акции_в_предыдущий_день"] = dataframe['цена_акции'].shift(1)

dataframe

Unnamed: 0,даты,цена_акции,цена_акции_в_предыдущий_день
0,2001-01-01,1.1,
1,2001-01-02,2.2,1.1
2,2001-01-03,3.3,2.2
3,2001-01-04,4.4,3.3
4,2001-01-05,5.5,4.4


## Использование скользящих временных окон

Дан временной ряд, и требуется рассчитать некоторый статистический показатель для скользящего времени

In [29]:
import pandas as pd

# Создать метки datetime
time_index = pd.date_range("01/01/2023", periods=5, freq="m")

# Создать фрейм данных, задать индекс
dataframe = pd.DataFrame(index = time_index)

# Создать признак
dataframe["цена_акций"] = [1,2,3,4,5]

# Вычислить скользящее среднее
dataframe.rolling(window=2).mean()

Unnamed: 0,цена_акций
2023-01-31,
2023-02-28,1.5
2023-03-31,2.5
2023-04-30,3.5
2023-05-31,4.5


## Обраюотка пропущенных дат во временном ряду

В данных временных рядов пропущены значения. Обработать эту ситуацию

In [33]:
import pandas as pd
import numpy as np

# Создать дату
time_index = pd.date_range('3/3/2023', periods = 5, freq='m')

# Создать фрейм данных, задать индекс
dataframe = pd.DataFrame(index= time_index)

# Создать признак с промежутком пропущенных значений
dataframe["Продажи"] = [1.0, 2., np.nan, np.nan, 5.]

dataframe.interpolate()

Unnamed: 0,Продажи
2023-03-31,1.0
2023-04-30,2.0
2023-05-31,3.0
2023-06-30,4.0
2023-07-31,5.0


In [34]:
dataframe.ffill()

Unnamed: 0,Продажи
2023-03-31,1.0
2023-04-30,2.0
2023-05-31,2.0
2023-06-30,2.0
2023-07-31,5.0


In [35]:
dataframe.bfill()

Unnamed: 0,Продажи
2023-03-31,1.0
2023-04-30,2.0
2023-05-31,5.0
2023-06-30,5.0
2023-07-31,5.0


In [37]:
dataframe.interpolate(method = 'quadratic')

Unnamed: 0,Продажи
2023-03-31,1.0
2023-04-30,2.0
2023-05-31,3.022101
2023-06-30,4.000362
2023-07-31,5.0


In [38]:
dataframe.interpolate(limit=1, limit_direction="forward")

Unnamed: 0,Продажи
2023-03-31,1.0
2023-04-30,2.0
2023-05-31,3.0
2023-06-30,
2023-07-31,5.0
