ПРИЗНАКИ ДАТЫ И ВРЕМЕНИ

ФОРМАТ DATETIME

в Pandas является формат datetime, который записывается как YYYY-MM-DD HH: MM: SS, то есть составляющие времени указываются в следующем порядке: год, месяц, день, час, минута, секунда.

In [18]:
import pandas as pd
melb_df = pd.read_csv('data/melb_data_ps.csv')

In [None]:
# В наших данных дата записана в виде DD/MM/YYYY, 
# например 3/12/2017
melb_df['Date']

In [None]:
# Для того чтобы преобразовывать столбцы с датами, 
# записанными в распространённых форматах, в формат datetime, 
# можно воспользоваться функцией pandas.to_datetime(). 
# В нашем случае в функции нужно указать 
# параметр dayfirst=True, который будет обозначать, 
# что в первоначальном признаке первым идет день.
melb_df['Date'] = pd.to_datetime(melb_df['Date'], dayfirst=True)
melb_df['Date']

ВЫДЕЛЕНИЕ АТРИБУТОВ DATETIME

Тип данных datetime позволяет с помощью специального аксессора dt выделять составляющие времени из каждого элемента столбца, такие как:

date — дата;

year, month, day — год, месяц, день;

time — время;

hour, minute, second — час, минута, секунда;

dayofweek — номер дня недели, от 0 до 6, где 0 — понедельник, 6 — воскресенье;

day_name — название дня недели;

dayofyear — порядковый день года;

quarter — квартал (интервал в три месяца).

Аксессор — это атрибут столбца, хранящий переменные, которые были строковым представлением времени, а затем были изменены с помощью pd.to_datetime().

Обратите внимание, что вы не сможете обратиться к аксессору, если ваш столбец не приведён к типу datetime.

In [None]:
years_sold = melb_df['Date'].dt.year
print(years_sold)
print('Min year sold:', years_sold.min())
print('Max year sold:', years_sold.max())
print('Mode year sold:', years_sold.mode()[0])

Теперь попробуем понять, на какие месяцы приходится пик продаж объектов недвижимости. Для этого выделим атрибут dt.month и на этот раз занесём результат в столбец MonthSale, а затем найдём относительную частоту продаж для каждого месяца от общего количества продаж — для этого используем метод value_counts() с параметром normalize (вывод в долях):

In [None]:
melb_df['MonthSale'] = melb_df['Date'].dt.month
melb_df['MonthSale'].value_counts(normalize=True)

РАБОТА С ИНТЕРВАЛАМИ

Часто бывает такая ситуация, что необходимо вычислять интервалы между двумя временными промежутками. Например, можно вычислить, сколько дней прошло с 1 января 2016 года до момента продажи объекта. Для этого можно просто найти разницу между датами продаж и заявленной датой, представленной в формате datetime:

In [None]:
delta_days = melb_df['Date'] - pd.to_datetime('2016-01-01') 
display(delta_days)

В результате мы получаем Series, элементами которой является количество дней, которое прошло с 1 января 2016 года. Обратите внимание, что данные такого формата относятся к типу timedelta.

Чтобы превратить количество дней из формата интервала в формат целого числа дней, можно воспользоваться аксессором dt для формата timedelta и извлечь из него атрибут days:

In [None]:
delta_days.dt.days

Рассмотрим другой пример. Давайте создадим признак возраста объекта недвижимости в годах на момент продажи. Для этого выделим из столбца с датой продажи год и вычтем из него год постройки здания. Результат оформим в виде столбца AgeBuilding:

In [None]:
melb_df['AgeBuilding'] = melb_df['Date'].dt.year - melb_df['YearBuilt']
display(melb_df['AgeBuilding'])

In [None]:
melb_df['WeekdaySale'] = melb_df['Date'].dt.dayofweek
weekend_count = melb_df[(melb_df['WeekdaySale'] == 5) | (melb_df['WeekdaySale'] == 6)].shape[0]
print(weekend_count)