# Признаки даты и времени

<div style="background-color: #f5f5f5; padding: 15px; color: black; width: 80%;">→ При генерации новых признаков очень ценным может стать временной признак (признак даты и времени). Это особый тип данных, с которым приходится сталкиваться в большинстве задач по обработке данных. В реальных задачах часто нужно сравнивать даты, выделять день недели или час, вычислять различные интервалы между датами. </div>

Например, в наших данных об объектах недвижимости есть признак даты продажи — столбец Date. Из данного признака можно выделить массу полезной информации, например год, месяц или день недели продажи имущества. На рынке недвижимости, как известно, присутствует сезонность: есть периоды, когда недвижимость покупается чаще, а есть интервалы времени, когда рынок претерпевает застой, поэтому было бы неплохо учитывать эту сезонность при анализе рынка.

## Формат datetime

В жизни мы видим даты в привычных для нас форматах. Например, запись 01.12.18 обычно означает 1 декабря 2018 года. Однако для жителей США эта дата окажется 12 января 2018 года, так как для них привычнее сначала указывать номер месяца, а затем день. 

Многие выгрузки из систем и баз данных имеют свой служебный формат. Например, формат времени из разных систем может отличаться:

- 2018-11-09 15:45:21;
- 11/09/2018 3:45:20 PM;
- 2018-11-09T15:45:21.2984.

Для всех этих случаев необходимо задавать формат распознавания дат и уметь сравнивать их между собой. Для этого был создан единый способ обозначения даты и времени. 

<div style="background-color: #e0ffd1;color: black;border: 3px solid black; padding: 15px; margin-right: 500px; width: 80%;">Таким форматом в Pandas является формат datetime, который записывается как YYYY-MM-DD HH: MM: SS, то есть составляющие времени указываются в следующем порядке: год, месяц, день, час, минута, секунда.</div>

В наших данных дата записана в виде DD/MM/YYYY, например 3/12/2017. Посмотрим на это:

In [2]:
import pandas as pd

In [5]:
melb_data = pd.read_csv("../Module4/data/melb_data.csv", sep=",")
melb_df = melb_data.copy()

In [6]:
display(melb_df["Date"])

0         3/12/2016
1         4/02/2016
2         4/03/2017
3         4/03/2017
4         4/06/2016
            ...    
13575    26/08/2017
13576    26/08/2017
13577    26/08/2017
13578    26/08/2017
13579    26/08/2017
Name: Date, Length: 13580, dtype: object

Для того чтобы преобразовывать столбцы с датами, записанными в распространённых форматах, в формат datetime, можно воспользоваться функцией pandas.to_datetime(). В нашем случае в функции нужно указать параметр dayfirst=True, который будет обозначать, что в первоначальном признаке первым идет день. Преобразуем столбец Date в формат datetime, передав его в эту функцию:

In [7]:
melb_df["Date"] = pd.to_datetime(melb_df["Date"], dayfirst=True)
display(melb_df["Date"])

0       2016-12-03
1       2016-02-04
2       2017-03-04
3       2017-03-04
4       2016-06-04
           ...    
13575   2017-08-26
13576   2017-08-26
13577   2017-08-26
13578   2017-08-26
13579   2017-08-26
Name: Date, Length: 13580, dtype: datetime64[ns]

В результате мы переопределяем признак Date в формат datetime. При этом так как в изначальном варианте время не было указано, то и после преобразования оно опускается.

Стоит обратить внимание, что изменился тип данных для столбца Date, теперь его тип — datetime64. Рассмотрим несколько возможностей этого типа данных.

## Выделение атрибутов datetime

Тип данных datetime позволяет с помощью специального <b style="background-color: #88cdb2;color: black;"> аксессора dt </b>выделять составляющие времени из каждого элемента столбца, такие как:

<div style="background-color: #e0ffd1;color: black;border: 3px solid black; padding: 15px; margin-right: 500px; width: 80%;">Аксессор — это атрибут столбца, хранящий переменные, которые были строковым представлением времени, а затем были изменены с помощью pd.to_datetime().</div>
Обратите внимание, что вы не сможете обратиться к аксессору, если ваш столбец не приведён к типу datetime.
С использованием dt можно подробнее ознакомиться <a href="https://pandas.pydata.org/docs/dev/reference/api/pandas.Series.dt.html">здесь.

- <b style="background-color: #88cdb2;color: black;">date</b>— дата;
- <b style="background-color: #88cdb2;color: black;">year, month, day</b> — год, месяц, день;
- <b style="background-color: #88cdb2;color: black;">time</b> — время;
- <b style="background-color: #88cdb2;color: black;">hour, minute, second</b> — час, минута, секунда;
- <b style="background-color: #88cdb2;color: black;">dayofweek</b> — номер дня недели, от 0 до 6, где 0 — понедельник, 6 — воскресенье;
- <b style="background-color: #88cdb2;color: black;">day_name</b> — название дня недели;
- <b style="background-color: #88cdb2;color: black;">dayofyear</b> — порядковый день года;
- <b style="background-color: #88cdb2;color: black;">quarter</b> — квартал (интервал в три месяца).

Например, обратившись по атрибуту <b style="background-color: #f0f8ff;color: black;">dt.year</b> в столбце Date, мы можем «достать» год продажи и понять, за какой интервал времени (в годах) представлены наши данные, а также на какой год приходится наибольшее число продаж:

In [8]:
years_sold = melb_df["Date"].dt.year
print(years_sold)
print("Min year sold:", years_sold.min())
print("Max year sold:", years_sold.max())
print("Mode year sold:", years_sold.mode()[0])

0        2016
1        2016
2        2017
3        2017
4        2016
         ... 
13575    2017
13576    2017
13577    2017
13578    2017
13579    2017
Name: Date, Length: 13580, dtype: int32
Min year sold: 2016
Max year sold: 2017
Mode year sold: 2017


<div style="background-color: #e0ffd1;color: black;border: 3px solid black; padding: 15px; margin-right: 500px; width: 80%;">В результате обращения к атрибуту datetime melb_df['Date'].dt.year мы получаем объект Series, в котором в качестве значений выступают годы продажи объектов недвижимости. Мы можем занести результат в переменную year_sold и далее работать с ней как с обычным столбцом Series — вычислять максимум, минимум и модальное значение.</dvi>

Из результатов видно, что данные представлены за интервал с 2016 по 2017 год и наибольшее количество объектов было продано в 2017 году.

<div style="background-color: #e0ffd1;color: black;border: 3px solid black; padding: 15px; margin-right: 500px; width: 80%;"><b>Примечание.</b> Так как модальных значений в столбце может быть несколько, метод mode() возвращает объект Series, даже если мода в данных только одна. Чтобы сохранить стилистику вывода информации о годе продажи и выводить только число, а не Series, мы обращаемся к результату работы метода mode() по индексу 0.

Теперь попробуем понять, на какие месяцы приходится пик продаж объектов недвижимости. Для этого выделим атрибут dt.month и на этот раз занесём результат в столбец MonthSale, а затем найдём относительную частоту продаж для каждого месяца от общего количества продаж — для этого используем метод value_counts() с параметром normalize (вывод в долях):

<div style="background-color: #f5f5f5; padding: 15px; color: black; width: 80%;">Как правило, результаты заносятся в таблицу (в новый столбец), когда предполагается, что столбец будет использоваться в дальнейшем. Промежуточные и тренировочные результаты будем записывать в переменные.</div>

In [9]:
melb_df["MonthSale"] = melb_df["Date"].dt.month
melb_df["MonthSale"].value_counts(normalize=True)

MonthSale
5     0.149411
7     0.145950
9     0.135862
6     0.134757
8     0.114138
11    0.082032
4     0.069882
3     0.049926
12    0.044698
10    0.040574
2     0.032622
1     0.000147
Name: proportion, dtype: float64

Из результатов становится ясно, что наибольшее количество продаж недвижимости приходится на май, июль и сентябрь (пятый, седьмой и девятый месяцы соответственно). Месяцами застоя при этом являются месяцы — октябрь, февраль и январь (десятый, второй и первый месяцы соответственно).

## Работа с интервалами

Часто бывает такая ситуация, что необходимо вычислять интервалы между двумя временными промежутками. Например, можно вычислить, сколько дней прошло с 1 января 2016 года до момента продажи объекта. Для этого можно просто найти разницу между датами продаж и заявленной датой, представленной в формате datetime:

In [10]:
delta_days = melb_df["Date"] - pd.to_datetime("2016-01-01")
display(delta_days)

0       337 days
1        34 days
2       428 days
3       428 days
4       155 days
          ...   
13575   603 days
13576   603 days
13577   603 days
13578   603 days
13579   603 days
Name: Date, Length: 13580, dtype: timedelta64[ns]

В результате мы получаем Series, элементами которой является количество дней, которое прошло с 1 января 2016 года. Обратите внимание, что данные такого формата относятся к типу timedelta.

Чтобы превратить количество дней из формата интервала в формат целого числа дней, можно воспользоваться аксессором dt для формата timedelta и извлечь из него атрибут days:

In [11]:
display(delta_days.dt.days)

0        337
1         34
2        428
3        428
4        155
        ... 
13575    603
13576    603
13577    603
13578    603
13579    603
Name: Date, Length: 13580, dtype: int64

Рассмотрим другой пример. Давайте создадим признак возраста объекта недвижимости в годах на момент продажи. Для этого выделим из столбца с датой продажи год и вычтем из него год постройки здания. Результат оформим в виде столбца AgeBuilding:

In [13]:
melb_df["AgeBuilding"] = (melb_df["Date"].dt.year - melb_df["YearBuilt"]).astype(
    "int64"
)
display(melb_df["AgeBuilding"])

0         46
1        116
2        117
3         47
4          2
        ... 
13575     36
13576     22
13577     20
13578     97
13579     97
Name: AgeBuilding, Length: 13580, dtype: int64

<div style="background-color: #e0ffd1;color: black;border: 3px solid black; padding: 15px; margin-right: 500px; width: 80%;">Примечание. Обратите внимание, что, так как года кодируются целым числом, в результате мы тоже получаем целочисленный столбец — тип int64 (а не timedelta).</div>


<div style="background-color: #e0ffd1;color: black;border: 3px solid black; padding: 15px; margin-right: 500px; width: 80%;">
На самом деле столбец AgeBuilding дублирует информацию столбца YearBuilt, так как, зная год постройки здания, мы автоматически знаем его возраст. Такие признаки не стоит оставлять вместе, поэтому оставим возраст здания, так как он является более наглядным, а год постройки удалим из таблицы:

<code style="background-color: #f3f3f3; color: black; padding: 2px; margin: 2 px;">melb_df = melb_df.drop('YearBuilt', axis=1)
</code>
</div>

In [14]:
melb_df = melb_df.drop("YearBuilt", axis=1)

<div style="background-color: #f5f5f5; padding: 15px; color: black; width: 80%;">

✍ Мы рассмотрели основные концепции работы с временными признаками в DataFrame.

Временные признаки часто становятся важной частью анализа данных и построения моделей, особенно когда тематика связана со сферой, в которой присутствует непостоянство во времени (зависимость от месяца, дня недели, времени суток), например сфера продаж и услуг. Важно уметь работать с такими признаками, чтобы извлекать из представленных данных максимум полезной информации и строить качественные прогнозы.

А теперь предлагаем вам закрепить пройденный материал ↓
</div>

###  Задание 3.1

Выберите даты, представленные в формате datetime:
- A 28-12-2015 15:13:16
- B 2019-28-09 17:13:00
- C 2020-03-29 19:03:55
- D 2021-01-13 26:21:03
- E 2021-01-16 13:02:06 

<details>
<summary><strong>Show answer</strong> (Click Here)</summary>
    &emsp; &emsp; <code>
C E Подсказка (1 из 1): Формат datetime представляет собой дату, записанную в следующем виде: YYYY-MM-DD HH-MM-SS.
</code>
</details>

###   Задание 3.2

Выберите верные атрибуты datetime:
-A data
- B year
- C weekofday
- D dayofweek
- E hour
- F latitude
- G second
- H dayofyear 

<details>
<summary><strong>Show answer</strong> (Click Here)</summary>
    &emsp; &emsp; <code>
Ответ
Верно:
B Верно.
D Верно.
E Верно.
G Верно.
H Верно.

</code>
</details>

###    Задание 3.3

Создайте в таблице melb_df признак WeekdaySale (день недели). Найдите, сколько объектов недвижимости было продано в выходные (суббота и воскресенье), результат занесите в переменную weekend_count. В качестве ответа введите результат вывода переменной weekend_count.
<details>
<summary><strong>Show answer</strong> (Click Here)</summary>
    &emsp; &emsp; <code>
    Подсказка (1 из 2): Воспользуйтесь атрибутом datetime dayofweek.
    Подсказка (2 из 2): Необходимо выделить атрибут datetime dayofweek из столбца melb_df["Date"] и занести результат в столбец WeekdaySale. После этого необходимо найти количество строк в DataFrame, у которых значение WeekdaySale равно либо 5 (суббота), либо 6 (воскресенье).
</code>
</details>

In [32]:
# melb_data['WeekdaySale'] = melb_data['Date'].dt.dayofweek()
melb_data["Date"] = pd.to_datetime(melb_data["Date"], dayfirst=True)
melb_data["WeekdaySale"] = melb_data["Date"].dt.dayofweek
melb_data.head()
weekend_count = melb_data[
    (melb_data["WeekdaySale"] == 5) | (melb_data["WeekdaySale"] == 6)
].shape[0]
weekend_count

12822

<div style="border: 1px solid white; padding: 5px; margin-right: auto;  width: 80%;"> 

Вводные данные для выполнения заданий 3.4-3.5

Вам представлены данные (в формате csv) об отчётах очевидцев НЛО в США за период с 1930 по 2020 год.

В данных есть следующие признаки:

        "City" — город, где был замечен НЛО;
        "Colors Reported" — цвет объекта;
        "Shape Reported" — форма объекта;
        "State" — обозначение штата;
        "Time" — время, когда был замечен НЛО (данные отсортированы от старых наблюдений к новым). 

Прочитайте данные, сделайте преобразование времени к формату datetime и выполните задания ниже.
</div>

###     Задание 3.4

В каком году отмечается наибольшее количество случаев наблюдения НЛО в США?
<details>
<summary><strong>Show answer</strong> (Click Here)</summary>
    &emsp; &emsp; <code>
    1999
</code>
</details>

In [33]:
df = pd.read_csv(
    "https://raw.githubusercontent.com/justmarkham/pandas-videos/master/data/ufo.csv"
)

In [34]:
df.head()

Unnamed: 0,City,Colors Reported,Shape Reported,State,Time
0,Ithaca,,TRIANGLE,NY,6/1/1930 22:00
1,Willingboro,,OTHER,NJ,6/30/1930 20:00
2,Holyoke,,OVAL,CO,2/15/1931 14:00
3,Abilene,,DISK,KS,6/1/1931 13:00
4,New York Worlds Fair,,LIGHT,NY,4/18/1933 19:00


In [38]:
df["Date"] = pd.to_datetime(df["Time"])
df["Year"] = df.Date.dt.year
df.Year.value_counts()

Year
1999    2774
2000    2635
1998    1743
1995    1344
1997    1237
        ... 
1936       2
1930       2
1935       1
1934       1
1933       1
Name: count, Length: 68, dtype: int64

###      Задание 3.5

Найдите средний интервал времени (в днях) между двумя последовательными случаями наблюдения НЛО в штате Невада (NV).
<details>
<summary><strong>Show answer</strong> (Click Here)</summary>
    &emsp; &emsp; <code>
    69
</code>
</details>

<div style="background-color: #e0ffd1;color: black;border: 3px solid black; padding: 15px; margin-right: 500px; width: 80%;">Чтобы выделить дату из столбца Time, можно воспользоваться атрибутом datetime date.

Чтобы вычислить разницу между двумя соседними датами в столбце, примените к нему метод diff().

Чтобы перевести интервал времени в дни, воспользуйтесь атрибутом timedelta days.</div>

In [67]:
days_diff_Nevada = df[df["State"] == "NV"]["Date"].diff()
days_diff_Nevada.mean()

Timedelta('68 days 22:19:49.399293286')