pd.to_datetime

Таким форматом в Pandas является формат datetime, который записывается как YYYY-MM-DD HH: MM: SS, то есть составляющие времени указываются в следующем порядке: год, месяц, день, час, минута, секунда.

В наших данных дата записана в виде DD/MM/YYYY, например 3/12/2017. Посмотрим на это:

In [6]:
import pandas as pd
melb_data = pd.read_csv('data/melb_data.csv')
melb_df = melb_data.copy()
melb_df['Date']

0         3/12/2016
1         4/02/2016
2         4/03/2017
3         4/03/2017
4         4/06/2016
            ...    
13575    26/08/2017
13576    26/08/2017
13577    26/08/2017
13578    26/08/2017
13579    26/08/2017
Name: Date, Length: 13580, dtype: object

Для того чтобы преобразовывать столбцы с датами, записанными в распространённых форматах, в формат datetime, можно воспользоваться функцией pandas.to_datetime(). В нашем случае в функции нужно указать параметр dayfirst=True, который будет обозначать, что в первоначальном признаке первым идет день. Преобразуем столбец Date в формат datetime, передав его в эту функцию:

In [7]:
melb_df["Date"] = pd.to_datetime(melb_df['Date'],dayfirst=True)
melb_df['Date']

0       2016-12-03
1       2016-02-04
2       2017-03-04
3       2017-03-04
4       2016-06-04
           ...    
13575   2017-08-26
13576   2017-08-26
13577   2017-08-26
13578   2017-08-26
13579   2017-08-26
Name: Date, Length: 13580, dtype: datetime64[ns]

ВЫДЕЛЕНИЕ АТРИБУТОВ DATETIME

Тип данных datetime позволяет с помощью специального аксессора **dt** выделять составляющие времени из каждого элемента столбца, такие как:

- date — дата;

- year, month, day — год, месяц, день;

- time — время;

- hour, minute, second — час, минута, секунда;

- dayofweek — номер дня недели, от 0 до 6, где 0 — понедельник, 6 — воскресенье;

- day_name — название дня недели;

- dayofyear — порядковый день года;

- quarter — квартал (интервал в три месяца).

In [11]:
year_sold = melb_df['Date'].dt.year
print(year_sold)
print('min year', year_sold.min())
print('max year', year_sold.max())
print('mode year', year_sold.mode()[0])

0        2016
1        2016
2        2017
3        2017
4        2016
         ... 
13575    2017
13576    2017
13577    2017
13578    2017
13579    2017
Name: Date, Length: 13580, dtype: int64
min year 2016
max year 2017
mode year 2017
