## Формат datetime

In [1]:
# импортирую библиотеку pandas
import pandas as pd


# читаем csv-файл
melb_data = pd.read_csv('data/melb_data_ps.csv', sep=',')
# в копии будем выполнять предобработку
melb_df = melb_data.copy()

display(melb_df['Date'])

print('*' * 60)

melb_df['Date'] = pd.to_datetime(melb_df['Date'], dayfirst=True)
display(melb_df['Date'])

0         3/12/2016
1         4/02/2016
2         4/03/2017
3         4/03/2017
4         4/06/2016
            ...    
13575    26/08/2017
13576    26/08/2017
13577    26/08/2017
13578    26/08/2017
13579    26/08/2017
Name: Date, Length: 13580, dtype: object

************************************************************


0       2016-12-03
1       2016-02-04
2       2017-03-04
3       2017-03-04
4       2016-06-04
           ...    
13575   2017-08-26
13576   2017-08-26
13577   2017-08-26
13578   2017-08-26
13579   2017-08-26
Name: Date, Length: 13580, dtype: datetime64[ns]

## Выделение атрубутов datetime

In [7]:
# отделяем информацию о времени года, чтобы извлекать информацию
years_sold = melb_df['Date'].dt.year
display(years_sold)
# узнаем диапозон продаж
print('Min year sold:', years_sold.min())
print('Max year sold:', years_sold.max())
# чтобы не отобаразить обькт типа Series мы указываем индекс 
print('Mode year sold:', years_sold.mode()[0])

0        2016
1        2016
2        2017
3        2017
4        2016
         ... 
13575    2017
13576    2017
13577    2017
13578    2017
13579    2017
Name: Date, Length: 13580, dtype: int32

Min year sold: 2016
Max year sold: 2017
Mode year sold: 2017


In [12]:
# получаем информацию о месяце, чтобы создать новый признак
melb_df['MonthSale'] = melb_df['Date'].dt.month
# узнаем в каком месяце было больше всего продаж
melb_df['MonthSale'].value_counts(normalize=True)

MonthSale
5     0.149411
7     0.145950
9     0.135862
6     0.134757
8     0.114138
11    0.082032
4     0.069882
3     0.049926
12    0.044698
10    0.040574
2     0.032622
1     0.000147
Name: proportion, dtype: float64

## Работа с интервалами

In [16]:
# узнаем разницу, интервал между введенной датой и датой продажи
delta_days = melb_df['Date'] - pd.to_datetime('2016-01-01')
display(delta_days)

# переводим из формата timedelta в тип int
display(delta_days.dt.days)

0       337 days
1        34 days
2       428 days
3       428 days
4       155 days
          ...   
13575   603 days
13576   603 days
13577   603 days
13578   603 days
13579   603 days
Name: Date, Length: 13580, dtype: timedelta64[ns]

0        337
1         34
2        428
3        428
4        155
        ... 
13575    603
13576    603
13577    603
13578    603
13579    603
Name: Date, Length: 13580, dtype: int64

In [18]:
# создаем новый признак который содержит информацию возрастве здания на момент 
# продажи
melb_df['AgeBuilding'] = melb_df['Date'].dt.year - melb_df['YearBuilt']
display(melb_df['AgeBuilding'])

0         46
1        116
2        117
3         47
4          2
        ... 
13575     36
13576     22
13577     20
13578     97
13579     97
Name: AgeBuilding, Length: 13580, dtype: int64

In [28]:
# удаляем столбец
melb_df = melb_df.drop('YearBuilt', axis=1)
display(melb_df.head())

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Landsize,BuildingArea,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates,MonthSale,AgeBuilding
0,0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,2016-12-03,2.5,...,202.0,126.0,Yarra,-37.7996,144.9984,Northern Metropolitan,4019,"-37.7996, 144.9984",12,46
1,1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,2016-02-04,2.5,...,156.0,79.0,Yarra,-37.8079,144.9934,Northern Metropolitan,4019,"-37.8079, 144.9934",2,116
2,2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,2017-03-04,2.5,...,134.0,150.0,Yarra,-37.8093,144.9944,Northern Metropolitan,4019,"-37.8093, 144.9944",3,117
3,3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,2017-03-04,2.5,...,94.0,126.0,Yarra,-37.7969,144.9969,Northern Metropolitan,4019,"-37.7969, 144.9969",3,47
4,4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,2016-06-04,2.5,...,120.0,142.0,Yarra,-37.8072,144.9941,Northern Metropolitan,4019,"-37.8072, 144.9941",6,2
