In [None]:
# РАБОТА С ИНТЕРВАЛАМИ
# необходимо вычислять интервалы между двумя временными промежутками
# Например, можно вычислить, сколько дней прошло с 1 января 2016 года до момента продажи объекта. 
# Для этого можно просто найти разницу между датами продаж и заявленной датой, представленной в формате datetime
# тип timedelta
# https://pandas.pydata.org/pandas-docs/stable/user_guide/timedeltas.html

In [25]:
import pandas as pd
melb_data = pd.read_csv('data/melb_data_ps.csv', sep=',')
# display(melb_data.head())
melb_df = melb_data.copy()
# display(melb_df.head())
melb_df = melb_df.drop(['index', 'Coordinates'], axis=1)
#melb_df.head()
total_rooms = melb_df['Rooms'] + melb_df['Bathroom'] + melb_df['Bedroom']
#display(total_rooms)
melb_df['MeanRoomsSquare'] = melb_df['BuildingArea']/total_rooms
#display(melb_df['MeanRoomsSquare'])
diff_area = melb_df['BuildingArea'] - melb_df['Landsize']
sum_area = melb_df['BuildingArea'] + melb_df['Landsize']
melb_df['AreaRatio'] = diff_area/sum_area
#display(melb_df['AreaRatio'])
price_square = melb_df['Price']**2
#display(price_square)

melb_df['Date'] = pd.to_datetime(melb_df['Date'], dayfirst=True)
# print(melb_df['Date'])

year_sold = melb_df['Date'].dt.year
#print('год продажи', year_sold)
#print('min yearsold', year_sold.min())
#print('max yearsold', year_sold.max())
#print('mode of sold', year_sold.mode()[0])

melb_df['MonthSale'] = melb_df['Date'].dt.month
melb_df['MonthSale'].value_counts(normalize=True)

delta_days = melb_df['Date'] - pd.to_datetime('2016-01-01')
display(delta_days)

0       337 days
1        34 days
2       428 days
3       428 days
4       155 days
          ...   
13575   603 days
13576   603 days
13577   603 days
13578   603 days
13579   603 days
Name: Date, Length: 13580, dtype: timedelta64[ns]

In [26]:
# Чтобы превратить количество дней из формата интервала в формат целого числа дней, 
# можно воспользоваться аксессором dt для формата timedelta и извлечь из него атрибут days:
display(delta_days.dt.days)

0        337
1         34
2        428
3        428
4        155
        ... 
13575    603
13576    603
13577    603
13578    603
13579    603
Name: Date, Length: 13580, dtype: int64

In [27]:
# Давайте создадим признак возраста объекта недвижимости в годах на момент продажи. 
# Для этого выделим из столбца с датой продажи год и вычтем из него год постройки здания. Результат оформим в виде столбца AgeBuilding:
melb_df['AgeBuilding'] = melb_df['Date'].dt.year - melb_df['YearBuilt']
display(melb_df['AgeBuilding'])

0         46
1        116
2        117
3         47
4          2
        ... 
13575     36
13576     22
13577     20
13578     97
13579     97
Name: AgeBuilding, Length: 13580, dtype: int64

In [28]:
# AgeBuilding дублирует информацию столбца YearBuilt
# Такие признаки не стоит оставлять вместе, поэтому оставим возраст здания, так как он является более наглядным, 
# а год постройки удалим из таблицы
melb_df = melb_df.drop(['YearBuilt'], axis=1)
display(melb_df.head())

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,...,BuildingArea,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,MeanRoomsSquare,AreaRatio,MonthSale,AgeBuilding
0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,2016-12-03,2.5,3067,...,126.0,Yarra,-37.7996,144.9984,Northern Metropolitan,4019,25.2,-0.231707,12,46
1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,2016-02-04,2.5,3067,...,79.0,Yarra,-37.8079,144.9934,Northern Metropolitan,4019,15.8,-0.32766,2,116
2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,2017-03-04,2.5,3067,...,150.0,Yarra,-37.8093,144.9944,Northern Metropolitan,4019,18.75,0.056338,3,117
3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,2017-03-04,2.5,3067,...,126.0,Yarra,-37.7969,144.9969,Northern Metropolitan,4019,15.75,0.145455,3,47
4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,2016-06-04,2.5,3067,...,142.0,Yarra,-37.8072,144.9941,Northern Metropolitan,4019,17.75,0.083969,6,2


In [30]:
# Создайте в таблице melb_df признак WeekdaySale (день недели). 
# Найдите, сколько объектов недвижимости было продано в выходные (суббота и воскресенье),
# результат занесите в переменную weekend_count. В качестве ответа введите результат вывода переменной weekend_count
melb_df['WeekdaySale'] = melb_df['Date'].dt.dayofweek
weekend_count = melb_df[(melb_df['WeekdaySale'] == 5) | (melb_df['WeekdaySale'] == 6)].shape[0]
#weekend_count = melb_df[(melb_df['WeekdaySale'] == 5) | (melb_df['WeekdaySale'] == 6)].shape[0]
print(weekend_count, 'объектов недвижимости было продано в выходные')

12822 объектов недвижимости было продано в выходные
