In [4]:
import pandas as pd
melb_data = pd.read_csv('melb_data_ps.csv', sep=',')
melb_df = melb_data.copy()

Для того чтобы преобразовывать столбцы с датами, записанными в распространённых форматах, в формат datetime, можно воспользоваться функцией __pandas.to_datetime()__. В нашем случае в функции нужно указать параметр dayfirst=True, который будет обозначать, что в первоначальном признаке первым идет день. 

In [5]:
melb_df['Date'] = pd.to_datetime(melb_data['Date'], dayfirst = True)
display(melb_data['Date'])

0         3/12/2016
1         4/02/2016
2         4/03/2017
3         4/03/2017
4         4/06/2016
            ...    
13575    26/08/2017
13576    26/08/2017
13577    26/08/2017
13578    26/08/2017
13579    26/08/2017
Name: Date, Length: 13580, dtype: object

__Выделение атрибутов datetime__

* _date_ — дата;
* _year, month, day_ — год, месяц, день;
* _time_ — время;
* _hour, minute, second_ — час, минута, секунда;
* _dayofweek_ — номер дня недели, от 0 до 6, где 0 — понедельник, 6 — воскресенье;
* _day_name_ — название дня недели;
* _dayofyear_ — порядковый день года;
quarter — квартал (интервал в три месяца).

In [6]:
years_sold = melb_df['Date'].dt.year
print(years_sold)
print('Min year sold:', years_sold.min())
print('Max year sold:', years_sold.max())
print('Mode year sold:', years_sold.mode()[0])

0        2016
1        2016
2        2017
3        2017
4        2016
         ... 
13575    2017
13576    2017
13577    2017
13578    2017
13579    2017
Name: Date, Length: 13580, dtype: int64
Min year sold: 2016
Max year sold: 2017
Mode year sold: 2017


Так как модальных значений в столбце может быть несколько, метод mode() возвращает объект Series, даже если мода в данных только одна. Чтобы сохранить стилистику вывода информации о годе продажи и выводить только число, а не Series, мы обращаемся к результату работы метода mode() по индексу 0.

In [7]:
melb_df['MonthSale'] = melb_df['Date'].dt.month
melb_df['MonthSale'].value_counts(normalize = True)
# выделяем атрибут dt.month 

5     0.149411
7     0.145950
9     0.135862
6     0.134757
8     0.114138
11    0.082032
4     0.069882
3     0.049926
12    0.044698
10    0.040574
2     0.032622
1     0.000147
Name: MonthSale, dtype: float64

In [8]:
delta_days = melb_df['Date'] - pd.to_datetime('2016-01-01')
display(delta_days)
# сколько дней прошло с 1 января 2016 до продажи
# данные относятся к типу timedelta!

0       337 days
1        34 days
2       428 days
3       428 days
4       155 days
          ...   
13575   603 days
13576   603 days
13577   603 days
13578   603 days
13579   603 days
Name: Date, Length: 13580, dtype: timedelta64[ns]

In [9]:
display(delta_days.dt.days)
# изменили тип данных с timedelta на int

0        337
1         34
2        428
3        428
4        155
        ... 
13575    603
13576    603
13577    603
13578    603
13579    603
Name: Date, Length: 13580, dtype: int64

In [10]:
melb_df['AgeBuilding'] = melb_df['Date'].dt.year - melb_df['YearBuilt']
display(melb_df['AgeBuilding'])
melb_df = melb_df.drop('YearBuilt', axis=1)

0         46
1        116
2        117
3         47
4          2
        ... 
13575     36
13576     22
13577     20
13578     97
13579     97
Name: AgeBuilding, Length: 13580, dtype: int64

In [11]:
# 3.3
melb_df['WeekdaySale'] = melb_df['Date'].dt.dayofweek
weekend_count = melb_df[(melb_df['WeekdaySale'] == 5) | (melb_df['WeekdaySale'] == 6)].shape[0]
print(weekend_count)

12822


In [12]:
df = pd.read_csv('http://bit.ly/uforeports')
df['Time'] = pd.to_datetime(df.Time)
df['Date'] = df['Time'].dt.date
print(df[df['State']=='NV']['Date'].diff().dt.days.mean())

68.92932862190813


In [13]:
ufo = pd.read_csv('https://raw.githubusercontent.com/justmarkham/pandas-videos/master/data/ufo.csv')
ufo['Time']=pd.to_datetime(ufo.Time)
print(ufo['Time'].dt.year.mode())

0    1999
Name: Time, dtype: int64


In [14]:
ufo['Day'] = ufo['Time'].dt.date
display(ufo[ufo['State'] == 'NV']['Day'].diff().dt.days.mean())

68.92932862190813

___Задание 4.3!!!___

In [15]:
melb_df['WeekdaySale'] = melb_df['Date'].dt.dayofweek
weekend_count = melb_df[(melb_df['WeekdaySale'] == 5) | (melb_df['WeekdaySale'] == 6)].shape[0]
print(weekend_count)

12822


In [20]:
melb_df['WeekdaySale']

0        5
1        3
2        5
3        5
4        5
        ..
13575    5
13576    5
13577    5
13578    5
13579    5
Name: WeekdaySale, Length: 13580, dtype: int64

In [24]:
def get_weekend(weekday):
    if weekday >4:
        return 1
    else:
        return 0
melb_df['Weekend'] = melb_df['WeekdaySale'].apply(get_weekend)
display(round(melb_df[ melb_df['Weekend'] == 1]['Price'].mean(),2))

1081198.64