Был создан единый способ обозначения даты и времени. 

Таким форматом в Pandas является формат datetime, который записывается как YYYY-MM-DD HH: MM: SS, то есть составляющие времени указываются в следующем порядке: год, месяц, день, час, минута, секунда.

In [3]:
import pandas as pd
melb_data = pd.read_csv('C:/Users/U_M1P8G/Desktop/IDE/Python_for_data_analysis/Модуль_3/data/melb_data.csv', sep=',')
melb_df = melb_data.copy()

In [4]:
display(melb_df['Date'])

0         3/12/2016
1         4/02/2016
2         4/03/2017
3         4/03/2017
4         4/06/2016
            ...    
13575    26/08/2017
13576    26/08/2017
13577    26/08/2017
13578    26/08/2017
13579    26/08/2017
Name: Date, Length: 13580, dtype: object

Для того чтобы преобразовывать столбцы с датами, записанными в распространённых форматах, в формат datetime, можно воспользоваться функцией pandas.to_datetime(). В нашем случае в функции нужно указать параметр dayfirst=True, который будет обозначать, что в первоначальном признаке первым идет день. Преобразуем столбец Date в формат datetime, передав его в эту функцию:

In [5]:
melb_df['Date'] = pd.to_datetime(melb_df['Date'], dayfirst=True)
display(melb_df['Date'])

0       2016-12-03
1       2016-02-04
2       2017-03-04
3       2017-03-04
4       2016-06-04
           ...    
13575   2017-08-26
13576   2017-08-26
13577   2017-08-26
13578   2017-08-26
13579   2017-08-26
Name: Date, Length: 13580, dtype: datetime64[ns]

In [None]:
years_sold = melb_df['Date'].dt.year #выделили из даты год
print(years_sold)
print('Min year sold:', years_sold.min())
print('Max year sold:', years_sold.max())
print('Mode year sold:', years_sold.mode()[0])

0        2016
1        2016
2        2017
3        2017
4        2016
         ... 
13575    2017
13576    2017
13577    2017
13578    2017
13579    2017
Name: Date, Length: 13580, dtype: int32
Min year sold: 2016
Max year sold: 2017
Mode year sold: 2017


Теперь попробуем понять, на какие месяцы приходится пик продаж объектов недвижимости. Для этого выделим атрибут dt.month и на этот раз занесём результат в столбец MonthSale, а затем найдём относительную частоту продаж для каждого месяца от общего количества продаж — для этого используем метод value_counts() с параметром normalize (вывод в долях):

In [7]:
melb_df['MonthSale'] = melb_df['Date'].dt.month
melb_df['MonthSale'].value_counts(normalize=True)   

MonthSale
5     0.149411
7     0.145950
9     0.135862
6     0.134757
8     0.114138
11    0.082032
4     0.069882
3     0.049926
12    0.044698
10    0.040574
2     0.032622
1     0.000147
Name: proportion, dtype: float64

Работа с интервалами

Вычислим, сколько дней прошло с 1 января 2016 года до момента продажи объекта. Для этого можно просто найти разницу между датами продаж и заявленной датой, представленной в формате datetime:

In [8]:
delta_days = melb_df['Date'] - pd.to_datetime('2016-01-01') 
display(delta_days)

0       337 days
1        34 days
2       428 days
3       428 days
4       155 days
          ...   
13575   603 days
13576   603 days
13577   603 days
13578   603 days
13579   603 days
Name: Date, Length: 13580, dtype: timedelta64[ns]

Чтобы превратить количество дней из формата интервала в формат целого числа дней, можно воспользоваться аксессором dt для формата timedelta и извлечь из него атрибут days:

In [9]:
display(delta_days.dt.days)

0        337
1         34
2        428
3        428
4        155
        ... 
13575    603
13576    603
13577    603
13578    603
13579    603
Name: Date, Length: 13580, dtype: int64

Создадим признак возраста объекта недвижимости в годах на момент продажи. Для этого выделим из столбца с датой продажи год и вычтем из него год постройки здания. Результат оформим в виде столбца AgeBuilding:

In [10]:
melb_df['AgeBuilding'] = melb_df['Date'].dt.year - melb_df['YearBuilt']
display(melb_df['AgeBuilding'])

0         46.0
1        116.0
2        117.0
3         47.0
4          2.0
         ...  
13575     36.0
13576     22.0
13577     20.0
13578     97.0
13579     97.0
Name: AgeBuilding, Length: 13580, dtype: float64

In [11]:
melb_df = melb_df.drop('YearBuilt', axis=1)

In [16]:
melb_df['WeekdaySale']=melb_df['Date'].dt.dayofweek 
melb_df.value_counts('WeekdaySale')
weekend_count = melb_df[melb_df['WeekdaySale'].isin([5, 6])].shape[0]

In [18]:
weekend_count = melb_df[melb_df['WeekdaySale'].isin([5, 6])].shape[0]
weekend_count

12822

Задание 3.4.

In [None]:
url = "https://raw.githubusercontent.com/justmarkham/pandas-videos/master/data/ufo.csv"
df = pd.read_csv(url)

In [32]:
df_nv = df[df['State']=='NV']

In [33]:
df_nv['Time_format'] = pd.to_datetime(df_nv['Time'], dayfirst=False)
df_nv['Time_format'].dt.year.value_counts()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_nv['Time_format'] = pd.to_datetime(df_nv['Time'], dayfirst=False)


Time_format
1999    52
2000    40
1995    31
1998    30
1997    29
1996    18
1975     6
1994     6
1983     6
1992     5
1987     5
1991     4
1988     4
1968     4
1981     4
1993     3
1990     3
1964     3
1967     2
1959     2
1965     2
1976     2
1977     2
1985     2
1989     2
1986     2
1978     2
1982     2
1960     1
1947     1
1952     1
1966     1
1980     1
1972     1
1979     1
1970     1
1971     1
1973     1
1969     1
Name: count, dtype: int64

In [37]:
date_nlo = df_nv['Time_format'].dt.date
date_diff = date_nlo.diff(periods=1)
display(date_diff.dt.days.mean())

np.float64(68.92932862190813)