In [2]:
import pandas as pd

# Признаки даты и времени
## При генерации новых признаков очень ценным может стать временной признак (признак даты и времени). Это особый тип данных, с которым приходится сталкиваться в большинстве задач по обработке данных. В реальных задачах часто нужно сравнивать даты, выделять день недели или час, вычислять различные интервалы между датами

# Формат datetime
форматом в Pandas является формат datetime, который записывается как YYYY-MM-DD HH: MM: SS, то есть составляющие времени указываются в следующем порядке: год, месяц, день, час, минута, секунда

In [3]:
melb_data = pd.read_csv('data/melb_data_ps.csv', sep =',')
melb_data.head()

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Сoordinates
0,0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1,202.0,126.0,1970,Yarra,-37.7996,144.9984,Northern Metropolitan,4019,"-37.7996, 144.9984"
1,1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,0,156.0,79.0,1900,Yarra,-37.8079,144.9934,Northern Metropolitan,4019,"-37.8079, 144.9934"
2,2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,...,0,134.0,150.0,1900,Yarra,-37.8093,144.9944,Northern Metropolitan,4019,"-37.8093, 144.9944"
3,3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,...,1,94.0,126.0,1970,Yarra,-37.7969,144.9969,Northern Metropolitan,4019,"-37.7969, 144.9969"
4,4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,...,2,120.0,142.0,2014,Yarra,-37.8072,144.9941,Northern Metropolitan,4019,"-37.8072, 144.9941"


In [4]:
melb_df = melb_data.copy()
display(melb_df['Date'])

0         3/12/2016
1         4/02/2016
2         4/03/2017
3         4/03/2017
4         4/06/2016
            ...    
13575    26/08/2017
13576    26/08/2017
13577    26/08/2017
13578    26/08/2017
13579    26/08/2017
Name: Date, Length: 13580, dtype: object

In [5]:
# Для того чтобы преобразовывать столбцы с датами, записанными в распространённых форматах, в формат datetime, можно воспользоваться функцией pandas.to_datetime(). Преобразуем столбец Date в формат datetime, передав его в эту функцию:
melb_df['Date'] = pd.to_datetime(melb_df['Date'])
display(melb_df['Date'])

0       2016-03-12
1       2016-04-02
2       2017-04-03
3       2017-04-03
4       2016-04-06
           ...    
13575   2017-08-26
13576   2017-08-26
13577   2017-08-26
13578   2017-08-26
13579   2017-08-26
Name: Date, Length: 13580, dtype: datetime64[ns]

# Выделение атрибутов datetime
## 
        date — дата;
        year, month, day — год, месяц, день;
        time — время;
        hour, minute, second — час, минута, секунда;
        dayofweek — номер дня недели, от 0 до 6, где 0 — понедельник, 6 — воскресенье;
        weekday_name — название дня недели;
        dayofyear — порядковый день года;
        quarter — квартал (интервал в три месяца).




In [6]:
years_sold = melb_df['Date'].dt.year
print(years_sold)
print('Min year sold:', years_sold.min())
print('Max year sold:', years_sold.max())
print('Mode year sold:', years_sold.mode()[0])

0        2016
1        2016
2        2017
3        2017
4        2016
         ... 
13575    2017
13576    2017
13577    2017
13578    2017
13579    2017
Name: Date, Length: 13580, dtype: int64
Min year sold: 2016
Max year sold: 2017
Mode year sold: 2017


In [7]:
# Теперь попробуем понять, на какие месяцы приходится пик продаж объектов недвижимости. Для этого выделим атрибут dt.month и на этот раз занесём результат в столбец MonthSale, а затем найдём относительную частоту продаж для каждого месяца от общего количества продаж — для этого используем метод value_counts() с параметром normalize (вывод в долях):
melb_df['MonthSale'] = melb_df['Date'].dt.month
melb_df['MonthSale'].value_counts(normalize=True)

8     0.136230
7     0.135125
5     0.121060
6     0.108174
3     0.103682
4     0.091753
9     0.087482
10    0.062887
11    0.055228
12    0.053387
2     0.024521
1     0.020471
Name: MonthSale, dtype: float64

# Работа с интервалами


In [8]:
# Часто бывает такая ситуация, что необходимо вычислять интервалы между двумя временными промежутками. Например, можно вычислить, сколько дней прошло с 1 января 2016 года до момента продажи объекта. Для этого можно просто найти разницу между датами продаж и заявленной датой, представленной в формате datetime:
delta_days = melb_df['Date'] - pd.to_datetime('2016-01-01') 
display(delta_days)

0        71 days
1        92 days
2       458 days
3       458 days
4        96 days
          ...   
13575   603 days
13576   603 days
13577   603 days
13578   603 days
13579   603 days
Name: Date, Length: 13580, dtype: timedelta64[ns]

In [9]:
# Чтобы превратить количество дней из формата интервала в формат целого числа дней, можно воспользоваться аксессором dt для формата timedelta и извлечь из него атрибут days:
display(delta_days.dt.days)

0         71
1         92
2        458
3        458
4         96
        ... 
13575    603
13576    603
13577    603
13578    603
13579    603
Name: Date, Length: 13580, dtype: int64

In [10]:
# Рассмотрим другой пример. Давайте создадим признак возраста объекта недвижимости в годах на момент продажи. Для этого выделим из столбца с датой продажи год и вычтем из него год постройки здания. Результат оформим в виде столбца AgeBuilding:
melb_df['AgeBuilding'] = melb_df['Date'].dt.year - melb_df['YearBuilt']
display(melb_df['AgeBuilding'])

0         46
1        116
2        117
3         47
4          2
        ... 
13575     36
13576     22
13577     20
13578     97
13579     97
Name: AgeBuilding, Length: 13580, dtype: int64

In [11]:
# Примечание. На самом деле столбец AgeBuilding дублирует информацию столбца YearBuilt, так как, зная год постройки здания, мы автоматически знаем его возраст. Такие признаки не стоит оставлять вместе, поэтому оставим возраст здания, так как он является более наглядным, а год постройки удалим из таблицы:
melb_df = melb_df.drop('YearBuilt', axis=1)


In [12]:
display(melb_df.head(3))

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Landsize,BuildingArea,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Сoordinates,MonthSale,AgeBuilding
0,0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,2016-03-12,2.5,...,202.0,126.0,Yarra,-37.7996,144.9984,Northern Metropolitan,4019,"-37.7996, 144.9984",3,46
1,1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,2016-04-02,2.5,...,156.0,79.0,Yarra,-37.8079,144.9934,Northern Metropolitan,4019,"-37.8079, 144.9934",4,116
2,2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,2017-04-03,2.5,...,134.0,150.0,Yarra,-37.8093,144.9944,Northern Metropolitan,4019,"-37.8093, 144.9944",4,117


In [16]:
# 3.3
melb_df['WeekdaySale'] = melb_df['Date'].dt.dayofweek
weekend_count = melb_df['WeekdaySale'].value_counts()
display(melb_df['WeekdaySale'])
print(weekend_count[5]+ weekend_count[6])

0        5
1        5
2        0
3        0
4        2
        ..
13575    5
13576    5
13577    5
13578    5
13579    5
Name: WeekdaySale, Length: 13580, dtype: int64

9226


In [20]:
ufo_data = pd.read_csv('data/ufo.csv', sep=',')
display(ufo_data.head(4))


Unnamed: 0,City,Colors Reported,Shape Reported,State,Time
0,Ithaca,,TRIANGLE,NY,6/1/1930 22:00
1,Willingboro,,OTHER,NJ,6/30/1930 20:00
2,Holyoke,,OVAL,CO,2/15/1931 14:00
3,Abilene,,DISK,KS,6/1/1931 13:00



        "City" — город, где был замечен НЛО;
        "Colors Reported" — цвет объекта;
        "Shape Reported" — форма объекта;
        "State" — обозначение штата;
        "Time" — время, когда был замечен НЛО (данные отсортированы от старых наблюдений к новым). 


In [24]:
ufo_df = ufo_data.copy()
display(ufo_df.head(5))
ufo_df['dt_date'] = pd.to_datetime(ufo_df['Time'])



Unnamed: 0,City,Colors Reported,Shape Reported,State,Time
0,Ithaca,,TRIANGLE,NY,6/1/1930 22:00
1,Willingboro,,OTHER,NJ,6/30/1930 20:00
2,Holyoke,,OVAL,CO,2/15/1931 14:00
3,Abilene,,DISK,KS,6/1/1931 13:00
4,New York Worlds Fair,,LIGHT,NY,4/18/1933 19:00


In [26]:
display(ufo_df['dt_date'])

0       1930-06-01 22:00:00
1       1930-06-30 20:00:00
2       1931-02-15 14:00:00
3       1931-06-01 13:00:00
4       1933-04-18 19:00:00
                ...        
18236   2000-12-31 23:00:00
18237   2000-12-31 23:00:00
18238   2000-12-31 23:45:00
18239   2000-12-31 23:45:00
18240   2000-12-31 23:59:00
Name: dt_date, Length: 18241, dtype: datetime64[ns]

In [27]:
year_ufo = ufo_df['dt_date'].dt.year
print(year_ufo.value_counts())


1999    2774
2000    2635
1998    1743
1995    1344
1997    1237
        ... 
1936       2
1930       2
1935       1
1934       1
1933       1
Name: dt_date, Length: 68, dtype: int64


In [28]:
# 3.4 SAMPLE
df = pd.read_csv('http://bit.ly/uforeports')
df['Time'] = pd.to_datetime(df.Time)
print(df['Time'].dt.year.mode()[0])


1999


In [29]:
# 3.5
df['Date'] = df['Time'].dt.date
print(df[df['State']=='NV']['Date'].diff().dt.days.mean())

68.92932862190813
