In [2]:
import pandas as pd
from IPython.display import display

melb_data = pd.read_csv('data11/melb_data.csv', sep = ',')
melb_df = melb_data.copy()

display(melb_df['Date']) # формат даты в нашей таблице


0         3/12/2016
1         4/02/2016
2         4/03/2017
3         4/03/2017
4         4/06/2016
            ...    
13575    26/08/2017
13576    26/08/2017
13577    26/08/2017
13578    26/08/2017
13579    26/08/2017
Name: Date, Length: 13580, dtype: object

Перевод даты в формат datetime (функция pandas.to_datetime())

In [4]:
melb_df['Date'] = pd.to_datetime(melb_df['Date'], dayfirst=True) # в исходной
# таблице день шел первым
display(melb_df['Date']) 
# возвращает тип данных datetime64

0       2016-12-03
1       2016-02-04
2       2017-03-04
3       2017-03-04
4       2016-06-04
           ...    
13575   2017-08-26
13576   2017-08-26
13577   2017-08-26
13578   2017-08-26
13579   2017-08-26
Name: Date, Length: 13580, dtype: datetime64[ns]

# Атрибуты datetime (аксессор dt)

In [7]:
years_sold = melb_df['Date'].dt.year
display(years_sold) # возвращает Series

0        2016
1        2016
2        2017
3        2017
4        2016
         ... 
13575    2017
13576    2017
13577    2017
13578    2017
13579    2017
Name: Date, Length: 13580, dtype: int64

In [8]:
print(years_sold.min()) # самый ранний год продажи

2016


In [9]:
print(years_sold.max()) # самый поздний год продажи

2017


In [10]:
print(years_sold.mode()) # все моды

0    2017
Name: Date, dtype: int64


In [11]:
print(years_sold.mode()[0]) # возврат только 1 числа

2017


попробуем понять, на какие месяцы приходится пик продаж объектов недвижимости. Для этого выделим атрибут dt.month и занесем результат в столбец MonthSale, а затем найдём относительную частоту продаж для каждого месяца от общего количества продаж — для этого используем метод value_counts() с параметром normalize (вывод в долях)

In [16]:
melb_df['MonthSale'] = melb_df['Date'].dt.month
melb_df['MonthSale'].value_counts(normalize = True)

5     0.149411
7     0.145950
9     0.135862
6     0.134757
8     0.114138
11    0.082032
4     0.069882
3     0.049926
12    0.044698
10    0.040574
2     0.032622
1     0.000147
Name: MonthSale, dtype: float64

# Интервалы

In [17]:
delta_days = melb_df['Date'] - pd.to_datetime('2016-01-01')
# сколько времени прошло с 1.01.2016 до продажи
display(delta_days) # возврат - тип timedelta (формат интервала)

0       337 days
1        34 days
2       428 days
3       428 days
4       155 days
          ...   
13575   603 days
13576   603 days
13577   603 days
13578   603 days
13579   603 days
Name: Date, Length: 13580, dtype: timedelta64[ns]

In [18]:
display(delta_days.dt.days) # из формата интервала в количество дней

0        337
1         34
2        428
3        428
4        155
        ... 
13575    603
13576    603
13577    603
13578    603
13579    603
Name: Date, Length: 13580, dtype: int64

создадим признак возраста объекта недвижимости в годах на момент продажи. Для этого выделим из столбца с датой продажи год и вычтем из него год постройки здания. Результат оформим в виде столбца AgeBuilding

In [20]:
melb_df['AgeBuilding'] = melb_df['Date'].dt.year - melb_df['YearBuilt']
display(melb_df['AgeBuilding'])                                                         

0         46.0
1        116.0
2        117.0
3         47.0
4          2.0
         ...  
13575     36.0
13576     22.0
13577     20.0
13578     97.0
13579     97.0
Name: AgeBuilding, Length: 13580, dtype: float64

In [21]:
melb_df = melb_df.drop('YearBuilt', axis=1) # удаляем, т.к. он дублирует
# и менее нагляядный

Задание
Создайте в таблице melb_df признак WeekdaySale (день недели). Найдите, сколько объектов недвижимости было продано в выходные (суббота и воскресенье), результат занесите в переменную weekend_count. В качестве ответа введите результат вывода переменной weekend_count

In [27]:
melb_df['WeekdaySale'] = melb_df['Date'].dt.dayofweek
weekend_count = 0

for day in melb_df['WeekdaySale']:
    if day == 5 or day == 6:
        weekend_count += 1
print(weekend_count)

12822


Задание
Вам представлены данные (в формате csv) об отчётах очевидцев НЛО в США за период с 1930 по 2020 год.

В данных есть следующие признаки:

"City" — город, где был замечен НЛО;
"Colors Reported" — цвет объекта;
"Shape Reported" — форма объекта;
"State" — обозначение штата;
"Time" — время, когда был замечен НЛО (данные отсортированы от старых наблюдений к новым). 
Прочитайте данные, сделайте преобразование времени к формату datetime и выполните задания ниже.

In [28]:
UFO_df = pd.read_csv('https://raw.githubusercontent.com/justmarkham/pandas-videos/master/data/ufo.csv', sep =',')
display(UFO_df)

Unnamed: 0,City,Colors Reported,Shape Reported,State,Time
0,Ithaca,,TRIANGLE,NY,6/1/1930 22:00
1,Willingboro,,OTHER,NJ,6/30/1930 20:00
2,Holyoke,,OVAL,CO,2/15/1931 14:00
3,Abilene,,DISK,KS,6/1/1931 13:00
4,New York Worlds Fair,,LIGHT,NY,4/18/1933 19:00
...,...,...,...,...,...
18236,Grant Park,,TRIANGLE,IL,12/31/2000 23:00
18237,Spirit Lake,,DISK,IA,12/31/2000 23:00
18238,Eagle River,,,WI,12/31/2000 23:45
18239,Eagle River,RED,LIGHT,WI,12/31/2000 23:45


In [29]:
UFO_df['Time'] = pd.to_datetime(UFO_df['Time'],dayfirst=True)
display(UFO_df['Time'])

0       1930-01-06 22:00:00
1       1930-06-30 20:00:00
2       1931-02-15 14:00:00
3       1931-01-06 13:00:00
4       1933-04-18 19:00:00
                ...        
18236   2000-12-31 23:00:00
18237   2000-12-31 23:00:00
18238   2000-12-31 23:45:00
18239   2000-12-31 23:45:00
18240   2000-12-31 23:59:00
Name: Time, Length: 18241, dtype: datetime64[ns]

В каком году отмечается наибольшее количество случаев наблюдения НЛО в США?

In [30]:
UFO_years = UFO_df['Time'].dt.year
print(UFO_years.mode())

0    1999
Name: Time, dtype: int64


Найдите средний интервал времени (в днях) между двумя последовательными случаями наблюдения НЛО в штате Невада (NV).
Чтобы выделить дату из столбца Time, можно воспользоваться атрибутом datetime date.

Чтобы вычислить разницу между двумя соседними датами в столбце, примените к нему метод diff().

Чтобы перевести интервал времени в дни, воспользуйтесь атрибутом timedelta days.

In [52]:
UFO_df['Date'] = UFO_df['Time'].dt.date # новый столбец с датой
mask = UFO_df['State'] == 'NV'
my_df = UFO_df[mask] # фильтрация по штату
UFO_diff = my_df['Date'].diff() # разница м/у соседними столбцами в новой DF
print(UFO_diff.dt.days.mean()) # перевод в дни, среднее



68.72084805653711
