In [36]:
import pandas as pd
melb_data = pd.read_csv('data/melb_data_ps.csv', sep=',')
melb_df = melb_data.copy()

In [37]:
display(melb_df['Date'])

0         3/12/2016
1         4/02/2016
2         4/03/2017
3         4/03/2017
4         4/06/2016
            ...    
13575    26/08/2017
13576    26/08/2017
13577    26/08/2017
13578    26/08/2017
13579    26/08/2017
Name: Date, Length: 13580, dtype: object

In [5]:
melb_df['Date'] = pd.to_datetime(melb_df['Date'], dayfirst=True)
# dayfirst - указание, что день идет первым
display(melb_df['Date'])

0       2016-12-03
1       2016-02-04
2       2017-03-04
3       2017-03-04
4       2016-06-04
           ...    
13575   2017-08-26
13576   2017-08-26
13577   2017-08-26
13578   2017-08-26
13579   2017-08-26
Name: Date, Length: 13580, dtype: datetime64[ns]

In [10]:
yers_sold = melb_df['Date'].dt.year 
# через .dt. можно вытаскивать, если тип данных datetime:
# date — дата;
# year, month, day — год, месяц, день;
# time — время;
# hour, minute, second — час, минута, секунда
# dayofweek — номер дня недели, от 0 до 6, где 0 — понедельник, 6 — воскресенье;
# day_name — название дня недели;
# dayofyear — порядковый день года;
# quarter — квартал (интервал в три месяца).
print(yers_sold) 
print('Min year sold:', yers_sold.min())
print('Max year sold:', yers_sold.max())
print('Mode year sold:', yers_sold.mode()[0]) 
# Примечание. Так как модальных значений в столбце может быть несколько, 
# метод mode() возвращает объект Series, даже если мода в данных только одна. 
# Чтобы сохранить стилистику вывода информации о годе продажи и выводить только 
# число, а не Series, мы обращаемся к результату работы метода mode() 
# по индексу 0.

0        2016
1        2016
2        2017
3        2017
4        2016
         ... 
13575    2017
13576    2017
13577    2017
13578    2017
13579    2017
Name: Date, Length: 13580, dtype: int32
Min year sold: 2016
Max year sold: 2017
Mode year sold: 2017


In [15]:
melb_df['MonthSale'] = melb_df['Date'].dt.month # вытаскиваем месяцы
melb_df['MonthSale'].value_counts(normalize=True) 
#value_counts - частота использования, normalize=True - в долях


MonthSale
5     0.149411
7     0.145950
9     0.135862
6     0.134757
8     0.114138
11    0.082032
4     0.069882
3     0.049926
12    0.044698
10    0.040574
2     0.032622
1     0.000147
Name: proportion, dtype: float64

Работа с интервалами

In [17]:
delta_days = melb_df['Date'] - pd.to_datetime('2016-01-01') 
# расчет количества дней прошедших с 1 января 2016г
display(delta_days)

0       337 days
1        34 days
2       428 days
3       428 days
4       155 days
          ...   
13575   603 days
13576   603 days
13577   603 days
13578   603 days
13579   603 days
Name: Date, Length: 13580, dtype: timedelta64[ns]

In [18]:
display(delta_days.dt.days) # перевели интервал в целое число

0        337
1         34
2        428
3        428
4        155
        ... 
13575    603
13576    603
13577    603
13578    603
13579    603
Name: Date, Length: 13580, dtype: int64

In [20]:
melb_df['AgeBuilding'] = melb_df['Date'].dt.year - melb_df['YearBuilt']
# расчет возраста знания на момент его продажи (только по годам)
display(melb_df['AgeBuilding'])
melb_df = melb_df.drop('YearBuilt', axis=1)

0         46
1        116
2        117
3         47
4          2
        ... 
13575     36
13576     22
13577     20
13578     97
13579     97
Name: AgeBuilding, Length: 13580, dtype: int64

### Практика!!!
Cоздайте в таблице melb_df признак WeekdaySale (день недели). Найдите, сколько объектов недвижимости было продано в выходные (суббота и воскресенье), результат занесите в переменную weekend_count. В качестве ответа введите результат вывода переменной weekend_count.

In [33]:
melb_df['WeekdaySale'] = melb_df['Date'].dt.dayofweek
weekend_count = melb_df[
    (melb_df['WeekdaySale'] == 5) | (melb_df['WeekdaySale'] == 6)
    ].shape[0]
print(weekend_count)
# расчитываем через фильрацию, условие: в столбце должно быть ИЛИ 5 ИЛИ 6
# количество расчитываем через количетсво строк

12822


In [41]:
ufo_data = pd.read_csv('data/ufo.csv', sep=',')
display(ufo_data)
ufo_data.info()

Unnamed: 0,City,Colors Reported,Shape Reported,State,Time
0,Ithaca,,TRIANGLE,NY,6/1/1930 22:00
1,Willingboro,,OTHER,NJ,6/30/1930 20:00
2,Holyoke,,OVAL,CO,2/15/1931 14:00
3,Abilene,,DISK,KS,6/1/1931 13:00
4,New York Worlds Fair,,LIGHT,NY,4/18/1933 19:00
...,...,...,...,...,...
18236,Grant Park,,TRIANGLE,IL,12/31/2000 23:00
18237,Spirit Lake,,DISK,IA,12/31/2000 23:00
18238,Eagle River,,,WI,12/31/2000 23:45
18239,Eagle River,RED,LIGHT,WI,12/31/2000 23:45


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18241 entries, 0 to 18240
Data columns (total 5 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   City             18215 non-null  object
 1   Colors Reported  2882 non-null   object
 2   Shape Reported   15597 non-null  object
 3   State            18241 non-null  object
 4   Time             18241 non-null  object
dtypes: object(5)
memory usage: 712.7+ KB


In [42]:
ufo_data['Time'] = pd.to_datetime(ufo_data['Time'])
display(ufo_data['Time'])

0       1930-06-01 22:00:00
1       1930-06-30 20:00:00
2       1931-02-15 14:00:00
3       1931-06-01 13:00:00
4       1933-04-18 19:00:00
                ...        
18236   2000-12-31 23:00:00
18237   2000-12-31 23:00:00
18238   2000-12-31 23:45:00
18239   2000-12-31 23:45:00
18240   2000-12-31 23:59:00
Name: Time, Length: 18241, dtype: datetime64[ns]

В каком году отмечается наибольшее количество случаев наблюдения НЛО в США?

In [44]:
ufo_data['Year_ufo'] = ufo_data['Time'].dt.year
ufo_data['Year_ufo'].value_counts(normalize=True) #  1й вариант

Year_ufo
1999    0.152075
2000    0.144455
1998    0.095554
1995    0.073680
1997    0.067814
          ...   
1936    0.000110
1930    0.000110
1935    0.000055
1934    0.000055
1933    0.000055
Name: proportion, Length: 68, dtype: float64

In [46]:
print(ufo_data['Time'].dt.year.mode()[0]) # 2й вариант

1999


Найдите средний интервал времени (в днях) между двумя последовательными случаями наблюдения НЛО в штате Невада (NV).
1. Чтобы выделить дату из столбца Time, можно воспользоваться атрибутом datetime date.

2. Чтобы вычислить разницу между двумя соседними датами в столбце, примените к нему метод diff().

3. Чтобы перевести интервал времени в дни, воспользуйтесь атрибутом
timedelta days.

In [47]:
ufo_data['Date'] = ufo_data['Time'].dt.date
display(ufo_data['Date']) # 1

0        1930-06-01
1        1930-06-30
2        1931-02-15
3        1931-06-01
4        1933-04-18
            ...    
18236    2000-12-31
18237    2000-12-31
18238    2000-12-31
18239    2000-12-31
18240    2000-12-31
Name: Date, Length: 18241, dtype: object

In [49]:
ufo_data[ufo_data['State'] == 'NV']['Date'].diff().dt.days.mean() # 2-3
# сначала берем строки, где штат невада, затем указываем столбец
# затем убираем слова days из Date и счатем среднее значение


68.92932862190813

In [51]:
ufo_data[ufo_data['State'] == 'NY']['Date']

0        1930-06-01
4        1933-04-18
41       1946-01-08
50       1947-02-20
74       1947-07-14
            ...    
18073    2000-12-04
18077    2000-12-04
18086    2000-12-06
18126    2000-12-15
18189    2000-12-25
Name: Date, Length: 914, dtype: object