- **apply()**
- pd.to_datetime

Таким форматом в Pandas является формат datetime, который записывается как YYYY-MM-DD HH: MM: SS, то есть составляющие времени указываются в следующем порядке: год, месяц, день, час, минута, секунда.

В наших данных дата записана в виде DD/MM/YYYY, например 3/12/2017. Посмотрим на это:

-----------------------------------------------
- index — номер строки
- Suburb — наименование пригорода
- Address — адрес
- Rooms — количество комнат в помещении
- Type — тип здания (h — дом, коттедж, вилла, терраса; u — блочный, дуплексный дом; t — таунхаус)
- Price — цена помещения
- Method — метод продажи 
- SellerG — риэлторская компания
- Date — дата продажи (в формате день/месяц/год)
- Distance — расстояния до объекта от центра Мельбурна 
- Postcode — почтовый индекс
- Bedroom — количество спален
- Bathroom — количество ванных комнат
- Car — количество парковочных мест
- Landsize — площадь прилегающей территории
- BuildingArea — площадь здания
- YearBuilt — год постройки
- CouncilArea — региональное управление
- Lattitude — географическая широта
- Longitude — географическая долгота
- Regionname — наименование района Мельбурна
- Propertycount — количество объектов недвижимости в районе, выставленных на продажу
- Coordinates — широта и долгота, объединённые в кортеж

In [2]:
import pandas as pd
melb_data = pd.read_csv('data/melb_data.csv')
melb_df = melb_data.copy()
melb_df['Date']

0         3/12/2016
1         4/02/2016
2         4/03/2017
3         4/03/2017
4         4/06/2016
            ...    
13575    26/08/2017
13576    26/08/2017
13577    26/08/2017
13578    26/08/2017
13579    26/08/2017
Name: Date, Length: 13580, dtype: object

**pandas.to_datetime()**

Для того чтобы преобразовывать столбцы с датами, записанными в распространённых форматах, в формат datetime, можно воспользоваться функцией **pandas.to_datetime()**. В нашем случае в функции нужно указать параметр dayfirst=True, который будет обозначать, что в первоначальном признаке первым идет день. Преобразуем столбец Date в формат datetime, передав его в эту функцию:

In [3]:
melb_df["Date"] = pd.to_datetime(melb_df['Date'],dayfirst=True)
melb_df['Date']

0       2016-12-03
1       2016-02-04
2       2017-03-04
3       2017-03-04
4       2016-06-04
           ...    
13575   2017-08-26
13576   2017-08-26
13577   2017-08-26
13578   2017-08-26
13579   2017-08-26
Name: Date, Length: 13580, dtype: datetime64[ns]

ВЫДЕЛЕНИЕ АТРИБУТОВ DATETIME

Тип данных datetime позволяет с помощью специального аксессора **dt** выделять составляющие времени из каждого элемента столбца, такие как:

- date — дата;

- year, month, day — год, месяц, день;

- time — время;

- hour, minute, second — час, минута, секунда;

- dayofweek — номер дня недели, от 0 до 6, где 0 — понедельник, 6 — воскресенье;

- day_name — название дня недели;

- dayofyear — порядковый день года;

- quarter — квартал (интервал в три месяца).

In [4]:
year_sold = melb_df['Date'].dt.year
print(year_sold)
print('min year', year_sold.min())
print('max year', year_sold.max())
print('mode year', year_sold.mode()[0])

0        2016
1        2016
2        2017
3        2017
4        2016
         ... 
13575    2017
13576    2017
13577    2017
13578    2017
13579    2017
Name: Date, Length: 13580, dtype: int64
min year 2016
max year 2017
mode year 2017


Теперь попробуем понять, на какие месяцы приходится пик продаж объектов недвижимости. Для этого выделим атрибут dt.month и на этот раз занесём результат в столбец MonthSale, а затем найдём относительную частоту продаж для каждого месяца от общего количества продаж — для этого используем метод value_counts() с параметром normalize (вывод в долях):

In [5]:
melb_df['MonthSale'] = melb_df['Date'].dt.month
melb_df['MonthSale'].value_counts(normalize=True)

5     0.149411
7     0.145950
9     0.135862
6     0.134757
8     0.114138
11    0.082032
4     0.069882
3     0.049926
12    0.044698
10    0.040574
2     0.032622
1     0.000147
Name: MonthSale, dtype: float64

РАБОТА С ИНТЕРВАЛАМИ

Часто бывает такая ситуация, что необходимо вычислять интервалы между двумя временными промежутками. Например, можно вычислить, сколько дней прошло с 1 января 2016 года до момента продажи объекта. Для этого можно просто найти разницу между датами продаж и заявленной датой, представленной в формате datetime:

In [6]:
delta_data = melb_df['Date'] - pd.to_datetime('2016-01-01')
display(delta_data)

0       337 days
1        34 days
2       428 days
3       428 days
4       155 days
          ...   
13575   603 days
13576   603 days
13577   603 days
13578   603 days
13579   603 days
Name: Date, Length: 13580, dtype: timedelta64[ns]

In [7]:
melb_df['age_building'] = melb_df['Date'].dt.year - melb_df['YearBuilt']
melb_df['age_building']
melb_df = melb_df.drop('YearBuilt', axis=1)

In [28]:
WeekdaySale = melb_df['WeekdaySale'] = melb_df['Date'].dt.dayofweek
WeekdaySale.value_count()
def weekends(dayofweek):
    weekends_number = [5 , 6]
    if dayofweek in weekends_number:
        result = 1
    else:
        result = 0
    return result
melb_df['Weekend'] = WeekdaySale.apply(weekends)
melb_df['Weekend']
melb_df[melb_df['Weekend'] == 1]['Price'].mean()

1081198.6406956792


- "City" — город, где был замечен НЛО;

- "Colors Reported" — цвет объекта;

- "Shape Reported" — форма объекта;

- "State" — обозначение штата;

- "Time" — время, когда был замечен НЛО (данные отсортированы от старых наблюдений к новым). 

In [29]:
#nlo_data = pd.read_csv('https://raw.githubusercontent.com/justmarkham/pandas-videos/master/data/ufo.csv')
#nlo_data.to_csv('data/nlo_data.csv', sep=',')
nlo_data = pd.read_csv('data/nlo_data.csv')
print(nlo_data.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18241 entries, 0 to 18240
Data columns (total 6 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Unnamed: 0       18241 non-null  int64 
 1   City             18216 non-null  object
 2   Colors Reported  2882 non-null   object
 3   Shape Reported   15597 non-null  object
 4   State            18241 non-null  object
 5   Time             18241 non-null  object
dtypes: int64(1), object(5)
memory usage: 855.2+ KB
None


In [30]:
nlo_data['Time'] = pd.to_datetime(nlo_data['Time'],dayfirst=False)
nlo_data['Time'].dt.year.mode()[0]

1999

Найдите средний интервал времени (в днях) между двумя последовательными случаями наблюдения НЛО в штате Невада (NV).

In [31]:
nlo_data['State'].value_counts()
nlo_data['Date'] = nlo_data['Time'].dt.date
print(nlo_data['Date'])
print(nlo_data[nlo_data['State']=='NV']['Date'].diff().dt.days.mean())

0        1930-06-01
1        1930-06-30
2        1931-02-15
3        1931-06-01
4        1933-04-18
            ...    
18236    2000-12-31
18237    2000-12-31
18238    2000-12-31
18239    2000-12-31
18240    2000-12-31
Name: Date, Length: 18241, dtype: object
68.92932862190813


найдем количечтво уникальных значений

**apply()**

Теперь применим эту функцию к столбцу c адресом. Для этого передадим функцию get_street_type в аргумент метода столбца **apply()**. В результате получим объект Series, который положим в переменную street_types:

In [32]:
print(melb_df['Address'].nunique())
def get_street_type(address):
    exclude_list = list('N', 'S', 'W', 'E')
    address_split = address.split(' ')
    strit_type = address_split[-1]
    if strit_type in exclude_list:
        strit_type = address_split[-2]
    return strit_type
stret_types = melb_df['Address'].apply

13378
