-----------------------------------------------
- index — номер строки
- Suburb — наименование пригорода
- Address — адрес
- Rooms — количество комнат в помещении
- Type — тип здания (h — дом, коттедж, вилла, терраса; u — блочный, дуплексный дом; t — таунхаус)
- Price — цена помещения
- Method — метод продажи 
- SellerG — риэлторская компания
- Date — дата продажи (в формате день/месяц/год)
- Distance — расстояния до объекта от центра Мельбурна 
- Postcode — почтовый индекс
- Bedroom — количество спален
- Bathroom — количество ванных комнат
- Car — количество парковочных мест
- Landsize — площадь прилегающей территории
- BuildingArea — площадь здания
- YearBuilt — год постройки
- CouncilArea — региональное управление
- Lattitude — географическая широта
- Longitude — географическая долгота
- Regionname — наименование района Мельбурна
- Propertycount — количество объектов недвижимости в районе, выставленных на продажу
- Coordinates — широта и долгота, объединённые в кортеж

In [1]:
import pandas as pd
melb_data_fe = pd.read_csv('data/melb_data_fe.csv')
melb_data_fe['Date'] = pd.to_datetime(melb_data_fe['Date'])
list_colums = ['Date', 'Rooms', 'Bedroom', 'Bathroom', 'Car']
for col in melb_data_fe.columns:
    if melb_data_fe[col].nunique() < 150 and col not in list_colums:
        melb_data_fe[col] = melb_data_fe[col].astype('category')
melb_data_fe.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 26 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   Suburb           13580 non-null  category      
 1   Rooms            13580 non-null  int64         
 2   Type             13580 non-null  category      
 3   Price            13580 non-null  float64       
 4   Method           13580 non-null  category      
 5   SellerG          13580 non-null  category      
 6   Date             13580 non-null  datetime64[ns]
 7   Distance         13580 non-null  float64       
 8   Postcode         13580 non-null  int64         
 9   Bedroom          13580 non-null  int64         
 10  Bathroom         13580 non-null  int64         
 11  Car              13580 non-null  int64         
 12  Landsize         13580 non-null  float64       
 13  BuildingArea     13580 non-null  float64       
 14  CouncilArea      12211 non-null  categ

In [2]:
melb_data_fe.groupby('Type',as_index=False)['Price'].mean()

Unnamed: 0,Type,Price
0,house,1242665.0
1,townhouse,933735.1
2,unit,605127.5


Теперь давайте выясним, какие регионы (Regionname) наиболее удалены от центра Мельбурна.

Для этого найдём минимальное значение расстояния от центра города до объекта в зависимости от его региона. Результат отсортируем по убыванию расстояния:

In [3]:
melb_data_fe.groupby('Regionname')['Distance'].min().sort_values(ascending=False)

Regionname
Western Victoria              29.8
Eastern Victoria              25.2
Northern Victoria             21.8
South-Eastern Metropolitan    14.7
Eastern Metropolitan           7.8
Western Metropolitan           4.3
Southern Metropolitan          0.7
Northern Metropolitan          0.0
Name: Distance, dtype: float64

Давайте построим таблицу для анализа продаж по месяцам. Для этого найдём количество продаж, а также среднее и максимальное значения цен объектов недвижимости (Price), сгруппированных по номеру месяца продажи (MonthSale). Результат отсортируем по количеству продаж в порядке убывания:

In [4]:
melb_data_fe.groupby('MonthSale')['Price'].agg('describe').sort_values('count',ascending=False)

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
MonthSale,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
8,1850.0,1056371.0,619617.476541,160000.0,635000.0,892000.0,1310000.0,6500000.0
7,1835.0,931469.8,537390.803161,190000.0,586750.0,800000.0,1150000.0,9000000.0
5,1644.0,1097807.0,668492.867996,145000.0,650000.0,905000.0,1371250.0,8000000.0
6,1469.0,1068981.0,606010.069052,222000.0,660000.0,900000.0,1325000.0,7650000.0
3,1408.0,1146762.0,709573.596867,85000.0,680000.0,945000.0,1400000.0,5600000.0
4,1246.0,1050479.0,591892.902979,145000.0,655000.0,905500.0,1298750.0,5500000.0
9,1188.0,1126349.0,608734.690742,170000.0,725000.0,980000.0,1360000.0,6400000.0
10,854.0,1135970.0,692950.251627,250000.0,652625.0,950000.0,1416500.0,6250000.0
11,750.0,1142503.0,703666.227892,240000.0,671750.0,950000.0,1399125.0,5050000.0
12,725.0,1144737.0,706549.007161,250000.0,667500.0,938000.0,1412000.0,5700000.0


Сгруппируйте данные по признаку количества комнат и найдите среднюю цену объектов недвижимости в каждой группе. В качестве ответа запишите количество комнат, для которых средняя цена наибольшая.

In [5]:
melb_data_fe.groupby('Rooms')['Price'].mean().sort_values(ascending=False).index[0]

7

Какой регион имеет наименьшее стандартное отклонение по географической широте (Lattitude)?
В качестве ответа запишите название этого региона.

In [6]:
melb_data_fe.groupby('Regionname')['Lattitude'].std().sort_values().index[0]

'Western Victoria'

Какая риелторская компания (SellerG) имеет наименьшую общую выручку за период с 1 мая по 1 сентября (включительно) 2017 года?
Для ответа на этот вопрос рассчитайте сумму продаж (Price) каждой компании в заданный период.
Не забудьте перевести даты в формат datetime.

In [7]:
melb_data_fe['Date']


0       2016-03-12
1       2016-04-02
2       2017-04-03
3       2017-04-03
4       2016-04-06
           ...    
13575   2017-08-26
13576   2017-08-26
13577   2017-08-26
13578   2017-08-26
13579   2017-08-26
Name: Date, Length: 13580, dtype: datetime64[ns]

In [8]:
melb_data_fe['Date'][0] < melb_data_fe['Date'][1]
time1 = pd.to_datetime('2017-05-01')
time2 = pd.to_datetime('2017-09-01')
mask1 = time1 <= melb_data_fe['Date']
mask2 = melb_data_fe['Date'] <= time2
melb_data_fe[mask1 & mask2].groupby('SellerG')['Price'].sum().sort_values().index[0]

'LITTLE'

### МЕТОД GROUPBY КАК СПОСОБ ПОСТРОЕНИЯ СВОДНЫХ ТАБЛИЦ

Например, мы уже умеем строить таблицу, которая показывает зависимость медианной цены и площади здания от числа комнат:

In [9]:
melb_data_fe.groupby('Rooms')[['Price','BuildingArea']].median()

Unnamed: 0_level_0,Price,BuildingArea
Rooms,Unnamed: 1_level_1,Unnamed: 2_level_1
1,385000.0,107.0
2,690000.0,126.0
3,950000.0,126.0
4,1285000.0,142.0
5,1660000.0,176.0
6,1800000.0,126.0
7,1496000.0,216.5
8,1515000.0,126.0
10,900000.0,126.0


Tакже можно построить таблицу, в которой мы будем учитывать не только число комнат, но и тип здания (Type). Для этого в параметрах метода groupby() укажем список из нескольких интересующих нас столбцов.

**.unstack()**

In [10]:
melb_data_fe.groupby(['Rooms', 'Type'])['Price'].mean().unstack()

Type,house,townhouse,unit
Rooms,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,866865.5,592704.5,389928.9
2,1017238.0,710158.5,610490.5
3,1109233.0,984708.7,850596.3
4,1462283.0,1217092.0,1037476.0
5,1877327.0,1035000.0,
6,1869508.0,,520000.0
7,1920700.0,,
8,1510286.0,,2250000.0
10,900000.0,,


### МЕТОД PIVOT_TABLE ДЛЯ ПОСТРОЕНИЯ СВОДНЫХ ТАБЛИЦ

Основные параметры метода pivot_table()


- values — имя столбца, по которому необходимо получить сводные данные, применяя агрегирующую функцию;

- index — имя столбца, значения которого станут строками сводной таблицы;

- columns — имя столбца, значения которого станут столбцами сводной таблицы;

- aggfunc — имя или список имён агрегирующих функций (по умолчанию — подсчёт среднего, 'mean');

- fill_value — значение, которым необходимо заполнить пропуски (по умолчанию пропуски не заполняются).

Давайте построим ту же самую таблицу, но уже с использованием метода pivot_table. В качестве параметра values укажем столбец Price, в качестве индексов сводной таблицы возьмём Rooms, а в качестве столбцов — Type. Агрегирующую функцию оставим по умолчанию (среднее). Дополнительно заменим пропуски в таблице на значение 0. Финальный результат для наглядности вывода округлим с помощью метода round() до целых.

In [11]:
melb_data_fe.pivot_table(
    values='Price',
    index='Rooms',
    columns='Type',
    fill_value=0
).round()

Type,house,townhouse,unit
Rooms,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,866866.0,592705.0,389929.0
2,1017238.0,710158.0,610491.0
3,1109233.0,984709.0,850596.0
4,1462283.0,1217092.0,1037476.0
5,1877327.0,1035000.0,0.0
6,1869508.0,0.0,520000.0
7,1920700.0,0.0,0.0
8,1510286.0,0.0,2250000.0
10,900000.0,0.0,0.0


А теперь давайте проанализируем продажи в каждом из регионов в зависимости от того, будний был день или выходной. Для этого построим сводную таблицу, в которой строками будут являться названия регионов (Regionname), а в столбцах будет располагаться наш «признак-мигалка» выходного дня (Weekend), который равен 1, если день был выходным, и 0 — в противном случае. В качестве значений сводной таблицы возьмём количество продаж.

In [12]:
melb_data_fe.pivot_table(
    values='Price',
    index='Regionname',
    columns='Weekend',
    aggfunc='count'
)

Weekend,0,1
Regionname,Unnamed: 1_level_1,Unnamed: 2_level_1
Eastern Metropolitan,447,1024
Eastern Victoria,13,40
Northern Metropolitan,1258,2632
Northern Victoria,11,30
South-Eastern Metropolitan,123,327
Southern Metropolitan,1534,3161
Western Metropolitan,960,1988
Western Victoria,8,24


Разберём ещё один пример: найдём, как зависит средняя и медианная площадь участка (Landsize) от типа объекта (Type) и его региона (Regionname). Чтобы посмотреть несколько статистических параметров, нужно передать в аргумент aggfunc список из агрегирующих функций. Построим такую сводную таблицу, где пропущенные значения заменим на 0:

In [13]:
melb_data_fe.pivot_table(
    values='Landsize',
    columns='Type',
    index='Regionname',
    aggfunc=['mean','median'],
    fill_value=0
)

Unnamed: 0_level_0,mean,mean,mean,median,median,median
Type,house,townhouse,unit,house,townhouse,unit
Regionname,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Eastern Metropolitan,717.422847,269.440678,330.444444,674.0,233.5,203
Eastern Victoria,3108.96,0.0,295.333333,843.0,0.0,230
Northern Metropolitan,619.249092,317.325733,495.026538,459.5,134.0,0
Northern Victoria,3355.463415,0.0,0.0,724.0,0.0,0
South-Eastern Metropolitan,664.306701,212.16,357.864865,630.5,240.0,199
Southern Metropolitan,569.643881,278.858824,466.380245,586.0,246.0,0
Western Metropolitan,507.883406,244.560669,557.637232,531.0,198.0,62
Western Victoria,655.5,0.0,0.0,599.5,0.0,0


### МНОГОМЕРНЫЕ СВОДНЫЕ ТАБЛИЦЫ

Давайте построим таблицу, в которой по индексам будут располагаться признаки метода продажи (Method) и типа объекта (Type), по столбцам — наименование региона (Regionname), а на пересечении строк и столбцов будет стоять медианная цена объекта (Price):

In [14]:
melb_data_fe.pivot_table(
    values='Price',
    index=['Method','Type'],
    columns='Regionname',
    aggfunc='median'
)

Unnamed: 0_level_0,Regionname,Eastern Metropolitan,Eastern Victoria,Northern Metropolitan,Northern Victoria,South-Eastern Metropolitan,Southern Metropolitan,Western Metropolitan,Western Victoria
Method,Type,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
PI,house,1244000.0,780000.0,900000.0,500000.0,865000.0,1725000.0,870000.0,630000.0
PI,townhouse,760000.0,,632500.0,,1190000.0,1055000.0,670000.0,
PI,unit,650000.0,,410000.0,,525000.0,571250.0,360000.0,
S,house,1127000.0,675000.0,920000.0,555000.0,883300.0,1611000.0,870000.0,397500.0
S,townhouse,828000.0,,750000.0,,875000.0,1135000.0,729000.0,
S,unit,645750.0,492000.0,525500.0,,606000.0,655000.0,489000.0,
SA,house,932500.0,950000.0,817500.0,540000.0,880000.0,1390000.0,772500.0,
SA,townhouse,807500.0,,425000.0,,,1141000.0,467500.0,
SA,unit,,,616000.0,,,580000.0,571000.0,
SP,house,1050000.0,672500.0,900000.0,521000.0,770000.0,1521750.0,865000.0,360000.0


## ДОСТУП К ДАННЫМ В СВОДНОЙ ТАБЛИЦЕ

In [15]:
pivot = melb_data_fe.pivot_table(
    values='Landsize',
    columns='Type',
    index='Regionname',
    aggfunc=['mean','median'],
    fill_value=0
)
pivot.columns

MultiIndex([(  'mean',     'house'),
            (  'mean', 'townhouse'),
            (  'mean',      'unit'),
            ('median',     'house'),
            ('median', 'townhouse'),
            ('median',      'unit')],
           names=[None, 'Type'])

In [16]:
pivot['mean']['unit']

Regionname
Eastern Metropolitan          330.444444
Eastern Victoria              295.333333
Northern Metropolitan         495.026538
Northern Victoria               0.000000
South-Eastern Metropolitan    357.864865
Southern Metropolitan         466.380245
Western Metropolitan          557.637232
Western Victoria                0.000000
Name: unit, dtype: float64

Аналогично производится и фильтрация данных. Например, если нам нужны регионы, в которых средняя площадь здания для домов типа house меньше их медианной площади, то мы можем найти их следующим образом:

In [17]:
mask = pivot['mean']['house'] < pivot['median']['house']
pivot[mask]

Unnamed: 0_level_0,mean,mean,mean,median,median,median
Type,house,townhouse,unit,house,townhouse,unit
Regionname,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Southern Metropolitan,569.643881,278.858824,466.380245,586.0,246.0,0
Western Metropolitan,507.883406,244.560669,557.637232,531.0,198.0,62


Составьте сводную таблицу, которая показывает зависимость медианной площади (BuildingArea) здания от типа объекта недвижимости (Type) и количества жилых комнат в доме (Rooms). Для какой комбинации признаков площадь здания наибольшая?

In [27]:
melb_data_fe.pivot_table(
    values='BuildingArea',
    index=['Type','Rooms'],
    aggfunc='median'
).sort_values(by='BuildingArea',ascending=False).index[0]

('house', 7)

Составьте сводную таблицу, которая показывает зависимость медианной цены объекта недвижимости (Price) от риелторского агентства (SellerG) и типа здания (Type).

In [36]:
melb_data_fe.pivot_table(
    values='Price',
    index=['SellerG', 'Type'],
    aggfunc='median'
).sort_values(by=['Type','Price'],ascending=[False,False])

Unnamed: 0_level_0,Unnamed: 1_level_0,Price
SellerG,Type,Unnamed: 2_level_1
Nick,unit,900000.0
Marshall,unit,715000.0
Cayzer,unit,707500.0
Kay,unit,695000.0
Noel,unit,693250.0
...,...,...
Stockdale,house,715500.0
HAR,house,695000.0
Bells,house,692500.0
Douglas,house,684000.0
