In [None]:
# Группировка данных в DataFrame
# МЕТОД GROUPBY()
# возвращает объект DataFrameGroupBy
# хранит в себе информацию о том, какие строки относятся к определённой группе
# можно применять уже знакомые нам агрегирующие методы (mean, median, sum )
# HTTPS://PANDAS.PYDATA.ORG/DOCS/REFERENCE/API/PANDAS.DATAFRAME.GROUPBY.HTML

In [None]:
# Сначала мы разделяем данные на группы с помощью метода groupby(), 
# после чего к каждой группе применяем агрегацию 
# и объединяем результаты в новую таблицу

In [None]:
 #DataFrame.groupby(by=None, 
#                   axis=0, 
#                   level=None, 
#                   as_index=True, 
#                   sort=True, 
#                   group_keys=True, 
#                   squeeze=NoDefault.no_default, 
#                   observed=False, 
#                   dropna=True)


In [2]:
import pandas as pd
melb_df = pd.read_csv('data/melb_data_fe.csv')
#display(melb_df.head(3))

melb_df['Date'] = pd.to_datetime(melb_df['Date'])
quarter_sold = melb_df['Date'].dt.quarter

In [None]:
# ГРУПLПИРОВКА ДАННЫХ ПО ОДНОМУ КРИТЕРИЮ С ОДНОЙ АГРЕГАЦИЕЙ

In [6]:
# Применим агрегирующую функцию среднего к результату работы groupby(). 
# В качестве столбца для группировки возьмём столбец типа объекта недвижимости (Type):
melb_df.groupby(by = 'Type').mean()
# Мы получили таблицу, на пересечении строк и столбцов которой находятся средние значения каждого числового признака в наших данных

Unnamed: 0_level_0,Rooms,Price,Distance,Postcode,Bedroom,Bathroom,Car,Landsize,BuildingArea,Lattitude,Longtitude,Propertycount,MeanRoomsSquare,AreaRatio,MonthSale,AgeBuilding,WeekdaySale,Weekend
Type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1
house,3.260874,1242665.0,10.979479,3104.080643,3.229336,1.613822,1.772674,617.181924,152.162553,-37.803795,144.9947,7259.025505,18.996731,-0.490031,6.750873,55.6697,4.015769,0.689808
townhouse,2.837522,933735.1,9.851346,3100.777379,2.814183,1.809695,1.555655,279.606822,134.64971,-37.815782,144.996489,7094.459605,18.569847,-0.094916,6.621185,26.690305,3.980251,0.681329
unit,1.963871,605127.5,7.607391,3110.797481,1.966523,1.183295,1.128936,477.314219,102.235863,-37.82371,144.996363,8199.28008,21.068242,0.319883,6.578721,39.703016,3.817368,0.646006


In [8]:
# Примечание. Если мы хотим видеть тип объекта в качестве отдельного столбца таблицы, мы можем выставить параметр as_index на False:
melb_df.groupby(by = 'Type', as_index = False).mean()

Unnamed: 0,Type,Rooms,Price,Distance,Postcode,Bedroom,Bathroom,Car,Landsize,BuildingArea,Lattitude,Longtitude,Propertycount,MeanRoomsSquare,AreaRatio,MonthSale,AgeBuilding,WeekdaySale,Weekend
0,house,3.260874,1242665.0,10.979479,3104.080643,3.229336,1.613822,1.772674,617.181924,152.162553,-37.803795,144.9947,7259.025505,18.996731,-0.490031,6.750873,55.6697,4.015769,0.689808
1,townhouse,2.837522,933735.1,9.851346,3100.777379,2.814183,1.809695,1.555655,279.606822,134.64971,-37.815782,144.996489,7094.459605,18.569847,-0.094916,6.621185,26.690305,3.980251,0.681329
2,unit,1.963871,605127.5,7.607391,3110.797481,1.966523,1.183295,1.128936,477.314219,102.235863,-37.82371,144.996363,8199.28008,21.068242,0.319883,6.578721,39.703016,3.817368,0.646006


In [9]:
# Как правило, нам не нужна информация обо всех столбцах, поэтому агрегирующие методы можно применять только к интересующему нас столбцу
melb_df.groupby(by = 'Type')['Price'].mean()
# один показатель (среднее) для одного столбца, в результате мы получаем объект Series.

Type
house        1.242665e+06
townhouse    9.337351e+05
unit         6.051275e+05
Name: Price, dtype: float64

In [10]:
# выясним, какие регионы (Regionname) наиболее удалены от центра Мельбурна.
# Для этого найдём минимальное значение расстояния от центра города до объекта в зависимости от его региона. 
# Результат отсортируем по убыванию расстояния:
melb_df.groupby(by = 'Regionname')['Distance'].min().sort_values(ascending=False)
# Итак, наиболее удалёнными являются все регионы Victoria

Regionname
Western Victoria              29.8
Eastern Victoria              25.2
Northern Victoria             21.8
South-Eastern Metropolitan    14.7
Eastern Metropolitan           7.8
Western Metropolitan           4.3
Southern Metropolitan          0.7
Northern Metropolitan          0.0
Name: Distance, dtype: float64

In [None]:
# ГРУППИРОВКА ДАННЫХ ПО ОДНОМУ КРИТЕРИЮ С НЕСКОЛЬКИМИ АГРЕГАЦИЯМИ
# метод agg()
# Чтобы рассчитать несколько агрегирующих методов
# принимает список строк с названиями агрегаций

In [None]:
# DataFrame.agg(func=None, axis=0, *args, **kwargs)
# Aggregate using one or more operations over the specified axis

In [8]:
# Давайте построим таблицу для анализа продаж по месяцам. 
# Для этого найдём количество продаж, а также среднее и максимальное значения цен объектов недвижимости (Price), 
# сгруппированных по номеру месяца продажи (MonthSale). Результат отсортируем по количеству продаж в порядке убывания:
melb_df.groupby('MonthSale')['Price'].agg([
    'count', 'mean', 'max']).sort_values(by = 'count', ascending=False)
# Обратите внимание, что, так как мы считаем несколько показателей для одного столбца, в результате мы получаем объект DataFrame.

Unnamed: 0_level_0,count,mean,max
MonthSale,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
8,1850,1056371.0,6500000.0
7,1835,931469.8,9000000.0
5,1644,1097807.0,8000000.0
6,1469,1068981.0,7650000.0
3,1408,1146762.0,5600000.0
4,1246,1050479.0,5500000.0
9,1188,1126349.0,6400000.0
10,854,1135970.0,6250000.0
11,750,1142503.0,5050000.0
12,725,1144737.0,5700000.0


In [5]:
# Если вам нужна полная информация обо всех основных статистических характеристиках внутри каждой группы, 
# вы можете воспользоваться методом agg(), передав в качестве его параметра строку 'describe':
melb_df.groupby('MonthSale')['Price'].agg('describe')

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
MonthSale,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,278.0,939792.1,577668.924214,170000.0,570500.0,795000.0,1111250.0,5200000.0
2,333.0,1169051.0,671564.357417,131000.0,710000.0,1020000.0,1478000.0,4735000.0
3,1408.0,1146762.0,709573.596867,85000.0,680000.0,945000.0,1400000.0,5600000.0
4,1246.0,1050479.0,591892.902979,145000.0,655000.0,905500.0,1298750.0,5500000.0
5,1644.0,1097807.0,668492.867996,145000.0,650000.0,905000.0,1371250.0,8000000.0
6,1469.0,1068981.0,606010.069052,222000.0,660000.0,900000.0,1325000.0,7650000.0
7,1835.0,931469.8,537390.803161,190000.0,586750.0,800000.0,1150000.0,9000000.0
8,1850.0,1056371.0,619617.476541,160000.0,635000.0,892000.0,1310000.0,6500000.0
9,1188.0,1126349.0,608734.690742,170000.0,725000.0,980000.0,1360000.0,6400000.0
10,854.0,1135970.0,692950.251627,250000.0,652625.0,950000.0,1416500.0,6250000.0


In [10]:
# подсчёт числа уникальных значений
# вычислить число уникальных риелторских компаний в зависимости от региона, 
# чтобы понять, в каких регионах конкуренция на рынке недвижимости меньше. 
# Это можно сделать, передав в параметр метода agg() строку 'nunique'
# Передадим дополнительно встроенную функцию set, чтобы получить множество из агентств недвижимости, которые работают в каждом из регионов:
melb_df.groupby('Regionname')['SellerG'].agg(['nunique', set])

Unnamed: 0_level_0,nunique,set
Regionname,Unnamed: 1_level_1,Unnamed: 2_level_1
Eastern Metropolitan,26,"{HAR, Gary, RW, Ray, Love, Woodards, Noel, Big..."
Eastern Victoria,11,"{HAR, C21, Fletchers, Eview, O'Brien, Barry, o..."
Northern Metropolitan,40,"{HAR, Village, Sweeney, RW, Jas, Ray, Love, Ni..."
Northern Victoria,11,"{HAR, McDonald, LITTLE, YPA, Raine, other, Bar..."
South-Eastern Metropolitan,25,"{HAR, Gary, RW, Ray, Woodards, Chisholm, Greg,..."
Southern Metropolitan,38,"{HAR, Gary, RW, Jas, Ray, Nick, Woodards, Chis..."
Western Metropolitan,34,"{HAR, Village, Moonee, Sweeney, Jas, RW, Ray, ..."
Western Victoria,6,"{HAR, YPA, Raine, other, Ray, hockingstuart}"


In [11]:
display(melb_df.head(3))

Unnamed: 0,Suburb,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,Bedroom,...,Longtitude,Regionname,Propertycount,MeanRoomsSquare,AreaRatio,MonthSale,AgeBuilding,WeekdaySale,StreetType,Weekend
0,Abbotsford,2,house,1480000.0,S,Biggin,2016-03-12,2.5,3067,2,...,144.9984,Northern Metropolitan,4019,25.2,-0.231707,3,46,5,St,1
1,Abbotsford,2,house,1035000.0,S,Biggin,2016-04-02,2.5,3067,2,...,144.9934,Northern Metropolitan,4019,15.8,-0.32766,4,116,5,St,1
2,Abbotsford,3,house,1465000.0,SP,Biggin,2017-04-03,2.5,3067,3,...,144.9944,Northern Metropolitan,4019,18.75,0.056338,4,117,0,St,0


In [13]:
# Сгруппируйте данные по признаку количества комнат 
# и найдите среднюю цену объектов недвижимости в каждой группе. 
# В качестве ответа запишите количество комнат, для которых средняя цена наибольшая.
melb_df.groupby('Rooms')['Price'].mean().sort_values(ascending=False)
# 7

Rooms
7     1.920700e+06
5     1.870260e+06
6     1.849366e+06
8     1.602750e+06
4     1.445282e+06
3     1.076081e+06
10    9.000000e+05
2     7.750812e+05
1     4.338245e+05
Name: Price, dtype: float64

In [15]:
# Какой регион имеет наименьшую протяжённость по географической широте (Lattitude)?
# Для ответа на этот вопрос рассчитайте стандартное отклонение широты для каждого региона.
# В качестве ответа запишите название этого региона.
melb_df.groupby('Regionname')['Lattitude'].min().sort_values(ascending=False)

Regionname
Northern Victoria            -37.68503
Western Victoria             -37.71691
Eastern Metropolitan         -37.90383
Western Metropolitan         -37.91859
Northern Metropolitan        -37.93940
Southern Metropolitan        -37.99035
Eastern Victoria             -38.16439
South-Eastern Metropolitan   -38.18255
Name: Lattitude, dtype: float64

In [16]:
melb_df.groupby('Regionname')['Lattitude'].std().sort_values()
# Western Victoria  

Regionname
Western Victoria              0.011579
Southern Metropolitan         0.043080
Eastern Metropolitan          0.047890
Northern Metropolitan         0.049639
Western Metropolitan          0.051251
South-Eastern Metropolitan    0.073411
Northern Victoria             0.084455
Eastern Victoria              0.147067
Name: Lattitude, dtype: float64

In [23]:
# Какая риелторская компания (SellerG) имеет наименьшую общую выручку за период с 1 мая по 1 сентября (включительно) 2017 года?
# Для ответа на этот вопрос рассчитайте сумму продаж (Price) каждой компании в заданный период.
# Не забудьте перевести даты в формат datetime.
date1 = pd.to_datetime('2017-05-01') 
date2 = pd.to_datetime('2017-09-01')
mask = (date1 <= melb_df['Date']) & (melb_df['Date']<=date2) #  за период с 1 мая по 1 сентября (включительно) 2017
melb_df[mask].groupby('SellerG')['Price'].sum().sort_values()
# LITTLE 

SellerG
LITTLE             2742000.0
Cayzer             4439000.0
Burnham            4550500.0
Moonee             7328000.0
Thomson            8332000.0
Bells              8656000.0
Alexkarbon        10985000.0
McDonald          14637500.0
Rendina           15422276.0
Nick              16890000.0
Douglas           18341000.0
Buckingham        19033000.0
C21               19515000.0
Eview             19791500.0
Collins           20217000.0
Philip            22051800.0
Chisholm          23225000.0
Williams          23297000.0
Love              23365500.0
Purplebricks      23401000.0
O'Brien           23855508.0
HAR               25568000.0
Village           26473000.0
RW                29261000.0
Raine             30687700.0
Stockdale         35409800.0
Sweeney           36882750.0
Gary              39138400.0
Hodges            43231000.0
YPA               46354350.0
Miles             47582000.0
Kay               48569500.0
RT                50498000.0
Brad              55955000.0
Jas   

In [27]:
# построить таблицу, которая показывает зависимость медианной цены и площади здания от числа комнат:
melb_df.groupby(by =['Rooms', 'Type'])[['Price', 'BuildingArea']].mean().sort_values(by='BuildingArea', ascending=False)

Unnamed: 0_level_0,Unnamed: 1_level_0,Price,BuildingArea
Rooms,Type,Unnamed: 2_level_1,Unnamed: 3_level_1
5,house,1877327.0,290.470993
7,house,1920700.0,254.654
6,house,1869508.0,208.507576
8,house,1510286.0,200.285714
4,house,1462283.0,174.409842
6,unit,520000.0,171.0
4,townhouse,1217092.0,170.841
5,townhouse,1035000.0,146.2
4,unit,1037476.0,142.857143
3,house,1109233.0,133.605738
