# Группировка данных
## Метод groupby()
Основные параметры метода:
 - by - имя или список столбцов
 - axis - ось (строка или столбец)
 - as_index - добавляется ли дополнительный индекс к таблице, по умолчанию True
Метод groupby возвращает объект DataFrameGroupBy, который хранит в себе информацию о том, какие строки относятся к определенной группе, к нему можно применять агрегирующие методы (sum, median, mean, max, min), чтобы рассчитывать показатели внутри групп

## Группировка данных по одному критерию с одной агрегацией

In [14]:
import pandas as pd
melb_df = pd.read_csv('data/melb_data_fe.csv', sep=',')

# Применим агрегирующую функицю среднего к результату работы groupby() на столбце объекта недвижимости (Type)

melb_df.groupby(by='Type', as_index=False).mean(numeric_only=True)

Unnamed: 0,Type,Rooms,Price,Distance,Postcode,Bedroom,Bathroom,Car,Landsize,BuildingArea,Lattitude,Longtitude,Propertycount,MeanRoomsSquare,AreaRatio,MonthSale,AgeBuilding,WeekdaySale,Weekend
0,house,3.260874,1242665.0,10.979479,3104.080643,3.229336,1.613822,1.772674,617.181924,152.162553,-37.803795,144.9947,7259.025505,18.996731,-0.490031,6.750873,55.6697,4.015769,0.689808
1,townhouse,2.837522,933735.1,9.851346,3100.777379,2.814183,1.809695,1.555655,279.606822,134.64971,-37.815782,144.996489,7094.459605,18.569847,-0.094916,6.621185,26.690305,3.980251,0.681329
2,unit,1.963871,605127.5,7.607391,3110.797481,1.966523,1.183295,1.128936,477.314219,102.235863,-37.82371,144.996363,8199.28008,21.068242,0.319883,6.578721,39.703016,3.817368,0.646006


In [15]:
# По сути нам не нужна информация обо всех столбцах, поэтому агрегирующие методы можно применять только к нужным столбцам
# сравним средние цены на объекты в зависимости от их типа:

melb_df.groupby(by='Type')['Price'].mean()

Type
house        1.242665e+06
townhouse    9.337351e+05
unit         6.051275e+05
Name: Price, dtype: float64

In [16]:
# Теперь выясним какие регионы (RegionName) наиболее удаленные от центра Мельбурна, для этого найдем минимальное расстояние
# от центра города до объекта недвижимости, результат отсортируем по убыванию

melb_df.groupby('Regionname')['Distance'].min().sort_values(ascending=False)

Regionname
Western Victoria              29.8
Eastern Victoria              25.2
Northern Victoria             21.8
South-Eastern Metropolitan    14.7
Eastern Metropolitan           7.8
Western Metropolitan           4.3
Southern Metropolitan          0.7
Northern Metropolitan          0.0
Name: Distance, dtype: float64

## Группировка данных по одному критерию с несколькими агрегациями
Чтобы рассчитать несколько агрегирующих методов, можно воспользоваться методом agg(), который принимает список строк с названиями агрегаций

In [17]:
# Построим таблицу для АНАЛ-Лиза продаж по месяцам. Для этого найдем количество продаж, а также среднее и максимальное 
# значение цен объектов недвижимости (Price), сгруппированных по (MonthSale). Результат сортируем по количеству продаж по убыванию

melb_df.groupby('MonthSale')['Price'].agg(
    ['count', 'min', 'max']
).sort_values(by='count', ascending=False)

Unnamed: 0_level_0,count,min,max
MonthSale,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
8,1850,160000.0,6500000.0
7,1835,190000.0,9000000.0
5,1644,145000.0,8000000.0
6,1469,222000.0,7650000.0
3,1408,85000.0,5600000.0
4,1246,145000.0,5500000.0
9,1188,170000.0,6400000.0
10,854,250000.0,6250000.0
11,750,240000.0,5050000.0
12,725,250000.0,5700000.0


In [18]:
# Если нужна полная информация обо всех статистических характеристиках внутри каждой группы, можно в agg передать строку 'describe'

melb_df.groupby('MonthSale')['Price'].agg('describe')

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
MonthSale,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,278.0,939792.1,577668.924214,170000.0,570500.0,795000.0,1111250.0,5200000.0
2,333.0,1169051.0,671564.357417,131000.0,710000.0,1020000.0,1478000.0,4735000.0
3,1408.0,1146762.0,709573.596867,85000.0,680000.0,945000.0,1400000.0,5600000.0
4,1246.0,1050479.0,591892.902979,145000.0,655000.0,905500.0,1298750.0,5500000.0
5,1644.0,1097807.0,668492.867996,145000.0,650000.0,905000.0,1371250.0,8000000.0
6,1469.0,1068981.0,606010.069052,222000.0,660000.0,900000.0,1325000.0,7650000.0
7,1835.0,931469.8,537390.803161,190000.0,586750.0,800000.0,1150000.0,9000000.0
8,1850.0,1056371.0,619617.476541,160000.0,635000.0,892000.0,1310000.0,6500000.0
9,1188.0,1126349.0,608734.690742,170000.0,725000.0,980000.0,1360000.0,6400000.0
10,854.0,1135970.0,692950.251627,250000.0,652625.0,950000.0,1416500.0,6250000.0


После базовых математических функций наиболее частым агрегированием является подсчёт числа уникальных значений. Так, например, мы можем вычислить число уникальных риелторских компаний в зависимости от региона, чтобы понять, в каких регионах конкуренция на рынке недвижимости меньше. Это можно сделать, передав в параметр метода agg() строку 'nunique'. 

Более того, метод agg() поддерживает использование и других функций. Передадим дополнительно встроенную функцию set, чтобы получить множество из агентств недвижимости, которые работают в каждом из регионов:

In [19]:
melb_df.groupby('Regionname')['SellerG'].agg(['nunique', set])

Unnamed: 0_level_0,nunique,set
Regionname,Unnamed: 1_level_1,Unnamed: 2_level_1
Eastern Metropolitan,26,"{Ray, Biggin, Woodards, other, RT, Purplebrick..."
Eastern Victoria,11,"{hockingstuart, Ray, HAR, O'Brien, McGrath, ot..."
Northern Metropolitan,40,"{Hodges, Ray, Biggin, Woodards, other, Eview, ..."
Northern Victoria,11,"{hockingstuart, Ray, HAR, Buckingham, McGrath,..."
South-Eastern Metropolitan,25,"{Hodges, Chisholm, Ray, Thomson, Biggin, Wooda..."
Southern Metropolitan,38,"{Hodges, Chisholm, Ray, Thomson, Biggin, Wooda..."
Western Metropolitan,34,"{Hodges, Chisholm, Ray, Biggin, Woodards, othe..."
Western Victoria,6,"{hockingstuart, Ray, HAR, other, YPA, Raine}"


In [23]:
melb_df.groupby('Rooms')['Price'].mean().sort_values(ascending=False)

Rooms
7     1.920700e+06
5     1.870260e+06
6     1.849366e+06
8     1.602750e+06
4     1.445282e+06
3     1.076081e+06
10    9.000000e+05
2     7.750812e+05
1     4.338245e+05
Name: Price, dtype: float64

In [27]:
melb_df.groupby('Regionname')['Lattitude'].std().sort_values(ascending=True)

Regionname
Western Victoria              0.011579
Southern Metropolitan         0.043080
Eastern Metropolitan          0.047890
Northern Metropolitan         0.049639
Western Metropolitan          0.051251
South-Eastern Metropolitan    0.073411
Northern Victoria             0.084455
Eastern Victoria              0.147067
Name: Lattitude, dtype: float64

In [32]:
date1 = pd.to_datetime('2017-05-01')
date2 = pd.to_datetime('2017-09-01')
mask = (date1 <= melb_df['Date']) & (melb_df['Date']<= date2)
melb_df[mask].groupby('SellerG')['Price'].sum().sort_values(ascending=True)

SellerG
LITTLE             2742000.0
Cayzer             4439000.0
Burnham            4550500.0
Moonee             7328000.0
Thomson            8332000.0
Bells              8656000.0
Alexkarbon        10985000.0
McDonald          14637500.0
Rendina           15422276.0
Nick              16890000.0
Douglas           18341000.0
Buckingham        19033000.0
C21               19515000.0
Eview             19791500.0
Collins           20217000.0
Philip            22051800.0
Chisholm          23225000.0
Williams          23297000.0
Love              23365500.0
Purplebricks      23401000.0
O'Brien           23855508.0
HAR               25568000.0
Village           26473000.0
RW                29261000.0
Raine             30687700.0
Stockdale         35409800.0
Sweeney           36882750.0
Gary              39138400.0
Hodges            43231000.0
YPA               46354350.0
Miles             47582000.0
Kay               48569500.0
RT                50498000.0
Brad              55955000.0
Jas   