In [None]:
# Группировка данных в DataFrame
# МЕТОД GROUPBY()
# возвращает объект DataFrameGroupBy
# хранит в себе информацию о том, какие строки относятся к определённой группе
# можно применять уже знакомые нам агрегирующие методы (mean, median, sum )
# HTTPS://PANDAS.PYDATA.ORG/DOCS/REFERENCE/API/PANDAS.DATAFRAME.GROUPBY.HTML

In [None]:
# Сначала мы разделяем данные на группы с помощью метода groupby(), 
# после чего к каждой группе применяем агрегацию 
# и объединяем результаты в новую таблицу

In [None]:
 #DataFrame.groupby(by=None, 
#                   axis=0, 
#                   level=None, 
#                   as_index=True, 
#                   sort=True, 
#                   group_keys=True, 
#                   squeeze=NoDefault.no_default, 
#                   observed=False, 
#                   dropna=True)


In [1]:
import pandas as pd
melb_df = pd.read_csv('data/melb_data_fe.csv')
#display(melb_df.head(3))

melb_df['Date'] = pd.to_datetime(melb_df['Date'])
quarter_sold = melb_df['Date'].dt.quarter

In [None]:
# ГРУПLПИРОВКА ДАННЫХ ПО ОДНОМУ КРИТЕРИЮ С ОДНОЙ АГРЕГАЦИЕЙ

In [6]:
# Применим агрегирующую функцию среднего к результату работы groupby(). 
# В качестве столбца для группировки возьмём столбец типа объекта недвижимости (Type):
melb_df.groupby(by = 'Type').mean()
# Мы получили таблицу, на пересечении строк и столбцов которой находятся средние значения каждого числового признака в наших данных

Unnamed: 0_level_0,Rooms,Price,Distance,Postcode,Bedroom,Bathroom,Car,Landsize,BuildingArea,Lattitude,Longtitude,Propertycount,MeanRoomsSquare,AreaRatio,MonthSale,AgeBuilding,WeekdaySale,Weekend
Type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1
house,3.260874,1242665.0,10.979479,3104.080643,3.229336,1.613822,1.772674,617.181924,152.162553,-37.803795,144.9947,7259.025505,18.996731,-0.490031,6.750873,55.6697,4.015769,0.689808
townhouse,2.837522,933735.1,9.851346,3100.777379,2.814183,1.809695,1.555655,279.606822,134.64971,-37.815782,144.996489,7094.459605,18.569847,-0.094916,6.621185,26.690305,3.980251,0.681329
unit,1.963871,605127.5,7.607391,3110.797481,1.966523,1.183295,1.128936,477.314219,102.235863,-37.82371,144.996363,8199.28008,21.068242,0.319883,6.578721,39.703016,3.817368,0.646006


In [8]:
# Примечание. Если мы хотим видеть тип объекта в качестве отдельного столбца таблицы, мы можем выставить параметр as_index на False:
melb_df.groupby(by = 'Type', as_index = False).mean()

Unnamed: 0,Type,Rooms,Price,Distance,Postcode,Bedroom,Bathroom,Car,Landsize,BuildingArea,Lattitude,Longtitude,Propertycount,MeanRoomsSquare,AreaRatio,MonthSale,AgeBuilding,WeekdaySale,Weekend
0,house,3.260874,1242665.0,10.979479,3104.080643,3.229336,1.613822,1.772674,617.181924,152.162553,-37.803795,144.9947,7259.025505,18.996731,-0.490031,6.750873,55.6697,4.015769,0.689808
1,townhouse,2.837522,933735.1,9.851346,3100.777379,2.814183,1.809695,1.555655,279.606822,134.64971,-37.815782,144.996489,7094.459605,18.569847,-0.094916,6.621185,26.690305,3.980251,0.681329
2,unit,1.963871,605127.5,7.607391,3110.797481,1.966523,1.183295,1.128936,477.314219,102.235863,-37.82371,144.996363,8199.28008,21.068242,0.319883,6.578721,39.703016,3.817368,0.646006


In [9]:
# Как правило, нам не нужна информация обо всех столбцах, поэтому агрегирующие методы можно применять только к интересующему нас столбцу
melb_df.groupby(by = 'Type')['Price'].mean()
# один показатель (среднее) для одного столбца, в результате мы получаем объект Series.

Type
house        1.242665e+06
townhouse    9.337351e+05
unit         6.051275e+05
Name: Price, dtype: float64

In [10]:
# выясним, какие регионы (Regionname) наиболее удалены от центра Мельбурна.
# Для этого найдём минимальное значение расстояния от центра города до объекта в зависимости от его региона. 
# Результат отсортируем по убыванию расстояния:
melb_df.groupby(by = 'Regionname')['Distance'].min().sort_values(ascending=False)
# Итак, наиболее удалёнными являются все регионы Victoria

Regionname
Western Victoria              29.8
Eastern Victoria              25.2
Northern Victoria             21.8
South-Eastern Metropolitan    14.7
Eastern Metropolitan           7.8
Western Metropolitan           4.3
Southern Metropolitan          0.7
Northern Metropolitan          0.0
Name: Distance, dtype: float64

In [None]:
# ГРУППИРОВКА ДАННЫХ ПО ОДНОМУ КРИТЕРИЮ С НЕСКОЛЬКИМИ АГРЕГАЦИЯМИ
# метод agg()
# Чтобы рассчитать несколько агрегирующих методов
# принимает список строк с названиями агрегаций

In [None]:
# DataFrame.agg(func=None, axis=0, *args, **kwargs)
# Aggregate using one or more operations over the specified axis

In [None]:
# Давайте построим таблицу для анализа продаж по месяцам. 
# Для этого найдём количество продаж, а также среднее и максимальное значения цен объектов недвижимости (Price), 
# сгруппированных по номеру месяца продажи (MonthSale). Результат отсортируем по количеству продаж в порядке убывания:
melb_df.groupby('MonthSale')['Price'].agg([
    'count', 'mean', 'max']).sort_values('count', ascending=False)