## Метод .groupby(<by=>, <axis=>, <as_index=>)

In [1]:
# импортируюем библиотеку
import pandas as pd


# читаем csv-файл
melb_df = pd.read_csv('data/melb_data_fe.csv', sep=',')
display()

# выводим все предыдущие изменения таблицы
# меняю тип признака
melb_df['Date'] = pd.to_datetime(melb_df['Date'])

# помещаю ряд в переменную для подготовки признака
quarter_column = melb_df['Date'].dt.quarter

# создаю список исключений
exclude_list = ['Date', 'Rooms', 'Bedroom', 'Bathroom', 'Car']
# создаю переменную для фильтрации
max_unique_count = 150
# расматриваем каждый признак
for col in melb_df.columns:
    # условием выбираем нужные признаки
    if melb_df[col].nunique() < max_unique_count and col not in exclude_list:
        melb_df[col] = melb_df[col].astype('category')



### Групировка данных по одному критерию с одной агрегацией

In [2]:
# находим среднее значение числовых типов данных определенного признака
melb_df.groupby(by='Type').mean(numeric_only=True)

  melb_df.groupby(by='Type').mean(numeric_only=True)


Unnamed: 0_level_0,Rooms,Price,Distance,Postcode,Bedroom,Bathroom,Car,Landsize,BuildingArea,Lattitude,Longtitude,Propertycount,MeanRoomsSquare,AreaRatio,AgeBuilding
Type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
house,3.260874,1242665.0,10.979479,3104.080643,3.229336,1.613822,1.772674,617.181924,152.162553,-37.803795,144.9947,7259.025505,18.996731,-0.490031,55.6697
townhouse,2.837522,933735.1,9.851346,3100.777379,2.814183,1.809695,1.555655,279.606822,134.64971,-37.815782,144.996489,7094.459605,18.569847,-0.094916,26.690305
unit,1.963871,605127.5,7.607391,3110.797481,1.966523,1.183295,1.128936,477.314219,102.235863,-37.82371,144.996363,8199.28008,21.068242,0.319883,39.703016


In [3]:
# введение параметра as_index= даст нам возможность создать сгрупированный 
# признак и проиндексировать таблицу
melb_df.groupby(by='Type', as_index=False).mean(numeric_only=True) 

  melb_df.groupby(by='Type', as_index=False).mean(numeric_only=True)


Unnamed: 0,Type,Rooms,Price,Distance,Postcode,Bedroom,Bathroom,Car,Landsize,BuildingArea,Lattitude,Longtitude,Propertycount,MeanRoomsSquare,AreaRatio,AgeBuilding
0,house,3.260874,1242665.0,10.979479,3104.080643,3.229336,1.613822,1.772674,617.181924,152.162553,-37.803795,144.9947,7259.025505,18.996731,-0.490031,55.6697
1,townhouse,2.837522,933735.1,9.851346,3100.777379,2.814183,1.809695,1.555655,279.606822,134.64971,-37.815782,144.996489,7094.459605,18.569847,-0.094916,26.690305
2,unit,1.963871,605127.5,7.607391,3110.797481,1.966523,1.183295,1.128936,477.314219,102.235863,-37.82371,144.996363,8199.28008,21.068242,0.319883,39.703016


In [6]:
# групируем и находим среднее значение только у одного признака
melb_df.groupby(by='Type')['Price'].mean()

  melb_df.groupby(by='Type')['Price'].mean()


Type
house        1.242665e+06
townhouse    9.337351e+05
unit         6.051275e+05
Name: Price, dtype: float64

In [9]:
# найдем минимальное значение расстояния для всех районов города 
melb_df.groupby(by='Regionname', observed=True)['Distance'].min().\
    sort_values(ascending=False)

Regionname
Western Victoria              29.8
Eastern Victoria              25.2
Northern Victoria             21.8
South-Eastern Metropolitan    14.7
Eastern Metropolitan           7.8
Western Metropolitan           4.3
Southern Metropolitan          0.7
Northern Metropolitan          0.0
Name: Distance, dtype: float64

### Групировка данных по одному критерию с несколькими агрегациями

#### .agg()

In [14]:
# применяем несколько агрегирующиих методов 
melb_df.groupby(by='MonthSale')['Price'].agg(
    ['count', 'mean', 'max']
).sort_values(by='count', ascending=False)

  melb_df.groupby(by='MonthSale')['Price'].agg(


Unnamed: 0_level_0,count,mean,max
MonthSale,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
8,1850,1056371.0,6500000.0
7,1835,931469.8,9000000.0
5,1644,1097807.0,8000000.0
6,1469,1068981.0,7650000.0
3,1408,1146762.0,5600000.0
4,1246,1050479.0,5500000.0
9,1188,1126349.0,6400000.0
10,854,1135970.0,6250000.0
11,750,1142503.0,5050000.0
12,725,1144737.0,5700000.0


In [16]:
# получаем информацию обо всех статистических характеристиках каждой группы
melb_df.groupby(by='MonthSale')['Price'].agg('describe')

  melb_df.groupby(by='MonthSale')['Price'].agg('describe')


Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
MonthSale,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,278.0,939792.1,577668.924214,170000.0,570500.0,795000.0,1111250.0,5200000.0
2,333.0,1169051.0,671564.357417,131000.0,710000.0,1020000.0,1478000.0,4735000.0
3,1408.0,1146762.0,709573.596867,85000.0,680000.0,945000.0,1400000.0,5600000.0
4,1246.0,1050479.0,591892.902979,145000.0,655000.0,905500.0,1298750.0,5500000.0
5,1644.0,1097807.0,668492.867996,145000.0,650000.0,905000.0,1371250.0,8000000.0
6,1469.0,1068981.0,606010.069052,222000.0,660000.0,900000.0,1325000.0,7650000.0
7,1835.0,931469.8,537390.803161,190000.0,586750.0,800000.0,1150000.0,9000000.0
8,1850.0,1056371.0,619617.476541,160000.0,635000.0,892000.0,1310000.0,6500000.0
9,1188.0,1126349.0,608734.690742,170000.0,725000.0,980000.0,1360000.0,6400000.0
10,854.0,1135970.0,692950.251627,250000.0,652625.0,950000.0,1416500.0,6250000.0


In [18]:
# отброжаем информацию о количестве уникальных значениях
# и множество уникальных значений
melb_df.groupby('Regionname')['SellerG'].agg(
    ['nunique', set]
)

  melb_df.groupby('Regionname')['SellerG'].agg(


Unnamed: 0_level_0,nunique,set
Regionname,Unnamed: 1_level_1,Unnamed: 2_level_1
Eastern Metropolitan,26,"{Fletchers, Marshall, Noel, C21, Gary, Bucking..."
Eastern Victoria,11,"{other, Barry, Fletchers, Eview, HAR, Harcourt..."
Northern Metropolitan,40,"{Eview, Fletchers, Marshall, Hodges, Greg, C21..."
Northern Victoria,11,"{Raine, other, Barry, HAR, LITTLE, McGrath, Ra..."
South-Eastern Metropolitan,25,"{Fletchers, Eview, Chisholm, Gary, Greg, C21, ..."
Southern Metropolitan,38,"{Fletchers, Eview, Chisholm, Marshall, Noel, G..."
Western Metropolitan,34,"{Chisholm, Hodges, Greg, C21, Jas, other, Swee..."
Western Victoria,6,"{Raine, other, HAR, Ray, YPA, hockingstuart}"
