# Группировка по значениям колонок — groupby

Группировка разделяет весь датасет на группы по значениям какой-либо колонки (или нескольких).

### Подгрузка датасета

In [1]:
!gdown --id 1LjVzFpLoB0vfB1wSuc7PxZ0VyiJFNOVS
import pandas as pd
dataset = pd.read_csv('housing_market_dataset.csv')

Downloading...
From: https://drive.google.com/uc?id=1LjVzFpLoB0vfB1wSuc7PxZ0VyiJFNOVS
To: /content/housing_market_dataset.csv
100% 29.4M/29.4M [00:00<00:00, 58.8MB/s]


### Кейс 1. Необходимо рассчитать среднюю цену квартир на разной стадии строительства

In [2]:
import re

def clear_price(price):
  return int(re.sub('\D', '', price))
dataset['Очищенная цена'] = dataset['Цена'].apply(clear_price)

In [3]:
dataset.groupby('Этап строительства')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f4916f2a2c0>

In [4]:
groups = dataset.groupby('Этап строительства')
groups_mean_price = groups['Очищенная цена'].mean()

In [5]:
groups_mean_price

Этап строительства
В проекте          6.185037e+06
Возведение стен    1.236093e+07
Заморожено         8.774750e+06
Котлован           8.517868e+06
Отделка            1.554390e+07
Площадка           1.032724e+07
Сдан               2.043495e+07
Name: Очищенная цена, dtype: float64

In [6]:
groups_mean_price = groups_mean_price.astype(int)
groups_mean_price

Этап строительства
В проекте           6185036
Возведение стен    12360927
Заморожено          8774750
Котлован            8517868
Отделка            15543895
Площадка           10327241
Сдан               20434953
Name: Очищенная цена, dtype: int64

### Кейс 2. Необходимо рассчитать среднюю цену квартир в зависимости от стадии строительства и класса жилья.

In [7]:
dataset.groupby(['Этап строительства', 'Класс жилья'])

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f4916f2a1d0>

In [8]:
groups_mean_price = dataset.groupby(['Этап строительства', 'Класс жилья'])['Очищенная цена'].mean()
groups_mean_price = groups_mean_price.astype(int)
groups_mean_price

Этап строительства  Класс жилья  
В проекте           Бизнес класс     17854750
                    Комфорт класс     5876689
                    Элит класс        7300000
Возведение стен     Бизнес класс     14832840
                    Комфорт класс     5993095
                    Эконом класс      6564340
                    Элит класс       30390451
Заморожено          Бизнес класс      8750000
                    Эконом класс      8799500
Котлован            Бизнес класс      6100000
                    Комфорт класс     8611092
                    Эконом класс      7300000
Отделка             Бизнес класс     14800645
                    Комфорт класс     6862173
                    Элит класс       31383414
Площадка            Бизнес класс     11033281
                    Комфорт класс    10083113
Сдан                Бизнес класс     15561696
                    Комфорт класс     7677024
                    Эконом класс      8259168
                    Элит класс       61650630


In [9]:
groups_mean_price = dataset.groupby(['Этап строительства', 'Класс жилья'], as_index=False)['Очищенная цена'].mean()
groups_mean_price

Unnamed: 0,Этап строительства,Класс жилья,Очищенная цена
0,В проекте,Бизнес класс,17854750.0
1,В проекте,Комфорт класс,5876690.0
2,В проекте,Элит класс,7300000.0
3,Возведение стен,Бизнес класс,14832840.0
4,Возведение стен,Комфорт класс,5993096.0
5,Возведение стен,Эконом класс,6564340.0
6,Возведение стен,Элит класс,30390450.0
7,Заморожено,Бизнес класс,8750000.0
8,Заморожено,Эконом класс,8799500.0
9,Котлован,Бизнес класс,6100000.0


In [10]:
groups_mean_price['Очищенная цена'] = groups_mean_price['Очищенная цена'].astype(int)
groups_mean_price

Unnamed: 0,Этап строительства,Класс жилья,Очищенная цена
0,В проекте,Бизнес класс,17854750
1,В проекте,Комфорт класс,5876689
2,В проекте,Элит класс,7300000
3,Возведение стен,Бизнес класс,14832840
4,Возведение стен,Комфорт класс,5993095
5,Возведение стен,Эконом класс,6564340
6,Возведение стен,Элит класс,30390451
7,Заморожено,Бизнес класс,8750000
8,Заморожено,Эконом класс,8799500
9,Котлован,Бизнес класс,6100000


### Шаблоны группировки по значениям колонок

In [11]:
# Шаблон взятия среднего значения цены квартир сгруппированных по значениям Этапа строительства
groups_mean_price = dataset.groupby('Этап строительства')['Очищенная цена'].mean()

In [12]:
# Шаблон взятия среднего значения цены квартир сгруппированных по значениям колонок Этапа строительства и Класса жилья
groups_mean_price = dataset.groupby(['Этап строительства', 'Класс жилья'], as_index=False)['Очищенная цена'].mean()
groups_mean_price['Очищенная цена'] = groups_mean_price['Очищенная цена'].astype(int)

## Тест

In [17]:
groups_mean_price = dataset.groupby(['Этап строительства', 'Тип здания'], as_index=False)['Очищенная цена'].mean()
groups_mean_price['Очищенная цена'] = groups_mean_price['Очищенная цена'].astype(int)
groups_mean_price

Unnamed: 0,Этап строительства,Тип здания,Очищенная цена
0,В проекте,Кирпичное,21773000
1,В проекте,Монолитное,5887177
2,Возведение стен,Блочное,6050000
3,Возведение стен,Кирпичное,14047199
4,Возведение стен,Монолитно-кирпичное,17219910
5,Возведение стен,Монолитное,10836182
6,Возведение стен,Панельное,8346837
7,Заморожено,Кирпичное,8750000
8,Заморожено,Монолитное,9600000
9,Заморожено,Панельное,7999000


In [18]:
groups_mean_price = dataset.groupby(['Тип здания'], as_index=False)['Очищенная цена'].min()
groups_mean_price['Очищенная цена'] = groups_mean_price['Очищенная цена'].astype(int)
groups_mean_price

Unnamed: 0,Тип здания,Очищенная цена
0,Блочное,3450000
1,Кирпичное,2000000
2,Монолитно-кирпичное,1750000
3,Монолитно-кирпичный,6400000
4,Монолитное,612000
5,Монолитный,4385000
6,Панельно-кирпичное,6950000
7,Панельное,1800000
8,Панельный,11700000
9,Сталинское,9150000


In [20]:
groups_mean_price = dataset.groupby(['Этап строительства'], as_index=False)['Год постройки'].max()
groups_mean_price

Unnamed: 0,Этап строительства,Год постройки
0,В проекте,2021.0
1,Возведение стен,2021.0
2,Заморожено,2018.0
3,Котлован,1977.0
4,Отделка,2020.0
5,Площадка,2021.0
6,Сдан,2021.0
