In [1]:
import pandas as pd

melb_nd = pd.read_csv('https://lms-cdn.skillfactory.ru/assets/courseware/v1/87856cc090b7a67a7a0689b0415c8331/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/melb_data_fe.zip')
melb_df = melb_nd.copy()
melb_df.head()

Unnamed: 0,Suburb,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,Bedroom,...,Longtitude,Regionname,Propertycount,MeanRoomsSquare,AreaRatio,MonthSale,AgeBuilding,WeekdaySale,StreetType,Weekend
0,Abbotsford,2,house,1480000.0,S,Biggin,2016-03-12,2.5,3067,2,...,144.9984,Northern Metropolitan,4019,25.2,-0.231707,3,46,5,St,1
1,Abbotsford,2,house,1035000.0,S,Biggin,2016-04-02,2.5,3067,2,...,144.9934,Northern Metropolitan,4019,15.8,-0.32766,4,116,5,St,1
2,Abbotsford,3,house,1465000.0,SP,Biggin,2017-04-03,2.5,3067,3,...,144.9944,Northern Metropolitan,4019,18.75,0.056338,4,117,0,St,0
3,Abbotsford,3,house,850000.0,PI,Biggin,2017-04-03,2.5,3067,3,...,144.9969,Northern Metropolitan,4019,15.75,0.145455,4,47,0,other,0
4,Abbotsford,4,house,1600000.0,VB,Nelson,2016-04-06,2.5,3067,3,...,144.9941,Northern Metropolitan,4019,17.75,0.083969,4,2,2,St,0


In [2]:
# Применим агрегирующую функцию среднего к результату работы groupby(). 
# В качестве столбца для группировки возьмём столбец типа объекта недвижимости (Type):

# melb_df.groupby(by='Type').mean()

#  Если мы хотим видеть тип объекта в качестве отдельного столбца таблицы, 
# мы можем выставить параметр as_index на False:

melb_df.groupby(by='Type', as_index=False)['Price'].mean()


Unnamed: 0,Type,Price
0,house,1242665.0
1,townhouse,933735.1
2,unit,605127.5


In [3]:
# Как правило, нам не нужна информация обо всех столбцах, поэтому агрегирующие методы можно 
# применять только к интересующему нас столбцу. Например, давайте сравним средние цены на 
# объекты в зависимости от их типа:

melb_df.groupby('Type')['Price'].mean()

Type
house        1.242665e+06
townhouse    9.337351e+05
unit         6.051275e+05
Name: Price, dtype: float64

In [4]:
# Теперь давайте выясним, какие регионы (Regionname) наиболее удалены от центра Мельбурна.
# Для этого найдём минимальное значение расстояния от центра города до объекта в зависимости 
# от его региона. Результат отсортируем по убыванию расстояния:

melb_df.groupby('Regionname')['Distance'].min().sort_values(ascending=False)

Regionname
Western Victoria              29.8
Eastern Victoria              25.2
Northern Victoria             21.8
South-Eastern Metropolitan    14.7
Eastern Metropolitan           7.8
Western Metropolitan           4.3
Southern Metropolitan          0.7
Northern Metropolitan          0.0
Name: Distance, dtype: float64

In [5]:
# Давайте построим таблицу для анализа продаж по месяцам. Для этого найдём количество продаж, а также среднее 
# и максимальное значения цен объектов недвижимости (Price), сгруппированных по номеру месяца продажи (MonthSale). 
# Результат отсортируем по количеству продаж в порядке убывания:

melb_df.groupby('MonthSale')['Price'].agg(
    ['count', 'mean', 'max']
).sort_values(by='count', ascending=False)

Unnamed: 0_level_0,count,mean,max
MonthSale,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
8,1850,1056371.0,6500000.0
7,1835,931469.8,9000000.0
5,1644,1097807.0,8000000.0
6,1469,1068981.0,7650000.0
3,1408,1146762.0,5600000.0
4,1246,1050479.0,5500000.0
9,1188,1126349.0,6400000.0
10,854,1135970.0,6250000.0
11,750,1142503.0,5050000.0
12,725,1144737.0,5700000.0


In [6]:
# Примечание. Если вам нужна полная информация обо всех основных статистических характеристиках 
# внутри каждой группы, вы можете воспользоваться методом agg(), передав в качестве его параметра строку 'describe':

melb_df.groupby('MonthSale')['Price'].agg('describe')

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
MonthSale,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,278.0,939792.1,577668.924214,170000.0,570500.0,795000.0,1111250.0,5200000.0
2,333.0,1169051.0,671564.357417,131000.0,710000.0,1020000.0,1478000.0,4735000.0
3,1408.0,1146762.0,709573.596867,85000.0,680000.0,945000.0,1400000.0,5600000.0
4,1246.0,1050479.0,591892.902979,145000.0,655000.0,905500.0,1298750.0,5500000.0
5,1644.0,1097807.0,668492.867996,145000.0,650000.0,905000.0,1371250.0,8000000.0
6,1469.0,1068981.0,606010.069052,222000.0,660000.0,900000.0,1325000.0,7650000.0
7,1835.0,931469.8,537390.803161,190000.0,586750.0,800000.0,1150000.0,9000000.0
8,1850.0,1056371.0,619617.476541,160000.0,635000.0,892000.0,1310000.0,6500000.0
9,1188.0,1126349.0,608734.690742,170000.0,725000.0,980000.0,1360000.0,6400000.0
10,854.0,1135970.0,692950.251627,250000.0,652625.0,950000.0,1416500.0,6250000.0


In [7]:
# мы можем вычислить число уникальных риелторских компаний в зависимости от региона, 
# чтобы понять, в каких регионах конкуренция на рынке недвижимости меньше. Это можно сделать, 
# передав в параметр метода agg() строку 'nunique'. 

# Более того, метод agg() поддерживает использование и других функций. Передадим дополнительно 
# встроенную функцию set, чтобы получить множество из агентств недвижимости, которые работают в каждом из регионов:

melb_df.groupby('Regionname')['SellerG'].agg(
    		['nunique', set]
)

Unnamed: 0_level_0,nunique,set
Regionname,Unnamed: 1_level_1,Unnamed: 2_level_1
Eastern Metropolitan,26,"{Purplebricks, Biggin, Gary, RW, RT, Stockdale..."
Eastern Victoria,11,"{Fletchers, Eview, HAR, C21, O'Brien, Barry, h..."
Northern Metropolitan,40,"{Purplebricks, Biggin, RW, RT, Greg, Hodges, S..."
Northern Victoria,11,"{HAR, Raine, McDonald, hockingstuart, Barry, L..."
South-Eastern Metropolitan,25,"{Gary, Purplebricks, Biggin, RW, Greg, Chishol..."
Southern Metropolitan,38,"{Gary, Biggin, Purplebricks, RW, RT, Greg, Chi..."
Western Metropolitan,34,"{Purplebricks, Biggin, RW, RT, Greg, Chisholm,..."
Western Victoria,6,"{HAR, Raine, hockingstuart, YPA, other, Ray}"


In [8]:
# Сгруппируйте данные по признаку количества комнат и найдите среднюю цену объектов недвижимости 
# в каждой группе. В качестве ответа запишите количество комнат, для которых средняя цена наибольшая.

melb_df.groupby('Rooms')['Price'].agg(
    ['mean']
).sort_values(by='mean', ascending=False)

Unnamed: 0_level_0,mean
Rooms,Unnamed: 1_level_1
7,1920700.0
5,1870260.0
6,1849366.0
8,1602750.0
4,1445282.0
3,1076081.0
10,900000.0
2,775081.2
1,433824.5


In [9]:
# Какой регион имеет наименьшее стандартное отклонение по географической широте (Lattitude)?

melb_df.groupby('Regionname')['Lattitude'].agg(
    ['std']
).sort_values(by='std')

Unnamed: 0_level_0,std
Regionname,Unnamed: 1_level_1
Western Victoria,0.011579
Southern Metropolitan,0.04308
Eastern Metropolitan,0.04789
Northern Metropolitan,0.049639
Western Metropolitan,0.051251
South-Eastern Metropolitan,0.073411
Northern Victoria,0.084455
Eastern Victoria,0.147067


In [10]:
melb_df['Date'] = pd.to_datetime(melb_df['Date'])
date1 = pd.to_datetime('2017-09-01')
date2 = pd.to_datetime('2017-05-01')
mask = (melb_df['Date'] <= date1) & (melb_df['Date'] >= date2)
melb_df[mask].groupby('SellerG')['Price'].sum().sort_values()

SellerG
LITTLE             2742000.0
Cayzer             4439000.0
Burnham            4550500.0
Moonee             7328000.0
Thomson            8332000.0
Bells              8656000.0
Alexkarbon        10985000.0
McDonald          14637500.0
Rendina           15422276.0
Nick              16890000.0
Douglas           18341000.0
Buckingham        19033000.0
C21               19515000.0
Eview             19791500.0
Collins           20217000.0
Philip            22051800.0
Chisholm          23225000.0
Williams          23297000.0
Love              23365500.0
Purplebricks      23401000.0
O'Brien           23855508.0
HAR               25568000.0
Village           26473000.0
RW                29261000.0
Raine             30687700.0
Stockdale         35409800.0
Sweeney           36882750.0
Gary              39138400.0
Hodges            43231000.0
YPA               46354350.0
Miles             47582000.0
Kay               48569500.0
RT                50498000.0
Brad              55955000.0
Jas   