Агрегирующим в Pandas называется метод, который для каждого столбца возвращает только одно значение — показатель (например, вычисление медианы, максимума, среднего и так далее).


МЕТОД	СТАТИСТИЧЕСКИЙ ПАРАМЕТР
- .count()	     Количество непустых значений
- .mean()	     Среднее значение
- .min()	     Минимальное значение
- .max()	     Максимальное значение
- .var()	     Дисперсия
- .std()	     Стандартное отклонение
- .sum()	     Сумма
- .quantile(x)   Квантиль уровня x
- .nunique()	 Число уникальных значений

-----------------------------------------------
- index — номер строки
- Suburb — наименование пригорода
- Address — адрес
- Rooms — количество комнат в помещении
- Type — тип здания (h — дом, коттедж, вилла, терраса; u — блочный, дуплексный дом; t — таунхаус)
- Price — цена помещения
- Method — метод продажи 
- SellerG — риэлторская компания
- Date — дата продажи (в формате день/месяц/год)
- Distance — расстояния до объекта от центра Мельбурна 
- Postcode — почтовый индекс
- Bedroom — количество спален
- Bathroom — количество ванных комнат
- Car — количество парковочных мест
- Landsize — площадь прилегающей территории
- BuildingArea — площадь здания
- YearBuilt — год постройки
- CouncilArea — региональное управление
- Lattitude — географическая широта
- Longitude — географическая долгота
- Regionname — наименование района Мельбурна
- Propertycount — количество объектов недвижимости в районе, выставленных на продажу
- Coordinates — широта и долгота, объединённые в кортеж

In [2]:
import pandas as pd
import numpy as np
melb_data = pd.read_csv('data/melb_data.csv',sep=',')
display(melb_data['Price'].mean())
display(melb_data['Car'].max())

1075684.079455081

10.0

А теперь представим, что риэлторская ставка для всех компаний за продажу недвижимости составляет 12%. Найдём общую прибыльность риэлторского бизнеса в Мельбурне. Результат округлим до сотых:


In [3]:
rate = 0.12
income = melb_data['Price'].sum() * rate
print('Total income of real estate agencies:', round(income,2))

Total income of real estate agencies: 1752934775.88


Найдём, насколько медианная площадь территории отличается от её среднего значения. Вычислим модуль разницы между медианой и средним и разделим результат на среднее, чтобы получить отклонение в долях:

In [4]:
landsize_median = melb_data['Landsize'].median()
landsize_mean = melb_data['Landsize'].mean()
print(abs(landsize_median - landsize_mean)/landsize_mean)

0.21205713983546193


→ Отдельный интерес представляет статический показатель моды — самого распространённого значения в столбце. Он вычисляется с помощью метода mode().

In [5]:
display(melb_data['Rooms'].mode())
melb_data['Regionname'].mode()

0    3
Name: Rooms, dtype: int64

0    Southern Metropolitan
Name: Regionname, dtype: object

In [6]:
landsize_median = melb_data['BuildingArea'].median()
landsize_mean = melb_data['BuildingArea'].mean()
print(abs(landsize_median - landsize_mean)/landsize_mean)

0.09764079662364533


In [7]:
melb_data['Propertycount'].max()

21650.0

### **Фильтрация данных в DataFrame**

In [8]:
mask = melb_data['Price'] > 2000000
display(melb_data[mask].head())

Unnamed: 0.1,Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
80,80,80,Albert Park,112 Beaconsfield Pde,3,h,2850000.0,PI,Buxton,4/03/2017,...,0.0,211.0,198.0,1890.0,Port Phillip,-37.8481,144.9499,Southern Metropolitan,3280.0,"-37.8481, 144.9499"
85,85,85,Albert Park,104 Richardson St,4,h,2300000.0,S,Marshall,7/05/2016,...,1.0,153.0,180.0,1880.0,Port Phillip,-37.8447,144.9523,Southern Metropolitan,3280.0,"-37.8447, 144.9523"
88,88,88,Albert Park,29 Faussett St,2,h,2120000.0,S,Greg,10/09/2016,...,1.0,199.0,107.0,1900.0,Port Phillip,-37.8422,144.9554,Southern Metropolitan,3280.0,"-37.8422, 144.9554"
92,92,92,Albert Park,2 Dundas Pl,3,h,2615000.0,S,Cayzer,10/12/2016,...,1.0,177.0,181.0,1880.0,Port Phillip,-37.8415,144.9585,Southern Metropolitan,3280.0,"-37.8415, 144.9585"
93,93,93,Albert Park,23 Finlay St,5,h,2100000.0,S,Greg,10/12/2016,...,1.0,237.0,126.0,1970.0,Port Phillip,-37.8436,144.9557,Southern Metropolitan,3280.0,"-37.8436, 144.9557"


In [9]:
display(melb_data[melb_data['Price']>2000000].head())

Unnamed: 0.1,Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
80,80,80,Albert Park,112 Beaconsfield Pde,3,h,2850000.0,PI,Buxton,4/03/2017,...,0.0,211.0,198.0,1890.0,Port Phillip,-37.8481,144.9499,Southern Metropolitan,3280.0,"-37.8481, 144.9499"
85,85,85,Albert Park,104 Richardson St,4,h,2300000.0,S,Marshall,7/05/2016,...,1.0,153.0,180.0,1880.0,Port Phillip,-37.8447,144.9523,Southern Metropolitan,3280.0,"-37.8447, 144.9523"
88,88,88,Albert Park,29 Faussett St,2,h,2120000.0,S,Greg,10/09/2016,...,1.0,199.0,107.0,1900.0,Port Phillip,-37.8422,144.9554,Southern Metropolitan,3280.0,"-37.8422, 144.9554"
92,92,92,Albert Park,2 Dundas Pl,3,h,2615000.0,S,Cayzer,10/12/2016,...,1.0,177.0,181.0,1880.0,Port Phillip,-37.8415,144.9585,Southern Metropolitan,3280.0,"-37.8415, 144.9585"
93,93,93,Albert Park,23 Finlay St,5,h,2100000.0,S,Greg,10/12/2016,...,1.0,237.0,126.0,1970.0,Port Phillip,-37.8436,144.9557,Southern Metropolitan,3280.0,"-37.8436, 144.9557"


In [10]:
melb_data[melb_data['Rooms'] == 3].shape[0]

5881

### Условия можно комбинировать, используя операторы **&** (логическое И) и **|** (логическое ИЛИ). Условия при этом заключаются в скобки.

In [11]:
melb_data[((melb_data['Rooms'] == 3) | (melb_data['BuildingArea'] > 100 )) & (melb_data['Price'] < 300000 )].shape[0]  

68

In [12]:
melb_data[melb_data['Type'] == 't']['Rooms'].max()

5

А теперь более сложный трюк: найдём медианную площадь здания у объектов, чья цена выше средней. Для того чтобы оградить наш код от нагромождений, предварительно создадим переменную со средней ценой:

In [13]:
mean_Price = melb_data['Price'].mean()
melb_data[melb_data['Price'] > mean_Price]['BuildingArea'].median()

126.0

In [14]:
melb_data[melb_data['Bathroom'] < 1].shape[0]

34

In [15]:
melb_data[(melb_data['SellerG'] == 'Nelson') & (melb_data['Price'] > 3000000)].shape[0]

5

In [16]:
melb_data[melb_data['BuildingArea'] == 0]['Price'].min()

412500.0

In [59]:
#Какова средняя цена объектов недвижимости в таблице melb_data с ценой менее одного миллиона, 
# в которых либо количество комнат больше пяти, либо здание моложе 2015 года?
round(melb_data[((melb_data['Rooms'] > 5) | (melb_data['YearBuilt'] > 2015)) & (melb_data['Price'] < 1000000)]['Price'].mean())

769239

In [60]:
melb_data[(melb_data['Type'] == 'h') & (melb_data['Price'] < 3000000)]['Regionname'].value_counts().index[0]

'Northern Metropolitan'