# Знакомимся с данными: недвижимость

Данные представляют собой таблицу, в которой содержится 23 столбца:

* index — номер строки
* Suburb — наименование пригорода
* Address — адрес
* Rooms — количество комнат в помещении
* Type — тип здания (h — дом, коттедж, вилла, терраса; u — блочный, дуплексный дом; t — таунхаус)
* Price — цена помещения
* Method — метод продажи 
* SellerG — риэлторская компания
* Date — дата продажи (в формате день/месяц/год)
* Distance — расстояния до объекта от центра Мельбурна 
* Postcode — почтовый индекс
* Bedroom — количество спален
* Bathroom — количество ванных комнат
* Car — количество парковочных мест
* Landsize — площадь прилегающей территории
* BuildingArea — площадь здания
* YearBuilt — год постройки
* CouncilArea — региональное управление
* Lattitude — географическая широта
* Longitude — географическая долгота
* Regionname — наименование района Мельбурна
* Propertycount — количество объектов недвижимости в районе
* Coordinates — широта и долгота, объединённые в кортеж

In [169]:
import pandas as pd
import numpy as np

In [110]:
melb_data = pd.read_csv('data/melb_data.csv', sep=',')
display(melb_data)

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
0,0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1.0,202.0,126.0,1970.0,Yarra,-37.79960,144.99840,Northern Metropolitan,4019.0,"-37.7996, 144.9984"
1,1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,0.0,156.0,79.0,1900.0,Yarra,-37.80790,144.99340,Northern Metropolitan,4019.0,"-37.8079, 144.9934"
2,2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,...,0.0,134.0,150.0,1900.0,Yarra,-37.80930,144.99440,Northern Metropolitan,4019.0,"-37.8093, 144.9944"
3,3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,...,1.0,94.0,126.0,1970.0,Yarra,-37.79690,144.99690,Northern Metropolitan,4019.0,"-37.7969, 144.9969"
4,4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,...,2.0,120.0,142.0,2014.0,Yarra,-37.80720,144.99410,Northern Metropolitan,4019.0,"-37.8072, 144.9941"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
13575,13575,Wheelers Hill,12 Strada Cr,4,h,1245000.0,S,Barry,26/08/2017,16.7,...,2.0,652.0,126.0,1981.0,,-37.90562,145.16761,South-Eastern Metropolitan,7392.0,"-37.90562, 145.16761"
13576,13576,Williamstown,77 Merrett Dr,3,h,1031000.0,SP,Williams,26/08/2017,6.8,...,2.0,333.0,133.0,1995.0,,-37.85927,144.87904,Western Metropolitan,6380.0,"-37.85927, 144.87904"
13577,13577,Williamstown,83 Power St,3,h,1170000.0,S,Raine,26/08/2017,6.8,...,4.0,436.0,126.0,1997.0,,-37.85274,144.88738,Western Metropolitan,6380.0,"-37.85274, 144.88738"
13578,13578,Williamstown,96 Verdon St,4,h,2500000.0,PI,Sweeney,26/08/2017,6.8,...,5.0,866.0,157.0,1920.0,,-37.85908,144.89299,Western Metropolitan,6380.0,"-37.85908, 144.89299"


In [111]:
# цена объекта
display(melb_data.loc[15,'Price'])
# дата продажи
display(melb_data.loc[90,'Date'])
# Во сколько раз площадь прилегающей территории, 
# на которой находится здание с индексом 3521, 
# больше площади участка, на котором находится здание с индексом 1690? 
display(melb_data.loc[[1690,3521]])


display(melb_data.loc[3521,'Landsize']/(melb_data.loc[1690,'BuildingArea']))


1310000.0

'10/09/2016'

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
1690,1690,Carlton North,75 Fenwick St,3,h,2050000.0,S,Nelson,18/03/2017,3.2,...,0.0,84.0,148.0,1970.0,Yarra,-37.7879,144.9736,Northern Metropolitan,3106.0,"-37.7879, 144.9736"
3521,3521,Kensington,67 Collett St,3,h,1010000.0,PI,Edward,7/05/2016,4.2,...,0.0,234.0,104.0,1900.0,Melbourne,-37.7923,144.9332,Northern Metropolitan,5263.0,"-37.7923, 144.9332"


1.5810810810810811

In [112]:
# методы head() и tail(), которые возвращают n первых и n последних строк таблицы соответственно (по умолчанию n = 5).
melb_data.head()


Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
0,0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1.0,202.0,126.0,1970.0,Yarra,-37.7996,144.9984,Northern Metropolitan,4019.0,"-37.7996, 144.9984"
1,1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,0.0,156.0,79.0,1900.0,Yarra,-37.8079,144.9934,Northern Metropolitan,4019.0,"-37.8079, 144.9934"
2,2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,...,0.0,134.0,150.0,1900.0,Yarra,-37.8093,144.9944,Northern Metropolitan,4019.0,"-37.8093, 144.9944"
3,3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,...,1.0,94.0,126.0,1970.0,Yarra,-37.7969,144.9969,Northern Metropolitan,4019.0,"-37.7969, 144.9969"
4,4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,...,2.0,120.0,142.0,2014.0,Yarra,-37.8072,144.9941,Northern Metropolitan,4019.0,"-37.8072, 144.9941"


In [113]:
melb_data.tail(7)

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
13573,13573,Werribee,5 Nuragi Ct,4,h,635000.0,S,hockingstuart,26/08/2017,14.7,...,1.0,662.0,172.0,1980.0,,-37.89327,144.64789,Western Metropolitan,16166.0,"-37.89327, 144.64789"
13574,13574,Westmeadows,9 Black St,3,h,582000.0,S,Red,26/08/2017,16.5,...,2.0,256.0,126.0,1970.0,,-37.67917,144.8939,Northern Metropolitan,2474.0,"-37.67917, 144.8939"
13575,13575,Wheelers Hill,12 Strada Cr,4,h,1245000.0,S,Barry,26/08/2017,16.7,...,2.0,652.0,126.0,1981.0,,-37.90562,145.16761,South-Eastern Metropolitan,7392.0,"-37.90562, 145.16761"
13576,13576,Williamstown,77 Merrett Dr,3,h,1031000.0,SP,Williams,26/08/2017,6.8,...,2.0,333.0,133.0,1995.0,,-37.85927,144.87904,Western Metropolitan,6380.0,"-37.85927, 144.87904"
13577,13577,Williamstown,83 Power St,3,h,1170000.0,S,Raine,26/08/2017,6.8,...,4.0,436.0,126.0,1997.0,,-37.85274,144.88738,Western Metropolitan,6380.0,"-37.85274, 144.88738"
13578,13578,Williamstown,96 Verdon St,4,h,2500000.0,PI,Sweeney,26/08/2017,6.8,...,5.0,866.0,157.0,1920.0,,-37.85908,144.89299,Western Metropolitan,6380.0,"-37.85908, 144.89299"
13579,13579,Yarraville,6 Agnes St,4,h,1285000.0,SP,Village,26/08/2017,6.3,...,1.0,362.0,112.0,1920.0,,-37.81188,144.88449,Western Metropolitan,6543.0,"-37.81188, 144.88449"


In [114]:
# Атрибут shape - размер таблицы — количество строк и количество столбцов. 
#  возвращает кортеж с количеством строк и столбцов
melb_data.shape

(13580, 23)

In [115]:
# получить детальную информацию о столбцах таблицы - метод DataFrame info():
# Данный метод выводит:
# информацию об индексах;
# информацию об общем количестве столбцов;
# таблицу, c именами столбцов (Column), 
#        кол-ве непустых значений (Non-Null Count) в каждом столбце 
#        и типе данных столбца (Dtype), 
# количестве столбцов, в которых используется определённый тип данных;
# количество оперативной памяти в мегабайтах, которое тратится на хранение данных.
melb_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 23 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   index          13580 non-null  int64  
 1   Suburb         13580 non-null  object 
 2   Address        13580 non-null  object 
 3   Rooms          13580 non-null  int64  
 4   Type           13580 non-null  object 
 5   Price          13580 non-null  float64
 6   Method         13580 non-null  object 
 7   SellerG        13580 non-null  object 
 8   Date           13580 non-null  object 
 9   Distance       13580 non-null  float64
 10  Postcode       13580 non-null  int64  
 11  Bedroom        13580 non-null  float64
 12  Bathroom       13580 non-null  float64
 13  Car            13580 non-null  float64
 14  Landsize       13580 non-null  float64
 15  BuildingArea   13580 non-null  float64
 16  YearBuilt      13580 non-null  float64
 17  CouncilArea    12211 non-null  object 
 18  Lattit

In [116]:
# методом astype(), который позволяет преобразовать тип данных столбца
melb_data['Car'] = melb_data['Car'].astype('int64')
melb_data['Bedroom'] = melb_data['Bedroom'].astype('int64')
melb_data['Bathroom'] = melb_data['Bathroom'].astype('int64')
melb_data['Propertycount'] = melb_data['Propertycount'].astype('int64')
melb_data['YearBuilt'] = melb_data['YearBuilt'].astype('int64')
melb_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 23 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   index          13580 non-null  int64  
 1   Suburb         13580 non-null  object 
 2   Address        13580 non-null  object 
 3   Rooms          13580 non-null  int64  
 4   Type           13580 non-null  object 
 5   Price          13580 non-null  float64
 6   Method         13580 non-null  object 
 7   SellerG        13580 non-null  object 
 8   Date           13580 non-null  object 
 9   Distance       13580 non-null  float64
 10  Postcode       13580 non-null  int64  
 11  Bedroom        13580 non-null  int64  
 12  Bathroom       13580 non-null  int64  
 13  Car            13580 non-null  int64  
 14  Landsize       13580 non-null  float64
 15  BuildingArea   13580 non-null  float64
 16  YearBuilt      13580 non-null  int64  
 17  CouncilArea    12211 non-null  object 
 18  Lattit

In [166]:
# начение статистических параметров для столбцов
melb_data.describe().loc[:, ['Distance', 'BuildingArea' , 'Price']]
# медиана это 50%

Unnamed: 0,Distance,BuildingArea,Price
count,13580.0,13580.0,13580.0
mean,10.137776,139.633972,1075684.0
std,5.868725,392.217403,639310.7
min,0.0,0.0,85000.0
25%,6.1,122.0,650000.0
50%,9.2,126.0,903000.0
75%,13.0,129.94,1330000.0
max,48.1,44515.0,9000000.0


In [118]:
# пример для нечисловых полей (тип object)
melb_data.describe(include=['object'])

Unnamed: 0,Suburb,Address,Type,Method,SellerG,Date,CouncilArea,Regionname,Coordinates
count,13580,13580,13580,13580,13580,13580,12211,13580,13580
unique,314,13378,3,5,268,58,33,8,13097
top,Reservoir,36 Aberfeldie St,h,S,Nelson,27/05/2017,Moreland,Southern Metropolitan,"-37.8361, 144.9966"
freq,359,3,9449,9022,1565,473,1163,4695,12


In [119]:
# сколько раз в столбце повторяется каждый из вариантов значений 
# (т.е. найти частоту для каждого уникального знания) - метод value_counts().
# возвращает объект Series и в качестве индексов - уникальные категории столбца, 
# а значения — соответствующая им частота
display(melb_data['Regionname'].value_counts())

Southern Metropolitan         4695
Northern Metropolitan         3890
Western Metropolitan          2948
Eastern Metropolitan          1471
South-Eastern Metropolitan     450
Eastern Victoria                53
Northern Victoria               41
Western Victoria                32
Name: Regionname, dtype: int64

In [120]:
# Для более понятного вывода - параметр normalize. При установке на True:
# результат будет представляться в виде доли (относительной частоты):

melb_data['Regionname'].value_counts(normalize=True)

Southern Metropolitan         0.345729
Northern Metropolitan         0.286451
Western Metropolitan          0.217084
Eastern Metropolitan          0.108321
South-Eastern Metropolitan    0.033137
Eastern Victoria              0.003903
Northern Victoria             0.003019
Western Victoria              0.002356
Name: Regionname, dtype: float64

In [121]:
# Сколько процентов от общего количества домов составляют таунхаусы (тип объекта — t)?
melb_data['Type'].value_counts(normalize=True)


h    0.695803
u    0.222165
t    0.082032
Name: Type, dtype: float64

## АГРЕГИРУЮЩИЕ МЕТОДЫ

Агрегирующим в Pandas называется метод, который для каждого столбца возвращает только одно значение — показатель (например, вычисление медианы, максимума, среднего и так далее).

* .count()	Количество непустых значений
* .mean()	Среднее значение
* .min()	Минимальное значение
* .max()	Максимальное значение
* .deviance()	Дисперсия
* .std()	Стандартное отклонение
* .sum()	Сумма
* .quantile(x)	Квантиль уровня x
* .nunique()	Число уникальных значений
* .median()  медиана = квартиль 50

Если один из этих методов применить ко всему DataFrame, то в результате его работы будет получен объект типа Series, в котором в качестве индексов будут выступать наименования столбцов, а в качестве значений — статистический показатель. В случае применения метода к отдельному столбцу результатом вычислений станет число.

В каждый метод можно передать некоторые параметры, среди которых:

* axis  — определяет, подсчитывать параметр по строкам или по столбцам;
* numeric_only — определяет, вычислять параметры только по числовым столбцам/строкам или нет (True/False).

In [122]:
# Вычислим среднюю цену на объекты недвижимости
print(melb_data['Price'].mean())
# Найдём максимальное количество парковочных мест:
print(melb_data['Car'].max())

1075684.079455081
10


In [124]:
# А теперь представим, что риэлторская ставка для всех компаний 
# за продажу недвижимости составляет 12%. 
# Найдём общую прибыльность риэлторского бизнеса в Мельбурне. 
# Результат округлим до сотых:
rate = 0.12
income = melb_data['Price'].sum() * rate
print('Total income of real estate agencies:', round(income, 2))


Total income of real estate agencies: 1752934775.88


In [125]:
# Найдём, насколько медианная площадь территории отличается от её 
# среднего значения. Вычислим модуль разницы между медианой и средним 
# и разделим результат на среднее, чтобы получить отклонение в долях:
landsize_median = melb_data['Landsize'].median() 
landsize_mean =  melb_data['Landsize'].mean()
print(abs(landsize_median - landsize_mean)/landsize_mean)
# В результате получаем долю отклонения медианы от среднего значения. 
# Умножив результат на 100, получим его в процентах. 
# Отклонение медианы от среднего значения на 21% является довольно большим, 
# и это повод задуматься над тем, чтобы исследовать признак на наличие аномалий. 

0.21205713983546193


## МОДАЛЬНОЕ ЗНАЧЕНИЕ

статический показатель __моды__ — самого распространённого значения в столбце. Он вычисляется с помощью метода mode().
Модальных значений может быть несколько, поэтому метод mode(), возвращает не одно число, а серию.

In [157]:
# Вычислим, какое число комнат чаще всего представлено на рынке недвижимости:
print(melb_data['Rooms'].mode())
# Сколько спален чаще всего встречается в домах в Мельбурне?
print(melb_data['Bedroom'].mode())

0    3
Name: Rooms, dtype: int64
0    3
Name: Bedroom, dtype: int64


In [127]:
# Метод mode() может быть использован и со столбцами типа object. 
# Так, например, можно найти наиболее распространённое название района:
print(melb_data['Regionname'].mode())



0    Southern Metropolitan
Name: Regionname, dtype: object

In [155]:
display(melb_data.describe().loc[:, 'BuildingArea'])
print(100*abs(melb_data['BuildingArea'].median()-melb_data['BuildingArea'].mean())/melb_data['BuildingArea'].mean())

count    13580.000000
mean       139.633972
std        392.217403
min          0.000000
25%        122.000000
50%        126.000000
75%        129.940000
max      44515.000000
Name: BuildingArea, dtype: float64

9.764079662364532


## Фильтрация данных в DataFrame

получение новой таблицы путём вырезания строк, не удовлетворяющих поставленному условию. 

классический способ фильтрации в DataFrame — фильтрацию с помощью масок

Маской называется Series, которая состоит из булевых значений, при этом значения True соответствуют тем индексам, для которых заданное условие выполняется, в противном случае ставится значение False (например, цена > 2 млн).

In [158]:
# Создадим маску и положим её в переменную с именем mask
mask = melb_data['Price'] > 2000000
display(mask)

0        False
1        False
2        False
3        False
4        False
         ...  
13575    False
13576    False
13577    False
13578     True
13579    False
Name: Price, Length: 13580, dtype: bool

In [159]:
# Для фильтрации нужно просто подставить переменную mask в индексацию DataFrame. 
# Маска показывает, какие строки нужно оставлять в результирующем наборе, 
# а какие — убирать (выведем первые пять строк отфильтрованной таблицы):
display(melb_data[mask].head())

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
80,80,Albert Park,112 Beaconsfield Pde,3,h,2850000.0,PI,Buxton,4/03/2017,3.3,...,0,211.0,198.0,1890,Port Phillip,-37.8481,144.9499,Southern Metropolitan,3280,"-37.8481, 144.9499"
85,85,Albert Park,104 Richardson St,4,h,2300000.0,S,Marshall,7/05/2016,3.3,...,1,153.0,180.0,1880,Port Phillip,-37.8447,144.9523,Southern Metropolitan,3280,"-37.8447, 144.9523"
88,88,Albert Park,29 Faussett St,2,h,2120000.0,S,Greg,10/09/2016,3.3,...,1,199.0,107.0,1900,Port Phillip,-37.8422,144.9554,Southern Metropolitan,3280,"-37.8422, 144.9554"
92,92,Albert Park,2 Dundas Pl,3,h,2615000.0,S,Cayzer,10/12/2016,3.3,...,1,177.0,181.0,1880,Port Phillip,-37.8415,144.9585,Southern Metropolitan,3280,"-37.8415, 144.9585"
93,93,Albert Park,23 Finlay St,5,h,2100000.0,S,Greg,10/12/2016,3.3,...,1,237.0,126.0,1970,Port Phillip,-37.8436,144.9557,Southern Metropolitan,3280,"-37.8436, 144.9557"


In [160]:
# В результате выполнения  возвращается новый DataFrame, полученный из исходного, 
# при этом исходная таблица melb_data остаётся без изменений.
# Также вовсе не обязательно заносить маску в отдельную переменную — 
# можно сразу вставлять условие в операцию индексации DataFrame, например:
display(melb_data[melb_data['Price'] > 2000000].head())

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
80,80,Albert Park,112 Beaconsfield Pde,3,h,2850000.0,PI,Buxton,4/03/2017,3.3,...,0,211.0,198.0,1890,Port Phillip,-37.8481,144.9499,Southern Metropolitan,3280,"-37.8481, 144.9499"
85,85,Albert Park,104 Richardson St,4,h,2300000.0,S,Marshall,7/05/2016,3.3,...,1,153.0,180.0,1880,Port Phillip,-37.8447,144.9523,Southern Metropolitan,3280,"-37.8447, 144.9523"
88,88,Albert Park,29 Faussett St,2,h,2120000.0,S,Greg,10/09/2016,3.3,...,1,199.0,107.0,1900,Port Phillip,-37.8422,144.9554,Southern Metropolitan,3280,"-37.8422, 144.9554"
92,92,Albert Park,2 Dundas Pl,3,h,2615000.0,S,Cayzer,10/12/2016,3.3,...,1,177.0,181.0,1880,Port Phillip,-37.8415,144.9585,Southern Metropolitan,3280,"-37.8415, 144.9585"
93,93,Albert Park,23 Finlay St,5,h,2100000.0,S,Greg,10/12/2016,3.3,...,1,237.0,126.0,1970,Port Phillip,-37.8436,144.9557,Southern Metropolitan,3280,"-37.8436, 144.9557"


In [161]:
# Найдём количество зданий с тремя комнатами. 
# Для этого отфильтруем таблицу по условию: 
# обратимся к результирующей таблице по столбцу Rooms 
# и найдём число строк в ней с помощью атрибута shape:
melb_data[melb_data['Rooms'] == 3].shape[0]

5881

In [None]:
display(melb_data.describe().loc[:, 'BuildingArea'])
print(100*abs(melb_data['BuildingArea'].median()-melb_data['BuildingArea'].mean())/melb_data['BuildingArea'].mean())

count    13580.000000
mean       139.633972
std        392.217403
min          0.000000
25%        122.000000
50%        126.000000
75%        129.940000
max      44515.000000
Name: BuildingArea, dtype: float64

9.764079662364532


In [None]:
display(melb_data.describe().loc[:, 'BuildingArea'])
print(100*abs(melb_data['BuildingArea'].median()-melb_data['BuildingArea'].mean())/melb_data['BuildingArea'].mean())

count    13580.000000
mean       139.633972
std        392.217403
min          0.000000
25%        122.000000
50%        126.000000
75%        129.940000
max      44515.000000
Name: BuildingArea, dtype: float64

9.764079662364532


In [162]:
# найдём число трёхкомнатных домов с ценой менее 300 тысяч:

melb_data[(melb_data['Rooms'] == 3) & (melb_data['Price'] < 300000)].shape[0]

3

In [163]:
# дома с ценой менее 300 тысяч, # у которых либо число комнат равно 3 
# либо площадь домов более 100 квадратных метров:

melb_data[((melb_data['Rooms'] == 3) | (melb_data['BuildingArea'] > 100)) & (melb_data['Price'] < 300000)].shape[0]
# ВАЖНО  использемя операторы & (логическое И) и | (логическое ИЛИ). 
# Условия при этом заключаются в скобки

68

In [164]:
# максимальное количество комнат в таунхаусах. 
# Так как в результате фильтрации получается DataFrame, 
# то обратимся к нему по столбцу Rooms и найдём максимальное значение:

melb_data[melb_data['Type'] == 't']['Rooms'].max()

5

In [165]:
# найдём медианную площадь здания у объектов, чья цена выше средней. 
# Для того чтобы оградить наш код от нагромождений, 
# предварительно создадим переменную со средней ценой:

mean_price = melb_data['Price'].mean()
melb_data[melb_data['Price'] > mean_price]['BuildingArea'].median()

126.0

Фильтрация находит применение в очистке данных.

Под очисткой данных понимается удаление из данных аномальных значений (выбросов), пропусков и данных, которые не несут информацию.

In [173]:
# У скольких объектов недвижимости из таблицы melb_data отсутствуют ванные комнаты?
print(melb_data[(melb_data['Bathroom'] == 0)].shape[0])

34


In [175]:
# Сколько в таблице melb_data объектов недвижимости, 
# которые были проданы риелторской компанией Nelson 
# и стоимость которых составила больше 3 миллионов
melb_data[((melb_data['SellerG'] == 'Nelson')  & (melb_data['Price'] > 3000000))].shape[0]


5

In [177]:
# Какова минимальная стоимость участка без здания (площадь здания равна 0)?
print(melb_data[(melb_data['BuildingArea'] == 0)]['Price'].min())

412500.0


In [181]:
# Какова средняя цена объектов с ценой менее одного миллиона, 
# в которых либо количество комнат больше пяти, либо здание моложе 2015 года?
melb_data[((melb_data['Rooms'] > 5)  & (melb_data['Price'] < 1000000))]['Price'].mean()


779066.6666666666

In [185]:
# В каком районе Мельбурна чаще всего продаются виллы и коттеджи (тип здания — h) 
# с ценой меньше трёх миллионов?
melb_data[((melb_data['Type'] == 'h')  & (melb_data['Price'] < 3000000))]['Regionname'].mode()

0    Northern Metropolitan
Name: Regionname, dtype: object