# 8. Фильтрация данных в DataFrame

In [1]:
import pandas as pd

melb_data = pd.read_csv('data/melb_data.csv', sep=',')

Часто возникает необходимость исследовать определённую группу объектов по какому-то условию, например найти здания с ценой меньше 1 миллиона или выделить из всей таблицы помещения с двумя комнатами.

Такие задачи называются задачами фильтрации.

Под фильтрацией в DataFrame подразумевается получение новой таблицы путём вырезания строк, не удовлетворяющих поставленному условию. 

Разберём классический способ фильтрации в DataFrame — фильтрацию с помощью масок.

Маской называется Series, которая состоит из булевых значений, при этом значения True соответствуют тем индексам, для которых заданное условие выполняется, в противном случае ставится значение False (например, цена > 2 млн).

Создадим маску и положим её в переменную с именем mask. Синтаксис очень прост:

In [2]:
mask = melb_data['Price'] > 2000000
display(mask)

0        False
1        False
2        False
3        False
4        False
         ...  
13575    False
13576    False
13577    False
13578     True
13579    False
Name: Price, Length: 13580, dtype: bool

Для фильтрации нужно просто подставить переменную mask в индексацию DataFrame. Маска показывает, какие строки нужно оставлять в результирующем наборе, а какие — убирать (выведем первые пять строк отфильтрованной таблицы):

In [3]:
display(melb_data[mask].head())

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
80,80,Albert Park,112 Beaconsfield Pde,3,h,2850000.0,PI,Buxton,4/03/2017,3.3,...,0.0,211.0,198.0,1890.0,Port Phillip,-37.8481,144.9499,Southern Metropolitan,3280.0,"-37.8481, 144.9499"
85,85,Albert Park,104 Richardson St,4,h,2300000.0,S,Marshall,7/05/2016,3.3,...,1.0,153.0,180.0,1880.0,Port Phillip,-37.8447,144.9523,Southern Metropolitan,3280.0,"-37.8447, 144.9523"
88,88,Albert Park,29 Faussett St,2,h,2120000.0,S,Greg,10/09/2016,3.3,...,1.0,199.0,107.0,1900.0,Port Phillip,-37.8422,144.9554,Southern Metropolitan,3280.0,"-37.8422, 144.9554"
92,92,Albert Park,2 Dundas Pl,3,h,2615000.0,S,Cayzer,10/12/2016,3.3,...,1.0,177.0,181.0,1880.0,Port Phillip,-37.8415,144.9585,Southern Metropolitan,3280.0,"-37.8415, 144.9585"
93,93,Albert Park,23 Finlay St,5,h,2100000.0,S,Greg,10/12/2016,3.3,...,1.0,237.0,126.0,1970.0,Port Phillip,-37.8436,144.9557,Southern Metropolitan,3280.0,"-37.8436, 144.9557"


Примечание. В результате выполнения фильтрации возвращается новый DataFrame, полученный из исходного, при этом исходная таблица melb_data остаётся без изменений.

Также вовсе не обязательно заносить маску в отдельную переменную — можно сразу вставлять условие в операцию индексации DataFrame, например:

In [4]:
melb_data[melb_data['Price'] > 2000000].head()

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
80,80,Albert Park,112 Beaconsfield Pde,3,h,2850000.0,PI,Buxton,4/03/2017,3.3,...,0.0,211.0,198.0,1890.0,Port Phillip,-37.8481,144.9499,Southern Metropolitan,3280.0,"-37.8481, 144.9499"
85,85,Albert Park,104 Richardson St,4,h,2300000.0,S,Marshall,7/05/2016,3.3,...,1.0,153.0,180.0,1880.0,Port Phillip,-37.8447,144.9523,Southern Metropolitan,3280.0,"-37.8447, 144.9523"
88,88,Albert Park,29 Faussett St,2,h,2120000.0,S,Greg,10/09/2016,3.3,...,1.0,199.0,107.0,1900.0,Port Phillip,-37.8422,144.9554,Southern Metropolitan,3280.0,"-37.8422, 144.9554"
92,92,Albert Park,2 Dundas Pl,3,h,2615000.0,S,Cayzer,10/12/2016,3.3,...,1.0,177.0,181.0,1880.0,Port Phillip,-37.8415,144.9585,Southern Metropolitan,3280.0,"-37.8415, 144.9585"
93,93,Albert Park,23 Finlay St,5,h,2100000.0,S,Greg,10/12/2016,3.3,...,1.0,237.0,126.0,1970.0,Port Phillip,-37.8436,144.9557,Southern Metropolitan,3280.0,"-37.8436, 144.9557"


Найдём количество зданий с тремя комнатами. Для этого отфильтруем таблицу по условию: обратимся к результирующей таблице по столбцу Rooms и найдём число строк в ней с помощью атрибута shape:

In [5]:
melb_data[melb_data['Rooms'] == 3].shape[0]

5881

Примечание от Киселева А.Н.: есть более эффективный способ подсчета таких данных:

In [6]:
sum(melb_data['Rooms'] == 3)

5881

Условия можно комбинировать, используя операторы & (логическое И) и | (логическое ИЛИ). Условия при этом заключаются в скобки.

Усложним прошлый пример и найдём число трёхкомнатных домов с ценой менее 300 тысяч:

In [7]:
melb_data[(melb_data['Rooms'] == 3) & (melb_data['Price'] < 300000)]

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
10394,10394,Melton,14 Musk Ct,3,h,295000.0,SP,PRDNationwide,27/05/2017,31.7,...,4.0,600.0,122.86,1975.0,Melton,-37.68734,144.58001,Western Victoria,3600.0,"-37.68734, 144.58001"
10576,10576,Bacchus Marsh,4 Lidgett St,3,h,285000.0,S,Ryder,8/07/2017,37.5,...,2.0,612.0,126.0,1970.0,Moorabool,-37.67344,144.43181,Western Victoria,2871.0,"-37.67344, 144.43181"
13227,13227,Melton,118 Barries Rd,3,h,283000.0,S,FN,23/09/2017,31.7,...,0.0,362.0,19.0,1976.0,,-37.68755,144.56887,Western Victoria,3600.0,"-37.68755, 144.56887"


Таких зданий оказалось всего три. Немного «ослабим» условие: теперь нас будут интересовать дома с ценой менее 300 тысяч, у которых либо число комнат равно 3 либо площадь домов более 100 квадратных метров:

In [8]:
melb_data[(melb_data['Price'] < 300000) & ((melb_data['Rooms'] == 3) | (melb_data['BuildingArea'] > 100))]

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
491,491,Balaclava,3/88 Grosvenor St,1,u,280000.0,VB,hockingstuart,7/05/2016,6.6,...,1.0,0.0,126.0,1970.0,Port Phillip,-37.87330,144.99700,Southern Metropolitan,2952.0,"-37.8733, 144.997"
977,977,Box Hill,1/7 Glenmore St,1,u,288000.0,SP,hockingstuart,12/06/2016,13.1,...,1.0,774.0,126.0,1970.0,Whitehorse,-37.82410,145.12620,Eastern Metropolitan,4605.0,"-37.8241, 145.1262"
1370,1370,Brunswick,10/150 Brunswick Rd,1,u,240000.0,PI,Hodges,27/11/2016,5.2,...,1.0,0.0,126.0,1970.0,Moreland,-37.77760,144.96330,Northern Metropolitan,11918.0,"-37.7776, 144.9633"
1706,1706,Carnegie,3/21 Jersey Pde,1,u,255000.0,S,Ray,4/03/2017,11.4,...,1.0,0.0,126.0,1970.0,Glen Eira,-37.88750,145.05990,Southern Metropolitan,7822.0,"-37.8875, 145.0599"
1724,1724,Carnegie,10/68 Woornack Rd,1,u,260000.0,VB,Gary,7/05/2016,11.4,...,1.0,0.0,126.0,1968.0,Glen Eira,-37.89830,145.06270,Southern Metropolitan,7822.0,"-37.8983, 145.0627"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
12010,12010,Frankston,4/93 Dandenong Rd E,2,u,266000.0,S,Buxton,29/07/2017,38.0,...,1.0,0.0,126.0,1968.0,Frankston,-38.13275,145.13099,South-Eastern Metropolitan,17055.0,"-38.13275, 145.13099"
12059,12059,Kingsville,5/35 Kingsville St,1,u,216000.0,SP,Jas,29/07/2017,6.4,...,1.0,0.0,126.0,1970.0,Maribyrnong,-37.80893,144.87878,Western Metropolitan,1808.0,"-37.80893, 144.87878"
12493,12493,Epping,10/81 Rufus St,2,u,291000.0,S,HAR,9/09/2017,19.6,...,1.0,161.0,126.0,1970.0,,-37.64888,145.02313,Northern Metropolitan,10926.0,"-37.64888, 145.02313"
12666,12666,Brunswick,4/831 Park St,1,u,170000.0,VB,Nelson,16/09/2017,5.2,...,0.0,1250.0,126.0,1970.0,,-37.77685,144.95188,Northern Metropolitan,11918.0,"-37.77685, 144.95188"


Примечание. Обратите внимание, что использование привычных операторов and и or будет неверным и приведёт к ошибке, так как они выполняют логические операции между двумя булевыми числами. В нашем случае слева и справа от оператора стоят маски (объекты Series), для которых логическую операцию надо совершить поэлементно, а операторы and и or для такого не предназначены.

Фильтрацию часто сочетают со статистическими методами. Давайте найдём максимальное количество комнат в таунхаусах. Так как в результате фильтрации получается DataFrame, то обратимся к нему по столбцу Rooms и найдём максимальное значение:



In [9]:
melb_data[melb_data['Type'] == 't']['Rooms'].max()

5

А теперь более сложный трюк: найдём медианную площадь здания у объектов, чья цена выше средней. Для того чтобы оградить наш код от нагромождений, предварительно создадим переменную со средней ценой:

In [10]:
mean_price = melb_data['Price'].mean()
melb_data[melb_data['Price'] > mean_price]['BuildingArea'].median()

126.0

Фильтрация находит применение в очистке данных.

Под очисткой данных понимается удаление из данных аномальных значений (выбросов), пропусков и данных, которые не несут информацию.

Причин появления таких дефектов в данных множество: неправильная передача по сети, неверная выгрузка из базы, человеческий фактор и т. д.

→ Проблема аномальных значений состоит в том, что если мы обучаем модель на данных, содержащих выбросы, то мы имеем немалый шанс получить менее верный прогноз, чего нам, конечно же, не хотелось бы.

✍ Мы будем подробнее говорить о том, как правильно исследовать данные на выбросы, в модуле про очистку данных, а пока предлагаем закрепить ваши знания по фильтрации данных с помощью заданий ниже ↓

### Задание 8.1
У скольких объектов недвижимости из таблицы melb_data отсутствуют ванные комнаты?


In [11]:
sum(melb_data['Bathroom'] == 0)

34

Ответ: 34

### Задание 8.2
Сколько в таблице melb_data объектов недвижимости, которые были проданы риелторской компанией Nelson и стоимость которых составила больше 3 миллионов?

In [12]:
sum((melb_data['SellerG'] == 'Nelson') * (melb_data['Price'] > 3000000))

5

Ответ: 5

### Задание 8.3
Какова минимальная стоимость участка без здания (площадь здания равна 0) в таблице melb_data?

In [13]:
melb_data[melb_data['BuildingArea'] == 0]['Price'].min()

412500.0

Ответ: 412500

### Задание 8.4
Какова средняя цена объектов недвижимости в таблице melb_data с ценой менее одного миллиона, в которых либо количество комнат больше пяти, либо здание моложе 2015 года?

In [24]:
melb_data[(melb_data['Price'] < 1000000) & ((melb_data['Rooms'] > 5) ^ (melb_data['YearBuilt'] < 2015))]['Price'].mean()

673681.6344773588

Правильный ответ на платформе: 769239. Задал вопрос в Slack, что я делаю не так.

### Задание 8.5
В каком районе Мельбурна чаще всего продаются виллы и коттеджи (тип здания — h) с ценой меньше трёх миллионов?
- Northern Metropolitan
- Southern Metropolitan
- Eastern Victoria
- Northern Victoria

In [29]:
melb_data[(melb_data['Type'] == 'h') & (melb_data['Price'] < 3000000)]['Regionname'].value_counts()

Northern Metropolitan         2737
Southern Metropolitan         2520
Western Metropolitan          2286
Eastern Metropolitan          1167
South-Eastern Metropolitan     387
Eastern Victoria                50
Northern Victoria               41
Western Victoria                32
Name: Regionname, dtype: int64