# **8. Фильтрация данных в DataFrame**

✍ Часто возникает необходимость исследовать определённую группу объектов по какому-то условию, например найти здания с ценой меньше 1 миллиона или выделить из всей таблицы помещения с двумя комнатами.
Такие задачи называются задачами фильтрации.

Под фильтрацией в DataFrame подразумевается получение новой таблицы путём вырезания строк, не удовлетворяющих поставленному условию. 

Разберём классический способ фильтрации в DataFrame — фильтрацию с помощью масок.
Маской называется Series, которая состоит из булевых значений, при этом значения True соответствуют тем индексам, для которых заданное условие выполняется, в противном случае ставится значение False (например, цена > 2 млн).

Создадим маску и положим её в переменную с именем mask. Синтаксис очень прост:

In [9]:
mask = melb_data['Price'] > 2000000
display(mask)

0        False
1        False
2        False
3        False
4        False
         ...  
13575    False
13576    False
13577    False
13578     True
13579    False
Name: Price, Length: 13580, dtype: bool

Для фильтрации нужно просто подставить переменную mask в индексацию DataFrame. Маска показывает, какие строки нужно оставлять в результирующем наборе, а какие — убирать (выведем первые пять строк отфильтрованной таблицы):

In [None]:
display(melb_data[mask].head())


 
*Примечание*. В результате выполнения фильтрации возвращается новый DataFrame, полученный из исходного, при этом исходная таблица melb_data остаётся без изменений.
Также вовсе не обязательно заносить маску в отдельную переменную — можно сразу вставлять условие в операцию индексации DataFrame, например:

In [None]:
melb_data[melb_data['Price'] > 2000000]

Найдём количество зданий с тремя комнатами. Для этого отфильтруем таблицу по условию: обратимся к результирующей таблице по столбцу Rooms и найдём число строк в ней с помощью атрибута shape:

In [None]:
melb_data[melb_data['Rooms'] == 3].shape[0]
# 5881


Условия можно комбинировать, используя операторы & (логическое И) и | (логическое ИЛИ). Условия при этом заключаются в скобки.
Усложним прошлый пример и найдём число трёхкомнатных домов с ценой менее 300 тысяч:

In [None]:
melb_data[(melb_data['Rooms'] == 3) & (melb_data['Price'] < 300000)].shape[0]
# 3


Таких зданий оказалось всего три. Немного «ослабим» условие: теперь нас будут интересовать дома с ценой менее 300 тысяч, у которых либо число комнат равно 3 либо площадь домов более 100 квадратных метров:


In [None]:
melb_data[((melb_data['Rooms'] == 3) | (melb_data['BuildingArea'] > 100)) & (melb_data['Price'] < 300000)].shape[0]
# 68

*Примечание*. Обратите внимание, что использование привычных операторов and и or будет неверным и приведёт к ошибке, так как они выполняют логические операции между двумя булевыми числами. В нашем случае слева и справа от оператора стоят маски (объекты Series), для которых логическую операцию надо совершить поэлементно, а операторы and и or для такого не предназначены.



Фильтрацию часто сочетают со статистическими методами. Давайте найдём максимальное количество комнат в таунхаусах. Так как в результате фильтрации получается DataFrame, то обратимся к нему по столбцу Rooms и найдём максимальное значение:

In [None]:
melb_data[melb_data['Type'] == 't']['Rooms'].max()
# 5


А теперь более сложный трюк: найдём медианную площадь здания у объектов, чья цена выше средней. Для того чтобы оградить наш код от нагромождений, предварительно создадим переменную со средней ценой:

In [None]:
mean_price = melb_data['Price'].mean()
melb_data[melb_data['Price'] > mean_price]['BuildingArea'].median()

# 126.0


Фильтрация находит применение в очистке данных.
Под **очисткой данных** понимается удаление из данных аномальных значений (выбросов), пропусков и данных, которые не несут информацию.

Причин появления таких дефектов в данных множество: неправильная передача по сети, неверная выгрузка из базы, человеческий фактор и т. д.

→ Проблема аномальных значений состоит в том, что если мы обучаем модель на данных, содержащих выбросы, то мы имеем немалый шанс получить менее верный прогноз, чего нам, конечно же, не хотелось бы.

✍ Мы будем подробнее говорить о том, как правильно исследовать данные на выбросы, в модуле про очистку данных, а пока предлагаем закрепить ваши знания по фильтрации данных с помощью заданий ниже ↓


In [2]:
import numpy as np

In [3]:
import pandas as pd

*Задание 8.1*

У скольких объектов недвижимости из таблицы melb_data отсутствуют ванные комнаты?  

(34)


In [4]:
melb_data = pd.read_csv('data/melb_data.csv')
melb_data[melb_data['Bathroom'] == 0].shape[0]

34

*Задание 8.2*

Сколько в таблице melb_data объектов недвижимости, которые были проданы риелторской компанией Nelson и стоимость которых составила больше 3 миллионов?

(5)

In [5]:
melb_data = pd.read_csv('data/melb_data.csv')
melb_data[(melb_data['SellerG'] == 'Nelson') & (melb_data['Price'] > 3e6)].shape[0]

5

*Задание 8.3*

Какова минимальная стоимость участка без здания (площадь здания равна 0) в таблице melb_data?
Запишите ответ в виде целого числа

(412500)

In [6]:
melb_data = pd.read_csv('data/melb_data.csv')
melb_data[(melb_data['BuildingArea'] == 0)]['Price'].min()

412500.0

*Задание 8.4*

Какова средняя цена объектов недвижимости в таблице melb_data с ценой менее одного миллиона, в которых либо количество комнат больше пяти, либо здание моложе 2015 года?
Округлите ответ до целого числа


In [7]:
melb_data = pd.read_csv('data/melb_data.csv')
round(melb_data[(melb_data['Price']<1e6) & ((melb_data['Rooms']>5) | (melb_data['YearBuilt'] > 2015))]['Price'].mean())

769239

*Задание 8.5*

В каком районе Мельбурна чаще всего продаются виллы и коттеджи (тип здания — h) с ценой меньше трёх миллионов?


In [8]:
melb_data = pd.read_csv('data/melb_data.csv')
melb_data[(melb_data['Type'] == 'h') & (melb_data['Price'] < 3000000)]['Regionname'].mode()

0    Northern Metropolitan
Name: Regionname, dtype: object