In [3]:
import pandas as pd

melb_data = pd.read_csv('data/melb_data.csv', sep=',')
melb_data['Car'] = melb_data['Car'].astype('int64')
melb_data['Bedroom'] = melb_data['Bedroom'].astype('int64')
melb_data['Bathroom'] = melb_data['Bathroom'].astype('int64')
melb_data['Propertycount'] = melb_data['Propertycount'].astype('int64')
melb_data['YearBuilt'] = melb_data['YearBuilt'].astype('int64')
melb_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 23 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   index          13580 non-null  int64  
 1   Suburb         13580 non-null  object 
 2   Address        13580 non-null  object 
 3   Rooms          13580 non-null  int64  
 4   Type           13580 non-null  object 
 5   Price          13580 non-null  float64
 6   Method         13580 non-null  object 
 7   SellerG        13580 non-null  object 
 8   Date           13580 non-null  object 
 9   Distance       13580 non-null  float64
 10  Postcode       13580 non-null  int64  
 11  Bedroom        13580 non-null  int64  
 12  Bathroom       13580 non-null  int64  
 13  Car            13580 non-null  int64  
 14  Landsize       13580 non-null  float64
 15  BuildingArea   13580 non-null  float64
 16  YearBuilt      13580 non-null  int64  
 17  CouncilArea    12211 non-null  object 
 18  Lattit

In [4]:
# 8. Фильтрация данных в DataFrame

# ✍ Часто возникает необходимость
# исследовать определённую группу объектов по какому-то условию,
# например найти здания с ценой меньше 1 миллиона
# или выделить из всей таблицы помещения с двумя комнатами.

# Такие задачи называются задачами фильтрации.

# Под фильтрацией в DataFrame подразумевается получение новой таблицы
# путём вырезания строк, не удовлетворяющих поставленному условию. 

#Разберём классический способ фильтрации в DataFrame
# — фильтрацию с помощью масок.

# Маской называется Series, которая состоит из булевых значений,
# при этом значения True соответствуют тем индексам,
# для которых заданное условие выполняется,
# в противном случае ставится значение False (например, цена > 2 млн).

# Создадим маску и положим её в переменную с именем mask.
# Синтаксис очень прост:

mask = melb_data['Price'] > 2000000
display(mask)

0        False
1        False
2        False
3        False
4        False
         ...  
13575    False
13576    False
13577    False
13578     True
13579    False
Name: Price, Length: 13580, dtype: bool

In [5]:
# Для фильтрации нужно просто подставить переменную mask
# в индексацию DataFrame. Маска показывает, какие строки нужно оставлять
# в результирующем наборе, а какие — убирать
# (выведем первые пять строк отфильтрованной таблицы):
display(melb_data[mask].head())

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
80,80,Albert Park,112 Beaconsfield Pde,3,h,2850000.0,PI,Buxton,4/03/2017,3.3,...,0,211.0,198.0,1890,Port Phillip,-37.8481,144.9499,Southern Metropolitan,3280,"-37.8481, 144.9499"
85,85,Albert Park,104 Richardson St,4,h,2300000.0,S,Marshall,7/05/2016,3.3,...,1,153.0,180.0,1880,Port Phillip,-37.8447,144.9523,Southern Metropolitan,3280,"-37.8447, 144.9523"
88,88,Albert Park,29 Faussett St,2,h,2120000.0,S,Greg,10/09/2016,3.3,...,1,199.0,107.0,1900,Port Phillip,-37.8422,144.9554,Southern Metropolitan,3280,"-37.8422, 144.9554"
92,92,Albert Park,2 Dundas Pl,3,h,2615000.0,S,Cayzer,10/12/2016,3.3,...,1,177.0,181.0,1880,Port Phillip,-37.8415,144.9585,Southern Metropolitan,3280,"-37.8415, 144.9585"
93,93,Albert Park,23 Finlay St,5,h,2100000.0,S,Greg,10/12/2016,3.3,...,1,237.0,126.0,1970,Port Phillip,-37.8436,144.9557,Southern Metropolitan,3280,"-37.8436, 144.9557"


In [6]:
# Примечание. В результате выполнения фильтрации
# возвращается новый DataFrame, полученный из исходного,
# при этом исходная таблица melb_data остаётся без изменений.

# Также вовсе не обязательно заносить маску в отдельную переменную
# — можно сразу вставлять условие в операцию индексации DataFrame,
# например:

melb_data[melb_data['Price'] > 2000000]

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
80,80,Albert Park,112 Beaconsfield Pde,3,h,2850000.0,PI,Buxton,4/03/2017,3.3,...,0,211.0,198.0,1890,Port Phillip,-37.84810,144.94990,Southern Metropolitan,3280,"-37.8481, 144.9499"
85,85,Albert Park,104 Richardson St,4,h,2300000.0,S,Marshall,7/05/2016,3.3,...,1,153.0,180.0,1880,Port Phillip,-37.84470,144.95230,Southern Metropolitan,3280,"-37.8447, 144.9523"
88,88,Albert Park,29 Faussett St,2,h,2120000.0,S,Greg,10/09/2016,3.3,...,1,199.0,107.0,1900,Port Phillip,-37.84220,144.95540,Southern Metropolitan,3280,"-37.8422, 144.9554"
92,92,Albert Park,2 Dundas Pl,3,h,2615000.0,S,Cayzer,10/12/2016,3.3,...,1,177.0,181.0,1880,Port Phillip,-37.84150,144.95850,Southern Metropolitan,3280,"-37.8415, 144.9585"
93,93,Albert Park,23 Finlay St,5,h,2100000.0,S,Greg,10/12/2016,3.3,...,1,237.0,126.0,1970,Port Phillip,-37.84360,144.95570,Southern Metropolitan,3280,"-37.8436, 144.9557"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
13521,13521,Port Melbourne,44 Garton St,4,t,2455000.0,SP,Marshall,26/08/2017,3.5,...,2,123.0,0.0,2010,,-37.83349,144.94840,Southern Metropolitan,8648,"-37.83349, 144.9484"
13523,13523,Prahran,69 Greville St,4,h,2668000.0,S,Biggin,26/08/2017,4.6,...,2,383.0,126.0,1970,,-37.84879,144.98882,Southern Metropolitan,7717,"-37.84879, 144.98882"
13553,13553,Surrey Hills,20 Albert Cr,4,h,2720000.0,S,Kay,26/08/2017,10.2,...,2,1005.0,126.0,1920,,-37.82421,145.10352,Southern Metropolitan,5457,"-37.82421, 145.10352"
13555,13555,Surrey Hills,3 Oak St,4,h,3100000.0,VB,Marshall,26/08/2017,10.2,...,3,832.0,126.0,1970,,-37.83564,145.10919,Southern Metropolitan,5457,"-37.83564, 145.10919"


In [8]:
# Найдём количество зданий с тремя комнатами.
# Для этого отфильтруем таблицу по условию:
# обратимся к результирующей таблице по столбцу Rooms
# и найдём число строк в ней с помощью атрибута shape:

melb_data[melb_data['Rooms'] == 3].shape[0]

5881

In [9]:
# Условия можно комбинировать,
# используя операторы & (логическое И) и | (логическое ИЛИ).
# Условия при этом заключаются в скобки.

# Усложним прошлый пример и
# найдём число трёхкомнатных домов с ценой менее 300 тысяч:

melb_data[(melb_data['Rooms'] == 3) & (melb_data['Price'] < 300000)].shape[0]

3

In [10]:
# Таких зданий оказалось всего три. Немного «ослабим» условие:
# теперь нас будут интересовать дома
# с ценой менее 300 тысяч, у которых
# либо число комнат равно 3
# либо площадь домов более 100 квадратных метров:

melb_data[((melb_data['Rooms'] == 3) | (melb_data['BuildingArea'] > 100)) & (melb_data['Price'] < 300000)].shape[0]
# 
# Примечание. Обратите внимание, что использование привычных операторов
# and и or будет неверным и приведёт к ошибке,
# так как они выполняют логические операции между двумя булевыми числами.
# В нашем случае слева и справа от оператора стоят маски (объекты Series),
# для которых логическую операцию надо совершить поэлементно,
# а операторы and и or для такого не предназначены.

68

In [11]:
# Фильтрацию часто сочетают со статистическими методами.
# Давайте найдём максимальное количество комнат в таунхаусах.
# Так как в результате фильтрации получается DataFrame,
# то обратимся к нему по столбцу Rooms и найдём максимальное значение:

melb_data[melb_data['Type'] == 't']['Rooms'].max()

5

In [12]:
# А теперь более сложный трюк: 
# найдём медианную площадь здания у объектов,
# чья цена выше средней.
# Для того чтобы оградить наш код от нагромождений,
# предварительно создадим переменную со средней ценой:

mean_price = melb_data['Price'].mean()
melb_data[melb_data['Price'] > mean_price]['BuildingArea'].median()


126.0

In [13]:
# Фильтрация находит применение в очистке данных.

# Под очисткой данных понимается удаление из данных аномальных значений
# (выбросов), пропусков и данных, которые не несут информацию.
# Причин появления таких дефектов в данных множество:
# неправильная передача по сети,
# неверная выгрузка из базы,
# человеческий фактор и т. д. 
# 
# Проблема аномальных значений состоит в том,
# что если мы обучаем модель на данных,
# содержащих выбросы, то мы имеем немалый шанс
# получить менее верный прогноз, чего нам, конечно же, не хотелось бы.

In [15]:
# Задание 8.1

# У скольких объектов недвижимости из таблицы melb_data
# отсутствуют ванные комнаты?

melb_data[melb_data['Bathroom'] == 0].shape[0]

34

In [16]:
# Задание 8.2
#
# Сколько в таблице melb_data объектов недвижимости,
# которые были проданы риелторской компанией Nelson 
# и стоимость которых составила больше 3 миллионов?
melb_data[(melb_data['SellerG'] == 'Nelson') & (melb_data['Price'] > 3000000)].shape[0]

5

In [18]:
# Задание 8.3
# 1 point possible (graded)
# Какова минимальная стоимость
# участка без здания (площадь здания равна 0) в таблице melb_data?
# Запишите ответ в виде целого числа.
melb_data[melb_data['BuildingArea'] == 0]['Price'].min()

412500.0

In [19]:
#Задание 8.4
#1 point possible (graded)
# Какова средняя цена
# объектов недвижимости в таблице melb_data с
# ценой менее одного миллиона,
# в которых либо количество комнат больше пяти, либо здание моложе 2015 года?
# Округлите ответ до целого числа.
x = melb_data[( (melb_data['Rooms'] > 5) | (melb_data['YearBuilt'] > 2015)) & (melb_data['Price'] < 1000000)]['Price'].mean()
print(round(x))

769239


In [20]:
# Задание 8.5
# 1 point possible (graded)
# В каком районе Мельбурна чаще всего продаются 
# виллы и коттеджи (тип здания — h) 
# с ценой меньше трёх миллионов?

melb_data[(melb_data['Type'] == 'h') & (melb_data['Price'] < 3000000)]['Regionname'].mode()

0    Northern Metropolitan
Name: Regionname, dtype: object