In [None]:
import pandas as pd

melb_data = pd.read_csv('data/melb_data.csv', sep=',')

# Создадим маску и положим её в переменную с именем mask. Синтаксис очень прост:
mask = melb_data["Price"] > 2000000
print(melb_data[mask].head())

In [10]:
# Найдём количество зданий с тремя комнатами. Для этого отфильтруем таблицу по условию: 
# обратимся к результирующей таблице по столбцу Rooms и найдём число строк в ней с помощью атрибута shape:
melb_data[melb_data['Rooms'] == 3].shape[0]

5881

In [11]:
# Усложним прошлый пример и найдём число трёхкомнатных домов с ценой менее 300 тысяч:
melb_data[(melb_data['Rooms'] == 3) & (melb_data['Price'] < 300000)].shape[0]

3

In [12]:
# Немного «ослабим» условие: теперь нас будут интересовать дома с ценой менее 300 тысяч, 
# у которых либо число комнат равно 3 либо площадь домов более 100 квадратных метров:
melb_data[((melb_data['Rooms'] == 3) | (melb_data['BuildingArea'] > 100)) & (melb_data['Price'] < 300000)].shape[0]

68

In [13]:
# Давайте найдём максимальное количество комнат в таунхаусах. Так как в результате фильтрации получается DataFrame, 
# то обратимся к нему по столбцу Rooms и найдём максимальное значение:
melb_data[melb_data['Type'] == 't']['Rooms'].max()

5

In [14]:
# Найдём медианную площадь здания у объектов, чья цена выше средней. Для того чтобы оградить наш код от нагромождений,
# предварительно создадим переменную со средней ценой:
mean_price = melb_data['Price'].mean()
melb_data[melb_data['Price'] > mean_price]['BuildingArea'].median()

126.0

In [23]:
# У скольких объектов недвижимости из таблицы melb_data отсутствуют ванные комнаты?
# Функция isna() в pandas используется для проверки отсутствия значений в данных (не проходили пока)
missing_bathrooms_mask = (melb_data['Bathroom'].isna()) | (melb_data['Bathroom'] == 0)
missing_bathrooms_count = melb_data[missing_bathrooms_mask].shape[0]
display(missing_bathrooms_count)

34

In [26]:
# Сколько в таблице melb_data объектов недвижимости, 
# которые были проданы риелторской компанией Nelson и стоимость которых составила больше 3 миллионов?
nelson_and_expensive_mask = (melb_data['SellerG'] == 'Nelson') & (melb_data['Price'] > 3000000)
nelson_and_expensive_count = melb_data[nelson_and_expensive_mask].shape[0]
display(nelson_and_expensive_count)

5

In [27]:
# Какова минимальная стоимость участка без здания (площадь здания равна 0) в таблице
land_without_building_mask = melb_data['BuildingArea'] == 0
min_price_land_without_building = melb_data.loc[land_without_building_mask, 'Price'].min()
display(min_price_land_without_building)

412500.0

In [28]:
# Какова средняя цена объектов недвижимости в таблице melb_data с ценой менее одного миллиона, 
# в которых либо количество комнат больше пяти, либо здание моложе 2015 года?
filtered_properties_mask = ((melb_data['Price'] < 1000000) & ((melb_data['Rooms'] > 5) | (melb_data['YearBuilt'] > 2015)))
average_price_filtered_properties = melb_data.loc[filtered_properties_mask, 'Price'].mean()
display(average_price_filtered_properties)


769238.6363636364

In [42]:
# В каком районе Мельбурна чаще всего продаются виллы и коттеджи (тип здания — h) с ценой меньше трёх миллионов?
# Создание маски для вилл и коттеджей с ценой меньше трех миллионов
villas_cottages_mask = (melb_data['Type'] == 'h') & (melb_data['Price'] < 3000000)
filtered_data = melb_data.loc[villas_cottages_mask, 'Regionname']
most_common_suburb = filtered_data.mode()
display(most_common_suburb)


0    Northern Metropolitan
Name: Regionname, dtype: object