In [10]:
# Прочитаем датасет и выведем первые пять его строк:

import pandas as pd

melb_df = pd.read_csv('data/melb_data_fe.csv')
melb_df.head()

# Давайте посмотрим на информацию о столбцах с помощью метода info():

display(melb_df.info())

# Преобразуем столбец Date в формат datetime и выделим квартал (quarter) продажи объектов недвижимости.
# Найдём второй по популярности квартал продажи

melb_df['Date'] = pd.to_datetime(melb_df['Date'])
quarters = melb_df['Date'].dt.quarter
print(quarters.value_counts().iloc[1])

# Преобразуем все столбцы, в которых меньше 150 уникальных значений, в тип данных category,
# исключив из преобразования столбцы Date, Rooms, Bedroom, Bathroom, Car.

cols_to_exclude = ['Date', 'Rooms', 'Bedroom', 'Bathroom', 'Car'] 
max_unique_count = 150 
for col in melb_df.columns: 
    if melb_df[col].nunique() < max_unique_count and col not in cols_to_exclude: 
        melb_df[col] = melb_df[col].astype('category')
display(melb_df.info())

# МЕТОД SORT_VALUES()

# СОРТИРОВКА ПО ЗНАЧЕНИЯМ ОДНОГО СТОЛБЦА

# Отсортируем таблицу по возрастанию цены объектов недвижимости (Price):

melb_df.sort_values(by='Price').head(10)

# А теперь отсортируем таблицу по убыванию (от самой последней до самой первой) даты продажи объекта (Date). 
# Для этого выставим параметр ascending на False:

melb_df.sort_values(by='Date', ascending=False)

# СОРТИРОВКА ПО ЗНАЧЕНИЯМ НЕСКОЛЬКИХ СТОЛБЦОВ

# Для сортировки по значениям нескольких столбцов необходимо передать названия этих столбцов в параметр by в виде списка.
# При этом важно обращать внимание на порядок следования столбцов.

# отсортируем таблицу сначала по возрастанию расстояния от центра города (Distance),
# а затем — по возрастанию цены объекта (Price). Для того чтобы вывод был более наглядным,
# выделим каждую десятую строку из столбцов Distance и Price результирующей таблицы:

melb_df.sort_values(by=['Distance', 'Price']).loc[::10, ['Distance', 'Price']]

# Мы получили таблицу, отсортированную по возрастанию расстояния до центра города. 
# Если встречаются объекты недвижимости, у которых расстояние оказывается одинаковым, 
# то внутри такой группы производится сортировка по цене объекта.

# КОМБИНИРОВАНИЕ СОРТИРОВКИ С ФИЛЬТРАЦИЕЙ

# Предположим, компания McGrath поручила нам восстановить хронологию продаж таунхаусов,
# у которых площадь участка существенно больше площади здания, чтобы понять,
# как часто компания справляется с таким сложным видом объектов. Объекты, проданные в один и тот же день,
# мы бы хотели сортировать по значению коэффициента соотношения площадей.

# Найдём информацию о таунхаусах (Type), проданных компанией (SellerG) McGrath,
# у которых коэффициент соотношения площадей здания и участка (AreaRatio) меньше -0.8.
# Результат отсортируем по дате продажи (Date) в порядке возрастания,
# а после проведём сортировку по убыванию коэффициента соотношения площадей. Также обновим старые индексы на новые,
# установив параметр ignore_index на True. Для наглядности результата выберем из таблицы только столбцы Data и AreaRatio: 

mask1 = melb_df['AreaRatio'] < -0.8
mask2 = melb_df['Type'] == 'townhouse'
mask3 = melb_df['SellerG'] == 'McGrath'
melb_df[mask1 & mask2 & mask3].sort_values(
    by=['Date', 'AreaRatio'],
    ascending=[True, False],
    ignore_index=True
).loc[:, ['Date', 'AreaRatio']]

# Отсортируем таблицу по столбцу AreaRatio с параметром ascending=False (по убыванию).
# Выставим параметр ignore_index на True, чтобы заменить индексы на новые.
# С помощью метода loc извлечем значение столбца BuildingArea в строке с индексом 1558.

int(melb_df.sort_values(
    by='AreaRatio', 
    ignore_index=True,
    ascending=False
).loc[1558, 'BuildingArea'])

# Произведем фильтрацию таблицы и отберите строки по условиям «тип здания — таунхаус» и «число жилых комнат больше 2».
# Отсортируем полученную таблицу по столбцу Rooms с параметром ascending=True (по возрастанию)
и по средней площади комнат с параметром ascending=False (по убыванию).
# Выставим параметр ignore_index на True, чтобы заменить индексы на новые.
# С помощью метода loc извлечем значение столбца Price в строке с индексом 18.

mask1 = melb_df['Type'] == 'townhouse'
mask2 = melb_df['Rooms'] > 2
int(melb_df[mask1&mask2].sort_values(
    by=['Rooms', 'MeanRoomsSquare'],
    ascending=[True, False],
    ignore_index=True
).loc[18, 'Price'])

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 26 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Suburb           13580 non-null  object 
 1   Rooms            13580 non-null  int64  
 2   Type             13580 non-null  object 
 3   Price            13580 non-null  float64
 4   Method           13580 non-null  object 
 5   SellerG          13580 non-null  object 
 6   Date             13580 non-null  object 
 7   Distance         13580 non-null  float64
 8   Postcode         13580 non-null  int64  
 9   Bedroom          13580 non-null  int64  
 10  Bathroom         13580 non-null  int64  
 11  Car              13580 non-null  int64  
 12  Landsize         13580 non-null  float64
 13  BuildingArea     13580 non-null  float64
 14  CouncilArea      12211 non-null  object 
 15  Lattitude        13580 non-null  float64
 16  Longtitude       13580 non-null  float64
 17  Regionname  

None

4359
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 26 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   Suburb           13580 non-null  category      
 1   Rooms            13580 non-null  int64         
 2   Type             13580 non-null  category      
 3   Price            13580 non-null  float64       
 4   Method           13580 non-null  category      
 5   SellerG          13580 non-null  category      
 6   Date             13580 non-null  datetime64[ns]
 7   Distance         13580 non-null  float64       
 8   Postcode         13580 non-null  int64         
 9   Bedroom          13580 non-null  int64         
 10  Bathroom         13580 non-null  int64         
 11  Car              13580 non-null  int64         
 12  Landsize         13580 non-null  float64       
 13  BuildingArea     13580 non-null  float64       
 14  CouncilArea      12211 non-null  

None

1300000