In [None]:
# Сортировка данных в DataFrame
# МЕТОД SORT_VALUES()
# https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_values.html

In [None]:
# DataFrame.sort_values(by=, axis=0, 
#                       ascending=True, 
#                       inplace = False, 
#                       kind='quicksort', 
#                       na_position='last', 
#                       ignore_index=False, 
#                       key=None)

In [None]:
# by — имя или список имён столбцов, по значениям которых производится сортировка.
# axis — ось, по которой производится сортировка (0 — строки, 1 — столбцы). По умолчанию сортировка производится по строкам.
# ascending — сортировка по возрастанию (от меньшего к большему). По умолчанию параметр выставлен на True, для сортировки по убыванию (от большего к меньшему) необходимо выставить его на False.
# ignore_index — создаются ли новые индексы в таблице. По умолчанию выставлен на False и сохраняет индексы изначальной таблицы.
# inplace — производится ли замена исходной таблицы на отсортированную. По умолчанию параметр выставлен на False, то есть замены не производится. Чтобы переопределить исходную таблицу на отсортированную, необходимо выставить этот параметр на True.

In [1]:
import pandas as pd
melb_df = pd.read_csv('data/melb_data_fe.csv')
display(melb_df.head(3))

Unnamed: 0,Suburb,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,Bedroom,...,Longtitude,Regionname,Propertycount,MeanRoomsSquare,AreaRatio,MonthSale,AgeBuilding,WeekdaySale,StreetType,Weekend
0,Abbotsford,2,house,1480000.0,S,Biggin,2016-03-12,2.5,3067,2,...,144.9984,Northern Metropolitan,4019,25.2,-0.231707,3,46,5,St,1
1,Abbotsford,2,house,1035000.0,S,Biggin,2016-04-02,2.5,3067,2,...,144.9934,Northern Metropolitan,4019,15.8,-0.32766,4,116,5,St,1
2,Abbotsford,3,house,1465000.0,SP,Biggin,2017-04-03,2.5,3067,3,...,144.9944,Northern Metropolitan,4019,18.75,0.056338,4,117,0,St,0


In [2]:
# # Найдите второй по популярности квартал продажи
melb_df['Date'] = pd.to_datetime(melb_df['Date'])
quarter_sold = melb_df['Date'].dt.quarter
print(quarter_sold.value_counts().iloc[1])

4359


In [4]:
# Отсортируем таблицу по возрастанию цены объектов недвижимости (Price):
melb_df.sort_values(by = 'Price').head(5)

Unnamed: 0,Suburb,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,Bedroom,...,Longtitude,Regionname,Propertycount,MeanRoomsSquare,AreaRatio,MonthSale,AgeBuilding,WeekdaySale,StreetType,Weekend
2652,Footscray,1,unit,85000.0,PI,Burnham,2016-03-09,6.4,3011,1,...,144.89,Western Metropolitan,7570,42.0,1.0,3,9,2,St,0
1805,other,4,house,131000.0,PI,other,2017-02-25,8.9,3162,4,...,145.0242,Southern Metropolitan,2379,17.222222,-0.525994,2,97,5,St,1
7303,Albion,1,unit,145000.0,PI,Biggin,2016-05-28,13.9,3020,2,...,144.8266,Western Metropolitan,2185,31.5,0.555556,5,46,5,St,1
1927,Coburg,4,house,145000.0,PI,Jellis,2016-04-06,7.8,3058,3,...,144.9658,Northern Metropolitan,11204,20.5,-0.531429,4,106,2,Rd,0
7940,Hawthorn,1,unit,160000.0,VB,HAR,2017-08-04,4.6,3122,1,...,145.0373,Southern Metropolitan,11308,42.0,-0.4375,8,8,4,St,0


In [7]:
# отсортируем таблицу по убыванию (от самой последней до самой первой) даты продажи объекта (Date).
# Для этого выставим параметр ascending на False:
melb_df.sort_values(by = 'Date', ascending = False).head(5)

Unnamed: 0,Suburb,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,Bedroom,...,Longtitude,Regionname,Propertycount,MeanRoomsSquare,AreaRatio,MonthSale,AgeBuilding,WeekdaySale,StreetType,Weekend
11144,Northcote,4,house,1955000.0,SP,McGrath,2017-12-08,5.3,3070,4,...,144.99375,Northern Metropolitan,11364,12.6,0.923664,12,47,4,St,0
11217,Surrey Hills,3,house,1775000.0,PI,Jellis,2017-12-08,10.2,3127,3,...,145.08968,Southern Metropolitan,5457,15.75,-0.721854,12,47,4,Rd,0
11206,St Kilda,4,house,1600000.0,VB,Gary,2017-12-08,5.0,3182,4,...,144.98324,Southern Metropolitan,13240,16.0,-0.586028,12,107,4,St,0
11207,Strathmore,7,house,2000000.0,SP,Nelson,2017-12-08,8.2,3041,7,...,144.90587,Western Metropolitan,3284,20.882353,-0.262721,12,18,4,Rd,0
11208,Strathmore,4,house,1610000.0,S,other,2017-12-08,8.2,3041,4,...,144.92243,Western Metropolitan,3284,24.909091,-0.517181,12,62,4,St,0


In [None]:
# СОРТИРОВКА ПО ЗНАЧЕНИЯМ НЕСКОЛЬКИХ СТОЛБЦОВ
# названия этих столбцов в параметр by в виде списка. 
# При этом важно обращать внимание на порядок следования столбцов.

In [8]:
# отсортируем таблицу сначала по возрастанию расстояния от центра города (Distance), 
#  а затем — по возрастанию цены объекта (Price). 
# Для того чтобы вывод был более наглядным, выделим каждую десятую строку из столбцов Distance и Price результирующей таблицы:
melb_df.sort_values(by = ['Distance', 'Price']).loc[::10, ['Distance', 'Price']]

Unnamed: 0,Distance,Price
11428,0.0,387000.0
10512,0.7,600000.0
5727,1.2,485000.0
8671,1.2,595000.0
5736,1.2,740000.0
...,...,...
12011,38.0,680000.0
10673,38.0,810000.0
13429,38.0,1155000.0
11102,41.0,650000.0


In [None]:
# получили таблицу, отсортированную по возрастанию расстояния до центра города. 
# Если встречаются объекты недвижимости, у которых расстояние оказывается одинаковым, 
# то внутри такой группы производится сортировка по цене объекта

In [None]:
# КОМБИНИРОВАНИЕ СОРТИРОВКИ С ФИЛЬТРАЦИЕЙ

In [11]:
# восстановить хронологию продаж таунхаусов, у которых площадь участка существенно больше площади здания, чтобы понять, как часто компания справляется с таким сложным видом объектов. Объекты, проданные в один и тот же день, мы бы хотели сортировать по значению коэффициента соотношения площадей. 
# Найдём информацию о таунхаусах (Type), проданных компанией (SellerG) McGrath, у которых коэффициент соотношения площадей здания и участка (AreaRatio) меньше -0.8. 
# Результат отсортируем по дате продажи (Date) в порядке возрастания, а после проведём сортировку по убыванию коэффициента соотношения площадей.
# Также обновим старые индексы на новые, установив параметр ignore_index на True. 
# Для наглядности результата выберем из таблицы только столбцы Data и AreaRatio:

mask1 = melb_df['AreaRatio']<-0.8
mask2 = melb_df['Type']=='townhouse'
mask3 = melb_df['SellerG']=='McGrath'
melb_df[mask1&mask2&mask3].sort_values(
    by = ['Date', 'AreaRatio'],
    ascending=[True, False], # Результат отсортируем по дате продажи (Date) в порядке возрастания, а после проведём сортировку по убыванию коэффициента соотношения площадей.
    ignore_index=True # обновим старые индексы на новые, установив параметр ignore_index на True
).loc[:,['Date', 'AreaRatio']]

Unnamed: 0,Date,AreaRatio
0,2016-07-26,-0.974922
1,2016-09-24,-0.971831
2,2016-11-27,-0.953608
3,2016-12-11,-0.945946
4,2017-08-04,-0.947368
5,2017-08-04,-0.970874
