<div style="border: 1px solid white; padding: 5px; margin-right: auto;  width: 80%;"> ✍ Часто бывает так, что таблицу или промежуточный результат операций с ней необходимо отсортировать по какому-то критерию. Например, для отчётности вам необходимо предоставить список проданных объектов недвижимости, отсортированный по возрастанию цены или дате продажи. Рассмотрим основные подходы к решению таких задач.</div>

In [16]:
import pandas as pd

melb_df = pd.read_csv("data/melb_data_fe.csv")
melb_df["Date"] = pd.to_datetime(melb_df["Date"])
cols_to_exclude = [
    "Date",
    "Rooms",
    "Bedroom",
    "Bathroom",
    "Car",
]  # список столбцов, которые мы не берём во внимание

max_unique = 150
for col in melb_df.columns:
    if col not in cols_to_exclude and melb_df[col].nunique() < 150:
        melb_df[col] = melb_df[col].astype("category")

# Метод sort_values()

Для сортировки значений в DataFrame по значениям одного или нескольких столбцов используется метод sort_values().

### Основные параметры метода sort_values()


- by — имя или список имён столбцов, по значениям которых производится сортировка.
- axis — ось, по которой производится сортировка (0 — строки, 1 — столбцы). По умолчанию сортировка производится по строкам.
- ascending — сортировка по возрастанию (от меньшего к большему). По умолчанию параметр выставлен на True, для сортировки по убыванию (от большего к меньшему) необходимо выставить его на False.
- ignore_index — создаются ли новые индексы в таблице. По умолчанию выставлен на False и сохраняет индексы изначальной таблицы.
- inplace — производится ли замена исходной таблицы на отсортированную. По умолчанию параметр выставлен на False, то есть замены не производится. Чтобы переопределить исходную таблицу на отсортированную, необходимо выставить этот параметр на True.


#### Сортировка по значениям одного столбца

Приведём несколько примеров сортировки нашей таблицы с недвижимостью.

Отсортируем таблицу по возрастанию цены объектов недвижимости (Price):

In [17]:
melb_df.sort_values(by="Price").head(10)

Unnamed: 0,Suburb,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,Bedroom,Bathroom,Car,Landsize,BuildingArea,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,MeanRoomsSquare,AreaRatio,MonthSale,AgeBuilding,WeekdaySale,StreetType,Weekend
2652,Footscray,1,unit,85000.0,PI,Burnham,2016-03-09,6.4,3011,1,1,0,0.0,126.0,Maribyrnong,-37.7911,144.89,Western Metropolitan,7570,42.0,1.0,3,9,2,St,0
1805,other,4,house,131000.0,PI,other,2017-02-25,8.9,3162,4,1,2,499.0,155.0,Glen Eira,-37.8864,145.0242,Southern Metropolitan,2379,17.222222,-0.525994,2,97,5,St,1
7303,Albion,1,unit,145000.0,PI,Biggin,2016-05-28,13.9,3020,2,1,1,36.0,126.0,Brimbank,-37.7833,144.8266,Western Metropolitan,2185,31.5,0.555556,5,46,5,St,1
1927,Coburg,4,house,145000.0,PI,Jellis,2016-04-06,7.8,3058,3,1,1,536.0,164.0,Moreland,-37.7555,144.9658,Northern Metropolitan,11204,20.5,-0.531429,4,106,2,Rd,0
7940,Hawthorn,1,unit,160000.0,VB,HAR,2017-08-04,4.6,3122,1,1,0,322.0,126.0,Boroondara,-37.8198,145.0373,Southern Metropolitan,11308,42.0,-0.4375,8,8,4,St,0
12666,Brunswick,1,unit,170000.0,VB,Nelson,2017-09-16,5.2,3056,1,1,0,1250.0,126.0,,-37.77685,144.95188,Northern Metropolitan,11918,42.0,-0.81686,9,47,5,St,1
8811,Footscray,1,unit,170000.0,PI,Burnham,2017-01-07,5.1,3011,1,1,0,30.0,26.0,Maribyrnong,-37.80141,144.89587,Western Metropolitan,7570,8.666667,-0.071429,1,4,5,St,1
8504,West Footscray,1,unit,185000.0,PI,Jas,2017-04-29,8.2,3012,1,1,1,0.0,126.0,Maribyrnong,-37.798,144.8672,Western Metropolitan,5058,42.0,1.0,4,47,5,St,1
7293,Albion,1,unit,185000.0,S,hockingstuart,2016-08-22,13.9,3020,1,1,1,2347.0,43.0,Brimbank,-37.7852,144.8272,Western Metropolitan,2185,14.333333,-0.964017,8,41,0,Rd,0
7305,Albion,2,unit,190000.0,SP,Burnham,2016-07-30,13.9,3020,2,1,1,0.0,126.0,Brimbank,-37.7839,144.8239,Western Metropolitan,2185,25.2,1.0,7,46,5,St,1


<img src="../static/img/pandas_adv_1.png">

Мы вывели десять строк таблицы, чтобы убедиться в верном порядке сортировки. Также обратите внимание на индексы таблицы — их значения сохранились из исходной таблицы.

А теперь отсортируем таблицу по убыванию (от самой последней до самой первой) даты продажи объекта (Date). Для этого выставим параметр ascending на False:

In [18]:
melb_df.sort_values(by="Date", ascending=False)

Unnamed: 0,Suburb,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,Bedroom,Bathroom,Car,Landsize,BuildingArea,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,MeanRoomsSquare,AreaRatio,MonthSale,AgeBuilding,WeekdaySale,StreetType,Weekend
11144,Northcote,4,house,1955000.0,SP,McGrath,2017-12-08,5.3,3070,4,2,1,5.0,126.0,Darebin,-37.76280,144.99375,Northern Metropolitan,11364,12.600000,0.923664,12,47,4,St,0
11217,Surrey Hills,3,house,1775000.0,PI,Jellis,2017-12-08,10.2,3127,3,2,2,780.0,126.0,Boroondara,-37.81403,145.08968,Southern Metropolitan,5457,15.750000,-0.721854,12,47,4,Rd,0
11206,St Kilda,4,house,1600000.0,VB,Gary,2017-12-08,5.0,3182,4,2,3,613.0,160.0,Port Phillip,-37.86667,144.98324,Southern Metropolitan,13240,16.000000,-0.586028,12,107,4,St,0
11207,Strathmore,7,house,2000000.0,SP,Nelson,2017-12-08,8.2,3041,7,3,4,608.0,355.0,Moonee Valley,-37.73681,144.90587,Western Metropolitan,3284,20.882353,-0.262721,12,18,4,Rd,0
11208,Strathmore,4,house,1610000.0,S,other,2017-12-08,8.2,3041,4,3,2,861.0,274.0,Moonee Valley,-37.73154,144.92243,Western Metropolitan,3284,24.909091,-0.517181,12,62,4,St,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1555,Camberwell,4,house,2650000.0,S,Jellis,2016-03-09,7.8,3124,4,2,1,652.0,189.0,Boroondara,-37.82860,145.06860,Southern Metropolitan,8920,18.900000,-0.550535,3,126,2,Rd,0
4510,Oak Park,3,house,892000.0,S,Nelson,2016-03-09,11.5,3046,3,1,3,757.0,126.0,Moreland,-37.71800,144.91740,Northern Metropolitan,2651,18.000000,-0.714609,3,46,2,St,0
4388,Northcote,3,house,1200000.0,S,Nelson,2016-03-09,5.5,3070,3,1,1,215.0,125.0,Darebin,-37.77590,144.99090,Northern Metropolitan,11364,17.857143,-0.264706,3,96,2,St,0
6184,Surrey Hills,3,house,1205000.0,S,Fletchers,2016-01-28,11.2,3127,3,1,2,490.0,126.0,Whitehorse,-37.83610,145.10060,Southern Metropolitan,5457,18.000000,-0.590909,1,46,3,Rd,0


## Сортировка по значениям нескольких столбцов

<div style="background-color: #e0fff3; padding: 15px; color: black; width: 80%;"> Для сортировки по значениям нескольких столбцов необходимо передать названия этих столбцов в параметр by в виде списка. При этом важно обращать внимание на порядок следования столбцов.</div>

Так, например, отсортируем таблицу сначала по возрастанию расстояния от центра города (Distance), а затем — по возрастанию цены объекта (Price). Для того чтобы вывод был более наглядным, выделим каждую десятую строку из столбцов Distance и Price результирующей таблицы:

In [19]:
melb_df.sort_values(by=["Distance", "Price"]).loc[::10, ["Distance", "Price"]]

Unnamed: 0,Distance,Price
11428,0.0,387000.0
10512,0.7,600000.0
5727,1.2,485000.0
8671,1.2,595000.0
5736,1.2,740000.0
...,...,...
12011,38.0,680000.0
10673,38.0,810000.0
13429,38.0,1155000.0
11102,41.0,650000.0


Мы получили таблицу, отсортированную по возрастанию расстояния до центра города. Если встречаются объекты недвижимости, у которых расстояние оказывается одинаковым, то внутри такой группы производится сортировка по цене объекта.

Ради интереса попробуйте поменять порядок следования столбцов в параметре by метода sort_values() и сравните результат. 

In [22]:
melb_df.sort_values(by=["Price", "Distance"]).loc[:, ["Price", "Distance"]]

Unnamed: 0,Price,Distance
2652,85000.0,6.4
1805,131000.0,8.9
1927,145000.0,7.8
7303,145000.0,13.9
7940,160000.0,4.6
...,...,...
12557,6400000.0,3.0
3616,6500000.0,5.6
9575,7650000.0,5.3
7692,8000000.0,9.0


## Комбинирование сортировки с фильтрацией

А теперь рассмотрим применение сортировки на практике.

<div style="background-color: #f5f5f5; padding: 15px; color: black; width: 80%;">Предположим, компания McGrath поручила нам восстановить хронологию продаж таунхаусов, у которых площадь участка существенно больше площади здания, чтобы понять, как часто компания справляется с таким сложным видом объектов. Объекты, проданные в один и тот же день, мы бы хотели сортировать по значению коэффициента соотношения площадей.</div> 

Найдём информацию о таунхаусах (Type), проданных компанией (SellerG) McGrath, у которых коэффициент соотношения площадей здания и участка (AreaRatio) меньше -0.8. Результат отсортируем по дате продажи (Date) в порядке возрастания, а после проведём сортировку по убыванию коэффициента соотношения площадей. Также обновим старые индексы на новые, установив параметр ignore_index на True. Для наглядности результата выберем из таблицы только столбцы Data и AreaRatio:

In [24]:
mask1 = melb_df["AreaRatio"] < -0.8
mask2 = melb_df["Type"] == "townhouse"
mask3 = melb_df["SellerG"] == "McGrath"
melb_df[mask1 & mask2 & mask3].sort_values(
    by=["Date", "AreaRatio"], ascending=[True, False], ignore_index=True
).loc[:, ["Date", "AreaRatio"]]

Unnamed: 0,Date,AreaRatio
0,2016-07-26,-0.974922
1,2016-09-24,-0.971831
2,2016-11-27,-0.953608
3,2016-12-11,-0.945946
4,2017-08-04,-0.947368
5,2017-08-04,-0.970874



<div style="border: 1px solid white; padding: 5px; margin-right: auto;  width: 80%;"> 
✍ Итак, мы рассмотрели основные методы сортировки данных. Сама по себе сортировка используется не так часто, однако в комбинации с другими методами обработки данных она является ценным инструментом. 

Предлагаем вам попрактиковаться в сортировке данных, выполнив несколько заданий ↓ </div>



<div style="background-color: #e0ffd1;color: black;border: 3px solid black; padding: 15px; margin-right: 500px; width: 80%;">
Примечание. Старайтесь не сочетать фильтрацию и метод sort_values() с параметром inplace=True, так как в таком случае у вас возникнет предупреждение (warning) SettingWithCopyWarning: melb_df[melb_df['Rooms'] > 5].sort_values(inplace=True, by=['Rooms']):<br>
<div style="background-color: #f5f5f5; padding: 15px; color: black; width: 80%;">
<code style="color: black;">
C:\Users\Andrey\anaconda3\lib\site-packages\pandas\util\_decorators.py:311: SettingwithCopyWarning:

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/ indexing. html#retu rning-a-view-versus-a-copy

return func(*args, **kwargs)
</code>
</div>
Стоит отметить, что это не ошибка и код в таком случае отработает. Однако Pandas предупреждает вас о том, что при использовании такого кода дальнейшие результаты могут быть неожиданными.

Это предупреждение предназначено для обозначения операций «цепного присваивания». Это ситуация, когда вы пытаетесь напрямую изменить подмножество исходных данных. В нашем случае мы пытаемся отсортировать данные с заменой (об этом говорит параметр inplace=True) исходной таблицы на отсортированную.

Чтобы не возникало подобных конфликтов, необходимо использовать метод copy() для явного создания копии отфильтрованного подмножества исходных данных и работать уже с ней (производить сортировку):<br>
<div style="background-color: #f5f5f5; padding: 15px; color: black; width: 80%;">
<code style="color: black;">
filtered = melb_df[melb_df['Rooms'] > 5].copy()

filtered.sort_values(inplace=True, by=['Rooms'])

filtered.head()
</code>
</div>
Почитать о предупреждении SettingWithCopyWarning можно <a href="https://newtechaudit.ru/pandas-dataframes/">здесь.
</a></div>

###  Задание 2.1

Ознакомившись с документацией по методу <a href="https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_values.html">sort_values()</a>, определите, какой из нижеперечисленных параметров позволяет управлять используемым алгоритмом сортировки:
- sort
- quicksort
- kind
- algorithm 

<details>
<summary><strong>Show answer</strong> (Click Here)</summary>
    &emsp; &emsp; <code>
 За алгоритм сортировки в методе sort_values() отвечает параметр kind. По умолчанию этот параметр выставлен на значение quicksort (используется <a href="https://ru.wikipedia.org/wiki/%D0%91%D1%8B%D1%81%D1%82%D1%80%D0%B0%D1%8F_%D1%81%D0%BE%D1%80%D1%82%D0%B8%D1%80%D0%BE%D0%B2%D0%BA%D0%B0">алгоритм быстрой сортировки)</a>.
</code>
</details>

###  Задание 2.2

Произведите сортировку столбца AreaRatio по убыванию. При этом индексы полученной таблицы замените на новые. Какое значение площади здания находится в строке 1558? Ответ округлите до целого числа.

<details>
<summary><strong>Show answer</strong> (Click Here)</summary>
    &emsp; &emsp; <code>
126
</code>
</details>

In [27]:
melb_df.sort_values(by="AreaRatio", ascending=False, ignore_index=True).loc[
    1558, "BuildingArea"
]

126.0

###  Задание 2.3

Найдите таунхаусы (Type) с количеством жилых комнат (Rooms) больше 2. Отсортируйте полученную таблицу сначала по возрастанию числа комнат, а затем по убыванию средней площади комнат (MeanRoomsSquare). Индексы таблицы замените на новые. Какая цена будет у объекта в строке 18? Ответ запишите в виде целого числа.
<details>
<summary><strong>Show answer</strong> (Click Here)</summary>
    &emsp; &emsp; <code>
1300000
</code>
</details>

In [28]:
mask1 = melb_df["Rooms"] > 2
mask2 = melb_df["Type"] == "townhouse"
melb_df[mask1 & mask2].sort_values(
    by=["Rooms", "MeanRoomsSquare"], ascending=[True, False], ignore_index=True
).loc[18, "Price"]

1300000.0