<a target="_blank" href="https://colab.research.google.com/github/victorlymarev/pandas/blob/main/notebooks/12-ordering.ipynb">
  <img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/>
</a>

# Сортировка в таблицах
#### [Ссылка на видео](https://youtu.be/3RfgCZJLsgE)

In [None]:
import pandas as pd
import os

Читаем таблицу

In [None]:
path_empl = '../tables/employees.parquet' if os.path.exists('../tables/employees.parquet') else 'https://drive.google.com/uc?id=1AARD5-eVlCxoApt5CYZebrC3Cqw42lvj'

empl = (pd.read_parquet(path_empl)
    .sample(frac=1, random_state=42)
    [['report_dt', 'i_pernr', 'fio', 'pos_name', 'salary']]
)
empl.head()

## Метод sort_values

Сортирует таблицу по отдельным колонкам или строкам 

Синтаксис:

df.sort_values(by=название колонки или список из колонок) - для сортировки по возрастанию

df.sort_values(by=название колонки или список из колонок, ascending=False) - для сортировки по убыванию

df.sort_values(by=название колонки или список из колонок, ascending=список из значений True False)


#### Сортируем по зарплате в порядке возратания

In [None]:
empl.query('report_dt == "2022-12-31"').sort_values(by='salary')

#### Сортируем по зарплате в порядке убывания

In [None]:
empl.query('report_dt == "2022-12-31"').sort_values(by='salary', ascending=False)

#### Сортируем по дате

In [None]:
empl.sort_values(by='report_dt', ascending=False)

#### Сортируем сначала по дате, а затем строки с одинаковой датой сортируем по зарплате в порядке убывания

In [None]:
empl.sort_values(by=['report_dt', 'salary'], ascending=False)

#### Сортируем сначала по дате в порядке убывания, а затем строки с одинаковой датой сортируем по зарплате в порядке возрастания

In [None]:
empl.sort_values(by=['report_dt', 'salary'], ascending=[False, True])

#### Сортировка отдельной колонки

In [None]:
empl['report_dt'].sort_values()

In [None]:
empl['report_dt'].sort_values(ascending=False)

#### Сортировка по индексу

In [None]:
empl.sort_index()

#### При использовании с параметрами по умолчанию таблица отсортируется сначала по первому столбцу в индексе, а затем по второму в порядке возрастания

In [None]:
empl.set_index(['salary', 'i_pernr']).sort_index()

In [None]:
empl.set_index(['salary', 'i_pernr']).sort_index(level=['i_pernr', 0], ascending=[True, False])

### Метод sort_values удобно использовать вместе с методом drop_duplicates

Для каждого человека находим зарплату, с которой он впервые устраивался на работу

In [None]:
empl.sort_values('report_dt').drop_duplicates('i_pernr')

Для каждого человека находим последнюю зарплату

In [None]:
empl.sort_values('report_dt').drop_duplicates('i_pernr', keep='last')

## rank

Метод ранжирует наблюдения. Говорит каким по счету оно будет в отсортированном массиве

Метод может пригодиться если стоит задача найти какое-то по счету значение, например, второе по возрастанию

In [None]:
empl.iloc[:5, -1]

In [None]:
empl.iloc[:5, -1].rank()

#### Разные методы работы с повторяющимися значениями

method = method{‘average’, ‘min’, ‘max’, ‘first’, ‘dense’}, default ‘average’

In [None]:
empl.iloc[[3, 5, 10, 23], -1]

In [None]:
empl.iloc[[3, 5, 10, 23], -1].rank()

In [None]:
empl.iloc[[3, 5, 10, 23], -1].rank(method='min')

In [None]:
empl.iloc[[3, 5, 10, 23], -1].rank(method='max')

In [None]:
empl.iloc[[3, 5, 10, 23], -1].rank(method='first')

In [None]:
empl.iloc[[3, 5, 10, 23], -1].rank(method='dense')

#### Ранжирование в обратном порядке

In [None]:
empl.iloc[[3, 5, 10, 23], -1]

In [None]:
empl.iloc[[3, 5, 10, 23], -1].rank(ascending=False)

In [None]:
(empl
    .query('report_dt == "2022-12-31"')
    .query('salary.rank(method="dense") == 95')
)

# Задания

#### Описание таблиц лежит [здесь](https://github.com/victorlymarev/pandas/tree/main/tables#%D0%BE%D0%BF%D0%B8%D1%81%D0%B0%D0%BD%D0%B8%D0%B5-%D1%82%D0%B0%D0%B1%D0%BB%D0%B8%D1%86)

Некоторые таблицы занимают много памяти, поэтому каждые 5-10 заданий лучше перезапускайте ноутбук.

В формулировке некоторых заданий может содержаться вариативность. Если у вас есть сомнения, что требуется в задании, попробуйте решить несколько вариантов. Если вы не понимаете задание, можете написать об этом в комментариях под видео.

В большинстве случаев внешний вид итоговой таблицы не определен. Выведите на экран наиболее адекватный вариант. То есть таблицу, из которой можно будет сделать выводы.

Курс пока находится в разработке. Вы можете помочь другим людям добавив свое решение [сюда](https://docs.google.com/forms/d/1HYTBz_KfssY3Jps2dC3n0YnEqa6WBb5OIhLo1d32Xzw/edit).

Посмотреть решения других людей можно [здесь](https://docs.google.com/spreadsheets/d/1pMDYO-9UneLbPPnEuQ2shig0TOJdQTU-zipifyAnZMk/edit?resourcekey#gid=1998648012)

### Задание 1

Отсортируйте таблицу по возрастанию дат. Строки с одинаковой датой отсортируйте по убыванию цены

In [None]:
import os
import pandas as pd

path_prices = '../tables/prices.parquet' if os.path.exists('../tables/prices.parquet') else 'https://drive.google.com/uc?id=1_KfYyYCsib8woanbP3VouLUpYp103dV5'

prices = pd.read_parquet(path_prices)
prices.head()

### Задание 2
Отсортируйте таблицу сначала по табельному номеру, а затем по зарплате

In [None]:
import os
import pandas as pd

path_empl = '../tables/employees.parquet' if os.path.exists('../tables/employees.parquet') else 'https://drive.google.com/uc?id=1AARD5-eVlCxoApt5CYZebrC3Cqw42lvj'

empl = pd.read_parquet(path_empl)
empl.head()

### Задание 3
Отсортируйте таблицу по убыванию дат

In [None]:
import os
import pandas as pd

path_stocks = '../tables/stocks.parquet' if os.path.exists('../tables/stocks.parquet') else 'https://drive.google.com/uc?id=1weGquTtmR92mKYAeZhZCFHJjndyoSXZt'

stocks = pd.read_parquet(path_stocks)
stocks.head()

In [None]:

# напишите свой код здесь

### Задание 4
Отсортируйте магазины так, чтобы сначала шли мелкие магазины, потом средние, а в конце крупные

<details>

<summary>Подсказка</summary>
 
Здесь вам помогут методы set_index и loc

</details>


In [None]:
import os
import pandas as pd

path_shops = '../tables/shops.xlsx' if os.path.exists('../tables/shops.xlsx') else 'https://drive.google.com/uc?id=1gfnmceJa3Mc1X06NftTx9G9QfKfprjEB'

shops = pd.read_excel(path_shops)
shops.head()

In [None]:
# напишите свой код здесь

### Задание 5
По таблице sales найдите стоимость самого дорогово товара в чеке

In [None]:
import os
import pandas as pd

path_sales_sample_check = '../tables/sales_sample_check.parquet' if os.path.exists('../tables/sales_sample_check.parquet') else 'https://drive.google.com/uc?id=1oYT518oqGnEF51PSFHfSHYNP-690ktFL'
# path_sales = '../tables/sales.parquet' if os.path.exists('../tables/sales.parquet') else "https://drive.usercontent.google.com/download?id=15KwSxyM6hpNABGe6_vsrFZvD09VfHFyK&export=download&authuser=1&confirm=t&uuid=115bd48c-cc2c-4f2a-8b42-be5ca6ef6db8&at=APZUnTUVb8nfNANw5wr9Cad7PJ3U:1693327774694"

sales = pd.read_parquet(path_sales_sample_check)
sales.head()

In [None]:
# напишите свой код здесь

### Задание 6
Чему равна третья самая высокая зарплата за май 2020 года в плотно отранжированном ряду

In [None]:
import os
import pandas as pd

path_empl = '../tables/employees.parquet' if os.path.exists('../tables/employees.parquet') else 'https://drive.google.com/uc?id=1AARD5-eVlCxoApt5CYZebrC3Cqw42lvj'

empl = pd.read_parquet(path_empl)
empl.head()

In [None]:
# напишите свой код здесь