# Группировка и сортировка
Повышайте свой уровень понимания. Чем сложнее набор данных, тем большее значение это имеет

# Вступление¶
Карты позволяют нам преобразовывать данные во фрейме данных или упорядочивать по одному значению за раз для всего столбца. Однако часто мы хотим сгруппировать наши данные, а затем выполнить что-то конкретное с группой, в которую они входят.

Как вы узнаете, мы делаем это с помощью операции group by(). Мы также рассмотрим некоторые дополнительные темы, такие как более сложные способы индексации фреймов данных, а также способы сортировки данных.

Чтобы начать упражнение по этому разделу, пожалуйста, нажмите здесь.

# Групповой анализ
До сих пор мы активно использовали функцию value_counts(). Мы можем воспроизвести то, что делает value_counts(), выполнив следующее:

In [None]:
import pandas as pd
reviews = pd.read_csv("../input/wine-reviews/winemag-data-130k-v2.csv", index_col=0)
pd.set_option("display.max_rows", 5)

In [None]:
reviews.groupby('points').points.count()

функция group by() создала группу отзывов, которые присвоили одинаковые значения баллов данному автору. Затем для каждой из этих групп мы взяли столбец баллов() и подсчитали, сколько раз он появлялся. функция value_counts() - это просто сокращение для этой операции groupby().

Мы можем использовать любую из функций суммирования, которые мы использовали ранее для работы с этими данными. Например, чтобы получить самое дешевое вино в каждой категории, мы можем сделать следующее:

In [None]:
reviews.groupby('points').price.min()

Вы можете рассматривать каждую группу, которую мы создаем, как фрагмент нашего фрейма данных, содержащий только те данные, значения которых совпадают. Этот фрейм данных доступен нам напрямую с помощью метода apply(), и затем мы можем манипулировать данными любым способом, который считаем нужным. Например, вот один из способов выбрать название первого просмотренного вина из каждой винодельни в наборе данных:

In [None]:
reviews.groupby('winery').apply(lambda df: df.title.iloc[0])

Для еще более точного контроля вы также можете сгруппировать вина по нескольким столбцам. Для примера, вот как мы выбираем лучшие вина по странам и провинциям:

In [None]:
reviews.groupby(['country', 'province']).apply(lambda df: df.loc[df.points.idxmax()])

Другим заслуживающим упоминания методом groupby() является egg(), который позволяет одновременно запускать множество различных функций в вашем фрейме данных. Например, мы можем сгенерировать простую статистическую сводку по набору данных следующим образом:

In [None]:
reviews.groupby(['country']).price.agg([len, min, max])

![image.png](attachment:image.png)

Эффективное использование groupby() позволит вам выполнять множество действительно эффективных действий с вашим набором данных.

# Мультииндексы
Во всех примерах, которые мы видели до сих пор, мы работали с объектами DataFrame или Series с индексом с одной меткой. groupby() немного отличается тем, что, в зависимости от выполняемой операции, иногда приводит к так называемому мультииндексу.

Мультииндекс отличается от обычного индекса тем, что он имеет несколько уровней. Например:

In [None]:
countries_reviewed = reviews.groupby(['country', 'province']).description.agg([len])
countries_reviewed

![image.png](attachment:image.png)

In [None]:
mi = countries_reviewed.index
type(mi)

В мультииндексах есть несколько методов работы с многоуровневой структурой, которые отсутствуют в одноуровневых индексах. Для получения значения также требуется два уровня меток. Работа с многоиндексным выводом - это обычная проблема для пользователей, не знакомых с pandas.

Варианты использования мультииндекса подробно описаны вместе с инструкциями по их использованию в разделе Мультииндекс / Расширенный выбор документации pandas.

Однако, как правило, чаще всего используется мультииндексный метод, который используется для преобразования обратно в обычный индекс, метод reset_index():

In [None]:
countries_reviewed.reset_index()

![image.png](attachment:image.png)

# Сортировка¶
Взглянув еще раз на countries_reviewed, мы видим, что группировка возвращает данные в порядке индексов, а не в порядке значений. Другими словами, при выводе результата группирования по порядок строк зависит от значений в индексе, а не от данных.

Чтобы получить данные в нужном порядке, мы можем отсортировать их самостоятельно. Для этого удобен метод sort_values().

In [None]:
countries_reviewed = countries_reviewed.reset_index()
countries_reviewed.sort_values(by='len')

![image.png](attachment:image.png)

функция sort_values() по умолчанию использует сортировку по возрастанию, когда первыми идут самые низкие значения. Однако в большинстве случаев нам нужна сортировка по убыванию, когда первыми идут более высокие значения. Это выглядит следующим образом:

In [None]:
countries_reviewed.sort_values(by='len', ascending=False)

Для сортировки по значениям индекса используйте сопутствующий метод sort_index(). Этот метод имеет те же аргументы и порядок по умолчанию:

In [None]:
countries_reviewed.sort_index()

Наконец, знайте, что вы можете выполнять сортировку более чем по одному столбцу одновременно:

In [None]:
countries_reviewed.sort_values(by=['country', 'len'])

# Ваш ход¶
Если вы еще не приступали к выполнению упражнения, вы можете начать здесь.